Données de santé synthétiques : une révolution silencieuse

2 mai 2025

Dans un contexte où la médecine évolue à grande vitesse avec le numérique, une innovation discrète mais capitale s’impose : les données de santé synthétiques. Derrière ce concept encore méconnu du grand public, se cache une révolution qui pourrait transformer durablement la recherche clinique, l’accès aux soins et l’innovation thérapeutique. Décryptage.

Les données de santé synthétiques pourraient bien transformer durablement la recherche clinique et l'innovation thérapeutique. — Les données de santé synthétiques pourraient bien transformer durablement la recherche clinique et l’innovation thérapeutique. *(Crédit : AdobeStock)*

Contrairement aux données réelles collectées auprès de patients, les données de santé synthétiques sont générées artificiellement par des algorithmes. Elles imitent fidèlement les caractéristiques statistiques des données médicales réelles sans jamais correspondre à un individu existant. Cette distinction fondamentale garantit une confidentialité totale, tout en offrant un terrain d’expérimentation quasi infini.

Comme le souligne le Livre Blanc sur l’utilisation des données de santé artificielles coordonné par le Professeur Stéphanie Allassonnière et le Docteur Jean-Louis Fraysse « Données de santé artificielles : analyse et pistes de réflexion », on distingue :

Les cohortes synthétiques : issues de la réutilisation de données réelles passées.
Les cohortes artificielles : générées de toutes pièces par des modèles d’intelligence artificielle à partir de caractéristiques apprises.
Les cohortes augmentées : un mélange de patients réels et artificiels pour renforcer les études cliniques.

Pourquoi recourir à des données synthétiques en santé ?

Le recours à ces données répond à plusieurs défis majeurs du système de santé actuel. Tout d’abord, ces données permettent d’accélérer la recherche clinique : 80 % des essais cliniques peinent à recruter suffisamment de patients dans les délais. Grâce aux patients artificiels, il devient possible de renforcer les bras de contrôle, notamment dans les maladies rares ou les essais pédiatriques. Cela permet également de réduire les coûts et les délais. En générant des cohortes virtuelles, les laboratoires peuvent obtenir des résultats préliminaires solides avant même d’engager des essais « in vivo ».

Ensuite, ces données artificielles ou synthétiques favorisent une médecine plus inclusive. En effet, ces données permettent de mieux représenter des populations sous-représentées (femmes enceintes, personnes âgées, minorités ethniques), contribuant ainsi à une médecine plus équitable.

D’autres applications concrètes des données synthétiques dans le domaine de la santé sont possibles :

Formation : des cas patients artificiels mais réalistes permettent aux étudiants en médecine de s’exercer sans risque pour la confidentialité.
Développement d’algorithmes d’IA : les entreprises peuvent tester leurs solutions sur des jeux de données représentatifs sans accéder à des informations sensibles.
Recherche collaborative : des équipes internationales peuvent partager des données synthétiques sans les contraintes juridiques liées au transfert de données réelles.
Tests de logiciels médicaux : les nouvelles applications peuvent être validées sur des données proches de la réalité avant déploiement.

Enfin dans un contexte de forte protection des données personnelles (RGPD), ces données artificielles offrent une alternative sécurisée pour entraîner des modèles d’IA ou tester de nouvelles approches thérapeutiques.

Un défi technologique

La génération de données synthétiques repose sur des techniques avancées d’intelligence artificielle :

Les modèles mécanistiques, basés sur des équations de la physique ou de la biologie, permettent de simuler le comportement d’organes ou de maladies.
Les modèles statistiques et génératifs, tels que les GAN (Generative Adversarial Networks) ou les VAE (Variational Auto-Encoders), reproduisent des schémas observés dans les données réelles.
Les techniques de diffusion ou d’apprentissage multimodal, encore émergentes, visent à créer des profils patients combinant imagerie, données cliniques et génomiques.

Chaque méthode est choisie selon le type de données (imagerie, génétique, données tabulaires) et l’objectif visé : diagnostic assisté, personnalisation des traitements, simulation d’épidémies ou encore sécurisation des systèmes numériques.

À titre d’exemple on peut citer la start-up française Alia Santé qui a développé une technologie innovante de génération de données synthétiques Alia DataGen, basée sur des algorithmes d’IA avancés. Elle collabore déjà avec des laboratoires pharmaceutiques et des établissements hospitaliers pour simplifier l’accès aux données de santé dans le cadre notamment de programme de recherche.

Des enjeux éthiques et réglementaires

Si la promesse est immense, elle s’accompagne de nombreuses interrogations. Comment garantir que ces patients virtuels reflètent fidèlement la réalité médicale ? Quels garde-fous pour éviter les biais algorithmiques ? Et surtout, quelle place accorder à ces données dans les processus réglementaires d’autorisation de mise sur le marché ?

Le statut juridique des données synthétiques reste partiellement flou. Si elles échappent théoriquement aux contraintes du RGPD en Europe, leur utilisation soulève néanmoins des questions réglementaires.

Aujourd’hui, aucune norme internationale ne définit précisément les critères d’acceptabilité de ces cohortes artificielles. Les experts appellent donc à une collaboration étroite entre chercheurs, autorités de santé, industriels et associations de patients pour établir des protocoles de validation rigoureux.

L’éthique demeure au cœur du débat : il s’agit d’utiliser ces outils pour compléter, et non remplacer, l’humain.

Portée par des initiatives comme France 2030, cette approche bénéficie déjà d’une dynamique forte en France et en Europe. Mais pour passer de l’expérimentation à l’usage courant, il faudra lever plusieurs verrous : validation scientifique, cadre réglementaire, acceptabilité par les professionnels de santé et confiance du grand public.

Les données synthétiques ne sont pas une simple tendance technologique. Elles constituent une réponse pragmatique aux défis de la recherche médicale moderne, en redessinant les contours de la recherche clinique et offrant aux patients un accès plus rapide à des traitements sûrs et efficaces.

Rémy Teston
Consultant digital / Expert e-santé – Buzz E-santé