OpenAI rouvre des dossiers de maladies rares

Une étude NEJM AI montre comment o3 Deep Research a aidé des spécialistes à retrouver 18 diagnostics dans 376 dossiers pédiatriques non résolus.

OpenAI a publié le 18 juin 2026 les résultats d’une étude parue dans NEJM AI avec le Boston Children’s Hospital et Harvard : un modèle de raisonnement, o3 Deep Research, a été utilisé pour réanalyser 376 dossiers de maladies rares pédiatriques restés sans diagnostic après des examens génétiques et des revues spécialisées. Après examen humain, tests complémentaires et confirmation clinique, 18 diagnostics ont été établis, soit un rendement additionnel de 4,8 %.

Le point important n’est pas que l’IA « diagnostique » à la place des médecins. L’étude dit explicitement l’inverse. Le modèle recevait des données dépersonnalisées, des descriptions cliniques standardisées et des tableaux de variants génétiques filtrés. Il devait produire des hypothèses argumentées, reliant symptômes, mode de transmission, variant possible et littérature scientifique. Ces pistes étaient ensuite relues par au moins deux spécialistes, évaluées selon les cadres habituels de classification génétique, puis confirmées en laboratoire clinique lorsque la preuve était suffisante. Autrement dit, l’IA intervenait comme couche de synthèse et de tri, pas comme autorité médicale.

Ce résultat est modeste en pourcentage, mais il touche un problème très concret. Dans les maladies rares, un même génome peut rester inchangé tandis que la connaissance médicale évolue : un gène est relié à une pathologie, un variant est reclassé, une publication ajoute un cas comparable. Revenir régulièrement sur des dossiers anciens demande du temps, de la mémoire documentaire et une capacité à faire le lien entre bases de données hétérogènes. L’étude suggère qu’un modèle de raisonnement peut aider à prioriser les pistes que des experts n’auraient pas le temps d’explorer systématiquement, surtout quand les dossiers ont déjà traversé plusieurs pipelines sans réponse.

Le travail donne aussi une image plus réaliste de l’IA médicale que les annonces de diagnostic instantané. Les cas analysés étaient dépersonnalisés, les propositions devaient être justifiées, et un résultat ne comptait qu’après validation par des cliniciens qualifiés. Certaines pistes ont consisté à relier des signes cliniques dispersés à un variant déjà documenté, d’autres à formuler une hypothèse biologique testable. Dans tous les cas, le modèle a élargi la recherche plutôt qu’il n’a remplacé le jugement.

La prudence reste centrale. Les auteurs ne mesurent ni le temps gagné, ni le coût, ni la charge de faux positifs, et l’étude est rétrospective. Le modèle peut produire une explication plausible mais fausse, d’où la nécessité d’un contrôle clinique complet. La brève conclusion est donc sobre : l’IA n’apporte pas ici un diagnostic automatique, mais une méthode de réanalyse assistée, potentiellement utile pour des équipes qui doivent revisiter des dossiers complexes à mesure que la science avance.