L’IA a encore un long chemin à parcourir avant que les médecins puissent lui confier votre vie
Comme la blockchain, l’IA a-t-elle fait plus de promesses qu’elle ne pouvait tenir ? Gary Smith et Jeffrey Funk, deux analystes du média économique Quartz, pensent que oui. Dans un rapport publié récemment, les deux analystes ont allégué que l’IA a “surpromis” à travers un battage médiatique sans précédent, notamment les émissions de télévision et les films, et les livres. En traitant le cas des promesses de l’IA dans le domaine de la radiologie, ils affirment que l’IA a encore beaucoup à prouver avant que les médecins décident de lui faire confiance. En gros, ils pensent qu’elle n’est pas du tout prête à diagnostiquer les patients.
L’IA peut-elle substituer un humain n’importe où ?
« La révolution inerte de l’IA en radiologie est un autre exemple de la façon dont l’IA a surpromis et sous livré », a déclaré l’équipe d’analystes. Cela signifie que l’IA a promis de nombreuses révolutions dans de nombreux domaines, mais l’équipe a déclaré que ces bouleversements tardent à venir et l’on se demande finalement s’ils arriveront ou si certains d’entre eux ne dépassent pas les possibilités de l’IA. Alors, qu’est-ce qui s’est passé dans le domaine de la radiologie ? En effet, les sociétés développant des systèmes d’IA et des personnalités influentes de l’industrie auraient promis une IA plus performante que les radiologues.
Par exemple, le rapport de Smith et Funk cite Geoffrey Hinton, un informaticien de renon, qui fait partie du trio (avec Yann LeCun et Yoshua Bengio) lauréat du prix Turing 2018, considéré comme le prix Nobel de l’informatique. Ces trois hommes sont considérés comme les “parrains de l’IA” et les “parrains de “l’apprentissage profond”. Alors, si Hinton fait une déclaration promettant une révolution immédiate dans le domaine de la radiologie, cela devrait enthousiasmer de nombreuses personnes qui seraient impatientes à l’idée de voir ce changement brusque. Les gens sont donc restés attentifs à une déclaration qu’il a faite en 2016.
« Nous pouvons maintenant arrêter de former des radiologues, il est juste complètement évident que d’ici cinq ans, l’apprentissage profond fera beaucoup mieux que les radiologues », avait-il déclaré à l’époque. La Food and Drug Administration (FDA) américaine aurait approuvé le premier algorithme d’IA pour l’imagerie médicale cette année-là et il y aurait maintenant plus de 80 algorithmes approuvés aux États-Unis et un nombre similaire en Europe. Mais nous sommes en 2021 et l’on n’a rien observé de tel. Le rapport allègue même que le nombre de radiologues travaillant aux États-Unis a augmenté, au lieu de diminuer. Il aurait augmenté d’environ 7 % entre 2015 et 2019.
Mieux, le rapport estime qu’il y a maintenant une pénurie de radiologues qui devrait s’accentuer au cours de la prochaine décennie. En attendant que la révolution tant espérée prenne forme, Smith et Funk ont rapporté que les algorithmes de reconnaissance d’images introduits dans le domaine de la radiologie au cours de ces cinq dernières années sont souvent fragiles et incohérents. La radiologie est une tâche étroitement définie pour laquelle l’IA, telle que définie par les experts, pourrait être bonne, mais le rapport estime que seuls 33 % des radiologues ont déclaré utiliser un type d’IA en 2020, selon une étude récente de l’American College of Radiology.
En outre, seuls 40 des plus de 80 algorithmes de radiologie actuellement autorisés par la FDA, avec 27 outils internes, auraient été utilisés par les répondants. Seuls 34 % d’entre eux seraient utilisés pour l’interprétation des images ; les autres applications comprendraient la gestion des listes de travail, l’amélioration des images, les opérations et les mesures. En résumé, seulement 11 % des radiologues auraient utilisé l’IA pour l’interprétation d’images dans une pratique clinique. Parmi ceux qui n’utilisent pas l’IA, 72 % n’auraient pas l’intention de le faire, tandis qu’environ 20 % souhaiteraient l’adopter d’ici cinq ans.
La peur de l’IA ou une technologie simplement en retard ?
Certains commentaires estiment que, lorsqu’il s’agit de l’intelligence artificielle ou des technologies révolutionnaires en général, les répondants aux diverses enquêtes faussent parfois volontairement les résultats pour repousser le changement. Dans le cas de l’IA, les gens auraient peur de se faire remplacer par une machine ou de devoir être surveillés par cette dernière. En gros, ces critiques estiment que le faible d’adoption de l’IA par les radiologues interrogés pourrait s’expliquer par les différents points susmentionnés. Cependant, d’autres s’opposent fortement à cette argumentation. Smith et Funk avancent d’autres arguments.
Selon eux, la raison de cette lente diffusion est la faible performance. Seuls 5,7 % des utilisateurs auraient déclaré que l’IA fonctionne toujours, tandis que 94 % ont fait état de performances irrégulières. Les performances irrégulières de l’IA sont en effet soulignées par d’autres experts, tant en radiologie que dans le secteur des soins de santé. Dans une interview récente, Andrew Ng, gourou de l’IA et fondateur de Coursera, a déclaré : « Ceux d’entre nous qui travaillent dans le domaine de l’apprentissage automatique sont vraiment bons pour obtenir de bons résultats sur un ensemble de tests ».
« Mais malheureusement, le déploiement d’un système demande plus que de bons résultats sur un ensemble de tests », a-t-il nuancé. Voici l’exemple qu’il a donné : « lorsque nous prenons des données de l’hôpital de Stanford, puis que nous nous entraînons et testons sur des données du même hôpital, nous pouvons effectivement publier des articles montrant que [les algorithmes] sont comparables aux radiologues humains dans la détection de certaines conditions. Nous pouvons publier des articles montrant que [les algorithmes] sont comparables à ceux des radiologues humains en ce qui concerne la détection de certaines conditions ».
« Mais lorsque vous apportez ce même système d’IA dans un hôpital plus ancien situé en bas de la rue, avec une machine plus ancienne, et que le technicien utilise un protocole d’imagerie légèrement différent, ces données dérivent et les performances du système d’IA se dégradent considérablement. En revanche, n’importe quel radiologue humain peut se rendre en bas de la rue dans l’ancien hôpital et s’en sortir sans aucun problème. Ainsi, même si à un moment donné, sur un ensemble de données spécifique, nous pouvons montrer que cela fonctionne, la réalité clinique est que ces modèles ont encore besoin de beaucoup de travail ».
Selon Andrew Ng, il reste énormément de travail à l’IA pour atteindre la production, et pas seulement dans les soins de santé. « Une grande majorité des algorithmes approuvés par la FDA n’ont pas été validés sur un grand nombre de sites, ce qui soulève la possibilité que des biais liés au patient et à l’équipement puissent être à l’origine de performances incohérentes », a déclaré l’American College of Radiology à l’issue de son enquête. « Nous pouvons constater l’impact de l’écart entre la preuve de concept et la production dans d’autres applications, mais sous des noms différents », a déclaré l’institution.
L’industrie a-t-elle surévalué les capacités réelles de l’IA ?
Après une décennie pendant laquelle les entreprises d’IA ont promis tout type de systèmes d’IA, qui seraient à la fois performants et efficaces et capables de réduire le coût de main-d’œuvre, des voix s’élèvent de plus en plus pour dénoncer un supposé battage médiatique. En dehors des biais que peuvent contenir les systèmes d’IA, ce sont même les termes définissant l’IA qui sont désormais remis en cause. Des critiques travaillant dans le domaine de l’IA disent aujourd’hui que « l’IA n’est pas intelligente et elle ne peut pas “évoluer” d’elle-même, car elle dépend et est limitée aux données qui ont servi à son entraînement ».
Pour expliquer les piètres performances de l’IA en radiologie et dans d’autres applications d’imagerie, Smith et Funk estiment que les humains peuvent voir les choses pour ce qu’elles sont. Lorsqu’ils voient un chariot ou une photo de chariot, ils reconnaissent ce que le physicien et auteur Douglas Hofstadter appelle son essence structurelle : une boîte rectangulaire, des roues et une poignée. Il peut être de différentes tailles, fait de différents matériaux, ou peint de différentes couleurs, mais ils le reconnaissent toujours comme un chariot. Sous de nombreux angles différents, ils voient toujours un chariot.
Ce n’est pas le cas des algorithmes d’IA, qui saisissent des pixels et créent des représentations mathématiques de ces pixels – ce que le lauréat du prix Turing, Judea Pearl, appelle “just curve-fitting”. C’est-à-dire trouver des équations mathématiques qui correspondent à un ensemble de données sans tenir compte de ce que ces données représentent. Par exemple, un algorithme d’IA est entraîné en recevant de très nombreuses images de chariots et l’étiquette “chariots”. Lorsqu’une nouvelle image est montrée à l’algorithme, il adapte les pixels en courbe et recherche une correspondance mathématique dans sa base de données.
S’il trouve une correspondance suffisante avec les pixels de chariots sur lesquels il a été entraîné, il renvoie l’étiquette, même si elle peut aussi bien être fausse, car l’algorithme n’a aucune idée de sa signification. Si la nouvelle image du chariot est d’une taille, d’une texture ou d’une couleur différente, si elle est vue sous un angle différent ou si elle est partiellement obscurcie, l’algorithme d’IA peut échouer. Cette fragilité est à la base de ces tests Captcha où l’on demande aux utilisateurs de prouver qu’ils ne sont pas des algorithmes en cliquant sur les rectangles qui contiennent des images de voitures, de feux de signalisation, etc.
Selon l’équipe d’analystes, lors d’un test, lorsque l’image d’un chariot a été présentée à un système d’IA, le programme l’a identifié comme l’enseigne d’une entreprise. D’un autre côté, le Wolfram Image Identification Project, un jeu de données d’entraînement des systèmes d’IA en ligne, aurait identifié à tort le chariot comme une raquette de badminton. Lorsque la couleur du chariot a été changée en rouge, il a été identifié à tort comme un coupe-cigare. Enfin, lorsque le chariot rouge a été placé sur une pente de 45 degrés, il a été identifié à tort comme un trombone. Ces subtilités ne pouvaient pas fausser la certitude d’un être humain.
L’industrie devrait penser à d’autres algorithmes d’IA
Selon les deux analystes, l’algorithme CLIP d’Open AI, l’entreprise fondée par Elon Musk et à l’origine du désormais tristement célèbre système de création de texte GPT, fonctionne un peu différemment. Il demande aux utilisateurs d’aider le programme en soumettant un petit nombre d’étiquettes proposées, dont une est correcte. Malgré cette indication artificielle et extrêmement utile, lorsque l’algorithme a choisi entre chariot, panneau, poteaux de but et raquette de badminton, il a donné des probabilités de 0,03, 0,14, 0,80 et 0,03, respectivement (1,0 correspondant à une confiance totale).
Comment l’IA pourrait-elle confondre un chariot avec une raquette de badminton, un trombone ou un poteau ? Comment pourrait-elle changer d’avis si le chariot est d’une autre couleur, si le mot raquette est épelé différemment ou si l’expression poteau de but est composée de deux mots ? Pour l’équipe d’analystes, les algorithmes de reconnaissance d’images sont fragiles, car ils s’adaptent à la courbe des pixels au lieu de reconnaître et de comprendre les entités. Ici, ils ne savent pas ce qui fait qu’un chariot est un chariot (la boîte, les roues et la poignée) et ne peuvent pas distinguer les caractéristiques importantes des détails superficiels.
Selon Smith et Funk, compte tenu des difficultés pour l’IA de faire la distinction entre un chariot, une raquette de badminton, un trombone et un cerveau, il n’est pas surprenant que les interprétations d’images médicales par l’IA soient fragiles et que les médecins soient réticents à s’en remettre à l’IA pour la radiologie et d’autres décisions de vie ou de mort. Une étude qui vient d’être publiée sur des centaines d’algorithmes d’apprentissage automatique pour utiliser les scanners thoraciques afin de détecter le COVID-19 a révélé que 85 % auraient échoué à un contrôle de reproductibilité et de qualité.
En outre, « aucun des modèles n’était près d’être prêt à être utilisé dans les cliniques ». La lente diffusion de l’IA en radiologie n’a pas entaché l’optimisme profond de Geoffrey Hinton pour l’apprentissage profond. Sans se laisser décourager par les revers, il a récemment proclamé : « L’apprentissage profond fera tout ». Smith et Funk ont déclaré que cela rappelle la boutade de l’investisseur Ed Yardeni sur les prévisions du marché boursier : « Si vous donnez un chiffre, ne donnez pas de date ».
Retrouvez la publication originale par Bill Fassinou sur Développez.com.