Voir le résumé
Objectif : Evaluer les performances en IRM de prostate d’un logiciel d’intelligence artificielle (IA) par rapport à des lecteurs de différents niveaux d’expertise dans la mesure de Longueur du Contact Capsulaire (LCC) entre la tumeur et les contours prostatiques, dans l’optique secondaire d’évaluer ce critère pour prédire l’Extension Extra-Prostatique (EPE) du cancer de prostate. Matériels et Méthodes : 56 IRM pré-opératoires de patients ayant bénéficié d’une prostatectomie radicale pour cancer de prostate ont été utilisées. Pour chaque examen, la LCC était mesurée par deux lecteurs juniors, un lecteur expérimenté et un lecteur expert utilisé comme gold-standard. Le logiciel réalisait le contour prostatique et lésionnel et de l’intersection des deux était calculée la LCC. Les différences absolue et relative entre les mesures de LCC du lecteur expert et des autres lecteurs ou du logiciel ont été calculées au seuil de 5% sur la médiane des différences. Le coefficient de corrélation entre la mesure de chacun des lecteurs et du lecteur expert a été calculé. Les performances de prédiction de l’EPE de chaque lecteur et du logiciel ont également été étudiées en se basant sur différents seuils de LCC (10, 15 et 20 mm) et en utilisant comme gold-standard le statut TNM issu de la relecture systématique des pièces de prostatectomie. Les calculs de sensibilité, spécificité et d’accuracy ont été réalisés tout comme les courbes ROC pour chacun des lecteurs et le logiciel. Résultats : Il existait une variabilité de mesure de LCC statistiquement significative du logiciel en comparaison aux différents lecteurs, dont le lecteur expert (p-value de la médiane de la différence des LCC calculée à 0,04) tandis qu’il n’en existait pas entre les autres lecteurs et le lecteur expert. De même, le logiciel mesurait significativement différemment la LCC par rapport aux lecteurs juniors (p-value = 0,04 et 0,02). La corrélation des mesures entre lecteur expert et lecteurs juniors était forte (0,91 [0,80 ; 0,95] et 0,81 [0,51 ; 0,92]) tandis qu’elle était plus faible pour le logiciel (0,48 [0,26 ; 0,67]). Les AUC de détection de l’EPE des différents lecteurs ou du logiciel n’étaient pas significativement différentes. Le seuil de 15 mm était le plus pertinent dans la détection de l’EPE. A partir de ce seuil, il n’a pas été mis en évidence de différence significative de performance de prédiction de l’EPE entre le logiciel et les lecteurs humains, sauf en comparaison avec un des lecteurs juniors qui prédisait significativement mieux l’EPE (p-value <0,01). Conclusion : Le logiciel d’intelligence artificielle testé mesurait significativement moins bien le LCC que les lecteurs humains quel que soit leur niveau d’expertise. La LCC était un critère reproductible et le seuil de 15 mm était le plus pertinent en tant que critère de prédiction de l’EPE.