Évaluation des performances d'un algorithme d'IA dans le suivi IRM des patients en surveillance active de cancer de prostate
(Evaluation of an AI algorithm’s performance in MRI follow-up of patients undergoing active surveillance for prostate cancer)

Spilleboudt, Juliette - (2025-07-03) / Universite de Rennes - Évaluation des performances d'un algorithme d'IA dans le suivi IRM des patients en surveillance active de cancer de prostate

Accéder au document : https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Anglais

Directeur(s) de thèse:  Beuzit, Luc

Discipline : Medecine

Classification : Médecine et santé

Mots-clés : Cancer de prostate, surveillance active, IRM,  PRECISE score,  intelligence artificielle
Prostate -- Cancer  - Imagerie par résonance magnétique
Imagerie pour le diagnostic
Cancer‎--Surveillance active
Intelligence artificielle en médecine
Scores en médecine


Résumé : Introduction : Le score PRECISE est un outil récemment développé visant à standardiser le suivi en IRM des patients en surveillance active pour un cancer de la prostate. L’objectif de notre étude était d’évaluer les performances d’une version expérimentale d’un logiciel d’intelligence artificielle (IA) basé sur le deep learning, dans la détection d’une éventuelle progression tumorale sur une série d’IRM, selon les critères PRECISE. Les performances du logiciel d’IA et d’un radiologue junior ont été comparées à celles d’un radiologue expert, considéré comme vérité terrain. Matériel et méthodes : Nous avons inclus 96 patients en surveillance active, chacun ayant bénéficié de deux IRM prostatiques. Les lésions ont été détectées, mesurées et classées selon les recommandations Pi-RADS 2.1 par un radiologue junior, un radiologue expert, et le logiciel d’IA. Le score PRECISE a été évalué de manière indépendante par chaque radiologue, tandis que l’algorithme d’intelligence artificielle a inféré le score sur la base de règles de calcul prédéfinies. Les performances du logiciel d’IA et du radiologue junior ont été comparées à celles du radiologue expert, en utilisant la précision équilibrée. L’analyse a été réalisée en considérant un seuil de score PRECISE à 3 (score ≤ 3 vs > 3). Résultats : Le score PRECISE généré par le logiciel d’IA présentait des performances légèrement inférieures à celles du radiologue junior, sans différence statistiquement significative. En utilisant un seuil PRECISE de 3, la précision équilibrée atteignait 0,67 pour le radiologue junior contre 0,62 pour PAROS (p = 0,44). Conclusion : Le logiciel d’IA a estimé les scores PRECISE avec une précision légèrement inférieure à celle d’un radiologue junior. Toutefois, cette différence n’était pas statistiquement significative. Elle pourrait s’expliquer par le caractère subjectif du score PRECISE, l’absence de consensus sur la méthode optimale de mesure des lésions, ainsi que par la complexité de la base de données, incluant de nombreuses lésions difficiles à interpréter.

Abstract : Introduction: The PRECISE scoring system is a recently developed tool designed to standardize MRI follow-up in patients undergoing active surveillance (AS) for prostate cancer. This study aimed to evaluate the performance of a deep-learning–based artificial intelligence (AI) software prototype in assessing the likelihood of radiological tumor progression on serial MRI scans using the PRECISE criteria. The performances of the AI software and a junior radiologist were compared to those of an expert radiologist, who served as the ground truth. Materials and methods: A total of 96 patients undergoing active surveillance were included, each with two available MRI scans. For each patient, prostate lesions were detected, measured and classified according to the Pi-RADS 2.1 guidelines by a junior radiologist, an expert radiologist, and the AI algorithm. The PRECISE score was independently assessed by each radiologist, while the AI algorithm inferred the score based on predefined calculation rules. Balanced accuracy was calculated using a threshold of PRECISE score 3 (i.e., scores ≤3 vs >3), comparing the predictions of the junior radiologist and the AI software to those of the expert radiologist. Results: The AI software inferred PRECISE scores with lower accuracy than the junior radiologist, though the difference was not statistically significant. Using a threshold at PRECISE 3, the balanced accuracy was 0.67 for the junior reader and 0.62 for PAROS (p-value 0.44). Conclusion: The AI software inferred PRECISE scores with lower accuracy than a junior radiologist, though the difference was not statistically significant. However AI software demonstrated superior performance in lesion detection and segmentation. This discrepancy is likely due to the subjective nature of the PRECISE score and the lack of consensus on the optimal method for measuring tumor size, all compounded by the complexity of the database containing subtle lesions.