COUTEAUX 2021 Archivage
COUTEAUX 2021 Archivage
COUTEAUX 2021 Archivage
V INCENT C OUTEAUX
Composition du Jury :
Chloé Clavel
Professeure, Télécom Paris (LTCI) Présidente
Jean-Philippe Thiran
Professeur, EPFL (LTS5) Rapporteur
Caroline Petitjean
Maı̂tre de conférences, Université de Rouen Normandie (LITIS) Rapporteuse
Pierre-Jean Valette
Professeur, Hospices Civils de Lyon Examinateur
Isabelle Bloch
Professeure, Télécom Paris (LTCI) Directrice de thèse
Olivier Nempont
Philips Research Paris Examinateur
Guillaume Pizaine
Philips Research Paris Invité
626
Apprentissage profond pour la
segmentation et la détection automatique
en imagerie multi-modale
Co-encadrants
Olivier Nempont
Guillaume Pizaine
1 Introduction 1
1.1 Les lésions hépatiques en radiologie :
caractérisation en IRM de lésions courantes . . . . . . . . . . . . . . . . 2
1.2 Critères quantitatifs en radiologie pour l’oncologie hépatique . . . . . . 5
1.2.1 Le critère RECIST . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Estimation du volume tumoral . . . . . . . . . . . . . . . . . . . 6
1.2.3 LI-RADS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.4 Vers la radiomique . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Problématique et contributions . . . . . . . . . . . . . . . . . . . . . . 9
1.3.1 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
i
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3 Interprétabilité en segmentation 47
3.1 Interprétabilité en Deep Learning . . . . . . . . . . . . . . . . . . . . . 49
3.1.1 Cartes de saillance . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1.2 Visualisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1.3 Interprétabilité par concepts . . . . . . . . . . . . . . . . . . . . 54
3.2 Comment interpréter un réseau de segmentation ? . . . . . . . . . . . . 55
3.3 L’analyse de Deep Dreams . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3.2 L’algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.3 Expériences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5 Conclusion 89
5.1 Contributions et discussion . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.1.1 Segmentation du foie en imagerie multi-modale . . . . . . . . . 89
5.1.2 Interprétabilité des réseaux de segmentation . . . . . . . . . . . 92
5.1.3 Détection de tumeurs dans des images multi-modales . . . . . . 95
5.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2.1 Fin de la chaîne de traitement : extraction des descripteurs, et
prédiction de la variable d’intérêt . . . . . . . . . . . . . . . . . 97
5.2.2 Interprétabilité des réseaux de recalage . . . . . . . . . . . . . . 103
5.2.3 Identification de lésions pour le suivi longitudinal . . . . . . . . 105
ii
A Publications 121
iii
iv
Table des figures
1.1 Apparence de quatre lésions du foie parmi les plus fréquentes en IRM . 3
1.2 Procédure RECIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Chaîne de traitement pour estimer la charge tumoral . . . . . . . . . . 6
1.4 Chaîne de traitement radiomique . . . . . . . . . . . . . . . . . . . . . 9
3.1 Grad-CAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2 Layer-wise Relevance propagation . . . . . . . . . . . . . . . . . . . . . 51
3.3 Exemples d’images obtenues par maximisation d’activation . . . . . . . 53
3.4 Comment un réseau de segmentation différencie-t-il une tumeur d’une
autre tâche ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
v
3.5 Illustration de la méthode avec un classifieur bi-dimensionnel . . . . . . 57
3.6 Principe de Deep Dream pour la classification et la segmentation . . . . 59
3.7 Différentes étapes d’une montée de gradient appliquée à un foie sain . . 60
3.8 Image marquée pour l’expérience contrôlée . . . . . . . . . . . . . . . . 61
3.9 Caractéristique du marquage en fonction de la probabilité de marquage 62
3.10 Tumeurs synthétiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.11 Analyze de DeepDream de l’expérience des fausses tumeurs . . . . . . . 64
3.12 DeepDream d’une fausse tumeur . . . . . . . . . . . . . . . . . . . . . . 65
3.13 Analyse de DeepDream d’un réseau de segmentation de tumeurs de foie
dans des coupes CT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.1 Visualisation de l’espace latent d’un auto-encodeur entraîné sur MNIST 100
5.2 Expérience de démêlage avec un jeu de données jouet . . . . . . . . . . 101
5.4 Reconstruction de visages avec un auto-encodeur introspectif . . . . . . 103
5.5 Deux images IRM pondérées en T1 acquises à 9 mois d’intervalle . . . . 105
vi
Chapitre 1
Introduction
La radiologie, qui est la spécialité médicale consistant à utiliser l’imagerie pour diag-
nostiquer et traiter des maladies, est une des disciplines de la médecine dont les progrès
dépendent le plus directement de ceux de la technologie. Après la découverte des rayons
X par Röntgen à la fin du XIXe siècle, des examens de plus en plus informatifs et de
moins en moins invasifs ont été rendus possibles notamment grâce au développement
de l’échographie à partir des années 1950, de la tomodensitométrie (qu’on appellera
« CT » pour Computed Tomography dans la suite du document), puis de l’imagerie par
résonance magnétique (IRM) dans les années 1970. Les progrès récents de l’intelligence
artificielle permis par l’essor de l’apprentissage profond suscitent aujourd’hui de grands
espoirs en radiologie.
1
1.1 Les lésions hépatiques en radiologie :
caractérisation en IRM de lésions cou-
rantes
Pour illustrer l’utilisation des images médicales dans la pratique clinique et se familiari-
ser avec les images que je présenterai dans le reste de cette thèse, je propose de prendre
l’exemple du diagnostic de quatre types de lésions du foie parmi les plus courants en
utilisant les images IRM. Cette section est basée sur le livre Liver MRI de Hussain et
Sorrell (2015), ainsi que l’encyclopédie en ligne radiopaedia 1 .
Les images IRM peuvent être acquises selon différentes séquences qui mettent en valeur
des propriétés différentes des tissus. Les quatre types de lésions qui nous intéressent
dans cette section, que sont les kystes, les hémangiomes hépatiques, les carcinomes
hépato-cellulaires, et les métastases de cancers d’autres organes, présentent des aspects
distincts dans les séquences IRM dites pondérées en T1 et celles dites pondérées en
T2.
L’utilisation d’un produit de contraste à base de Gadolinium est également utile pour
différencier ces lésions. On acquiert en général quatre images pour chaque injection
de produit de contraste : la première avant l’injection, dite pré-contraste, la seconde
lorsque le produit de contraste est dans les artères du foie, qu’on appelle temps artériel
(une dizaine de secondes après l’injection), la troisième lorsqu’il est présent dans les
veines portales du foie et qu’on appelle temps veineux ou plus couramment temps
portal (une minute après l’injection), et la dernière lorsque le produit s’est diffusé
plus uniformément dans le foie et qu’on appelle temps tardif (quelques minutes après
l’injection).
D’après Hussain et Sorrell (2015), l’image pondérée en T2, l’image pondérée en T1
sans contraste, ainsi que celle acquise au temps artériel et celle acquise au temps tardif
suffisent à caractériser un certain nombre de lésions du foie, dont les quatre de notre
exemple.
Dans la suite de la thèse on parlera - abusivement - de modalités différentes pour dési-
gner des images de séquences IRM différentes ou de temps d’injection différents.
1. https://radiopaedia.org/articles/liver-lesions
2
3
Les métastases
Les métastases hépatiques sont 18 à 40 fois plus fréquentes que les tumeurs primaires
du foie (Namasivayam, Martin et Saini 2007). Elles sont le plus souvent asymp-
tomatiques tant que la charge tumorale reste faible. Elles proviennent le plus souvent
de cancers primaires du tube digestif via la veine porte, des cancers du sein ou du
poumon.
4
Elles apparaissent légèrement hyperintenses dans les images pondérées en T2, avec une
intensité plus faible sur les bords de la tumeur pour les grosses lésions. Les images
T1 les montrent légèrement hypointenses. Au temps artériel, l’intensité du bord de la
tumeur augmente de manière irrégulière, et cette augmentation d’intensité s’atténue
au temps tardif (voir la figure 1.1d).
110mm
54mm
5
nombre de tumeurs cibles (avec un maximum de 10, et 2 maximum par organe), et pour
chacune des tumeurs, de sélectionner la coupe d’une image volumique où son diamètre
est maximal, et de mesurer ce diamètre. Cette procédure est illustrée sur la figure 1.2.
En prenant en compte l’évolution du diamètre des lésions cibles, ainsi que des critères
subjectifs sur l’évolution des lésions non-cibles (comme « l’évolution indiscutable »de la
taille de ces lésions), on attribue à l’évolution de la maladie l’une des quatre catégories
suivantes : réponse complète, réponse partielle, progression ou stabilisation.
L’avantage principal de cette procédure est sa simplicité de mise en place, puisque
mesurer le diamètre 2D des tumeurs peut être fait rapidement par un radiologue sans
outil particulier, le tout sur un nombre restreint de tumeurs.
Son principal inconvénient est qu’elle ne prend en compte qu’une faible quantité d’in-
formation quantitative pour chaque image, et repose sur des critères subjectifs peu
précis pour le reste des lésions. De plus, le diamètre maximal mesuré dans les coupes
axiales ne donne qu’une information partielle sur chaque tumeur, en ignorant notam-
ment l’étalement vertical. On peut noter également qu’une tumeur peut évoluer sans
changer de taille ni même de forme, et qu’un critère uniquement basé sur la taille ne
pourra rendre compte de cette évolution.
La segmentation automatique des lésions dans le foie permettrait de faire gagner du
temps pour estimer ce critère, tout en le rendant plus reproductible, notamment en
sélectionnant automatiquement la coupe montrant le diamètre maximal.
1850cm3
352cm3
Figure 1.3 – Une chaîne de traitement possible pour l’estimation de la charge tumo-
rale : segmentation du foie, segmentation du tissu tumoral, calcul des volumes.
6
Pour la calculer, on a besoin de segmenter le foie et les tumeurs, c’est-à-dire classifier
chaque voxel de l’image en fonction de son appartenance à du tissu tumoral, du paren-
chyme sain ou au reste de l’image. La procédure est illustrée sur la figure 1.3.
L’évolution de ce rapport de volumes renseigne sur la progression de la maladie, en
prenant en compte toutes les tumeurs du foie, ainsi que celles qui apparaissent et dis-
paraissent. Le volume des tumeurs donne également plus d’information que le diamètre
2D. L’étape de segmentation nécessaire au calcul de la charge tumorale est cependant
fastidieuse, voire impossible à effectuer à la main de manière suffisamment rapide pour
une utilisation clinique de routine. Elle nécessite donc des outils de segmentation au-
tomatique performants, et si possible capables de traiter des images provenant de mo-
dalités, séquences, ou temps d’injection différents. Certaines lésions ne sont en effet
détectables que dans des images de certaines modalités.
1.2.3 LI-RADS
Depuis 2011, l’American College of Radiology (ACR) met à jour des recommandations
pour catégoriser les lésions du foie par rapport à leur probabilité d’être des carcinomes
hépato-cellulaires, dans le but de standardiser l’interprétation des images 2 . Ces recom-
mandations sont appelées LI-RADS (pour LIver Reporting And Data System), et le
principe est d’attribuer à chaque lésion une catégorie parmi cinq (de LR-1 à LR-5) en
fonction de la probabilité de malignité. Une lésion probablement maligne qui n’est pas
un carcinome hépato-cellulaire est classifiée à part (LR-M).
Pour faire cette caractérisation, l’ACR propose une procédure qui consiste, d’abord, à
faire une première estimation de la catégorie à partir de critères principaux (la mise
en évidence de la lésion au temps artériel, la taille, l’atténuation du contraste ou « wa-
shout »après le temps artériel, la mise en évidence d’une « capsule »...) qui doivent
être reportés dans un tableau, puis de l’affiner dans un second temps avec des ca-
ractéristiques auxiliaires, dont notamment l’hyperintensité en IRM pondérée en T2.
Ils préconisent comme dernière étape d’estimer si la catégorisation obtenue « semble
raisonnable et appropriée ». Cette procédure doit être répétée pour chaque lésion.
Pour appliquer cette procédure, la segmentation automatique représente un gain de
temps important, surtout dans le cas où le patient a beaucoup de lésions. Elle pourrait
permettre notamment d’automatiser le calcul de la taille de la tumeur. La segmentation
individuelle des tumeurs et leur identification dans les images de plusieurs modalités
seraient dans ce cas souhaitable, de manière a pouvoir évaluer les critères auxiliaires qui
nécessitent de s’appuyer sur plusieurs temps d’injection et séquences IRM. Une automa-
tisation complète de la procédure est même envisageable, avec un calcul automatique
des caractéristiques à prendre en compte pour la catégorisation. Cela permettrait, en
2. https ://www.acr.org/Clinical-Resources/Reporting-and-Data-Systems/LI-RADS
7
plus de faire gagner du temps, de diminuer l’importance des critères subjectifs et ainsi
rendre plus reproductible l’estimation de la catégorie LI-RADS.
Cependant cette approche manque encore de maturité pour pouvoir être utilisée en
routine, et du travail de recherche est encore nécessaire pour déterminer un ensemble
de caractéristiques robustes, reproductibles, à utiliser avec des procédures standar-
disées dans la veine de RECIST et LI-RADS. Une manière de quantifier l’évolution
d’une lésion maligne dans le foie, par exemple, serait de trouver une signature capable
de prédire la survie, et de suivre l’évolution de cette prédiction au cours du traite-
ment. La figure 1.4 représente la chaîne de traitement pour prédire la survie avec cette
approche.
Dans ce cas, cette approche demanderait donc de segmenter individuellement les tu-
meurs dans des images de plusieurs modalités (qui contiennent potentiellement des
informations complémentaires sur la maladie). Des outils automatiques adaptés sont
par conséquent indispensables pour appliquer cette approche dans un contexte cli-
nique.
8
Survie = 2 ans
Segmentation du foie. Dans toutes les images, on classifie les voxels en fonction de
leur appartenance au foie ou au reste de l’image. Le résultat de cette étape est
un masque de segmentation par image.
Segmentation individuelle des lésions. Chaque lésion doit être segmentée, éventuelle-
ment individuellement dans chaque image afin de pouvoir calculer des caracté-
ristiques sur chacune d’entre elles. Autrement dit, on a besoin d’un masque de
segmentation par image et par lésion.
Identification des lésions. Pour les approches qui nécessitent d’extraire des caractéris-
tiques de plusieurs images pour chaque lésion (comme LI-RADS, ou l’approche
9
radiomique), il faut faire correspondre les masques obtenus à l’étape précédente.
Après cette étape, on a autant de masques de segmentation que d’images pour
chaque lésion.
Extraction des caractéristiques. Les masques ainsi obtenus permettent d’obtenir la
taille des lésions, ce qui est notamment utile pour automatiser l’estimation du
RECIST. En utilisant les images en plus des masques, on peut obtenir des carac-
téristiques nécessitant les intensités (la mise en évidence de la capsule, ou l’hy-
perintensité en T2 pour LI-RADS). Pour l’approche radiomique, les images et
les masques permettent de calculer un certain nombre de caractéristiques (qu’on
appelle dans ce cas une signature) parmi celles standardisées par Zwanenburg
et al. (2020). Cet ensemble de caractéristiques contient des caractéristiques de
taille, de forme, d’intensité et de texture.
Estimation de la variable. On combine ensuite ces caractéristiques, soit en suivant des
recommandations pour attribuer une catégorie au patient (comme RECIST et
LI-RADS), soit, comme pour l’approche radiomique, en les mettant en entrée
d’un modèle d’apprentissage statistique préalablement entraîné pour prédire la
variable d’intérêt (la survie ou la réponse à un traitement par exemple).
Cette thèse vise à étudier les méthodes permettant d’automatiser les trois premiers
maillons de cette chaîne de traitement, avec une emphase sur le traitement multi-modal
de ces problèmes. Plus précisément, je m’intéresse aux questions suivantes : Quels sont
les enjeux inhérents au traitement multi-modal des images ? Quels en sont les bénéfices
potentiels ? Nous verrons que l’apprentissage profond (que nous appellerons « Deep
Learning » dans toute cette thèse, pour suivre l’usage dominant) domine l’état-de-l’art
pour tous les problèmes liés aux trois premières étapes de cette chaîne de traitement.
Dès lors, comment cette classe de méthodes permet-elle de faire face à ces enjeux ?
Comment, en particulier, les méthodes basées sur le Deep Learning s’accommodent-
elles des décalages géométriques entre les images de différentes modalités ? Également,
quelles caractéristiques apprennent les modèles obtenus par Deep Learning ? Comment
gagner en compréhension sur leur fonctionnement ? Sur ce qui influence leurs prédic-
tions ?
1.3.2 Contributions
La suite du document est subdivisée en 4 chapitres.
Le chapitre 2 étudie l’étape de segmentation, dans le contexte ou des images de plu-
sieurs modalités sont appariées mais pas recalées. Je cherche, dans un premier temps,
à répondre à la question suivante : quel apport pourraient avoir les informations multi-
modales sur la tâche de segmentation ? Pour cela je compare différentes stratégies
d’apprentissage sur des données d’IRM du foie de séquences T1 et T2. Je propose dans
10
un second temps une méthode basée sur l’optimisation jointe d’une tâche de segmen-
tation et d’une tâche de recalage permettant d’intégrer une contrainte de similarité à
l’apprentissage d’un réseau de segmentation.
Dans le chapitre 3, je m’écarte momentanément de la chaîne de traitement évoquée à
la section précédente pour m’intéresser au problème de l’interprétabilité en Deep Lear-
ning. En partant du constat de l’intérêt de l’interprétabilité des réseaux de segmentation
d’images médicales, d’une part, et de l’incapacité des méthodes d’interprétation pro-
posées jusque là dans l’état de l’art à s’appliquer aux réseaux de segmentation d’autre
part, je propose une méthode d’interprétabilité spécifique aux réseaux de segmenta-
tion.
Le chapitre 4 présente un travail préliminaire sur une méthode visant à effectuer en une
seule passe les étapes de segmentation individuelle des lésions et d’identification des
lésions détectées. Je montre son potentiel, d’abord avec une expérience sur des données
synthétiques, puis sur les données d’IRM de foie du chapitre 2.
Enfin le chapitre 5 propose une conclusion de chacun des chapitres précédents, avec
une réflexion sur l’état de l’art de chacun des problèmes traités, et comment mes
contributions s’y insèrent. Je propose ensuite dans ce chapitre des perspectives de
recherche dans l’objectif d’une automatisation plus fiable et plus complète de toute la
chaîne de traitement.
11
12
Chapitre 2
Segmentation en imagerie
multi-modale
13
résoudre.
La section 2.2 présente mes expériences qui comparent différentes stratégies proposées
dans la littérature pour segmenter le foie en IRM pondérée en T1 et T2.
Enfin, dans la section 2.3 je propose une méthode de segmentation jointe de deux
images de modalités différentes, qui intègre une information a priori de similarité entre
les deux masques de segmentation.
14
ciser l’appellation « segmentation multi-modale », qui est employée dans la littérature
pour désigner des problèmes qui nécessitent des méthodologies différentes.
Cinq classes de problèmes découlent de cette classification : la segmentation mono-
modale, la segmentation non-appariée, la segmentation appariée recalée, la segmenta-
tion appariée non-recalée mono-modale, la segmentation appariée non-recalée multi-
modale. C’est cette dernière classe de problème qui est l’objet principal de ce cha-
pitre
L’objectif de cette section est de présenter l’état de l’art des méthodes utilisées pour
résoudre les problèmes des différentes classes, et de discuter du bénéfice que pourraient
avoir ces innovations pour d’autres problèmes.
Cette revue se concentre sur les méthodes par apprentissage profond (qu’on désignera
par le terme anglais « Deep Learning » dans la suite, pour suivre l’usage dominant),
celles-ci ayant concentré l’immense majorité de l’innovation en segmentation médicale
de ces dernières années.
Architecture
Un axe de recherche favorisé par la littérature est celui de l’architecture des ré-
seaux de neurones. On peut toutefois affirmer que l’architecture U-net, proposée par
Ronneberger, Fischer et Brox (2015), est devenue standard en segmentation
d’images médicales. Si quelques améliorations à cette architecture ont été étudiées
(mécanismes d’attention, blocs de convolution résiduels ou denses par exemple, voir
l’introduction de Tajbakhsh et al. (2020)), certains travaux (Hofmanninger et al.
2020 ; Isensee, Petersen, Klein et al. 2018) suggèrent que des apports méthodo-
logiques à cette base n’auraient qu’une influence mineure sur les performances par
rapport à la qualité des données. Isensee, Petersen, Klein et al. (2018) proposent
une procédure systématique pour adapter les métas-paramètres (taille des batchs, ré-
solution des images d’entrée...) d’un U-net à un nouveau jeu données, qu’ils baptisent
« nnUnet », et parviennent avec elle à remporter des compétitions de segmentation
(Kavur et al. 2021 ; Simpson et al. 2019), battant des équipes aux méthodes nova-
trices.
D’autres architectures, pourtant populaires pour la segmentation sémantique en vision
par ordinateur, comme Deeplab (L.-C. Chen et al. 2017) et PSPNet (H. Zhao et al.
15
2017), peinent à s’imposer dans le domaine médical.
16
méthodes se basant sur ce principe ont notamment été proposées par Samson
et al. (2019), Luc et al. (2016), Ghafoorian et al. (2018), Hung et al. (2018),
Yizhe Zhang et al. (2017).
L’intégration d’informations a priori est un axe de recherche intéressant, non seule-
ment parce qu’il permet de répondre à l’une des problématiques les plus importantes
de l’apprentissage automatique en imagerie médicale, qui est la rareté des annotations,
mais aussi parce que l’on peut imaginer toute sortes de contraintes, notamment anato-
miques (taille et localisation relative des organes, forme (comme Zeng et al. (2019)),
aspect...). Cet axe offre par conséquent des perspectives prometteuses. La méthode que
je détaille à la section 2.3 se base sur l’information a priori que les masques des foies
dans les images T1 et T2 ne doivent différer que d’une transformation élastique.
Si ces axes de recherche (architecture, supervision partielle et régularisation) sont sur-
tout étudiés dans un contexte de segmentation mono-modale, il demeure qu’ils peuvent
être pertinents dans d’autres contextes. Dans la suite, je me concentre sur les méthodes
visant à répondre à un problème spécifique au contexte pour lesquelles elles ont été
proposées.
17
non-supervisée suscite surtout beaucoup d’intérêt pour des applications de segmenta-
tion pour la conduite autonome, où il est très fastidieux d’obtenir des annotations (il
faudrait assigner une classe à chaque pixel d’une vidéo prise en caméra embarquée)
alors que des images issues de jeux vidéos (comme GTA5, voir Y. Zou et al. 2018) sont
disponibles en grande quantité.
Le problème d’adaptation de domaine non-supervisée a gagné de l’intérêt grâce à l’essor
de l’apprentissage adversaire, et notamment la technique du Cycle-GAN (proposée par
Zhu et al. 2017) qui consiste à entraîner un réseau pour transformer une image d’une
modalité A vers une autre modalité B, et un autre de B vers A, en contraignant les
images à être les mêmes après un cycle. Cette technique permet donc de passer d’une
modalité à l’autre sans avoir de données appariées, et donc d’entraîner un segmen-
teur sur plusieurs modalités à la fois en n’ayant que les annotations d’une seule. Elle
est maintenant largement adoptée par d’autres méthodes qui ne se limitent pas aux
problèmes de supervision partielle, comme la synthèse d’images CT à partir d’images
IRM (avec l’objectif de pouvoir se passer d’acquisitions CT pour la planification de
radiothérapie notamment, voir Wolterink et al. (2017), H. Yang et al. (2018)), ou
le recalage multi-modal (Guo et al. 2020).
18
quise pendant la phase de planification, et une image acquise le jour de l’intervention
(Elmahdy et al. 2019).
Pour résoudre ce problème, des méthodes dont le principe est un apprentissage joint de
la tâche de segmentation et la tâche de recalage (c’est-à-dire la prédiction d’une trans-
formation géométrique qui aligne une image sur l’autre) ont été proposées (Beljaards
et al. 2020 ; Elmahdy et al. 2019). Ces méthodes ont été proposées dans les cas où la
tâche principale est le recalage, et elles se servent de la segmentation comme une tâche
auxiliaire. Si l’on s’intéresse plutôt à la tâche de segmentation comme tâche princi-
pale, comme dans ce chapitre, l’avantage d’optimiser conjointement les deux n’est pas
clair.
19
2.2 Quelle stratégie pour la segmentation
d’images appariées mais pas recalées ?
Le but de cette section est d’estimer dans quelle mesure certaines techniques et stra-
tégies d’apprentissage utilisées pour traiter les problèmes décrits dans la section 2.1
sont pertinentes dans le cadre de la segmentation du foie dans des paires d’images IRM
pondérées en T1 et T2.
Mes expériences sur des données synthétiques, détaillées dans la section 2.2.1, tendent à
montrer qu’un réseau de segmentation est capable de localiser l’information pertinente
dans toutes les images mises en entrée, même si celles-ci ne sont pas recalées, au moins
lorsque le problème est simple et les décalages pas trop importants. On peut alors
émettre l’hypothèse que sur des données réelles, ajouter de l’information anatomique
en entrée du réseau par le biais de l’image pondérée en T1, peut permettre d’améliorer
les performances de segmentation de l’image en T2, même si ces deux images ne sont
pas recalées.
Le second axe est celui de la fonction de coût optimisée durant l’entraînement. Alors
que Jadon (2020), Sudre et al. (2017) ont montré l’importance de ce paramètre en
segmentation d’images médicales, ces dernières années ont vu l’essor de fonctions de
coût apprises par apprentissage adversaire (Ghafoorian et al. 2018 ; Luc et al. 2016 ;
Samson et al. 2019). Je compare trois fonctions classiques de coût voxel à voxel et trois
fonctions de coût adversaires. L’hypothèse pour cet axe est que les fonctions de coût
adversairesdevraient conduire à des modèles plus robustes, et à des segmentations plus
précises en général. L’intuition est qu’en apprenant la distribution des masques de
segmentation, on évite les prédictions impossibles (avec des trous par exemple) ou aux
formes trop inhabituelles.
20
Alors que les articles de segmentation d’images appariées sans recalage abordent le
problème sous l’angle de l’optimisation jointe des tâches de segmentation et de recalage
(Chartsias et al. 2019 ; F. Liu et al. 2020), pour cette section on se restreint à
des stratégies plus simples selon les deux axes décrits ci-dessus. Nous étudierons une
méthode de segmentation et recalage appris conjointement dans la section 2.3.
Unet
cible
Figure 2.1 – Principe de l’expérience avec des données synthétiques. Le canal vert
contient l’information qui permet de discriminer les patatoïdes à segmenter (striures
orientées selon un angle inférieur à 90 degrés), mais la cible est alignée avec le canal
rouge. De plus, les contours sont flous dans le canal rouge.
Partons d’un générateur de champ de patatoïdes striés, comme représenté figure 2.1.
Un des canaux (représenté en vert sur la figure 2.1) comporte des striures sur chaque
patatoïde, qui sont soit orientées à 45 degrés, soit à -45 degrés. L’autre canal contient
les mêmes patatoïdes mais sans striures. On veut apprendre à un réseau à segmenter
uniquement les patatoïdes striées à 45 degrés dans le canal vert, mais le masque de
21
segmentation doit être aligné avec le canal rouge. Ainsi, l’information de position (où
sont les patatoïdes à segmenter) est uniquement dans le canal rouge, tandis que l’infor-
mation discriminante (quels patatoïdes doivent être segmentés) est uniquement dans
le canal vert. Pour rendre la tâche plus difficile, le canal rouge est flouté, de manière à
ce que l’information de contour ne soit présente que dans le canal vert. Le décalage est
une translation tirée aléatoirement d’une distribution uniforme. L’amplitude de cette
distribution est un paramètre de l’expérience.
De cette manière, on s’assure que le réseau doive faire la correspondance entre les
patatoïdes des deux canaux s’il veut les segmenter correctement. Pour éviter le sur-
apprentissage, les images d’entraînement sont générées aléatoirement à la volée, de
sorte que la même image n’est jamais utilisée deux fois pendant l’entraînement.
On remarque qu’il suffit de quelques époques à un U-net pour segmenter correctement
les patatoïdes striés dans le bon sens. A-t-il pour autant appris à faire correspondre
les patatoïdes des deux canaux ? Vérifions d’abord que le réseau n’ait pas simplement
appris à utiliser le patatoïde strié le plus proche. La figure 2.2 montre des résultats
de segmentation où le décalage est suffisamment important pour que les patatoïdes
correspondants dans les deux canaux ne se touchent pas, de manière à ce que de nom-
breuses formes soient segmentées correctement alors que des formes plus proches dans
le canal de discrimination ont des orientations différentes. On peut donc rejeter cette
hypothèse. Comme mentionné précédemment, on peut également rejeter l’hypothèse
du sur-apprentissage. On remarque également que lorsqu’il manque l’information de
discrimination pour segmenter une patate, comme ça peut être le cas sur les bords
(voir figure 2.2), le réseau prédit une probabilité de 0.5 que le patatoïde soit à segmen-
ter. C’est un argument supplémentaire pour s’assurer que le réseau apprenne bien une
correspondance entre les deux canaux.
Toutefois, cette capacité à extraire l’information non-alignée a des limites : la limite
d’amplitude de la distribution des décalages au-dessus de laquelle l’apprentissage ne
parvient plus à converger est de 35 pixels (pour des images 256 × 256). De plus, un
réseau ne parvient pas facilement à généraliser aux décalages d’amplitude différentes
de ceux qu’il a vus pendant l’entraînement, même pour des décalages d’amplitude plus
faible (figure 2.3).
Néanmoins ces expériences montrent qu’un réseau de segmentation est capable, au
moins pour des problèmes simples, d’apprendre à trouver la correspondance entre les
deux canaux lorsqu’ils ne sont pas alignés. Cela justifie les expériences décrites dans la
section 2.2.3 qui consistent à entraîner un réseau prenant en entrée les deux modali-
tés.
22
Figure 2.2 – Résultat de segmentation pour des différentes orientations de décalage.
Pour les trois premières images : canal rouge = canal 1 (localité) de l’image d’entrée ;
canal vert = canal 2 (discrimination) de l’image d’entrée ; canal bleu = segmentation
prédite par le réseau. On remarque qu’elle est alignée sur le canal rouge, comme prévu,
et qu’elle ne contient que les patatoïdes striés avec un angle inférieur à 90 degrés sur
le canal vert. Dernière image : sortie du réseau seule. Sur les bords où l’information de
discrimination a été coupée, on remarque que le réseau prédit une probabilité de 0.5.
23
Figure 2.3 – Performance d’un réseau entraîné sur les données synthétiques en fonction
du décalage. En abscisses, le décalage horizontal ; en ordonnée, le décalage vertical (en
pixels). Plus un pixel de la carte est blanc, plus le réseau obtient de bonnes performances
(mesurées par le coefficient de Dice). Le réseau à été entraîné avec des désalignements
de 10 à 30 pixels. La tâche grise au milieu suggère que le réseau n’arrive pas à segmenter
des images parfaitement alignées.
24
2.2.2 Données
La base de données utilisée dans ce chapitre contient 88 paires d’images IRM pondérées
en T1 et T2, centrées sur le foie. Ces 88 paires d’images proviennent de 51 patients ayant
tous des lésions hépatiques (majoritairement des métastases, avec quelques kystes, tu-
meurs primaires et angiomes). Toutes les images sont pré-recalées grossièrement en
utilisant les méta-données de position enregistrées au moment de l’acquisition. Toute-
fois, le foie peut apparaître à des positions différentes dans les deux images, notamment
à cause de la respiration (l’écart pouvant aller jusqu’à 15 centimètres environ). Chaque
image est également ré-échantillonnée de manière à ce que qu’un voxel corresponde à
3mm verticalement, et 1,5mm dans les deux dimensions horizontales.
Les segmentations de référence sont obtenues par annotation manuelle, effectuée par
une interne en radiologie en utilisant des outils interactifs 3D. Il est à noter que la seg-
mentation manuelle du foie est une tâche fastidieuse et qu’en conséquence la précision
des annotations n’est jamais parfaite. L’image en T2, à cause de sa faible résolution
verticale, du faible contraste du foie et de sa plus grande propension à avoir des arte-
facts d’acquisition (voir la figure 2.5 est encore plus difficile à segmenter, ce qui rend
les annotations de l’image en T2 moins précises encore.
La base de donnée est divisée en trois, en gardant 12 paires d’images pour l’ensemble
de test, 6 paires pour la validation et 70 paires pour l’entraînement.
2.2.3 Méthodes
Paramètres communs
Pour toutes les stratégies et fonctions de coût comparées, on fixe les paramètres sui-
vants. L’architecture du réseau est U-net 3D (Milletari, Navab et Ahmadi 2016 ;
Ronneberger, Fischer et Brox 2015), initialisé avec les poids fournis par Z. Zhou
Figure 2.4 – Coupes axiales d’une paire d’images de la base de données. À gauche,
l’image pondérée en T1, à droite, l’image pondérée en T2.
25
Figure 2.5 – Coupes coronales d’une paire d’images de la base pour illustrer la plus
faible qualité des images en T2. À gauche : l’image en T1, à droite : l’image en T2.
Augmentation de données
Pour toutes les stratégies entrée/sortie et fonctions de coût testées, on utilise la même
stratégie d’augmentation artificielle des données, qui consiste à appliquer un champ
multiplicatif généré aléatoirement à la volée et qui imite le champ de biais dû à l’hété-
rogénéité du champ magnétique, un signal de basse fréquence très lisse, qui altère les
images et qu’on trouve souvent dans les images IRM. La figure 2.6 montre un exemple
de l’application d’un tel champ. Mes expériences montrent qu’une telle augmentation,
26
au minimum, ne dégrade pas les performances.
Stratégies entrée/sortie
I1 Seg S1 Seg S1 I1
I1 I2 I1 S1 warp
Seg Reg Seg S2
I2 S2
I2 Seg S2 Seg S2 I2
Figure 2.7 – Inférence d’une paire d’images pour les différentes stratégies d’appren-
tissage testées. De gauche à droite : simple entrée ; double entrée, sortie simple ; double
entrée, sortie double ; double entrée pré-recalée, sortie simple.
Simple entrée : le réseau n’a qu’un seul canal d’entrée et qu’un seul canal de sortie, de
sorte qu’il ne peut prédire le masque que d’une image à la fois. Dans sa version
spécialisée, on entraîne deux réseaux distincts, chacun des deux étant spécialisé
sur une modalité. Dans sa version non-spécialisée, on entraîne un seul réseau, qui
est entraîné indifféremment sur l’une ou l’autre des modalités.
Double entrée, sortie simple : le réseau prend en entrée les deux images de la paire,
et prédit la segmentation d’une seule d’entre elles (celle qui est dans le premier
canal d’entrée). Dans sa version spécialisée, on entraîne deux réseaux, l’un prenant
dans son premier canal d’entrée l’image T1 et inversement pour l’autre. Dans sa
version non-spécialisée, on entraîne un seul réseau, que l’on entraîne en choisissant
aléatoirement quelle image on place dans le canal d’entrée.
Double entrée, sortie double : Le réseau prend en entrée les deux images de la paire, et
sort les deux masques. Lorsqu’il est spécialisé, le premier canal d’entrée du réseau
reçoit toujours l’image T1 tandis que le second reçoit l’image T2. Lorsqu’il est
non-spécialisé, on l’entraîne en échangeant aléatoirement l’ordre de la paire.
Double entrée pré-recalée, sortie simple : C’est une variante de la stratégie « double
entrée, sortie simple », qui vise à tester si déformer l’image T1 pour la recaler sur
l’image T2 (qui est la modalité la plus difficile) permet d’aider le réseau à utiliser
l’information contenue dans l’image T1 pour faire des prédictions plus précises
sur l’image T2. Pour cela, on applique un algorithme de recalage non-linéaire à
toute la base de données avant l’apprentissage.
27
Fonction de coût
Le deuxième axe de comparaison porte sur la fonction de coût utilisée pour l’appren-
tissage. Dans la suite, on considère une image x ∈ X, où X = RH×L×P est l’espace
des images de taille H (nombre de coupes), L (largeur en voxels), P (profondeur en
voxels), et son masque annoté y ∈ Y où Y = [0, 1]H×L×P est l’espace des masques,
ainsi qu’un réseau de segmentation S : X → Y .
On compare trois fonctions voxel à voxel simples, c’est-à-dire qu’elles n’utilisent pas de
paramètre appris :
Entropie croisée binaire : c’est la fonction de coût classiquement utilisée pour les
tâches de classifications binaires où les modèles prédisent une probabilité, et
notamment par Ronneberger, Fischer et Brox (2015).
X
Lecb (x, y) = − yi,j,k log(S(x)i,j,k )
i,j,k
Entropie croisée binaire + Dice : pour avoir un compromis entre les deux approches.
Pour cette expérience je fixe λecb = λDice = 1 pour garder un compromis équi-
table.
28
La technologie de l’apprentissage adversaire a récemment connu un gain de popularité
important en segmentation (voir par exemple Hung et al. 2018 ; Yizhe Zhang et al.
2017). Pour une revue plus complète de comment cette technologie (au départ proposée
pour la génération d’images naturelles) est utilisée en segmentation, voir la section de
revue de littérature proposée par Samson et al. (2019).
Fonction de coût GAN de base, utilisée par exemple par Luc et al. (2016) :
Fonction de coût Embedded, proposée par Ghafoorian et al. (2018) pour stabiliser
l’entraînement :
LS = Lecb − LG
2.2.4 Résultats
Stratégie multimodale
La performance de chacune des stratégies est évaluée en calculant le score de Dice moyen
sur la base de test. D’autres métriques, comme la distance d’Hausdorff, donnent une
comparaison des approches équivalente.
Le caractère stochastique de l’algorithme d’optimisation, ainsi que l’aléa de l’initiali-
sation des poids du réseaux, impliquent que l’on puisse mesurer des différences de per-
formances entre plusieurs exécutions d’une même expérience. Pour connaître l’ordre
29
Non-spécialisée Spécialisée
Stratégie T1 T2 p T1 T2 p
Simple entrée 0,961 0,938 - 0,959 0,929 0,4
Double entrée, sortie simple 0,955 0,932 0,004 0,956 0,930 0,012
Double entrée, sortie double 0,938 0,907 0,0009 0,942 0,897 0,0008
Entrée pré-recalée, sortie simple - - - - 0,925 0,007
Non-spécialisée. Spécialisée
Stratégie T1 T2 T1 T2
Double entrée, sortie simple <0,001 0,016 0,001 0,030
Double entrée, sortie double 0,042 0,083 0,023 0,103
Entrée pré-recalée, sortie simple - - - 0,054
Table 2.2 – Perte de Dice lorsque la modalité auxiliaire ne correspond pas, en fonction
de la stratégie d’entrée/sortie.
Les résultats moyens de chaque stratégie sont rapportés dans le tableau 2.1. La stra-
tégie en simple entrée non-spécialisée obtient les meilleurs scores. Pour chacune des
stratégies, on effectue un test statistique des rangs signés de Wilcoxon (Wilcoxon
1945), qui est indiqué dans le cas de données appariées sur lesquelles on ne peut pas
faire d’hypothèse de normalité, ce qui est le cas des scores de Dice. L’hypothèse nulle
que l’on teste est que la médiane des scores des 24 images de la base de test obte-
nue par une stratégie est identique à celle obtenue par la stratégie en simple entrée
non-spécialisée. Plus cette hypothèse apparaît improbable (p faible dans le tableau
2.1), plus la différence de performance avec la stratégie la plus performante apparaîtra
réelle.
30
d’amélioration de la performance lorsqu’on ajoute une modalité auxiliaire en entrée, et
ce même avec un pré-recalage. La perte de performance des stratégies en sorties doubles
est en revanche non seulement significative, mais également forte (jusqu’à 4 points de
Dice en T2). Ces stratégies sont un cas particuliers d’apprentissage multi-tâches. Or,
comme montré par Wu, H. R. Zhang et Ré (2020), il n’est pas trivial de mettre en
place des stratégies reposant sur l’apprentissage multi-tâches, et l’approche naïve que
j’ai essayée ici a rapidement montré ses limites. C’est potentiellement particulièrement
difficile à utiliser en segmentation 3D, où augmenter la capacité des réseaux est rapide-
ment coûteux en termes de mémoire. La méthode que je propose dans la section 2.3 se
base sur une stratégie multi-tâches, à laquelle on rajoute une régularisation pour aider
l’apprentissage.
L’idée des stratégies à double-entrée est d’étudier si un réseau peut bénéficier de l’in-
formation contenue dans l’image auxiliaire, c’est-à-dire l’image de la paire qu’on ne
cherche pas à segmenter. Par exemple si un réseau doit segmenter le foie dans l’image
T2, peut-il utiliser l’image T1 pour augmenter sa précision ? Un moyen simple d’estimer
à quel point un réseau utilise l’information de l’image auxiliaire et de mesurer la chute
de performance que l’on observe lorsqu’on remplace l’image auxiliaire de chaque paire
par une image de même modalité mais provenant d’une paire différente. Ainsi, plus
un réseau aura appris à utiliser la modalité auxiliaire pour prendre sa décision, plus
on observera une chute de performance lorsque l’image auxiliaire ne correspond pas.
Inversement si l’on n’observe aucune baisse du score de Dice, on pourra conclure que le
réseau n’utilise pas la modalité auxiliaire. Le tableau 2.2 montre les résultats de cette
expérience. On remarque que l’utilisation de la modalité auxiliaire est négligeable dans
le cas des stratégies « sortie simple » pour l’image T1, et plus forte pour l’image T2
(ce qui est cohérent avec l’idée selon laquelle l’image T2 est plus difficile à segmenter,
et qu’ainsi le réseau apprenne à s’aider de l’image T1), surtout après un pré-recalage,
ce qui est également attendu puisque l’information paraît plus facile à utiliser lorsque
les images sont recalées. Les stratégies avec « double sortie » montrent la plus grande
dépendance à la sortie auxiliaire.
31
Fonction de coût
Le tableau 2.3 montre les performances des réseaux entraînés avec différentes fonctions
de coût. On ne trouve pas d’effet clair de ce paramètre sur la performance, et les
fonctions de coût adversaires ne semblent pas apporter de bénéfices.
La figure 2.8 montre la carte de paris prédite par un réseau parieur. On remarque que ce
réseau parie sur des erreurs à proximité de la bordure du foie, ce qui est cohérent avec
l’intuition selon laquelle, comme les annotations ne sont pas parfaitement précises, il est
probable de trouver des incohérences entre la segmentation prédite et la segmentation
annotée au bord du foie. On peut donc interpréter ces cartes comme une estimation de
l’incertitude sur le résultat.
Figure 2.8 – Carte de paris prédite par le réseau parieur. Chacune des images corres-
pond à la coupe centrale selon les trois dimensions. En blanc, les voxels pour lesquels
la segmentation est le plus probablement fausse, et noire où elle est vraie. En vert la
segmentation de référence, en rouge le masque prédit par le segmenteur.
Inspection visuelle
Les figures 2.9 et 2.10 montrent quelques exemples de prédictions des réseaux « simple
entrée non-spécialisé »et « double sortie spécialisé »respectivement. On peut voir que les
prédictions des deux réseaux restent précises, même en présence d’une charge tumorale
32
Fonction de coût T1 T2 p
Entropie croisée binaire 0,961 0,938 -
Dice 0,959 0,931 0,42
LDice + Lecb 0,959 0,932 0,74
GAN standard 0,950 0,930 0,00011
Embedding 0,960 0,935 0,71
Parieur 0,959 0930 0,134
importante (comme en bas à gauche), ou lorsque de grosses lésions sont présentes près
du bord (colonne du milieu, en bas). Toutefois, on remarque que le réseau « simple
entrée » est bien plus précis sur l’image en T2 en général (notamment sur les cas de la
colonne de gauche).
La colonne de droite montre deux cas particulièrement difficiles : en haut, il s’agit du
seul cas de la base où le patient a subit une hépatectomie, ce qui rend l’anatomie du
foie atypique. Malgré cette difficulté les deux réseaux parviennent à faire une prédiction
correcte, surtout pour l’image en T1. En bas, le foie montre une charge tumorale très
importante. Le réseau « simple entrée » fait une estimation précise des contours du foie
malgré cette difficulté, contrairement à celle du réseau « double sortie ».
33
Figure 2.9 – Résultat du modèle « simple entrée, non spécialisé »sur 6 paires d’images
de la base de test. Pour chaque paire, l’image en T1 est positionnée au dessus de l’image
en T2. Le contour vert correspond à la prédiction du réseau, et le contour rouge à la
segmentation de référence.
34
Figure 2.10 – Résultat du modèle « double sortie, spécialisé » sur 6 paires d’images de
la base de test. Pour chaque paire, l’image en T1 est positionnée au dessus de l’image
en T2. Le contour vert correspond à la prédiction du réseau, et le contour rouge à la
segmentation de référence.
35
2.3 Intégration d’une contrainte de simila-
rité
L’imparfaite précision des annotations, particulièrement pour les images T2 et dont
nous avons discuté à la section précédente, impose un plafond sur la performance
des réseaux si on la définit comme l’écart entre les masques prédits et les masques
annotés.
Un axe d’amélioration auquel on peut alors penser dans le cas de la segmentation
de paires d’images est celui de la similarité. En effet, les deux images d’une même
paire étant acquises à quelques minutes d’intervalle seulement, on s’attend à ce que les
masques de segmentation du foie dans le deux images soient identiques à une déforma-
tion lisse près, induite par les mouvements du patient ou sa respiration. Dans la suite,
on dit que deux masques de segmentation sont similaires à une classe de déformations
près s’il existe une déformation de cette classe qui transforme un masque en l’autre.
Le but est alors, étant donnée une classe de déformations qu’on jugera acceptable, de
contraindre l’apprentissage pour favoriser les prédictions similaires entre elles, à cette
classe de déformations près. Cette classe dépend de notre connaissance a priori sur
l’objet à segmenter : si l’on veut segmenter un os par exemple, on s’attend à ce que les
masques des deux images ne diffèrent que par une transformation rigide ; pour le foie,
constitué de tissus mous, la déformation peut être élastique.
Cette approche a plusieurs buts. Premièrement, des masques plus similaires pourront
donner des mesures quantitatives plus cohérentes entre les modalités. Ensuite, elle peut
permettre de limiter l’effet des biais dans les annotations spécifiques à une modalité
(par exemple, la faible résolution en z des images pondérées en T2 peut causer des
imprécisions dans l’annotation). Enfin, dans le cas où l’organe à segmenter n’est pas
également facile à segmenter dans les deux modalités (comme c’est le cas lorsque qu’une
modalité est anatomique et l’autre fonctionnelle, et comme c’est le cas pour l’appli-
cation qui nous intéresse), on veut apprendre au réseau à chercher l’information utile
dans la modalité facile pour segmenter la plus difficile, ce qu’il ne fait pas spontanément
comme on l’a vu dans la section précédente.
Cette idée s’inscrit dans l’approche, évoquée dans la section 2.1.1, qui consiste à intégrer
de l’information anatomique à l’apprentissage des réseaux de segmentation par le biais
d’un terme de régularisation à la fonction de coût. La méthode que je propose dans
cette section consiste à simultanément entraîner un réseau segmenteur, qui prend en
entrée les deux images et prédit les deux masques, et un réseau recaleur, qui prend
en entrée les deux masques prédits et estime les paramètres de la transformation qui
les sépare. Les deux réseaux coopèrent pour minimiser l’erreur de segmentation et
maximiser la similarité entre les deux masques prédits (voir figure 2.11). L’objectif
36
x1 s1 s1
Segmentor
x2 s2
s2
Registror s'2
Warp
est de créer une boucle de rétroaction positive entre le segmenteur et le recaleur pour
améliorer la similarité : au fur et à mesure que le segmenteur prédit des paires de
masques plus similaires, le recaleur devient alors capable d’améliorer la qualité de ses
prédictions, ce qui en retour permet d’affiner les prédictions du recaleur, en apprenant
à chercher l’information pertinente dans les deux images.
37
uniquement sur le recalage des masques prédits et non des images, ce qui simplifie
nettement la tâche de recalage.
Fonctions de coût
On définit trois fonctions de coût, représentées par la flèches en couleur pointillées sur
la figure 2.11.
Lg = Lmse (sˆ2 0 ∗ f, s2 ∗ f )
L = λr Lr + λg Lg + λp Lp
Les opérateurs d’arrêt de gradients (représentés par le symbole d’une diode sur la
figure 2.11) sont placés de manière à ce que Lg n’influence pas le segmenteur. Minimiser
L pour le segmenteur revient donc à minimiser Ls = Lr + λp Lp , en fixant λr = 1. Le
terme λp Lp peut ainsi être considéré comme un terme de régularisation, et Lr comme
le terme d’attache aux données.
Il est important de noter que la fonction de coût Lp ne conditionne que le deuxième
canal (voir figure 2.11), en le contraignant à être similaire au premier. Cette asymétrie
entre les deux images d’entrée est justifiée si l’on considère, comme pour l’application
qui nous intéresse, qu’une des deux modalité (que l’on met dans le deuxième canal)
est plus difficile que l’autre, et par conséquent que ce soit elle qui bénéficie de la
régularisation.
38
Entraînement
L’entraînement se fait en trois étapes. La première étape consiste à pré-entraîner le
segmenteur, en ne minimisant que Lr , jusqu’à convergence. La deuxième étape est un
pré-entraînement du recaleur, en minimisant Lg , en donnant en entrée du réseau les
masques annotés. Enfin on entraîne l’ensemble en minimisant L.
Test
Pour évaluer l’effet de notre méthode sur la similarité des masques prédits, on définit
la métrique de similarité des masques s1 et s2 , à une déformation τ de Ω près.
39
Alignement du gradient en fonction de la translation
0.8
cos(e, L )
e
1
0.6
3
5
0.4 7
4 2 0 2 4
Le but de l’expérience décrite dans cette section est d’étudier, dans un contexte où l’on
connaît le minimum global, si les gradients sont orientés en direction de ce minimum
global, ainsi que l’influence sur l’orientation des gradients d’un filtrage passe-bas des
masques.
Ce contexte est le suivant : s1 est un masque issu des annotations de la base de données,
et s2 est la translatée de s1 par un vecteur λe, où e est un vecteur unitaire et de direction
arbitraire, et λ est un réel qui correspond à l’amplitude de la translation. Dans ces
conditions on sait donc que le recalage optimal est la translation de vecteur −λe. On
peut donc calculer les gradients de la distance (pour cette expérience on choisit l’erreur
quadratique moyenne) entre s1 et s2 par rapport au vecteur e.
Les courbes bleues de la figure 2.12 montrent l’alignement du gradient par rapport à e
et son amplitude, en fonction de λ. On remarque que pour certaines valeurs de lambda,
les gradients sont à la fois mal alignés et de forte amplitude. On remarque d’ailleurs
qu’un recalage par descente de gradients ne converge pas vers le minimum global.
Un moyen simple d’atténuer ce phénomène consiste à flouter les deux filtres à l’aide
d’un filtre passe pas. Pour cette expériences je teste 3 filtres binomiaux séparables de
longueur 3, 5 et 7. L’alignement et l’amplitude des gradients obtenus après filtrage des
masques est représenté par les courbes orange, vertes et rouges sur la figure 2.12. On
constate que le filtrage permet de se débarrasser des gradients mal alignés, quelle que
soit la taille du filtre. Je choisis le filtre binomial séparable de longeur 3 dans la suite,
pour des raisons de rapidité de calcul.
40
2.3.3 Expérience sur des données synthétiques
Cette expérience a pour but de s’assurer que la méthode fonctionne correctement dans
un contexte simplifié en 2D. Comme pour l’expérience décrite dans la section 2.2.1,
on génère un masque binaire avec des formes aléatoires. Pour cette expérience un
génère un autre masque légèrement différent qui sera utilisé pour l’autre image. Les
deux masques sont translatés l’un par rapport à l’autre (les deux masques sont visibles
sur la figure 2.14a). Pour simuler les deux modalités, l’une des deux images reçoit des
sinusoïdes de fréquence fixe avec les parties positive et négative différenciées par l’angle,
et l’inverse pour l’autre image (voir figure 2.13).
Figure 2.13 – Une paire d’images de l’expérience sur les données synthétiques. L’image
de gauche est codée en angle, celle du milieu en fréquence. Les masques correspondant
sont montrés sur l’image de droite (en jaune : masque de l’image 1, en bleu foncé :
masque de l’image 2, en cyan là où ils coïncident).
Figure 2.14 – Différence entre les sorties du réseaux et s2 . Les masques coïncident sur
les parties en cyan, les parties jaunes correspondent au premier masque seulement et
les parties bleu marine au deuxième. (a) sˆ1 − s2 ; (b) sˆ2 0 − s2 = θ(sˆ1 ) − s2 ; (c) sˆ2 − s2 .
41
On entraîne les réseaux segmenteur et recaleur en générant à volée de telles paires
d’images, en choisissant Ω comme étant l’ensemble des translations (R régresse donc
deux paramètres). La figure 2.14 montre la différence entre les trois sorties du réseau
(sˆ1 , sˆ2 0 et sˆ2 ) et s2 , en lui donnant en entrée les images de la figure 2.13. La figure
2.14b permet de mettre en évidence la différence entre les masques, après recalage.
2.14c montre la sortie du deuxième canal du réseau segmenteur. On constate que celle-
ci est proche de la translatée de s1 , et que le segmenteur a donc bien appris à chercher
l’information du premier canal en le recalant sur le second, ce qui est le comportement
attendu.
La figure 2.15 montre les résultats de cette expérience. On constate un net gain de
similarité (à une translation près) lorsque les réseaux sont entraînés avec λp (= 1−λr ) <
0, 5
0.10
0.08
DS(s1, s2) DS(s1, s2)
0.06
0.04
0.02
0.00
0.1
0.11
0.13
0.15
0.17
0.19
0.20
0.26
0.31
0.37
0.42
0.48
0.53
0.59
0.64
0.69
0.75
0.80
0.86
0.91
42
2.3.4 Expérience sur les données réelles
Paramètres
Pour le segmenteur, on utilise comme à la section 2.2 un U-net 3D, pré-entraîné avec
les poids fournis par Z. Zhou et al. (2019). On choisit Ω comme étant un ensemble
de déformations lisses, paramétrées par un champ de vecteurs de déplacements définis
sur une grille de basse résolution, qu’on ramène à la résolution de l’image par une
interpolation tri-linéaire. C’est cette basse résolution qui impose la régularité du champ
de déformation.
Résultats
Sans recalage, le coefficient de Dice des paires de masques issus des annotations est en
moyenne de 0,751. En calculant la similarité à la classe de déformations Ω (telle que
définie au paragraphe précédent) près, on trouve une valeur de 0, 955.
Le réseau « double entrée, double sortie »sans recaleur produit des masques de similarité
à Ω près de 0,954, tandis que le réseau simple entrée montre une similarité de 0, 959.
Notre méthode produit des masques ayant une similarité à Ω près de 0, 966.
On compare les similarités obtenues avec notre méthode et les similarités des masques
annotés avec un test des rangs signés de Wilcoxon, qui donne p = 0, 0028. Cela tend
à indiquer que cette différence de similarité ne peut probablement pas être expliquée
uniquement par le bruit statistique. En comparaison, le test donne p = 0, 08 pour
la différence de similarité entre le réseau en simple entrée sans régularisation et les
annotations.
43
Quant aux performances, on mesure un Dice des prédictions par rapport aux anno-
tations de 0, 946 pour les images T1, et 0, 918 pour les images T2. Si ces perfor-
mances n’égalent pas la stratégie « simple entrée non spécialisée » (voir section 2.2.4),
on constate cependant que l’ajout de la coopération avec un réseau recaleur permet
d’améliorer sensiblement les performances d’un réseau « double entrée, double sortie ».
En guidant l’apprentissage multi-tâche, le réseau apprend donc plus efficacement à
chercher l’information pertinente de la modalité auxiliaire.
La figure 2.16 montre des résultats de segmentation pour 6 paires d’images de la base
de test. Pour comparer avec les stratégies étudiées à la section 2.2, ce sont les mêmes
paires que sur les figures 2.9 et 2.10 aux pages 34 et 35.
On constate que les prédictions se rapprochent en qualité de celles du réseau « simple
entrée » sur les cas moins difficiles (colonne de gauche et colonne du milieu).
Sur le cas avec une forte charge tumorale (en bas à droite), le contour estimé reste
d’assez mauvaise qualité. Sur le cas avec hépatectomie (en haut à droite), on remarque
que le réseau confond une partie du rein avec le foie. Toutefois, cette erreur est inté-
ressante puisqu’elle est identique dans les deux modalités, ce qui souligne la similarité
entre les prédictions du réseau.
44
Figure 2.16 – Résultats de segmentation avec notre méthode, sur 6 paires d’images
de la base de test. Pour chaque paire l’image en T1 est au-dessus de l’image en T2. Le
contour prédit par le réseau est représenté en vert, et le contour de la segmentation de
référence est représenté en rouge.
45
2.4 Conclusion
Ce chapitre vise principalement à étudier l’intérêt d’utiliser des informations multi-
modales pour la segmentation. Pour cela j’ai commencé par étudier un contexte très
simple, avec des données synthétiques en 2D, pour montrer qu’un réseau était capable
d’utiliser l’information dans deux images non recalées, jusqu’à une certaine amplitude
de décalages. Mes expériences sur des paires d’images IRM pondérées en T1 et T2 ont
cependant eu tendance à montrer que l’ajout de l’image auxiliaire avait un effet délétère
sur les performances de segmentation du foie. Contrairement à mes intuitions initiales,
l’image en T2 contient bien toute l’information nécessaire pour y segmenter précisément
le foie. Je discute à la section 5.1.1 d’applications qui seraient plus susceptibles de
bénéficier d’une telle combinaison d’informations, par exemple si l’une des modalités
contient très peu d’information anatomique.
Une autre conclusion de ces expériences est que segmenter conjointement les deux
images de la paire, avec un réseau multi-tâches, peut largement détériorer les perfor-
mances par rapport à un réseau qui n’en segmente qu’une à la fois. De même, mes ex-
périences de comparaison des fonctions de coût n’ont pas permis de mettre en évidence
un quelconque avantage apporté par des fonctions de coût basées sur l’apprentissage
adversaire, proposées récemment dans la littérature pour la segmentation.
La deuxième partie du chapitre vise à étudier si l’ajout d’informations multi-modales,
à défaut de permettre l’amélioration des performances de segmentation, peut aider à
obtenir des masques de segmentation plus similaires entre eux. Pour cela, je propose
une méthode pour intégrer à l’apprentissage la connaissance a priori que l’on a sur le
problème, selon laquelle les deux masques prédits ne doivent différer que par une défor-
mation lisse. Cette méthode se base sur une optimisation conjointe de la segmentation
et du recalage des deux images, en utilisant le recalage comme tâche auxiliaire pour
aider celle de segmentation. Mes expériences sur des données synthétiques et sur les
données réelles montrent que la méthode permet effectivement d’augmenter la simila-
rité des deux masques prédits, sans trop compromettre la qualité des segmentations.
Elles montrent également que l’ajout de la tâche auxiliaire de recalage permet d’amé-
liorer sensiblement les performances d’un réseau multi-tâches entraîné à segmenter les
deux images de la paire simultanément. Il serait alors intéressant d’appliquer la mé-
thode à un problème où l’une des modalités contient peu d’information anatomique,
avec l’espoir de surpasser les performances d’un réseau segmentant les images une par
une.
46
Chapitre 3
Interprétabilité en segmentation
47
Cependant, on peut relever plusieurs enjeux liés à ce problème. D’abord, celui de la
confiance que l’on peut accorder aux prédictions de tels modèles. La mesure de bonnes
performances d’un modèle suffit-elle à s’assurer que celui-ci fonctionne comme attendu,
sur toutes sortes de données ? Pour mesurer la performance d’un modèle en s’affranchis-
sant du problème de sur-apprentissage, il est d’usage de mettre de côté une partie des
données pendant la phase d’apprentissage, et de le tester uniquement sur ces données.
Or il peut arriver que l’ensemble de test présente les mêmes biais que celui d’entraî-
nement. Par exemple, toutes les images de chevaux de l’ensemble de données public
PASCAL VOC contenaient un court texte, ce qui permettait à certains classifieurs
d’avoir de bonnes performances sans réellement apprendre à reconnaître un cheval
(Lapuschkin et al. 2019). Ainsi, il est toujours intéressant de mieux comprendre le
fonctionnement d’un modèle, même s’il montre d’excellentes performances. C’est un
enjeu particulièrement important en imagerie médicale, puisque ces modèles y sont
parfois destinés à aider les médecins à prendre des décisions.
Un autre enjeu et celui de l’amélioration des méthodes. Par exemple, après avoir établi
que les réseaux de classification entraînés sur le jeu de données ImageNet comptaient
plus que les humains sur les textures des objets pour les classifier, Geirhos et al.
(2018) ont montré qu’ils pouvaient améliorer les performances en rajoutant des images
aux textures modifiées à la base d’entraînement.
On peut aussi citer - même s’il est moins important en imagerie médicale qu’en vision
par ordinateur - l’enjeu de l’équité (problématique qu’on trouve sous le nom de fair-
ness dans la littérature). Kim et al. (2018) ont notamment montré que les réseaux de
classification d’images naturelles apprennent les biais racistes et sexistes contenus dans
les données d’apprentissage (ils associent par exemple la classification de tablier à la
présence d’une femme dans l’image, ou bien les raquettes de ping-pong à la présence
de personnes asiatiques).
Toutefois, le problème de l’interprétabilité est mal défini. Comme relevé par Yu Zhang
et al. (2020), les définitions et les motivations des différents articles l’abordant sont
souvent différentes. La définition sur laquelle on s’est accordé au début de ce paragraphe
reste large, et peut englober des problématiques variées. Les critères d’explicabilité et de
compréhension demeurent subjectifs, et l’ont peut imaginer toutes sortes de manières
de gagner en compréhension sur le fonctionnement d’un modèle.
48
CT.
Dans la section 3.1, je présente une revue de l’état de l’art en Deep Learning inter-
prétable, au moins tel qu’il était au moment de mon travail sur cette problématique.
Je montre comment la littérature se focalise principalement sur les réseaux de classi-
fication, et discute de pourquoi les méthodes proposées s’appliquent difficilement aux
réseaux de segmentation. Dans la section 3.2, je discute des objectifs qu’une méthode
d’interprétabilité des réseaux de segmentation pourrait remplir. Autrement dit, je pro-
pose une manière d’interpréter les réseaux de segmentation. Enfin dans la section 3.3,
je propose une méthode et détaille les expériences que j’ai menées pour montrer dans
quelle mesure elle permet de remplir les objectifs décrits dans la section précédente.
Cette méthode a été présentée au workshop iMIMIC associé à la conférence MICCAI
2019 1 (Couteaux, Nempont et al. 2019).
1. https://imimic-workshop.com/previous_editions/2019/index.html
49
(a) Image originale (b) Grad-CAM (Chat) (c) Occlusion (Chat)
Figure 3.1 – Exemple de cartes de saillance obtenues avec Grad-CAM (c et d), super-
posées avec l’image originale, et obtenues par une méthode d’occlusion (c et g). Pour
(c) et (g), les pixels bleus correspondent à ceux dont l’occlusion fait baisser le score de
la classe chat (c) ou chien (g), tandis que l’occlusion des pixels rouges le fait augmenter.
Tiré de Selvaraju et al. (2017), qui introduisent Grad-CAM.
50
d’un neurone, fonction de coût...) par rapport à l’image, que toutes les bibliothèques de
Deep Learning permette facilement de calculer par rétro-propagation. Si l’on calcule les
gradients de l’activation d’un neurone de la couche de sortie qui code une certaine classe
par rapport à l’image d’entrée, on peut visualiser les pixels dont une petite modification
de valeur modifierait le plus la probabilité d’appartenir à cette classe. Simonyan,
Vedaldi et Zisserman (2013) ont proposé cette méthode en premier. Plusieurs autres
méthodes ont par la suite été proposées pour améliorer la qualité visuelle des cartes
de saillance par gradients, comme SmoothGrad (Smilkov et al. 2017) ou Integrated
Gradients (Sundararajan, Taly et Yan 2017). Grad-CAM (Selvaraju et al. 2017)
est une autre méthode populaire basée sur les gradients, proposée plus récemment.
Une autre idée consiste à re-projeter les activations d’un réseau dans l’espace image,
et ainsi visualiser ce qui excite un neurone dans l’image (Zeiler et Fergus 2014,
Springenberg et al. 2014).
Ensuite viennent les méthodes d’« attribution », dont le but est d’attribuer à chaque
pixel un score, positif ou négatif, sur sa contribution à l’excitation d’un neurone. Layer-
wise Relevance Propagation (Bach et al. 2015), qui est un cas particulier de la Deep
Taylor Decomposition (Montavon et al. 2017), est la plus diffusée. La figure 3.2 montre
un exemple de cartes de saillance qu’il est possible d’obtenir avec cette méthode, pour
un classifieur de chiffres manuscrits.
Figure 3.2 – Cartes de saillance obtenues par Layer-wise Relevance propagation (LRP)
sur un classifieur de chiffres manuscrits. Les pixels rouges correspondent à ceux qui ont
une influence positive sur le score de la classe indiquée dans le coin en haut à gauche,
tandis que les pixels bleus ont une influence négative. Tiré de Bach et al. (2015)
La fiabilité de toutes les méthodes citées ci-desssus est toutefois remise en question
51
(Ghorbani, Abid et J. Zou 2019 ; Yeh et al. 2019). Kindermans, Hooker et
al. 2017 montrent notamment qu’un simple décalage des intensité d’une image peut
donner de explications très différentes pour la plupart des méthodes, et proposent
PatternNet et PatternAttribution (Kindermans, Schütt et al. 2017) pour remédier
à ces manques de fiabilité. Hooker et al. 2018 montrent que beaucoup de ces méthodes
basées sur les gradients ne parviennent pas à mettre en évidences les parties de l’image
réellement importantes pour la classification.
Une approche différente de toutes ces méthodes à base de rétro-propagation consiste
simplement à altérer l’image d’entrée pour mesurer comment cette altération modifie
la sortie du réseau. On dit alors que la méthode est model-agnostic, car elle ne né-
cessite pas d’avoir accès aux paramètres du modèle (contrairement aux méthodes à
base de gradients par exemple). La manière la plus simple suivant ce principe est celle
d’« occlusion », qui consiste à cacher un petit morceau de l’image, et mesurer comment
la sortie en est affectée. En déplaçant la partie cachée en chaque pixel de l’image, on
peut obtenir une carte de saillance, comme sur la figure 3.1 (c) et (f). Les méthodes
LIME, proposées par Ribeiro, Singh et Guestrin (2016, 2018) se basent également
sur ce principe, en perturbant des ensemble de pixels conjoints et homogènes appelés
super-pixels. Une autre méthode model-agnostic populaire basée sur la perturbation de
caractéristiques est SHAP, proposée par Lundberg et S.-I. Lee (2017).
Toutefois la question à laquelle tentent de répondre toutes les méthodes de cette classe,
qui se base sur la localisation dans l’image des parties importantes, est peu pertinente
pour les réseaux de segmentation. En effet, la segmentation est par essence une tâche
de localisation, et le masque prédit contient déjà cette information.
3.1.2 Visualisation
Une autre manière de gagner en compréhension sur un réseau de neurone est de générer
une image qui maximise l’activation d’un neurone du réseau. Le principe est d’opti-
miser cette activation par montée de gradient, en utilisant les gradients calculés par
rétro-propagation, comme dans la section précédente. Plusieurs articles (Simonyan,
Vedaldi et Zisserman 2013 ; Yosinski et al. 2015) ont proposé des méthodes qui
reposent sur ce principe, qui ne varient que par la régularisation utilisée : L2 , flou Gaus-
sien, translations aléatoires, zooms. Sans régularisation, en effet, les images générées
sont plus difficiles à interpréter. La figure 3.3a montre le genre d’images qu’on peut
obtenir avec cette méthode.
Cette méthode est connue sous le nom de DeepDream, d’après un article de blog de
chercheurs de Google (Mordvintsev, Olah et Tyka 2015), dans lequel ils montrent
les images très stylisées qu’ils ont réussi à obtenir avec cette méthode (voir figure
3.3b).
52
(a) (b)
Figure 3.3 – Exemples d’images obtenues par maximisation d’activation. (a) est tirée
de Simonyan, Vedaldi et Zisserman (2013), (b) de Mordvintsev, Olah et Tyka
(2015)
Une variante de cette méthode, proposée par Mahendran et Vedaldi (2015, 2016),
consiste à trouver l’image qui minimise la distance de sa représentation à une couche
donnée du réseau (c’est-à-dire les activations de cette couche) à une représentation cible,
et ainsi inverser cette représentation. Cela permet de visualiser quelle information sur
l’image a été gardée, à une couche donnée du réseau.
Nguyen et al. (2016) ont proposé de visualiser une image qui maximise l’activation
d’un neurone non pas en optimisant directement sur les pixels de l’image, mais sur
le vecteur d’entrée d’un réseau générateur, préalablement entraîné par apprentissage
adversaire. Ainsi, les images générées ressemblent davantage à des images réelles, ce
qui rend la visualisation plus aisée.
53
3.1.3 Interprétabilité par concepts
Une autre question à laquelle on peut chercher à répondre est celle de la topologie de
l’espace des représentations, dans les différentes couches du réseau. En apprentissage
automatique, on cherche toujours à représenter les données dans un espace où elles
sont linéairement séparables (autrement dit, en considérant une tâche de classification
binaire, un espace où il existe un hyperplan tel que les échantillons d’une même classe
soient tous du même côté de celui-ci). C’est le principe des méthodes à noyau par
exemple.
Alain et Bengio (2016) montrent que les réseaux de neurones convolutionnels ap-
prennent une représentation dans laquelle les données deviennent progressivement li-
néairement séparable, au fur et à mesure des couches du réseau. Ils obtiennent ce
résultat à l’aide de « sondes », qui sont des modèles de classification linéaires qu’ils
entraînent sur les sorties de chaque couche. Une idée d’interprétabilité est alors de
visualiser l’ensemble des échantillons de la base de données à différentes couches du
réseau, comme mentionné par Chakraborty et al. (2017), à l’aide de méthodes de
visualisation par réduction de dimensionnalité comme t-SNE (Van der Maaten et
G. Hinton 2008) ou UMAP (McInnes, Healy et Melville 2018). K. Xu et al.
(2018) proposent une méthode de réduction de dimensionnalité utilisant les probabili-
tés d’appartenance à une classe prédites par un réseau de classification.
L’idée qui suit, exploitée par Kim et al. (2018), est de se demander si l’espace des
représentations appris par le réseau sépare linéairement les données, non seulement
en fonction de leur classe, mais aussi en fonction de concepts compréhensibles par
les humains. L’intuition est que pour classifier correctement un tigre, un réseau doit
apprendre une représentation dans laquelle les objets rayés sont séparés des autres. On
peut comme cela tester différents concepts pour lesquels on a une base annotée.
Yeche, Harrison et Berthier (2019) ont proposé une méthode pour interpréter les
réseaux de classification d’images médicales, qui se base sur ce principe, en utilisant
des caractéristiques continues à la place de concepts discrets. Mes essais d’appliquer
cette stratégie avec un réseau de segmentation n’ont cependant pas étés concluants,
et ont donné des résultats moins intéressants qu’avec la méthode, plus simple, que je
propose dans la suite.
Cette classe d’approches m’intéresse particulièrement parce qu’elle est applicable aux
images médicales. Il est en effet possible de décrire de manière compréhensible un objet
à segmenter dans une image médicale avec ses caractéristiques (grand, petit, clair,
sombre, texturé, homogène...), qu’on peut voir comme des concepts interprétables. La
méthode que je décris dans ce chapitre fait le pont entre les méthodes de visualisation,
adaptées aux réseaux de segmentation, et les méthodes par concepts, adaptées aux
images médicales.
54
3.2 Comment interpréter un réseau de seg-
mentation ?
On a vu dans la section précédente que de nombreuses manières d’interpréter un réseau
avait été proposées dans la littérature, et que l’interprétabilité par concepts était l’ap-
proche la plus prometteuse pour interpréter les réseaux de segmentation parmi les trois
décrites. L’idée est de choisir un ensemble de concepts compréhensibles par un humain
et de déterminer lesquels de ces concepts un réseau utilise pour prendre la décision de
ranger une entrée dans une certaine classe. On aimerait être capable de répondre à des
questions du genre « ce réseau détecte-t-il des rayures pour reconnaître un tigre ? Est-il
sensible au rouge pour détecter un camion de pompiers ? »
Dans le cas d’un réseau de segmentation d’images médicales, on peut se poser le même
genre de questions à l’échelle des groupe de pixels : l’intensité d’un tel groupe joue-t-
elle un rôle dans la décision de le considérer comme une tumeur ? Sa taille, sa forme
ont-elles une importance ? La figure 3.4 montre un exemple d’une coupe dans laquelle
une tumeur du foie est visible. On peut y voir différents groupes homogènes de pixels
dans le foie et aux alentours, dont quelques-uns sont mis en évidence par une flèche.
Un oeil humain (qui a l’habitude) peut aisément reconnaître que la tache pointée par
la flèche jaune, au vu de son intensité plus importante que les alentours, de sa taille
et de sa forme, est un vaisseau sanguin, alors que celles pointées par la flèche rose,
qui sont plus sombres, est une lésion. De la même façon qu’un humain peut souvent
facilement expliquer à quoi il reconnaît ce qu’il voit, il serait intéressant de savoir si
un réseau prend en compte des critères similaires à ceux des humains pour prendre ses
décisions.
Ainsi, une manière d’interpréter le fonctionnement d’un réseau de segmentation se-
rait de quantifier quelles caractéristiques compréhensibles par un humain (comme la
taille, la forme ou la texture) doivent avoir certains groupes de pixels pour être plus
susceptibles d’être segmentés par le réseau.
Pour être plus précis, introduisons les notions de sensibilité et de robustesse d’un réseau
à une caractéristique. Dans la suite, on dit qu’un réseau est sensible à une caractéris-
tique si un groupe de pixels a plus de chance d’être classifié positivement par ce réseau
lorsque, toutes choses égales par ailleurs, la valeur de cette caractéristique calculée sur
ce groupe de pixels augmente. À l’inverse, on dit qu’un réseau est robuste (ou indiffé-
rent selon ce à quoi on s’attend) à une caractéristique si la sortie du réseau ne varie
pas lorsqu’on modifie, toutes choses égales par ailleurs, la valeur d’une caractéristique
d’un groupe de pixels. Interpréter un réseau reviendrait à estimer, pour un ensemble
choisi de caractéristiques compréhensibles, les sensibilités du réseau à chacune d’entre
elles.
55
Figure 3.4 – Plusieurs taches sont visibles dans le foie et à proximité. Comment le
réseau parvient-il à faire la différence entre les métastases (flèches rouges), un vaisseau
sanguin (flèche jaune), la vésicule biliaire (flèche verte), un morceau de rein (flèche
rose) ou d’intestin (flèche bleue) ?
Par exemple, on sait qu’en imagerie CT au temps d’injection portal, les métastases
apparaissent comme des taches hypointenses (voir les flèches rouges sur la figure 3.4),
à peu près sphériques et que leur taille peut varier de quelques millimètres à plusieurs
centimètres. On s’attend donc à ce qu’un réseau performant pour segmenter les méta-
stases dans ce type d’images soit sensible aux faibles intensités, et relativement robuste
à la taille. Admettons au contraire qu’on se rende compte que le réseau obtenu est très
sensible au diamètre des tumeurs, et qu’il soit d’autant plus disposé à segmenter une
tache sombre qu’elle est grosse. On pourrait alors en déduire que le réseau risquerait
de passer à côté de petites tumeurs, ce que l’on aurait pas pu savoir en se contentant
de tester le réseau avec le score Dice moyen sur une base de test. Pour y remédier,
on pourrait par exemple rajouter à la base d’entraînement des images montrant des
petites lésions, ou pénaliser plus fortement les erreurs sur les petites lésions pendant
l’apprentissage, afin de faire diminuer cette sensibilité et ainsi augmenter la robustesse
générale du réseau.
Cependant, la notion de « toutes choses égales par ailleurs » implique qu’il est très
difficile de mesurer directement ces sensibilités pour un ensemble arbitraire de caracté-
ristiques : on ne peut pas artificiellement faire varier la taille d’une tumeur, par exemple,
sans toucher à d’autres caractéristiques d’intensité ou de texture et on ne pourrait pas
déterminer à quoi seraient dues les variations de réponse du réseau. Dans la section
suivante, je propose une méthode qui permet de se faire une idée des sensibilités et
robustesses de n’importe quelle caractéristique calculable.
56
Parmi elles, les caractéristiques radiomiques, qui sont un ensemble de descripteurs
conçus pour extraire l’information utile des organes ou lésions segmentées dans les
images, sont de bons candidats. Une centaine de caractéristiques, plus ou moins in-
terprétables, ont été standardisées par Zwanenburg et al. (2020), comprenant des
descripteurs de formes (diamètre, volume, sphéricité, élongation...), des statistiques
sur les intensités (énergie, moyenne, écart type, entropie...), et des descripteurs de tex-
ture basés sur des statistiques de voisinages (par exemple, le nombre de pixels voisins
ayant la même intensité). Elles serviront de base et de motivation pour utiliser des
caractéristiques continues plutôt que des concepts discrets (comme la présence ou non
de rayure, par exemple).
y f2 f2
Norm. feat. value
1
f1 0
-1
1 f1
-1
x -1 0 1
f1 DeepDream
57
Admettons ensuite qu’on puisse calculer deux caractéristiques f1 et f2 telles que pour
chacun de ces échantillons, f1 corresponde à la position sur la ligne verte, et f2 l’écart
à la ligne. On peut ainsi représenter le jeu de données dans l’espace de ces deux carac-
téristiques (figure 3.5, milieu). Les classes positives et négatives étant complètement
déterminées par la la position sur la ligne f1 , on peut s’attendre, intuitivement, à ce
qu’un classifieur idéal sur ce jeu de données s’appuie uniquement sur f1 , et que la ligne
qui sépare l’espace apparaisse donc verticale dans l’espace des caractéristiques. Or, on
remarque que ce n’est pas le cas lorsqu’on représente cette ligne pour le classifieur
considéré (la ligne grise sur la figure du milieu), et qu’il n’est donc pas idéal (on peut
imaginer par exemple un échantillon qui soit mal classifié parce qu’un peu trop écarté
de la ligne).
Autrement dit, on aimerait que le classifieur soit sensible à f1 et robuste à f2 . Comment,
dès lors, déterminer la trop faible sensibilité de notre classifieur à f1 , et son manque de
robustesse à f2 ?
L’idée de la méthode que je détaille dans la suite, qui fonctionne avec tous les classifieurs
dérivables, consiste à suivre le chemin de plus forte pente depuis un échantillon négatif
dans l’espace d’entrée, et de suivre l’évolution des caractéristiques qui nous intéressent
le long de ce chemin. Ce chemin de plus forte pente, qu’on appellera chemin Deep
dream pour des raisons qu’on précisera dans la suite, est représenté par une flèche
pointillée sur la figure 3.5 à gauche et au milieu. À droite, on peut voir l’évolution des
caractéristiques f1 et f2 le long de ce chemin.
L’hypothèse principale de la méthode est que le chemin de plus forte pente dans l’espace
d’entrée favorise les caractéristiques auxquelles le réseau est le plus sensible. Ainsi, si
la valeur d’une caractéristique varie beaucoup le long de ce chemin, on peut en déduire
que le réseau est sensible à celle-ci ; inversement, si la valeur d’une caractéristique reste
constante, on peut en déduire que le réseau y est robuste.
Normaliser les valeurs des différentes caractéristiques est crucial pour savoir si les va-
riations de valeurs sont significatives. Pour cela, une solution simple est de normaliser
selon la moyenne et l’écart-type calculés sur les exemples positifs de la base d’entraî-
nement. De cette manière, la valeur d’une caractéristique s’éloignant fortement des
valeurs normales (comme c’est le cas pour f2 dans l’exemple de la figure 3.5) peut
indiquer une trop forte sensibilité à cette caractéristique. De la même manière, une
caractéristique évoluant vers des valeurs normales peut indiquer une sensibilité atten-
due, de même qu’une stagnation hors des valeurs normales peut indiquer un manque
de sensibilité.
3.3.2 L’algorithme
Deep Dream est le nom donné par les chercheurs de Google (Mordvintsev, Olah et
58
Base image Forward
Cup
Dumbbell
Dalmatian
Car
Activation to
CNN Plane
Labrador
maximize
Cat
...
Gradients
Activation to
CNN maximize
Gradients
59
itération 0 itération 120 itération 250 itération 600
Figure 3.7 – Différentes étapes d’une montée de gradient appliqué à une coupe CT
montrant un foie sain, avec un réseau entraîné à segmenter des tumeurs du foie dans
des coupes CT. La ligne du haut montre les images Xj , et la ligne du bas montre les
masques Mj (le blanc indique une probabilité proche de 1). La croix rouge sur l’image
de gauche montre l’emplacement du neurone maximisé par montée de gradient. On
observe l’apparition d’une zone répondant positivement.
3.3.3 Expériences
La pertinence de cette méthode repose sur l’hypothèse que le chemin de plus forte
pente favorise l’évolution des caractéristiques auxquelles le réseau est le plus sensible.
Si celle-ci peut paraître raisonnable, elle n’est néanmoins pas soutenue par des bases
60
Figure 3.8 – Image marquée pour l’expérience contrôlée. Les lignes bleues représentent
le contour de la segmentation de référence.
théoriques. Le but de cette section est de montrer, dans des contextes contrôlés, quel
genre de résultats la méthode peut effectivement fournir.
Expérience contrôlée
Cette expérience vise à montrer que l’analyse de Deep Dream peut permettre, dans
un contexte où l’on connaît par ailleurs la sensibilité réelle d’un réseau à une carac-
téristique, d’estimer cette sensibilité. Pour cela, on part d’une tâche de segmentation
de chats et de chiens en utilisant le jeu de données public COCO (T.-Y. Lin, Maire
et al. 2014).
On ajoute à une proportion p de chats et chiens un marquage, qui est une texture
synthétique constituée de courts segments orientés à 135°, d’intensités et positions
variables (voir figure 3.8) (Les chats et chiens marqués sont tirés aléatoirement avec une
probabilité p). On entraîne plusieurs réseaux Gp , d’architecture U-net, avec différentes
valeurs de p.
Pour estimer à quel point un réseau compte sur le marquage pour segmenter les images,
on calcule simplement le score Dice obtenu sur la base de test sans le marquage. Ainsi,
on considère qu’un réseau qui obtient un bon score sur la base de test sans le marquage
ne l’utilise pas pour prendre ses décisions, tandis qu’un réseau qui obtient un plus
mauvais score en a plus besoin.
Pour l’analyse de DeepDream, on a besoin de suivre une caractéristique fm qui répond
à la présence du marquage. Pour cela, j’utilise le maximum de la convolution de l’image
avec un segment orienté à 135° de la même taille que celui utilisé pour le marquage,
61
Characteristic feature
Characteristic feature
Figure 3.9 – Expérience contrôlée. 7 réseaux ont été entraînés avec différentes proba-
bilités p de marquer les zones annotées positivement. (a) Deep Dream du réseau avec
p = 100% en haut, p = 0% en bas. (b) Evolution de la caractéristique du marquage
pendant la procédure de montée de gradient. (c) Score Dice sur l’ensemble de test sans
marquage, et caractéristique du marquage à la fin du Deep Dream pour chacun des 7
réseaux. On remarque que plus un réseau obtient de mauvaises performances sur l’en-
semble de test, et par conséquent compte sur le marquage pour faire ses segmentations,
plus son Deep Dream montre une caractéristique du marquage élevée.
où X est une image de taille h × l, M ∈ {0, 1}h×l est le masque, s135◦ est le segment
orienté à 135°. i et j représentent les coordonnées des pixels de l’image.
La figure 3.9a montre les DeepDreams obtenus pour les réseaux avec p = 100% et p =
0%. On peut clairement voir une texture semblable à la texture synthétique rajoutée
pour le réseau avec p = 100%. La figure 3.9b montre l’évolution de la caractéristique
fm au cours de l’optimisation, pour différentes valeurs de p. Ces courbes montrent une
augmentation rapide de fm pour le réseau entraîné avec p = 100%, ainsi que pour les
réseaux entraînés avec p = 95% et p = 90%, ce qui suggère une certaine sensibilité de
ces réseaux à cette caractéristique. En revanche, fm reste constante pour les réseaux
entraînés avec p ≤ 20%, suggérant cette fois que ces réseaux ne sont pas sensibles au
marquage.
La figure 3.9c met en relation le score Dice obtenu sur la base de test sans marquage,
qui indique à quel point un réseau peut se passer du marquage, à la sensibilité à la
caractéristique fm évaluée par notre méthode. On constate que les réseaux entraînés
62
(a) (b)
Figure 3.10 – Tumeurs synthétiques ajoutées (zones sombres) dans le foie sur une
image montrant un foie sain. (b) Image avec des tumeurs synthétiques allongées. En
bleu le masque de la vérité terrain pour l’expérience sur l’élongation.
avec p ≤ 20% n’ont pas de perte de performance lorsqu’on enlève le marquage (le réseau
p = 0% servant d’étalon), ce qui cohérent avec le fait que l’analyse de DeepDream ne
détecte de pas de sensibilité à la caractéristique du marquage. De manière générale, on
constate que plus un réseau compte sur le marquage pour prendre ses décisions, plus
on détecte une sensibilité élevée à fm .
Cette expérience tend donc à montrer que, dans certains contextes au moins, la méthode
permet de se faire une bonne idée de la sensibilité (ou robustesse) d’un réseau de
segmentation à certaines caractéristiques.
Tumeurs synthétiques
Pour cette expérience, on considère un réseau entraîné à segmenter des tumeurs du
foie dans des coupes CT, ainsi qu’un réseau entraîné à segmenter des « fausses tu-
meurs ».
Pour générer la base de fausses tumeurs, on récupère les coupes CT de la base de
données qui contiennent du foie mais pas de tissu tumoral. Pour chacune de ces coupes,
on génère aléatoirement un masque, à la manière de l’expérience décrite à la section
2.2.1, dont on ne garde que l’intersection avec le masque du foie (qui a été segmenté
manuellement au préalable). Ensuite, on abaisse simplement l’intensité des pixels de
l’image où le masque est positif. Le résultat de la procédure est visible sur la figure
3.10a.
Le but de cette expérience est d’étudier ce que l’analyse de DeepDream peut nous
apprendre sur la différence de comportement de deux réseaux entraînés sur des tâches
qui peuvent a priori sembler similaires, si l’on considère qu’un humain va chercher des
63
1.0 1140
0.8
RMS Intensity
Trained on true tumors 1120
Elongation
25
Diameter
20
15 Trained on true tumors
Trained on fake tumors
10 Trained on fake, elongated tumors
20 40 60 80 100
Optimization step
Parallèlement, on entraîne un autre réseau sur une autre base de tumeurs synthétiques,
dans laquelle les pseudo-tumeurs sont générées avec des formes plus allongées. De plus,
on entraîne ce réseau pour ne segmenter que les pseudo-tumeurs dont la hauteur dépasse
de deux fois la largeur (voir figure 3.10b). De cette manière, on force le réseau à être
sensible à l’élongation. L’idée ici est de vérifier que l’analyse de DeepDream est capable
également de mettre en valeur les sensibilités à des caractéristiques de forme, et pas
seulement des caractéristiques d’intensité et de texture.
64
Figure 3.12 – DeepDream et le masque correspondant générés avec le réseau entraîné
sur les fausses tumeurs allongées.
meilleure sensibilité aux basses intensités, ce qui tend à montrer que, pour cette tâche
plus difficile, le réseau doit apprendre plus en détail les caractéristiques réelles des
tumeurs. De manière générale, ce résultat est conforme à l’intuition que moins la base
d’entraînement est variée, plus le réseau peut se concentrer sur des détails ou sur une
partie seulement des caractéristiques des objets à segmenter. La sensibilité plus faible
au diamètre montré par le réseau entraîné sur les pseudo-tumeurs peut aussi aller dans
le sens de cette intuition, dans le sens où le critère de taille aurait moins d’importance
pour cette tâche plus facile, en admettant que les pseudo-tumeurs générées soient de
même taille en moyenne que les vraies.
On remarque ensuite que les DeepDreams obtenus avec le réseau entraîné sur les
pseudo-tumeurs allongées reflètent bien la sensibilité à l’élongation, comme on peut
le voir sur la figure 3.12, et sur les courbes en haut à gauche de la figure 3.11. Cela
tend à montrer que la méthode peut également mettre en valeur les sensibilités à des
caractéristiques de forme, comme l’élongation.
65
5 Intensity RMS
Sphericity
4 Perimeter
GLCM Contrast
Normalized feature value
3 Intensity Entropy
2 GLDM LargeDependanceEmphasis
1
0
1
2
3
200 400 600 800 1000
Optimization step
Chacune d’entre elles est normalisée sur les valeurs calculées sur la base d’entraînement,
de manière à ce que 0 corresponde à la valeur moyenne, et que [−1, 1] corresponde à
l’intervalle normal. Les résultats sont montrés sur la figure 3.13.
On peut alors discerner plusieurs tendances, qu’ont peut interpréter comme suit :
— La valeur d’une caractéristique évolue en se rapprochant des valeurs normales,
comme c’est le cas ici pour l’intensité et la sphéricité. Cela montre une bonne
sensibilité du réseau à ces caractéristiques.
— La valeur d’une caractéristique évolue peu, tout en restant à l’intérieur de l’inter-
valle normal, comme c’est le cas ici pour la périmètre. On peut interpréter cela
comme une bonne robustesse à cette caractéristique.
— La valeur d’une caractéristique évolue peu, ou reste en dehors des valeurs nor-
males comme c’est le cas ici pour le contraste GLCM, ou l’entropie. Cela peut
montrer une trop faible sensibilité à ces caractéristiques.
— La valeur d’une caractéristique évolue fortement et rapidement hors des valeurs
normales, comme la Large Dependance Emphasis GLDM ici. On peut interpré-
ter cela comme une trop forte sensibilité (ou un manque de robustesse) à cette
caractéristique.
Il est important de noter que ces caractéristiques n’ont pas la même utilité pour se
faire une idée du fonctionnement du réseau. En fonction des informations a priori
qu’on a sur ce fonctionnement (par exemple qu’un réseau de segmentation de tumeurs
66
doit être sensible à des taches de faible intensité) où de l’interprétabilité même des
caractéristiques (ici il est difficile d’avoir une idée précise de ce que les caractéristiques
GLCM et GLDM signifient), les courbes apportent plus ou moins d’information.
Au total, l’analyse de DeepDream nous apprend que ce réseau est sensible aux taches
sombres, avec une préférence pour les formes rondes, et qu’il semble peu tenir compte
de la texture des tumeurs. Ceci est cohérent avec nos ce que l’on connaissait a priori du
problème, et suggère donc que le réseau a bien appris à reconnaître une lésion.
3.4 Conclusion
Le travail présenté dans ce chapitre se base sur le constat que la littérature en Deep
Learning interprétable s’intéresse peu aux réseaux de segmentation (section 3.1). Or,
le constat selon lequel l’interprétabilité des modèles de traitement d’image est parti-
culièrement importante quand il s’agit de traiter des images médicales, et selon lequel
la segmentation automatique est à la fois l’un des problèmes les plus importants en
imagerie médicale et l’un de ceux qui ont le plus bénéficié de l’essor du Deep Learning,
fournit une motivation importante pour s’attaquer à ce problème.
Je propose ainsi, dans la section 3.2 une manière d’interpréter les réseaux de segmenta-
tion, différente des approches basées sur l’explication d’exemples qui sont maintenant
standard pour les réseaux de classification mais peu pertinentes pour les réseaux de
segmentation. Celle-ci consiste à estimer les sensibilités et robustesses du réseau à cer-
taines caractéristiques des objets qu’il a appris à segmenter (la forme, l’intensité des
tumeurs par exemple).
Je propose également, dans la section 3.3, une méthode pour estimer ces sensibilités
localement, c’est-à-dire au voisinage d’un point négatif, où il n’y a pas d’objet à seg-
menter. Je montre avec des expériences que cette méthode peut effectivement estimer
correctement les sensibilités d’un réseau à certaines caractéristiques, notamment de tex-
ture et de forme, dans des contextes où l’on connaît ces sensibilités par ailleurs.
Celle-ci pourrait être utilisée pour s’assurer du fonctionnement correct d’un réseau,
en complément du calcul du score sur une base de test, qui peut souffrir des mêmes
biais que la base d’entraînement. Ce calcul pourrait ainsi ne pas mettre en valeur
certains comportements indésirables, que l’on pourrait par ailleurs exprimer en termes
de sensibilité et de robustesse à des caractéristiques. Elle pourrait être également utile
pour détecter et corriger certains de ces biais, et ainsi obtenir un modèle plus robuste
en général.
67
68
Chapitre 4
69
segmentation d’instances plus que de la segmentation standard. En effet, les tumeurs
doivent souvent être considérées individuellement, que ce soit pour suivre leur évolution
au cours du temps, ou pour calculer des caractéristiques quantitatives (notamment dans
le cadre de la chaîne de traitements détaillée à la page 9, qui est le fil conducteur de
cette thèse). Une simple segmentation du tissu malade ne permet pas de différencier des
tumeurs qui se touchent par exemple. Dans ce chapitre, on s’intéresse à la détection
de lésions sous forme de boîtes englobantes, qui est une base pour la segmentation
d’instances.
Les radiologues ayant besoin de plusieurs modalités pour caractériser une lésion (voir
chapitre 1), il est naturel de vouloir les détecter automatiquement dans plusieurs mo-
dalités à la fois, à la manière de ce que l’on a étudié pour la segmentation du foie
dans le chapitre 2. Comme pour mon travail sur la segmentation, un des objectifs est
d’obtenir des détections plus précises en fournissant l’information des deux modalités
au réseau. En effet, certaines lésions n’étant pas visibles (ou seulement partiellement)
dans des images de certaines modalités, combiner l’information de plusieurs images
peut être dans certains cas indispensable. Mais l’enjeu le plus important est d’avoir,
pour chaque tumeur, son emplacement dans les deux images (comme expliqué dans la
section 1.2.4 à la page 8). En effet cet emplacement peut être très différent si, comme
dans le cas d’application qui nous intéresse, les différentes images ne sont pas acquises
simultanément, et d’autant plus si les objets à détecter sont situés dans du tissu mou
qui se déforme pendant la respiration. Je me limite dans ce chapitre au cas où les images
sont acquises dans la même journée, et que la maladie n’a pas eu le temps d’évoluer
significativement 1 .
Cette contrainte demande de prédire, en plus des boîtes englobantes de toutes les
tumeurs, une correspondance entre les boîtes prédites dans les deux modalités. Certains
patients, notamment ceux atteints de cancers métastatiques (voir la figure 1.1 page
3), ont plusieurs dizaines de lésions dans le foie, de sorte qu’il est ardu de faire la
correspondance entre les tumeurs des deux images. La détection jointe des lésions
dans plusieurs images pourrait donc permettre aux radiologues de gagner un temps
important.
Le but de ce chapitre est de proposer et d’étudier une méthode de détection de lésions
hépatiques dans les paires d’images IRM pondérées en T1 et T2. Premièrement, je
décris l’état de l’art en détection dans la section 4.1, avant de présenter la méthode que
je propose dans la section 4.2. Ce chapitre est le résultat d’un travail préliminaire, qui
vise à montrer la pertinence d’une telle méthode plutôt que ses performances, comme
illustré dans les sections 4.3 et 4.4. Je discute dans la section 5.1.3 des expériences
qu’il resterait à mener pour avoir une vue plus globale des atouts et limites de cette
1. Pour une discussion sur les enjeux liés à la détection jointe dans des images acquises à plusieurs
mois d’intervalle, voir la section 5.2.3
70
méthode.
Figure 4.2 – Chronologie des innovations importantes pour la détection d’objets. Tirée
de Z.-Q. Zhao et al. 2019.
71
Region-based Convolutional Neural Network et proposé par Girshick et al. 2014), et
notamment Fast-RCNN (Girshick 2015) et Faster-RCNN (Ren et al. 2015). Alors
que le RCNN et le Fast-RCNN se concentraient sur la deuxième étape de classification,
qui consiste à faire la classification et l’ajustement d’une liste de propositions, Faster-
RCNN propose d’aborder la première également avec du Deep Learning, en introduisant
le RPN, pour Region Proposal Network. Il introduit pour cela le concept d’ancres, que
je détaille dans la section 4.2. Le Mask-RCNN de K. He, Gkioxari et al. 2017 est une
variante très populaire du Faster-RCNN qui ajoute une branche de segmentation à la
deuxième étape pour devenir un modèle de segmentation d’instance.
Le principe des méthodes à une seule étape est de déterminer la position, la classe, et
les coordonnées de la boîte englobante des objets en une seule passe d’un réseau de
neurones. Deux architectures dominent cette branche : YOLO (pour You Only Look
Once) et ses évolutions (Redmon, Divvala et al. 2016 ; Redmon et Farhadi 2017),
et SSD (pour Single-Shot Detector) et ses évolutions (C.-Y. Fu et al. 2017 ; Z. Li et
F. Zhou 2017 ; W. Liu et al. 2016). Le principe de YOLO est de partitionner l’image
et de prédire un nombre de fixe de boîtes englobantes par subdivision. SSD se base sur
le principe du RPN, mais en utilisant plusieurs cartes de caractéristiques de différentes
résolutions d’un réseau « colonne vertébrale » en même temps.
Cette astuce a pour but de répondre à une difficulté importante et inhérente aux objets
des images naturelles, qui est leur grande variabilité de taille. Le FPN (pour Feature
Pyramid Network), introduit par T.-Y. Lin, Dollár et al. (2017), exploite le même
principe, en ajoutant des connexions remontantes et en l’adaptant à une architecture
de type Faster-RCNN.
Le consensus qui semble maintenant établi (par exemple par T.-Y. Lin, Goyal et al.
2017 ; S. Zhang et al. 2018 ; Z.-Q. Zhao et al. 2019) est que l’approche en deux étapes
donne des résultats plus précis, tandis que l’approche en une seule étape est plus rapide
(ce qui peut être crucial pour certaines applications où l’on a besoin de détection en
temps réel dans un flux vidéo, notamment pour la conduite autonome). Récemment,
des méthodes ont tenté de réunir le meilleur des deux mondes, soit par des innovations
dans l’architecture du réseau lui-même, comme S. Zhang et al. 2018 en imitant les
deux étapes en un seul réseau, soit en concevant une fonction de coût plus adaptée
au fort déséquilibre de classes inhérent aux méthodes de détection par classification
d’ancres (comme le RPN et le SSD). Cette piste est celle de T.-Y. Lin, Goyal et al.
2017, qui introduit la fonction de coût focale (que je détaille dans la section 4.2.3), et
soutiennent qu’un simple RPN utilisant la méthode FPN peut être aussi performant
qu’un Faster-RCNN en utilisant cette fonction de coût. Ils appellent cette combinaison
« Retina-net ».
On voit donc que le choix d’architecture est varié lorsqu’on s’attaque à un problème
72
de détection d’objets, contrairement par exemple à la segmentation où le choix du
U-net semble maintenant assez standard, en tout cas pour les images médicales (voir
section 2.1). Je choisis pour ce chapitre la méthode Retina-net comme base, majoritai-
rement pour la simplicité d’implémentation d’une méthode à une seule étape, et parce
que le problème de déséquilibre de classes peut s’avérer encore plus important en 3D
qu’en 2D.
73
w h d c1 w h d p
w h d (n n )
2 2 2 a c
w h d c w h d p w h d (n 6)
2 2 2 2 2 2 2 2 2 2 a
w h d c w h d p w h d (n 3)
2 a
2 2
4 4 4 3 4 4 4
w h d c
8 8 8 4
(2019), détection de métastases dans le cerveau par Lei, Tian et al. (2020), détection
de nodules du poumon par Kopelowitz et Engelhard (2019) ou de tumeurs de le
sein par Lei, X. He et al. (2020).
74
« colonne vertébrale », et d’associer à chaque voxel des cartes de caractéristiques de
cette pyramide un nombre fixe d’« ancres », qui correspondent à des boîtes de diffé-
rentes tailles et rapports de forme.À chaque niveau de la pyramide, un sous-réseau de
classification et un sous-réseau de régression des boîtes est attaché.
Le sous-réseau de classification doit prédire, pour chaque ancre, si la boîte englobante
d’un objet de l’image chevauche l’ancre au-dessus d’un certain seuil sur le taux de
recouvrement, et éventuellement la classe de cet objet. Le sous-réseau de régression
est quant à lui entraîné pour prédire, pour chaque ancre, l’écart des coordonnées de la
boîte de l’objet le plus proche avec les coordonnées de l’ancre.
Dans toute la suite, on suppose que le réseau prend en entrée une paire d’images de
modalité différente. L’idée de la méthode de détection multimodale que je propose
dans cette section est d’ajouter à ces deux sous-réseaux un sous-réseau de recalage.
Ce troisième sous-réseau est entraîné pour prédire le vecteur de déplacement entre
l’emplacement de la lésion dans une image vers son emplacement dans l’autre image.
Cet entraînement se fait de manière supervisée : les annotations sont effectuées en même
temps dans les deux images, en prenant soin de faire correspondre les lésions dans les
deux modalités. Ainsi, le vecteur de déplacement à prédire est directement disponible
pendant l’entraînement. C’est la différence principale avec les méthodes de recalage
par Deep Learning évoquées dans la section 2.1.5, qui cherchent à estimer le champ de
déformation dans toute l’image : celles-ci ne peuvent pas compter sur des annotations
manuelles de tout le champ de déformation, et minimisent donc en général une fonction
de coût basée sur les intensités de l’image pour entraîner leurs réseaux.
Lors de l’entraînement, on attribue aux lésions de chaque modalité une classe différente.
Pour la prédiction, on considère que deux boîtes détectées dans des modalités différentes
correspondent à la même tumeur si la boîte de l’une translatée par le vecteur prédit
par le sous-réseau de recalage chevauche l’autre au-dessus d’un certain seuil (voir figure
4.5).
4.2.2 Architecture
Étant donné un réseau colonne vertébrale, on note Bk (x) les cartes de caractéristiques
de ce réseau en sortie du k-ième bloc de convolution, si x est l’image d’entrée. On
admet que l’architecture de la colonne vertébrale est telle qu’au niveau k, la résolution
est diminuée d’un facteur 2k−1 par rapport à l’image originale (par exemple avec un
max-pooling ou une convolution stridée dans chaque bloc). Pour la détection d’objets
dans les images naturelles, ce réseau colonne vertébrale est en général un réseau de
classification pré-entraîné (d’architecture VGG ou ResNet par exemple).
On construit le k-ième étage de la pyramide par l’opération Pk (x) = pk (Bk (x) +
75
Figure 4.4 – Illustration du calcul des vérités terrain, pour une ancre représentée
en orange. La boîte des annotations englobant l’objet le plus proche de l’ancre est
représentée en bleu. Celle englobant le même objet dans l’autre image est représentée
en rouge. La zone verte correspond à l’intersection entre la boîte bleue et l’ancre. Si le
rapport entre le volume de l’intersection et le volume de l’union de l’ancre et de la boîte
dépasse sp , alors l’ancre sera considérée positive. Les double flèches rouges indiquent
les valeurs à régresser par le sous-réseau R. La flèche pointillée mauve représente le
vecteur de déplacement à estimer par le sous-réseau D.
76
méta-paramètre) est l’ensemble des niveaux de la pyramide que l’on considère.
La figure 4.4 illustre comment sont calculées les valeurs à prédire par les trois sous-
réseaux. Pour le sous-réseau de classification C, nr = 2nc , où nc est le nombre de
classes : pour chaque classe, l’objet détecté peut être soit dans la première image,
soit dans la seconde. Pour mes expériences j’utilise nc = 1, ce qui correspond au cas
où l’on ne souhaite pas différencier les objets à détecter. Ainsi la sortie du réseau
C(Pk (x))ix ,iy ,iz ,(a×c×m) est une estimation de la probabilité que l’ancre a à la position
spatiale ix , iy , iz englobe un objet de la classe c dans l’image m, avec 0 ≤ a < na ,
0 ≤ c < nc et m ∈ {0, 1}.
(δx1 , δx2 , δy1 , δy2 , δz1 , δz2 ) = R(Pk (x))ix ,iy ,iz ,a
Pour chaque dimension d ∈ {x, y, z}, δd1 et δd2 correspondent à l’écart des bornes de la
boîte englobante détectée avec celles de l’ancre, selon la dimension d.
4.2.3 Optimisation
Pour entraîner le modèle, on a besoin des valeurs cibles de classes, coordonnées de
boîtes englobantes et vecteurs de déplacement pour chacune des ancres. Ces valeurs
sont calculées à partir des boîtes englobantes annotées à la main sur l’ensemble d’en-
traînement. Pour chaque ancre, on détermine la boîte englobante issue de l’annotation
la plus proche, c’est-à-dire celle qui a le plus grand rapport intersection/union avec elle.
On considère qu’une ancre est positive si ce rapport dépasse un seuil sp , et négative si
ce rapport est en-dessous d’un autre seuil sn . Entre sn et sp , on ignore cette ancre pour
l’apprentissage. Dans la suite, on note IoU le rapport intersection/union d’une ancre
avec la boîte annotée la plus proche.
77
Fonction de coût focale pour le classifieur
Le postulat de T.-Y. Lin, Goyal et al. (2017) est que tout problème de détection
d’objet dans des images doit faire face à un fort déséquilibre de classes : le nombre
d’ancres par image est très important (plusieurs par pixel de l’image), tandis qu’il
n’y a que quelques dizaines d’objets au maximum par image, si bien que le nombre
d’exemples négatifs dépasse largement le nombre d’exemples positifs.
Suivant T.-Y. Lin, Goyal et al. (2017), on utilise une fonction de coût focale pour
entraîner le sous-réseau de classification. Cette fonction de coût a pour but, par rapport
à une entropie croisée binaire classiquement utilisée pour les tâches de classification, de
défavoriser les ancres faciles, c’est-à-dire les ancres que le réseau classifie correctement
avec une forte confiance. L’hypothèse est que le réseau arrivera facilement à classifier
correctement les exemples négatifs avec une forte confiance, et qu’une simple entropie
croisée ne pénaliserait pas assez les faux négatifs par rapport aux vrais négatifs.
Si p est la probabilité qu’une ancre a contienne un objet de classe c estimée par le réseau,
et y ∈ {0, 1} la probabilité cible, la fonction de coût focale à la forme suivante :
−(1 − p) log(p) si y = 1 et IoU ≥ sp
γ
où γ est un méta-paramètre qui contrôle le poids des exemples faciles dans la fonction
de coût. Notons que si IoU < sn alors y = 0. Si γ = 0 on retrouve une entropie croisée
binaire classique, et plus γ est grand, moins les exemples faciles vont avoir de poids
dans le coût.
78
Cette fonction de coût n’est sensible qu’aux ancres positives, et par conséquent n’est
pas sensible au déséquilibre de classes.
(
ˆ ||dˆ − d||22 si IoU ≥ sp
Leqm (d, d, IoU ) =
0 si IoU < sp
À l’initialisation de l’algorithme, toutes les boîtes prédites par le réseau sont candidates.
À chaque étape, on retient la boîte avec le plus grand score, et on la retire de la liste
des candidates, avec toutes celles donc le rapport intersection/union dépasse un seuil
sN M S (qui est un paramètre de l’algorithme). À la fin on considère que chaque boîte
retenue correspond à un objet détecté. Cet algorithme est effectué indépendamment
pour toutes les classes.
Pour la correspondance entre les boîtes, on utilise le critère illustré sur la figure 4.5 :
si la translatée par le vecteur détecté par D d’une boîte détectée dans une modalité et
une boîte d’une autre modalité ont un rapport intersection/union supérieur à sN M S , on
considère que ces deux boîtes correspondent au même objet. Si aucune boîte de l’autre
modalité ne correspond, alors on considère que la translatée de la boîte correspond à
l’objet dans l’autre modalité. De cette manière tous les objets sont détectés en paires,
et cela réduit la probabilité de faux négatifs.
79
Boîtes correspondantes Boîtes non-correspondantes
Figure 4.5 – Illustration du critère utilisé pour la correspondance des boîtes détectées.
Les boîtes rouges et vertes en trait plein représentent des détections dans les images
différentes, les flèches représentent la prédiction du sous-réseau de recalage, et les boîtes
en pointillé représentent la translatée de la boîte pleine par le vecteur prédit.
80
Figure 4.6 – Une paire d’images synthétiques pour tester la méthode de détection
jointe. Les boîtes rouges correspondent aux détections dans la première modalité (image
de gauche), les boîtes vertes dans la seconde (image de droite). Les flèches correspondent
au déplacement prédit par le réseau.
Paramètres
Pour cette expérience, j’utilise un ResNet-50 (K. He, X. Zhang et al. 2016) comme
réseau colonne vertébrale. J’utilise les niveaux de pyramides 2, 3, 4 et 5. Les ancres
81
de base sont des rectangles de rapport 0.5 (deux fois plus larges que haut), 1 (carrés)
et 2 (deux fois plus hauts que larges), mis à l’échelle d’un facteur 1, 21/3 et 22/3 , soit
na = 9 ancres par pixel. Au niveau 2, le coté de l’ancre de base carrée d’échelle 1 fait
16 pixels, jusqu’au niveau 5 où il en fait 128.
Le seuil sn en-dessous duquel on considère qu’une ancre ne contient pas d’objet est fixé
à 0,4, et le seuil sp au dessus du quel on considère qu’une ancre en contient un est fixé
à 0, 6.
Ce sont des paramètres classiques pour la détection d’objets dans les images naturelles
(proches de ceux utilisé par T.-Y. Lin, Goyal et al. (2017) notamment), en rajoutant
le niveau de pyramide 2, pour les petites formes.
Résultats
La figure 4.6 montre un exemple de résultat de détection. On peut voir que la plupart
des formes sont bien détectées, à l’exception des plus petites d’entre elles (qui ne
passent pas le seuil sp même pour les plus petites ancres), et que les déplacements
prédits pointent bien sur la boîte correspondante de l’autre modalité.
Sur 100 paires d’images générées, le réseau obtient une sensibilité de 72% (en admet-
tant qu’une boîte de la vérité terrain est détectée si le réseau en prédit une avec un
rapport intersection/union supérieur à 0,6), et une spécificité de 92%. Cette sensibilité
relativement basse est majoritairement due aux petites formes, que le réseau a tendance
à manquer. Pour l’augmenter on pourrait soit rajouter le niveau 1 de la pyramide, soit
ajouter une échelle plus petite que 1 à toutes les ancres de base.
De manière générale, cette expérience tend à montrer que la méthode fonctionne cor-
rectement, à la fois pour détecter et faire la correspondance entre les formes, dans un
cas simple en 2D.
82
4.4 Résultats préliminaires sur les données
réelles
Les expériences que je présente dans la suite de cette section visent à étudier si la
méthode peut fonctionner pour l’application qui nous intéresse, à savoir la détection
de lésions hépatiques dans des paires d’images IRM pondérées en T1 et T2. Par rapport
à l’expérience de la section précédente, la difficulté vient surtout d’une part du passage
d’images 2D à 3D, et du passage de données que l’on peut générer à l’infini à un
ensemble de données restreint.
Je présente des résultats préliminaires illustrant la faisabilité d’une telle approche. Des
travaux complémentaires seraient nécessaires pour évaluer le potentiel de la méthode
et feront l’objet d’une étude ultérieure.
J’ai moi-même annoté 48 paires d’images issues de 41 patients, à l’aide d’un outil
permettant de visualiser simultanément les deux images (voir figure 4.8). Chaque lésion
est ainsi localisée dans les deux images, et les dimensions des boîtes peuvent être
ajustées. Chaque cas a en moyenne 6 lésions environ, le nombre de lésions variant de 1
à 54.
Comme pour mes expériences du chapitre 2, les images sont redimensionnées pour que
les voxels fassent 3mm verticalement, et 1,5mm pour les deux dimensions horizontales.
Pour faciliter la tâche de détection, j’applique un masque prédit par un réseau de seg-
mentation du foie aux images, de manière à ce que seuls les voxels du foie n’apparaissent
pas noirs (voir la figure 4.9 à la page 86). On utilise les masques prédits par un réseau
pour que la méthode reste complètement automatique.
83
Figure 4.8 – Paire d’images de la base (la ligne du haut est l’image en T1, celle du
bas l’image en T2) dans l’outil d’annotation. Les boîtes d’une même couleur corres-
pondent à la même lésion. les lignes de couleurs rouges, vertes et bleues correspondent
respectivement aux plans de coupes axiaux, coronaux et sagittaux
84
naturelles (en général respectivement 0,4 et 0,6). En effet en rajoutant une dimension,
les rapports intersection/union deviennent en moyenne bien plus faibles. En laissant
ces seuils trop haut, on risque de n’avoir aucune ancre positive pour certaines boîtes
de la vérité terrain. Si on les fixe à une valeur trop élevée au contraire, des ancres
positives peuvent correspondre à plusieurs boîtes de l’annotation et rendre les tâches
de régression et recalage ambiguës. J’ai choisi sn = sp = 0, 3.
Quant à la fonction de coût focale, je choisis de garder γ = 2, comme préconisé par
T.-Y. Lin, Goyal et al. (2017). Il serait toutefois intéressant d’essayer d’autres valeurs
plus élevées pour ce paramètre, étant donné que le passage à la 3D augmente encore le
déséquilibre de classes.
Pour augmenter artificiellement les données, j’applique des décalages d’intensité aléa-
toires aux images, et je translate les deux images de chaque paire aléatoirement, de
manière à éviter que le réseau d’estimation des déplacements ne sur-apprenne.
J’effectue trois expériences : pour la première, on ne cherche à détecter que les boîtes
dans l’image T1. Les boîtes de l’image T2 sont retrouvées grâce à l’estimation du
déplacement des boîtes détectées dans l’image T1. La seconde est la même à modalité
inversée, tandis que pour la troisième on estime les boîtes des deux images de la paire
à la fois, comme pour l’expérience préliminaire décrite à la section 4.3.
Pour cette dernière, j’ai trouvé qu’utiliser un sous-réseau différent par classe plutôt
qu’un seul pour les deux classes donnait de meilleurs résultats : on entraîne ainsi deux
sous-réseaux de classification, deux sous-réseaux de régression des boîtes et deux sous-
réseaux d’estimation des déplacements.
Il est à noter que la plupart de ces choix sont davantage basés sur l’intuition que
sur l’expérience, et qu’un grand nombre de combinaisons de ces paramètres sont pos-
sibles.
85
Figure 4.9 – Deux tumeurs détectées par le réseau entraîné sur les tumeurs en T2.
Lignes 1 et 3 : images en T1. Lignes 2 et 4 : images en T2. Les colonnes de gauche,
milieu et droite représentent respectivement les coupes axiales, coronales et sagittales.
Les boîtes rouges représentent les tumeurs détectées dans l’image en T2, et les boîtes
bleues les même boîtes translatées par le vecteur de déplacement prédit par le sous-
réseau de recalage.
86
Figure 4.10 – Une tumeur détectée par le réseau entraîné sur les deux modalités. La
boîte rouge correspond à la tumeur détectée dans l’image en T1, et la boîte bleue la
même boîte translatée par le vecteur de déplacement prédit. La boîte verte correspond
à la tumeur détectée dans l’image en T2, et la boîte jaune à la même boîte translatée.
assez bien sur les boîtes détectées de l’autre image (malgré une précision assez faible
de la localisation de la tumeur dans l’image en T1).
La visualisation de ces résultats tend à montrer que la tâche d’estimation du déplace-
ment, dont l’ajout est le cœur de l’innovation que je propose dans ce chapitre, semble
fonctionner correctement. C’est la tâche de détection en elle-même, qui revient pour
cette méthode à de la classification d’ancres, qui souffre encore de mauvaises perfor-
mances.
Cependant, on a toutes les raisons de penser que la tâche de détection fonctionnerait
mieux avec des annotations plus nombreuses et de meilleure qualité, ainsi qu’un peu de
temps pour expérimenter les différentes combinaisons de paramètres, puisqu’un consen-
sus semble maintenant s’être établi sur l’efficacité des méthodes de détection d’objets
par les méthodes à base d’ancres (Faster R-CNN, et Mask R-CNN en tête).
Au total, les expériences décrites dans les sections 4.3 et 4.4 suggèrent que la détec-
tion jointe d’objets dans des paires d’images au moyen de l’ajout d’un sous-réseau
de recalage fonctionne correctement. Du travail est encore nécessaire pour parvenir
à une méthode réellement utilisable pour la détection de tumeurs dans le foie, mais
la perspective de recevoir bientôt des annotations faites par un expert permet d’être
87
optimiste.
88
Chapitre 5
Conclusion
Toutefois cette idée n’a pas passé l’étape de l’expérience sur les données synthétiques,
avec lesquelles les réseaux parviennent toujours à de bonnes performances, même sans
de telles transformations géométriques. Ce résultat étonnant m’a amené à tester si un
simple U-net pouvait s’aider d’une image en T1 pour segmenter plus précisément le
89
foie dans l’image en T2. Mais mes expériences tendent à montrer que le T2 contient
bien toute l’information nécessaire pour y segmenter précisément le foie. Une autre
application, où l’information serait plus diluée entre les modalités, aurait pu donner
des résultats intéressants sur le comportement des réseaux dans ce cas. Il en va de
même pour mon travail sur la similarité, où j’ai l’intuition que la méthode pourrait
améliorer les performances pour une telle application, en guidant l’apprentissage à
chercher l’information au bon endroit. On peut penser à des applications utilisant
d’autres modalités fonctionnelles montrant très peu d’information anatomique (comme
la tomographie par émission de positons (TEP)), associée à une modalité anatomique
comme le CT (acquises avec des machines combinées TEP-CT, ou éventuellement après
un pré-recalage manuel si les images sont acquises sur des machines différentes). Il
aurait été intéressant de tester ces méthodes sur les lésions en IRM pondérée en T1
et T2, puisqu’elles peuvent avoir un aspect très différent dans ces deux séquences.
Malheureusement je n’avais pas suffisamment d’annotations de lésions au moment de
mon travail sur la segmentation.
Toutefois, la collecte des données et surtout l’effort d’annotation peuvent être très
coûteux, d’autant plus en imagerie médicale où les images 3D sont fastidieuses à seg-
90
menter à la main, et que ces segmentations doivent être faites par des experts dont
le temps est précieux. Est-ce qu’alors, au contraire, les progrès méthodologiques, no-
tamment dans des contextes de faible supervision (où les segmentations manuelles sont
partielles et donc plus rapides à faire) ou semi-supervision (en tirant parti des images
non annotées à l’apprentissage) seraient cruciaux ? Il est à noter que beaucoup d’in-
novations proposées ces dernières années en segmentation reposent sur l’ajout d’un
terme de régularisation à l’apprentissage, souvent par apprentissage adversaire (voir
section 2.2.3), par l’ajout, dans le cadre d’une optimisation conjointe, d’une tâche ne
nécessitant pas d’annotations comme le recalage (voir section 2.1.4), ou en ajoutant
des contraintes anatomiques à l’apprentissage (voir section 2.1.1). Cette régularisation
peut dans la plupart des cas être utilisée pour faire de l’apprentissage semi ou faible-
ment supervisé, simplement en ne minimisant que le terme de régularisation sur les
images qui ne sont pas annotées (ou les voxels qui ne sont pas annotés, dans le cas de
l’apprentissage faiblement supervisé). Beaucoup d’idées, et notamment toutes sortes
de contraintes anatomiques (emplacements relatifs, taille ou topologie des organes...),
sont alors possibles, et surtout, potentiellement utiles.
Cependant, d’autres tendances portées par la communauté vont dans le bon sens. Pre-
mièrement, l’essor des compétitions de segmentation, concours souvent proposés en
marge des conférences d’imagerie médicale (comme les Journées Francophones de Ra-
diologie, voir l’annexe), qui permettent à plusieurs équipes de proposer la méthode
montrant les meilleures performances sur un problème de segmentation donné, en four-
91
nissant ainsi un cadre équitable pour réellement comparer les méthodes entre elles.
Même si, en contraignant les participants à utiliser un même jeu de données, ces com-
pétitions favorisent l’optimisation de méthodes sur un jeu de données précis et rendent
ainsi ces résultats difficilement généralisables, elles permettent de mettre en évidence
les tendances sur les innovations réellement bénéfiques. Deuxièmement, le partage de
code source permet directement de reproduire les résultats mentionnés dans les articles,
et de tester les méthodes proposées sur ses propres jeux de données. Mais on peut re-
gretter que le partage des poids des réseaux entraînés reste une pratique encore assez
rare, contrairement par exemple à la classification des images naturelles, tâche pour
laquelle il est très facile de récupérer des réseaux pré-entraînés.
92
l’informatique, on est passé de modèles réalistes avec peu de paramètres fixés en fonc-
tion des données, comme la théorie de la gravité newtonienne mais aussi comme les
algorithmes à base de minimisation d’énergie en traitement d’images « classique », à
des modèles d’apprentissage automatique reposant sur des caractéristiques façonnées à
la main en utilisant les connaissances du problème a priori, pour arriver à des modèles
profonds aux millions de paramètres, où cette connaissance est limitée à guider le choix
de l’architecture du réseau. En ce sens, le Deep Learning est l’aboutissement d’une évo-
lution épistémologique qui vise à réduire l’importance des connaissances sur celle des
données pour modéliser un problème 1 . Il est important de noter que cette évolution
n’est pas limitée au traitement de l’image, ce qu’illustrent parfaitement les résultats
spectaculaires obtenus avec du Deep Learning par Senior et al. (2020) sur le problème
crucial de repli des protéines en biochimie, réputé très complexe. À mon sens, cette
évolution pose des questions plus larges que la simple explicabilité des prédictions, en
particulier à l’heure où l’on s’apprête à laisser ces algorithmes faire des diagnostics, ou
leur laisser conduire nos voitures.
D’une part, la confiance en ces modèles est une question clef. Est-ce que de bonnes
performances sur un ensemble de test suffisent pour avoir confiance en les prédictions
que le réseau fera par la suite ? Qu’est-ce que le réseau a appris des données d’entraîne-
ment ? A-t-il réellement appris à reconnaître une tumeur ou un piéton ou a-t-il focalisé
sur un biais des données ? Des travaux comme ceux de Kim et al. (2018) vont dans
cette direction. Les auteurs ont proposé une méthode pour interpréter les réseaux de
neurones de classification d’images naturelles en termes de concepts compréhensibles
par des humains. Ils ont montré que dans certains cas, les réseaux retenaient les biais
sexistes ou racistes présents dans les données.
D’autre part, une meilleure compréhension des réseaux est utile pour améliorer les
méthodes existantes. Geirhos et al. (2018) ont montré que leurs réseaux privilégiaient
l’information de texture à l’information de forme, et en ont tenu compte pour modifier
la phase d’apprentissage et obtenir de meilleures performances.
C’est pour ces raisons que la recherche sur le Deep Learning interprétable doit s’élargir
aux tâches pour lesquelles cette technologie a permis des progrès conséquents : en
vision par ordinateur la segmentation sémantique, la détection d’objets et la synthèse
d’images ; en traitement du son la reconnaissance et synthèse vocale ; en traitement du
langage la traduction automatique et la génération de texte ; en imagerie médicale, la
segmentation, le recalage et la détection, pour en citer quelques-unes. Cependant, si l’on
peut appliquer les mêmes techniques de Deep Learning pour résoudre ces différentes
tâches à quelques modifications près, la manière d’interpréter les modèles obtenus est
1. Sur les questions épistémologiques liées au Deep Learning, je conseille les leçons de Stéphane
Mallat, disponibles sur la chaîne Youtube du Collège de France (https://www.youtube.com/watch?v=
u8zKhpWoJPw)
93
beaucoup plus dépendante de la tâche. Par exemple, dans la section 3.1.1, j’ai évoqué
pourquoi les méthodes de saillance, qui sont très populaires et utiles pour les réseaux
de classification, sont peu pertinentes pour les réseaux de segmentation.
En proposant une méthode d’interprétabilité pour ces réseaux, j’ai donc également
dû proposer une manière de les interpréter, en termes de sensibilité et robustesse à
des caractéristiques. Cette méthode se base sur l’hypothèse qu’en trouvant l’image qui
maximise l’activation des neurones de sortie, on peut en déduire quelles caractéristiques
de l’image favorisent une réponse positive du réseau. Bien que les expériences que je
décris à la section 3.3.3 corroborent cette hypothèse, celle-ci bénéficierait d’un meilleur
fondement théorique.
On peut en outre trouver des limites à cette méthode. D’abord, cette estimation de
sensibilité et robustesse est locale, c’est-à-dire qu’elle n’est valable qu’en un voisinage
d’un point négatif choisi arbitrairement (voire figure 3.5). Il est tout à fait possible
que le chemin de plus forte pente partant d’un autre point négatif ait une trajectoire
très différente dans l’espace des caractéristiques. Une manière simple d’améliorer la
méthode serait donc de calculer plusieurs trajectoires, en partant de points négatifs
différents (c’est-à-dire, dans le cas de la segmentation de tumeurs, de choisir plusieurs
coupes différentes, et plusieurs emplacements pour chaque coupe). On pourrait ainsi
étudier la distribution de ces différentes trajectoires, et de mettre ainsi en évidence des
tendances globales, plutôt que de se contenter d’une seule. Cela permettrait en outre
de rendre la comparaison avec les valeurs normales calculées sur la base d’entraînement
plus pertinente. J’ai choisi, en présentant ma méthode, d’en rester à l’analyse de trajec-
toires simples pour des raisons de simplicité et de clarté, d’autant que les expériences
que je montre me semblaient suffisamment pertinentes avec une seule trajectoire. Une
autre limite de la méthode est que l’idée de calculer l’évolution des caractéristiques
pendant l’optimisation reporte la nécessité d’interpréter visuellement des images géné-
rées (comme pour les méthodes de visualisation classiques) à la nécessité d’interpréter
des courbes, sans fournir de réponse claire et quantitative à la question de la sensibilité.
Je pense toutefois que visualiser ces courbes facilite la tâche d’interprétation, surtout
dans le cas d’images médicales, sur lesquelles le cerveau humain est moins entraîné que
sur les images naturelles.
94
Si toutes ces pistes sont intéressantes à étudier pour répondre à la question de la sen-
sibilité d’un réseau à des caractéristiques, il demeure que l’on peut imaginer beaucoup
d’autres questions auxquelles tenter de répondre pour mieux comprendre les réseaux de
neurones, et ainsi imaginer d’autres manières d’interpréter un tel réseau, tout en restant
dans la définition de l’interprétabilité telle qu’on l’a donnée au début du chapitre 3. Par
exemple : Que détecte un neurone en particulier ? À partir de quelle couche un U-net
a-t-il discriminé le tissu sain du tissu malade ? Peut-on expliquer en termes compré-
hensibles l’influence des différents méta-paramètres ? Y a-t-il des filtres inutiles ?
95
La méthode Retina-net, sur laquelle je base mon travail présenté dans le chapitre 4
et proposée par T.-Y. Lin, Goyal et al. (2017), est en fait une simplification du très
populaire Faster-RCNN de Ren et al. (2015). L’approche de ce dernier est constituée
de deux étapes, où un réseau de type Fast-RCNN prend en entrée les boîtes proposées
par un réseau de proposition de régions (RPN, pour Region Proposal Network). T.-Y.
Lin, Goyal et al. (2017) soutiennent qu’utiliser une fonction de coût focale permet de
se passer de la deuxième étape, en utilisant directement les sorties du RPN pour obtenir
les résultats de détection. J’ai principalement choisi d’utiliser Retina-net comme base
de travail pour sa simplicité d’implémentation, mais il est tout à fait possible d’ajouter
un réseau Fast-RCNN au bout du modèle que je décris à la section 4.2 pour obtenir une
architecture de type Faster-RCNN, plus standard en détection d’objets, et notamment
en imagerie médicale (voir Kern et Mastmeyer 2020).
Pour l’application clinique qui nous intéresse, plus que la détection de tumeurs par
boîtes englobantes, c’est le problème voisin de segmentation d’instances qui est perti-
nent. La méthode Mask-RCNN (K. He, Gkioxari et al. 2017), qui se base sur Faster-
RCNN et qui consiste à rajouter une branche de segmentation au modèle Fast-RCNN
de la deuxième étape, semble tout indiquée et compatible avec l’ajout du sous-réseau
de recalage que je propose pour la détection jointe dans des paires d’images. C’est
celle que j’essaierai dès que j’aurais accès aux masques de segmentation des tumeurs
annotés par un radiologue. C’est aussi celle que mon équipe avait utilisée pour gagner
la compétition de diagnostic de fissures du ménisque du genou à partir d’images IRM
aux Journées Francophones de Radiologie (voir Couteaux, Si-Mohamed, Nempont
et al. (2019) en annexe).
Ces masques de segmentation annotés pourront aussi me servir à essayer l’idée proposée
par Jaeger et al. (2020), qui semble prometteuse et consiste à ajouter une couche de
segmentation à un modèle de détection, dans le but de rajouter de la supervision au
niveau des voxels, et ainsi guider la tâche de détection. Plus précisément, les auteurs
proposent de faire remonter la pyramide de caractéristiques jusqu’au premier niveau
(à la résolution d’entrée) pour faire une classification des voxels en tissu tumoral/tissu
sain.
Une autre idée intéressante et que je n’ai pas eu le temps d’explorer consiste à ajouter
une fonction de coût qui ne nécessite pas de supervision pour l’apprentissage du modèle.
L’hypothèse est que si B1 ∈ R6 est le vecteur des coordonnées d’une boîte de la modalité
1 prédit par le réseau, et B10 = τ (B1 , d1 ) la même boîte translatée par le vecteur de
déplacement prédit d1 , on veut que IoU (B10 , B2 ) soit proche de 1, où B2 est la boîte
correspondante détectée dans l’autre modalité, et IoU est la fonction qui mesure le
rapport intersection/union de deux boîtes. Une idée pour appliquer cette contrainte est
la suivante : en notant (dx , dy , dz ) = bC(Pk0 (X))i,j,k,a c l’arrondi du déplacement prédit
pour l’ancre a à la position spatiale de coordonnées (i, j, k) au niveau de pyramide k0 ,
96
si cette ancre est classifiée comme positive par le sous-réseau C on optimise les trois
sous-réseaux à la position (i + dx , i + dy , i + dz ) et à l’ancre a, comme si la boîte B10
faisait partie des annotations. En plus d’encourager le réseau à faire des détections
plus cohérentes entre les modalités, cette fonction de coût non supervisée permettrait
de tirer parti des paires d’images de la base qui ne sont pas annotées.
Quand j’aurais obtenu des performances de détection satisfaisantes, le réseau obtenu
sera tout indiqué pour tester l’analyse de DeepDream (la méthode d’interprétabilité
que je décris au chapitre 3). Il sera intéressant de l’utiliser pour estimer si les ancres de
différentes tailles sont bien sensibles aux bonne tailles, et également pour tester si les
différentes classes correspondant aux deux images sont bien sensibles à des caractéris-
tiques spécifiques aux modalités qui correspondent. J’essaierai également de l’utiliser
avec le sous-réseau de recalage, en générant une lésion dans les deux images avec un
décalage précis.
De manière générale, beaucoup de travail est encore à faire et beaucoup d’idées sont
encore à tester pour avoir un aperçu de tout le potentiel de cette méthode. Les masques
de segmentation des tumeurs annotés par un radiologue que je vais bientôt avoir à ma
disposition offrent d’excitantes perspectives d’amélioration.
5.2 Perspectives
5.2.1 Fin de la chaîne de traitement : extraction des descrip-
teurs, et prédiction de la variable d’intérêt
Les travaux que j’ai présentés portent sur l’automatisation de trois premiers maillons
de la chaîne de traitement pour la radiomique. La continuité naturelle de cette thèse
consiste donc à étudier l’apport potentiel du Deep Learning sur les deux maillons
suivants : l’extraction de descripteurs et la prédiction de la variable d’intérêt (survie,
évolution de la maladie par exemple).
Dans l’approche radiomique classique, un ensemble de descripteurs fixe est utilisé.
Comme je l’ai évoqué à la section 3.3.3, un ensemble de caractéristiques a été standar-
disé (Zwanenburg et al. 2020), qui comprend des descripteurs de forme, des statis-
tiques sur les intensités et sur les textures. Ce travail de standardisation a pour prin-
cipal but la reproductibilité, en fournissant des caractéristiques clairement définies. La
dernière étape de la chaîne, la prédiction d’une variable, est ensuite faite à l’aide de
techniques d’apprentissage automatique telles que des méthodes à vecteurs de support,
des arbres de décision, des régressions linéaires ou logistiques, qui prennent en entrée
tout ou une partie (qu’on appelle dans ce cas une « signature ») des caractéristiques
calculées.
97
Cette approche en deux temps (calcul de descripteurs façonnés à la main, qu’on met en
entrée d’un classifieur shallow) a longtemps été l’approche prépondérante en classifica-
tion d’image naturelles, avec des caractéristiques comme les histogrammes de gradients
(HOG) ou les SIFT. L’approche deep, popularisée par Krizhevsky, Sutskever et
G. E. Hinton 2012 et incontournable depuis, consiste à s’affranchir de l’étape de fa-
çonnage des caractéristiques en utilisant des modèles prenant directement l’image en
entrée. Ceux-ci (les réseaux de neurones convolutionnels) sont capables d’apprendre une
représentation des images qu’ils prennent en entrée adaptée à la tâche pour laquelle ils
sont entraînés.
Devant un tel succès pour les images naturelles, l’approche deep en une étape est
maintenant largement utilisée pour l’aide au diagnostic (voir la revue de bibliographie
de Fujita 2020), ou pour faire des pronostics à partir des images (Ravichandran
et al. 2018 ; Ypsilantis et al. 2015 par exemple). Le terme de discovery radiomics est
parfois employé pour désigner cette méthode (Kumar et al. 2017).
Pour tirer parti du pouvoir de représentation des réseaux convolutionnels avec une
quantité de données réduite, une idée est alors d’utiliser les caractéristiques apprises par
un réseau sur une autre tâche, comme la classification d’images naturelles. Par exemple,
Huynh, H. Li et Giger 2016 utilisent les cartes de caractéristiques du réseau AlexNet
(celui de Krizhevsky, Sutskever et G. E. Hinton 2012) auxquelles ils ajoutent
des caractéristiques radiomiques standard, pour classifier des tumeurs dans des images
mammographiques. Cependant, on sait que si ces modèles sont si performants, c’est en
partie parce qu’ils sont capables d’apprendre des représentations qui s’affranchissent
de l’information inutile pour la tâche pour laquelle ils sont entraînés. À l’inverse des
caractéristiques radiomiques, qui sont conçues pour décrire les objets d’une image de
la manière la plus complète possible, les caractéristiques apprises par des réseaux de
classification ne fourniront donc qu’une représentation partielle de l’image.
Pour trouver des caractéristiques à la fois apprises (et donc potentiellement meilleures
que les caractéristiques standards façonnées à la main) et générales (et donc utilisables
avec un modèle d’apprentissage automatique shallow pour différentes tâches), l’appren-
tissage de représentations a peut-être des réponses à apporter. Ce champ de recherche
a pour objet d’étude les méthodes permettant d’apprendre une représentation à par-
tir des données, c’est-à-dire un ensemble de caractéristiques qui permettent de décrire
chaque image en conservant le plus d’informations possible sur elle. Celui-ci a beau-
coup progressé depuis l’essor du Deep Learning notamment grâce aux modèles de type
98
auto-encodeurs.
Un auto-encodeur est un réseau dont la tâche est de prédire exactement la même image
que celle qui lui est fournie. Plus précisément, un modèle de ce type est constitué
d’un réseau encodeur, qui prédit une représentation dite latente de basse dimension
à partir d’une image, et d’un réseau décodeur qui génère une image à partir d’une
représentation. L’encodeur et le décodeur sont entraînés simultanément pour minimiser
l’erreur de reconstruction des images. Ainsi, le réseau apprend une représentation de
basse dimension qui conserve le plus possible d’information sur l’image d’entrée, le tout
sans supervision.
C’est la piste que j’ai commencé à explorer au début de ma thèse. Mon idée était
d’entraîner un tel modèle pour trouver une représentation de basse dimension pour les
tumeurs du foie en CT, avec certaines dimensions réservées pour des caractéristiques
connues comme la taille ou la forme. Ainsi, on pourrait obtenir un ensemble réduit
de caractéristiques qui décrit la tumeur avec une perte d’information limitée, tout en
99
Figure 5.1 – Visualisation de l’espace latent à trois dimensions d’un auto-encodeur
de Wasserstein entraîné sur le jeu de données MNIST. Chaque point représente un
échantillon de la base de test, chaque couleur représentant un chiffre.
au lieu de
||X − D(E(X)0 , E(X)1 , ..., E(X)d−1 )||
pour le reste des échantillons, où D : Rd → RN ×N est le réseau décodeur qui génère
une image à partir d’une représentation latente.
J’ai également appliqué le même principe sur une base de données de coupes CT
centrées sur la tumeur, en utilisant un espace latent à 15 dimensions et en faisant
100
(a) (b) intensité sans démêlage (c) diamètre sans démêlage
Figure 5.2 – Expérience de démêlage avec un jeu de données jouet. (a) : 10 exemples
de données d’entraînement. (b), (c) , (d) et (e) : espace latent d’un auto-encodeur.
Chaque point représente un échantillon. (b) et (c) : sans démêlage. (d) et (e) : avec
démêlage. (b) et (d) : la couleur représente l’intensité. (c) et (e) : la couleur représente
le diamètre.
101
(a) Échantillons générés aléatoirement par un auto-encodeur de Wasserstein entraîné sur des
coupes CT centrées sur des tumeurs. De gauche à droite, la première dimension, qui encode le
diamètre de la tumeur, augmente linéairement tandis que les autres sont tirées aléatoirement.
de données annotée est faible. La rareté des annotations est, comme on l’a déjà dit,
un obstacle majeur pour l’application d’algorithmes de Deep Learning aux problèmes
de diagnostic ou pronostic assistés par ordinateur. Autrement dit, les auto-encodeurs
variationnels permettent-ils de faire de l’apprentissage semi-supervisé ? En prenant la
tâche de régression de l’âge à partir de photos de visages comme point de départ, je
suis parvenu à des résultats corrects avec seulement 3% d’annotations sur une base
de 20000 images (une corrélation de 0,76 entre les âges prédits et les vérités terrain),
alors qu’un réseau entraîné de manière totalement supervisée ne convergeait pas du
tout avec si peu de données annotées.
Si ces quelques résultats suggèrent que la piste des auto-encodeurs génératifs (varia-
tionnels, de Wasserstein ou introspectifs) est prometteuse, beaucoup de chemin reste
à parcourir avant qu’elle fournisse un ensemble de caractéristiques à la fois complet
(qui rende compte de toute l’information contenue dans l’image d’une tumeur), de
basse dimension, et qui ait un pouvoir de prédiction important pour plusieurs tâches
différentes.
La suite naturelle à ce travail consisterait donc à appliquer l’une de ces méthodes à un
ensemble d’images avec une variable à prédire disponible, et de comparer le pouvoir
102
Figure 5.4 – Reconstruction de visages avec un auto-encodeur entraîné pour encoder
l’âge sur une caractéristique latente. À gauche, les visages originaux de la base de test.
À droite, les visages reconstruits, en changeant la caractéristique liée à l’âge.
prédictif des caractéristiques ainsi obtenues (avec ou sans guidage semi-supervisé) avec
les caractéristiques radiomiques standard.
On peut également penser à d’autres pistes pour bénéficier de l’efficacité du Deep
Learning avec peu de données annotées, et notamment aux méthodes d’apprentissage
semi-supervisé à base d’apprentissage adversaire, comme Odena 2016.
103
ressante, puisque l’idée communément admise du fonctionnement des réseaux de clas-
sification (les premières couches détectent des caractéristiques de bas niveau, comme
les gradients ou les contours, et les couches suivantes détectent des caractéristiques de
plus en plus abstraites, comme des textures et même des formes, jusqu’à prédire la
classe de l’image) semble difficilement applicable à ce type de réseau. S’il est mainte-
nant admis que ces réseaux permettent d’obtenir des recalages précis, aucun travail à
ma connaissance ne s’intéresse à comment ils fonctionnent.
La première étape pour concevoir une méthode d’interprétabilité est de chercher une
question à laquelle la méthode essaiera d’apporter une réponse, en se basant sur une
hypothèse de fonctionnement. Dans le cas des réseaux de segmentation, j’avais proposé
au chapitre 3 d’essayer de répondre à la question « à quelle caractéristiques compréhen-
sible par un humain un réseau est-il sensible ? ». L’hypothèse sous-jacente est qu’un
réseau prend ses décisions de classification en fonction de certaines caractéristiques
qu’ont les objets présents dans l’image.
Pour les réseaux de recalage, une idée intuitive de leur fonctionnement est qu’ils re-
pèrent des points d’intérêt dans les deux images à recaler, puis en font la correspondance
pour in fine produire un champ de déplacement. Si tel était le cas, déterminer ou au
moins localiser ces paires de points d’intérêts se correspondant fournirait un éclair-
cissement intéressant vers le fonctionnement d’un tel réseau. Peut-être qu’utiliser des
méthodes d’attribution à base de gradient sur un des vecteurs du champ de déplacement
prédit pourrait fournir cette information, même si rien ne garantit qu’une seule paire
de points d’intérêt suffirait à expliquer ce vecteur. Toutefois, rien à ce jour ne semble
corroborer cette hypothèse, et il est tout à fait possible que les réseaux de recalage ne
s’appuient pas du tout sur une telle correspondance de points d’intérêt.
Au total, cette piste n’est pour l’instant faite que de questions ouvertes. Cependant,
ce travail me semble important pour que le champ de recherche du recalage par Deep
Learning progresse, et pour que la recherche en Deep Learning interprétable ne se limite
plus aux réseaux de classification.
104
5.2.3 Identification de lésions pour le suivi longitudinal
Le problème d’identification de lésions dans des images de modalités différentes acquises
à quelques minutes d’intervalle, qui était l’objet du chapitre 4, n’est qu’une étape vers
le problème d’identification de lésions dans des images acquises à des dates différentes.
Comme évoqué en introduction, c’est l’évolution des tumeurs qui intéresse le plus les
radiologues pour l’établissement du pronostic, plus que leur aspect à un instant donné.
Ce problème est peut-être par conséquent plus important encore pour l’application
clinique, mais également plus difficile parce qu’il demande de relever de nombreux
défis, décrits ci-dessous.
D’abord, le changement potentiel de taille et d’aspect des lésions implique qu’il ne suffit
plus d’estimer un déplacement pour identifier une même lésion dans deux images, mais
qu’il faudrait également réestimer la taille et la forme des boîtes englobantes.
Ensuite, il serait nécessaire de prendre en compte la possibilité que des lésions appa-
raissent et disparaissent d’une date à l’autre, et par conséquent que seules certaines
des détections doivent être faites par paire.
Enfin, l’annotation elle-même devient problématique puisqu’il n’est pas aisé, même
pour une personne entraînée, de déterminer si des lésions apparaissant dans deux images
différentes correspondent, surtout en présence de plusieurs dizaines de lésions, comme
sur le cas présenté dans la figure 5.5.
Figure 5.5 – Deux images IRM pondérées en T1 acquises à 9 mois d’intervalle. Il n’est
pas aisé d’établir la correspondre entre les lésions dans les deux images chez ce patient
qui en a beaucoup.
On aurait alors besoin, pour ce problème, d’un recalage précis du foie en entier, qui
ne serait ni basé exclusivement sur une comparaison des intensités des voxels, puisque
l’évolution des tumeurs entraînerait une modification de ces intensités et de l’aspect
général du foie, ni basé sur l’annotation des lésions, à cause du changement de taille ainsi
que l’apparition et la disparition des tumeurs d’une date à l’autre. On peut alors penser
105
à un recalage basé sur les vaisseaux sanguins, comme Vijayan et al. (2014), même si
ceux-ci peuvent également être déformés par l’apparition de tumeurs. Plusieurs critères,
basés sur des repères à l’intérieur et à l’extérieur du foie devraient alors probablement
être combinés pour obtenir un recalage suffisamment précis.
106
Bibliographie
107
com/LIVIAETS/miccai_weakly_supervised_tutorial/blob/master/Documents/
MICCAI-2019-Tutorial_On_WeakSemiSup.pdf (page 16).
Chakraborty, Supriyo, Richard Tomsett, Ramya Raghavendra, Daniel Harborne,
Moustafa Alzantot, Federico Cerutti, Mani Srivastava, Alun Preece, Simon
Julier, Raghuveer M Rao et al. (2017). « Interpretability of deep learning models :
a survey of results ». In : 2017 IEEE smartworld, ubiquitous intelligence & com-
puting, advanced & trusted computed, scalable computing & communications, cloud
& big data computing, Internet of people and smart city innovation (smartworld/S-
CALCOM/UIC/ATC/CBDcom/IOP/SCI). IEEE, p. 1-6 (page 54).
Chartsias, Agisilaos, Giorgos Papanastasiou, Chengjia Wang, Scott Semple, Da-
vid E. Newby, Rohan Dharmakumar et Sotirios A. Tsaftaris (2019). « Di-
sentangle, align and fuse for multimodal and zero-shot image segmentation ». In :
ArXiv :1911.04417 (pages 19, 21, 37).
Chen, Chien-Ying, L. Ma, Y. Jia et Panli Zuo (2019). « Kidney and Tumor Segmen-
tation Using Modified 3D Mask RCNN ». In : (pages 73, 74).
Chen, Liang-Chieh, George Papandreou, Iasonas Kokkinos, Kevin Murphy et
Alan L Yuille (2017). « Deeplab : Semantic image segmentation with deep convo-
lutional nets, atrous convolution, and fully connected crfs ». In : IEEE transactions
on pattern analysis and machine intelligence 40.4, p. 834-848 (pages 15, 16).
Chen, Yu, Yuexiang Li, Jiawei Chen et Yefeng Zheng (2019). « OctopusNet :
A Deep Learning Segmentation Network for Multi-modal Medical Images ». In :
ArXiv :1906.02031 (page 18).
Couteaux, Vincent, Salim Si-Mohamed, Olivier Nempont, Thierry Lefevre,
Alexandre Popoff, Guillaume Pizaine, Nicolas Villain, Isabelle Bloch, Anne
Cotten et Loıc Boussel (2019). « Automatic knee meniscus tear detection and
orientation classification with Mask-RCNN ». In : Diagnostic and interventional
imaging 100.4, p. 235-242 (pages 96, 123).
Couteaux, Vincent, Salim Si-Mohamed, Raphaele Renard-Penna, Olivier Nempont,
Thierry Lefevre, Alexandre Popoff, Guillaume Pizaine, Nicolas Villain,
Isabelle Bloch, Julien Behr, Marie-France Bellin, Catherine Roy, Olivier
Rouviere, Sarah Montagne, Nathalie Lassau et Loic Boussel (2019). « Kidney
cortex segmentation in 2D CT with U-Nets ensemble aggregation ». In : Diagnostic
and Interventional Imaging 100, p. 211-217 (pages 90, 123).
Couteaux, Vincent, Olivier Nempont, Guillaume Pizaine et Isabelle Bloch (2019).
« Towards Interpretability of Segmentation Networks by Analyzing DeepDreams ».
In : Interpretability of Machine Intelligence in Medical Image Computing and Mul-
timodal Learning for Clinical Decision Support. Springer, p. 56-63 (pages 49, 95).
Dai, Jifeng, Kaiming He et Jian Sun (2015). « Boxsup : Exploiting bounding boxes
to supervise convolutional networks for semantic segmentation ». In : Proceedings of
the IEEE international conference on computer vision, p. 1635-1643 (page 16).
108
Dolz, Jose, Karthik Gopinath, Jing Yuan, Herve Lombaert, Christian Desrosiers
et Ismail Ben Ayed (2019). « HyperDense-Net : A Hyper-Densely Connected CNN
for Multi-Modal Image Segmentation ». In : IEEE Transactions on Medical Imaging
38, p. 1116-1126 (page 18).
Eisenhauer, Elizabeth A, Patrick Therasse, Jan Bogaerts, Lawrence H Schwartz,
D Sargent, Robert Ford, Janet Dancey, S Arbuck, Steve Gwyther, Margaret
Mooney et al. (2009). « New response evaluation criteria in solid tumours : revised
RECIST guideline (version 1.1) ». In : European journal of cancer 45.2, p. 228-247
(page 5).
Elmahdy, Mohamed S., Jelmer M. Wolterink, Hessam Sokooti, Ivana Igum et
Marius Staring (2019). « Adversarial optimization for joint registration and seg-
mentation in prostate CT radiotherapy ». In : ArXiv :1906.12223 (pages 19, 37).
Fu, Cheng-Yang, Wei Liu, Ananth Ranga, Ambrish Tyagi et Alexander C Berg
(2017). « Dssd : Deconvolutional single shot detector ». In : arXiv preprint arXiv :1701.06659
(page 72).
Fu, Yabo, Yang Lei, Tonghe Wang, Walter J Curran, Tian Liu et Xiaofeng Yang
(2020). « Deep learning in medical image registration : a review ». In : Physics in
Medicine & Biology 65.20, 20TR01 (page 103).
Fujita, Hiroshi (2020). « AI-based computer-aided diagnosis (AI-CAD) : the latest
review to read first ». In : Radiological physics and technology 13.1, p. 6-19 (page 98).
Geirhos, Robert, Patricia Rubisch, Claudio Michaelis, Matthias Bethge, Felix
A Wichmann et Wieland Brendel (2018). « ImageNet-trained CNNs are biased
towards texture ; increasing shape bias improves accuracy and robustness ». In :
arXiv preprint arXiv :1811.12231 (pages 48, 93).
Ghafoorian, Mohsen, Cedric Nugteren, Nóra Baka, Olaf Booij et Michael
Hofmann (2018). « El-gan : Embedding loss driven generative adversarial net-
works for lane detection ». In : European Conference on Computer Vision (ECCV).
Springer, p. 256-272 (pages 17, 20, 29).
Ghorbani, Amirata, Abubakar Abid et James Zou (2019). « Interpretation of neural
networks is fragile ». In : Proceedings of the AAAI Conference on Artificial Intelli-
gence. T. 33, p. 3681-3688 (page 52).
Girshick, Ross (2015). « Fast r-cnn ». In : Proceedings of the IEEE international
conference on computer vision, p. 1440-1448 (pages 72, 78, 79).
Girshick, Ross, Jeff Donahue, Trevor Darrell et Jitendra Malik (2014). « Rich
feature hierarchies for accurate object detection and semantic segmentation ». In :
Proceedings of the IEEE conference on computer vision and pattern recognition,
p. 580-587 (page 72).
Guo, Yi, Xiangyi Wu, Zhi Wang, Xi Pei et X George Xu (2020). « End-to-end un-
supervised cycle-consistent fully convolutional network for 3D pelvic CT-MR defor-
109
mable registration ». In : Journal of Applied Clinical Medical Physics 21.9, p. 193-200
(pages 18, 19).
He, Kaiming, Georgia Gkioxari, Piotr Dollár et Ross Girshick (2017). « Mask
r-cnn ». In : Proceedings of the IEEE international conference on computer vision,
p. 2961-2969 (pages 72, 96).
He, Kaiming, Xiangyu Zhang, Shaoqing Ren et Jian Sun (2016). « Deep residual
learning for image recognition ». In : Proceedings of the IEEE conference on computer
vision and pattern recognition, p. 770-778 (pages 81, 92).
Heinrich, Mattias P, Mark Jenkinson, Manav Bhushan, Tahreema Matin, Fergus
V Gleeson, Michael Brady et Julia A Schnabel (2012). « MIND : Modality
independent neighbourhood descriptor for multi-modal deformable registration ».
In : Medical image analysis 16.7, p. 1423-1435 (page 19).
Hofmanninger, Johannes, Forian Prayer, Jeanny Pan, Sebastian Röhrich, Hel-
mut Prosch et Georg Langs (2020). « Automatic lung segmentation in routine
imaging is primarily a data diversity problem, not a methodology problem ». In :
European Radiology Experimental 4.1, p. 1-13 (pages 15, 32, 90).
Hooker, Sara, Dumitru Erhan, Pieter-Jan Kindermans et Been Kim (2018). « A
benchmark for interpretability methods in deep neural networks ». In : arXiv preprint
arXiv :1806.10758 (page 52).
Hsu, Chia-Yang, Yi-Hsiang Huang, Cheng-Yuan Hsia, Chien-Wei Su, Han-Chieh
Lin, Che-Chuan Loong, Yi-You Chiou, Jen-Huey Chiang, Pui-Ching Lee, Teh-
Ia Huo et al. (2010). « A new prognostic model for hepatocellular carcinoma based
on total tumor volume : the Taipei Integrated Scoring System ». In : Journal of
hepatology 53.1, p. 108-117 (page 6).
Huang, Gao, Zhuang Liu, Laurens Van Der Maaten et Kilian Q Weinberger
(2017). « Densely connected convolutional networks ». In : Proceedings of the IEEE
conference on computer vision and pattern recognition, p. 4700-4708 (page 92).
Huang, Huaibo, Zhihang Li, Ran He, Zhenan Sun et Tieniu Tan (2018). « Introvae :
Introspective variational autoencoders for photographic image synthesis ». In : arXiv
preprint arXiv :1807.06358 (page 101).
Hung, Wei-Chih, Yi-Hsuan Tsai, Yan-Ting Liou, Yen-Yu Lin et Ming-Hsuan Yang
(2018). « Adversarial Learning for Semi-supervised Semantic Segmentation ». In :
BMVC (pages 17, 29).
Huo, Yuankai, Zhoubing Xu, Shunxing Bao, Albert Assad, Richard G. Abramson et
Bennett A. Landman (2018). « Adversarial synthesis learning enables segmentation
without target modality ground truth ». In : IEEE 15th International Symposium
on Biomedical Imaging (ISBI), p. 1217-1220 (page 17).
Hussain, Shadid M et Michael M Sorrell (2015). Liver MRI. Correlation with Other
Imaging Modalities and Histopathology. Springer (pages 2, 3).
110
Huynh, Benjamin Q, Hui Li et Maryellen L Giger (2016). « Digital mammogra-
phic tumor classification using transfer learning from deep convolutional neural net-
works ». In : Journal of Medical Imaging 3.3, p. 034501 (page 98).
Isensee, Fabian, Jens Petersen, André Klein, David Zimmerer, Paul F. Jaeger,
onnon Kohl, Jakob Wasserthal, Gregor Koehler, Tobias Norajitra, Sebas-
tian J. Wirkert et Klaus Maier-Hein (2018). « nnU-Net : Self-adapting Fra-
mework for U-Net-Based Medical Image Segmentation ». In : ArXiv :1809.10486
(pages 15, 90).
Isensee, Fabian, Jens Petersen, Simon A. A. Kohl, Paul F. Jäger et Klaus
Maier-Hein (2019). « nnU-Net : Breaking the Spell on Successful Medical Image
Segmentation ». In : ArXiv :1904.08128 (pages 26, 32).
Jaderberg, Max, Karen Simonyan, Andrew Zisserman et Koray Kavukcuoglu
(2015). « Spatial transformer networks ». In : arXiv preprint arXiv :1506.02025
(page 89).
Jadon, Shruti (2020). « A survey of loss functions for semantic segmentation ». In :
ArXiv :2006.14822 (page 20).
Jaeger, Paul F, Simon AA Kohl, Sebastian Bickelhaupt, Fabian Isensee, Tristan
Anselm Kuder, Heinz-Peter Schlemmer et Klaus H Maier-Hein (2020). « Retina
U-Net : Embarrassingly simple exploitation of segmentation supervision for medical
object detection ». In : Machine Learning for Health Workshop. PMLR, p. 171-183
(pages 73, 84, 96).
Kaluva, Krishna Chaitanya, Kiran Vaidhya, Abhijith Chunduru, Sambit Tarai,
Sai Prasad Pranav Nadimpalli et S. Vaidya (2020). « An Automated Workflow
for Lung Nodule Follow-Up Recommendation Using Deep Learning ». In : ICIAR
(page 73).
Kavur, A Emre, N Sinem Gezer, Mustafa Barış, Sinem Aslan, Pierre-Henri
Conze, Vladimir Groza, Duc Duy Pham, Soumick Chatterjee, Philipp Ernst,
Savaş Özkan et al. (2021). « CHAOS challenge-combined (CT-MR) healthy abdo-
minal organ segmentation ». In : Medical Image Analysis 69, p. 101950 (pages 15,
90).
Kern, Daria et Andre Mastmeyer (2020). « 3D Bounding Box Detection in Volu-
metric Medical Image Data : A Systematic Literature Review ». In : arXiv preprint
arXiv :2012.05745 (pages 73, 96).
Kervadec, Hoel, Jose Dolz, Meng Tang, Eric Granger, Yuri Boykov et Ismail
Ben Ayed (2019). « Constrained-CNN losses for weakly supervised segmentation ».
In : Medical image analysis 54, p. 88-99 (page 16).
Kim, Been, Martin Wattenberg, Justin Gilmer, Carrie Cai, James Wexler, Fer-
nanda B. Viégas et Rory Sayres (2018). « Interpretability Beyond Feature Attri-
bution : Quantitative Testing with Concept Activation Vectors (TCAV) ». In : ICML
(pages 48, 54, 93).
111
Kindermans, Pieter-Jan, Sara Hooker, Julius Adebayo, Maximilian Alber, Kris-
tof T Schütt, Sven Dähne, Dumitru Erhan et Been Kim (2017). « The (un)
reliability of saliency methods ». In : arXiv preprint arXiv :1711.00867 (page 52).
Kindermans, Pieter-Jan, Kristof T Schütt, Maximilian Alber, Klaus-Robert
Müller, Dumitru Erhan, Been Kim et Sven Dähne (2017). « Learning how to
explain neural networks : Patternnet and patternattribution ». In : arXiv preprint
arXiv :1705.05598 (page 52).
Kingma, Diederik P et Max Welling (2013). « Auto-encoding variational bayes ».
In : arXiv preprint arXiv :1312.6114 (page 99).
Kolouri, Soheil, Phillip E Pope, Charles E Martin et Gustavo K Rohde (2018).
« Sliced Wasserstein auto-encoders ». In : International Conference on Learning Re-
presentations (page 99).
Kopelowitz, Evi et Guy Engelhard (2019). « Lung Nodules Detection and Seg-
mentation Using 3D Mask-RCNN ». In : ArXiv abs/1907.07676 (page 74).
Krizhevsky, Alex, Ilya Sutskever et Geoffrey E Hinton (2012). « Imagenet clas-
sification with deep convolutional neural networks ». In : Advances in neural infor-
mation processing systems 25, p. 1097-1105 (pages 92, 98).
Kumar, Devinder, Audrey G Chung, Mohammad J Shaifee, Farzad Khalvati, Ma-
soom A Haider et Alexander Wong (2017). « Discovery radiomics for pathologically-
proven computed tomography lung cancer prediction ». In : International Conference
Image Analysis and Recognition. Springer, p. 54-62 (page 98).
Lambin, Philippe, Emmanuel Rios-Velazquez, Ralph Leijenaar, Sara Carvalho,
Ruud GPM Van Stiphout, Patrick Granton, Catharina ML Zegers, Robert
Gillies, Ronald Boellard, André Dekker et al. (2012). « Radiomics : extrac-
ting more information from medical images using advanced feature analysis ». In :
European journal of cancer 48.4, p. 441-446 (page 8).
Lapuschkin, Sebastian, Stephan Wäldchen, Alexander Binder, Grégoire Montavon,
Wojciech Samek et Klaus-Robert Müller (2019). « Unmasking clever hans predic-
tors and assessing what machines really learn ». In : Nature communications 10.1,
p. 1-8 (page 48).
LeCun, Yann, Bernhard Boser, John S Denker, Donnie Henderson, Richard E
Howard, Wayne Hubbard et Lawrence D Jackel (1989). « Backpropagation ap-
plied to handwritten zip code recognition ». In : Neural computation 1.4, p. 541-551
(page 92).
LeCun, Yann, Léon Bottou, Yoshua Bengio et Patrick Haffner (1998). « Gradient-
based learning applied to document recognition ». In : Proceedings of the IEEE 86.11,
p. 2278-2324 (page 99).
Lee, Yun-Hsuan, Cheng-Yuan Hsia, Chia-Yang Hsu, Yi-Hsiang Huang, Han-Chieh
Lin et Teh-Ia Huo (2013). « Total tumor volume is a better marker of tumor burden
112
in hepatocellular carcinoma defined by the Milan criteria ». In : World journal of
surgery 37.6, p. 1348-1355 (page 6).
Lei, Yang, X. He, Jincao Yao, Tonghe Wang, Lijing Wang, W. Li, W. Curran,
T. Liu, D. Xu et X. Yang (2020). « Breast Tumor Segmentation in 3D Automatic
Breast Ultrasound Using Mask Scoring R-CNN. » In : Medical physics (page 74).
Lei, Yang, Z. Tian, S. Kahn, W. Curran, T. Liu et X. Yang (2020). « Automatic
detection of brain metastases using 3D mask R-CNN for stereotactic radiosurgery ».
In : Medical Imaging (page 74).
Li, Zuoxin et Fuqiang Zhou (2017). « FSSD : feature fusion single shot multibox
detector ». In : arXiv preprint arXiv :1712.00960 (page 72).
Lin, Di, Jifeng Dai, Jiaya Jia, Kaiming He et Jian Sun (2016). « Scribblesup :
Scribble-supervised convolutional networks for semantic segmentation ». In : Procee-
dings of the IEEE conference on computer vision and pattern recognition, p. 3159-
3167 (page 16).
Lin, Tsung-Yi, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan et
Serge Belongie (2017). « Feature pyramid networks for object detection ». In : Pro-
ceedings of the IEEE conference on computer vision and pattern recognition, p. 2117-
2125 (page 72).
Lin, Tsung-Yi, Priya Goyal, Ross Girshick, Kaiming He et Piotr Dollár (2017).
« Focal loss for dense object detection ». In : Proceedings of the IEEE international
conference on computer vision, p. 2980-2988 (pages 72, 74, 78, 82, 85, 96).
Lin, Tsung-Yi, Michael Maire, Serge J. Belongie, Lubomir D. Bourdev, Ross
B. Girshick, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár et
C. Lawrence Zitnick (2014). « Microsoft COCO : Common Objects in Context ».
In : ECCV (page 61).
Liu, Fengze, Jinzheng Cai, Yuankai Huo, Chi-Tung Cheng, Ashwin Raju, Dakai
Jin, Jing Xiao, Alan L. Yuille, Le Lu, Chien-Hung Liao et Adam P. Harrison
(2020). « JSSR : A Joint Synthesis, Segmentation, and Registration System for
3D Multi-Modal Image Alignment of Large-scale Pathological CT Scans ». In :
ArXiv :2005.12209 (pages 19, 21, 37).
Liu, Li, Wanli Ouyang, Xiaogang Wang, Paul Fieguth, Jie Chen, Xinwang Liu et
Matti Pietikäinen (2020). « Deep learning for generic object detection : A survey ».
In : International journal of computer vision 128.2, p. 261-318 (pages 69, 71).
Liu, Wei, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed,
Cheng-Yang Fu et Alexander C Berg (2016). « Ssd : Single shot multibox detector ».
In : European conference on computer vision. Springer, p. 21-37 (page 72).
Luc, Pauline, Camille Couprie, Soumith Chintala et Jakob Verbeek (2016).
« Semantic Segmentation using Adversarial Networks ». In : ArXiv :1611.08408
(pages 17, 20, 29).
113
Lundberg, Scott et Su-In Lee (2017). « A unified approach to interpreting model
predictions ». In : arXiv preprint arXiv :1705.07874 (page 52).
Mahendran, Aravindh et Andrea Vedaldi (2015). « Understanding deep image re-
presentations by inverting them ». In : Proceedings of the IEEE conference on com-
puter vision and pattern recognition, p. 5188-5196 (page 53).
– (2016). « Visualizing deep convolutional neural networks using natural pre-images ».
In : International Journal of Computer Vision 120.3, p. 233-255 (page 53).
Makhzani, Alireza, Jonathon Shlens, Navdeep Jaitly, Ian Goodfellow et Bren-
dan Frey (2015). « Adversarial autoencoders ». In : arXiv preprint arXiv :1511.05644
(pages 99, 100).
McInnes, Leland, John Healy et James Melville (2018). « Umap : Uniform ma-
nifold approximation and projection for dimension reduction ». In : arXiv preprint
arXiv :1802.03426 (page 54).
Milletari, Fausto, Nassir Navab et Seyed-Ahmad Ahmadi (2016). « V-net : Fully
convolutional neural networks for volumetric medical image segmentation ». In :
Fourth International Conference on 3D Vision (3DV). IEEE, p. 565-571 (pages 25,
74).
Montavon, Grégoire, Sebastian Lapuschkin, Alexander Binder, Wojciech Samek
et Klaus-Robert Müller (2017). « Explaining nonlinear classification decisions with
deep Taylor decomposition ». In : Pattern Recognition 65, p. 211-222 (page 51).
Mordvintsev, Alexander, Christopher Olah et Mike Tyka (2015). « Inceptionism :
Going deeper into neural networks ». In : Google Research Blog (pages 52, 53, 58).
Namasivayam, Saravanan, Diego R Martin et Sanjay Saini (2007). « Imaging of
liver metastases : MRI ». In : Cancer Imaging 7.1, p. 2 (page 4).
Natekar, Parth, Avinash Kori et Ganapathy Krishnamurthi (2020). « Demysti-
fying Brain Tumor Segmentation Networks : Interpretability and Uncertainty Ana-
lysis ». In : Frontiers in Computational Neuroscience 14, p. 6 (page 95).
Nguyen, Anh, Alexey Dosovitskiy, Jason Yosinski, Thomas Brox et Jeff Clune
(2016). « Synthesizing the preferred inputs for neurons in neural networks via deep
generator networks ». In : Advances in neural information processing systems 29,
p. 3387-3395 (page 53).
Odena, Augustus (2016). « Semi-supervised learning with generative adversarial net-
works ». In : arXiv preprint arXiv :1606.01583 (page 103).
Palmer, Daniel H, Neil S Hawkins, Valérie Vilgrain, Helena Pereira, Gilles
Chatellier et Paul J Ross (2020). « Tumor burden and liver function in HCC
patient selection for selective internal radiation therapy : SARAH post-hoc study ».
In : Future Oncology 16.01, p. 4315-4325 (page 6).
Ravichandran, Kavya, Nathaniel Braman, Andrew Janowczyk et Anant Madabhushi
(2018). « A deep learning classifier for prediction of pathological complete response
to neoadjuvant chemotherapy from baseline breast DCE-MRI ». In : Medical Ima-
114
ging 2018 : Computer-Aided Diagnosis. T. 10575. International Society for Optics
et Photonics, p. 105750C (page 98).
Redmon, Joseph, Santosh Divvala, Ross Girshick et Ali Farhadi (2016). « You
only look once : Unified, real-time object detection ». In : Proceedings of the IEEE
conference on computer vision and pattern recognition, p. 779-788 (page 72).
Redmon, Joseph et Ali Farhadi (2017). « YOLO9000 : better, faster, stronger ».
In : Proceedings of the IEEE conference on computer vision and pattern recognition,
p. 7263-7271 (page 72).
Ren, Shaoqing, Kaiming He, Ross Girshick et Jian Sun (2015). « Faster r-cnn : To-
wards real-time object detection with region proposal networks ». In : arXiv preprint
arXiv :1506.01497 (pages 72, 74, 96).
Reyes, Mauricio, Raphael Meier, Sérgio Pereira, Carlos A Silva, Fried-Michael
Dahlweid, Hendrik von Tengg-Kobligk, Ronald M Summers et Roland Wiest
(2020). « On the interpretability of artificial intelligence in radiology : challenges and
opportunities ». In : Radiology : artificial intelligence 2.3, e190043 (pages 49, 50).
Ribeiro, Marco Túlio, Sameer Singh et Carlos Guestrin (2016). « "Why Should
I Trust You ?" : Explaining the Predictions of Any Classifier ». In : HLT-NAACL
Demos (page 52).
– (2018). « Anchors : High-Precision Model-Agnostic Explanations ». In : AAAI
(page 52).
Ronneberger, Olaf, Philipp Fischer et Thomas Brox (2015). « U-net : Convolutio-
nal networks for biomedical image segmentation ». In : International Conference on
Medical image Computing and Computer-Assisted Intervention. Springer, p. 234-241
(pages 15, 25, 28, 74, 90).
Samson, Laurens, Nanne van Noord, Olaf Booij, Michael Hofmann, Efstratios
Gavves et Mohsen Ghafoorian (2019). « I Bet You Are Wrong : Gambling Ad-
versarial Networks for Structured Semantic Segmentation ». In : IEEE International
Conference on Computer Vision Workshops (pages 17, 20, 29).
Santamaria-Pang, Alberto, James Kubricht, Aritra Chowdhury, Chitresh
Bhushan et Peter Tu (2020). « Towards Emergent Language Symbolic Seman-
tic Segmentation and Model Interpretability ». In : International Conference on
Medical Image Computing and Computer-Assisted Intervention. Springer, p. 326-
334 (page 95).
Selvaraju, R. R., M. Cogswell, A. Das, R. Vedantam, D. Parikh et D. Batra
(2017). « Grad-CAM : Visual Explanations from Deep Networks via Gradient-
Based Localization ». In : 2017 IEEE International Conference on Computer Vision
(ICCV), p. 618-626. doi : 10.1109/ICCV.2017.74 (pages 50, 51, 92, 95).
Senior, Andrew W, Richard Evans, John Jumper, James Kirkpatrick, Laurent
Sifre, Tim Green, Chongli Qin, Augustin Žıdek, Alexander WR Nelson, Alex
115
Bridgland et al. (2020). « Improved protein structure prediction using potentials
from deep learning ». In : Nature 577.7792, p. 706-710 (page 93).
Simonyan, Karen, Andrea Vedaldi et Andrew Zisserman (2013). « Deep inside
convolutional networks : Visualising image classification models and saliency maps ».
In : arXiv preprint arXiv :1312.6034 (pages 51-53, 92).
Simpson, Amber L, Michela Antonelli, Spyridon Bakas, Michel Bilello, Key-
van Farahani, Bram Van Ginneken, Annette Kopp-Schneider, Bennett A
Landman, Geert Litjens, Bjoern Menze et al. (2019). « A large annotated medi-
cal image dataset for the development and evaluation of segmentation algorithms ».
In : arXiv preprint arXiv :1902.09063 (pages 15, 90).
Smilkov, Daniel, Nikhil Thorat, Been Kim, Fernanda B. Viégas et Martin
Wattenberg (2017). « SmoothGrad : removing noise by adding noise ». In :
CoRR abs/1706.03825 (page 51).
Springenberg, Jost Tobias, Alexey Dosovitskiy, Thomas Brox et Martin A.
Riedmiller (2014). « Striving for Simplicity : The All Convolutional Net ». In :
CoRR abs/1412.6806 (page 51).
Sudre, Carole H, Wenqi Li, Tom Vercauteren, Sebastien Ourselin et M Jorge
Cardoso (2017). « Generalised dice overlap as a deep learning loss function for
highly unbalanced segmentations ». In : Deep learning in medical image analysis
and multimodal learning for clinical decision support. Springer, p. 240-248 (pages 20,
28).
Sundararajan, Mukund, Ankur Taly et Qiqi Yan (2017). « Axiomatic Attribution
for Deep Networks ». In : ICML (page 51).
Szegedy, Christian, Sergey Ioffe, Vincent Vanhoucke et Alexander Alemi (2017).
« Inception-v4, inception-resnet and the impact of residual connections on learning ».
In : Proceedings of the AAAI Conference on Artificial Intelligence. T. 31. 1 (page 92).
Taghanaki, Saeid Asgari, Kumar Abhishek, Joseph Paul Cohen, Julien Cohen-
Adad et Ghassan Hamarneh (2020). « Deep semantic segmentation of natural and
medical images : a review ». In : Artificial Intelligence Review, p. 1-42 (page 14).
Tajbakhsh, Nima, Laura Jeyaseelan, Qian Li, Jeffrey N Chiang, Zhihao Wu et
Xiaowei Ding (2020). « Embracing imperfect datasets : A review of deep learning
solutions for medical image segmentation ». In : Medical Image Analysis 63, p. 101693
(pages 14-16).
Tang, Meng, Federico Perazzi, Abdelaziz Djelouah, Ismail Ben Ayed, Chris-
topher Schroers et Yuri Boykov (2018). « On regularized losses for weakly-
supervised cnn segmentation ». In : Proceedings of the European Conference on Com-
puter Vision (ECCV), p. 507-522 (page 16).
Tolstikhin, Ilya, Olivier Bousquet, Sylvain Gelly et Bernhard Schoelkopf
(2017). « Wasserstein auto-encoders ». In : arXiv preprint arXiv :1711.01558
(page 99).
116
Valindria, Vanya V., Nick Pawlowski, Martin Rajchl, Ioannis Lavdas, Eric
O. Aboagye, Andrea G. Rockall, Daniel Rueckert et Ben Glocker (2018).
« Multi-modal Learning from Unpaired Images : Application to Multi-organ Segmen-
tation in CT and MRI ». In : IEEE Winter Conference on Applications of Computer
Vision (WACV), p. 547-556 (page 17).
Van der Maaten, Laurens et Geoffrey Hinton (2008). « Visualizing data using
t-SNE. » In : Journal of machine learning research 9.11 (page 54).
Vijayan, Sinara, Ingerid Reinertsen, Erlend Fagertun Hofstad, Anna Rethy,
Toril A Nagelhus Hernes et Thomas Langø (2014). « Liver deformation in an
animal model due to pneumoperitoneum assessed by a vessel-based deformable re-
gistration ». In : Minimally Invasive Therapy & Allied Technologies 23.5, p. 279-286
(page 106).
Wang, Kang, Adrija Mamidipalli, Tara Retson, Naeim Bahrami, Kyle Hasenstab,
Kevin Blansit, Emily Bass, Timoteo Delgado, Guilherme Cunha, Michael S
Middleton et al. (2019). « Automated CT and MRI liver segmentation and bio-
metry using a generalized convolutional neural network ». In : Radiology : Artificial
Intelligence 1.2, p. 180022 (pages 17, 20).
Wei, Yanan, X. Jiang, K. Liu, Cheng Zhong, Z. Shi, J. Leng et F. Xu (2019).
« A Hybrid Multi-atrous and Multi-scale Network for Liver Lesion Detection ». In :
MLMI@MICCAI (page 73).
Wilcoxon, Frank (1945). « Individual Comparisons by Ranking Methods ». In : Bio-
metrics Bulletin 1.6, p. 80-83. issn : 00994987. url : http : / / www . jstor . org /
stable/3001968 (page 30).
Wolterink, Jelmer M, Anna M Dinkla, Mark HF Savenije, Peter R Seevinck,
Cornelis AT van den Berg et Ivana Išgum (2017). « Deep MR to CT synthesis
using unpaired data ». In : International workshop on simulation and synthesis in
medical imaging. Springer, p. 14-23 (page 18).
Wu, Sen, Hongyang R. Zhang et Christopher Ré (2020). « Understanding and Impro-
ving Information Transfer in Multi-Task Learning ». In : International Conference on
Learning Representations. url : https://openreview.net/forum?id=SylzhkBtDB
(page 31).
Xiao, Youzi, Zhiqiang Tian, Jiachen Yu, Yinshu Zhang, Shuai Liu, Shaoyi Du et
Xuguang Lan (2020). « A review of object detection based on deep learning ». In :
Multimedia Tools and Applications 79.33, p. 23729-23791 (pages 69, 71).
Xu, Kai, Dae Hoon Park, Chang Yi et Charles Sutton (2018). « Interpreting
deep classifier by visual distillation of dark knowledge ». In : arXiv preprint
arXiv :1803.04042 (page 54).
Xu, Xuanang, F. Zhou, Bo Liu, D. Fu et X. Bai (2019). « Efficient Multiple Organ
Localization in CT Image Using 3D Region Proposal Network ». In : IEEE Transac-
tions on Medical Imaging 38, p. 1885-1898 (page 73).
117
Xu, Zhe, Jie Luo, Jiangpeng Yan, Xiu Li et Jagadeesan Jayender (2020). F3RNet :
Full-Resolution Residual Registration Network for Multimodal Image Registration.
arXiv : 2009.07151 [eess.IV] (pages 19, 37).
Yang, Heran, Jian Sun, Aaron Carass, Can Zhao, Junghoon Lee, Zongben Xu
et Jerry Prince (2018). « Unpaired brain MR-to-CT synthesis using a structure-
constrained CycleGAN ». In : Deep Learning in Medical Image Analysis and Multi-
modal Learning for Clinical Decision Support. Springer, p. 174-182 (page 18).
Yeche, Hugo, Justin Harrison et Tess Berthier (2019). « UBS : A Dimension-
Agnostic Metric for Concept Vector Interpretability Applied to Radiomics ». In :
Interpretability of Machine Intelligence in Medical Image Computing and Multimodal
Learning for Clinical Decision Support. Springer, p. 12-20 (page 54).
Yeh, Chih-Kuan, Cheng-Yu Hsieh, Arun Sai Suggala, David Inouye et Pradeep
Ravikumar (2019). « How Sensitive are Sensitivity-Based Explanations ? » In :
arXiv preprint arXiv :1901.09392 (page 52).
Yosinski, Jason, Jeff Clune, Anh Nguyen, Thomas Fuchs et Hod Lipson (2015).
« Understanding neural networks through deep visualization ». In : arXiv preprint
arXiv :1506.06579 (page 52).
Ypsilantis, Petros-Pavlos, Musib Siddique, Hyon-Mok Sohn, Andrew Davies,
Gary Cook, Vicky Goh et Giovanni Montana (2015). « Predicting response to
neoadjuvant chemotherapy with PET imaging using convolutional neural networks ».
In : PloS one 10.9, e0137036 (page 98).
Yuan, Wenguang, Jia Wei, Jiabing Wang, Qianli Ma et Tolga Tasdizen (2019).
« Unified Attentional Generative Adversarial Network for Brain Tumor Segmentation
From Multimodal Unpaired Images ». In : ArXiv :1907.03548 (page 17).
Zech, John R, Marcus A Badgeley, Manway Liu, Anthony B Costa, Joseph J
Titano et Eric Karl Oermann (2018). « Variable generalization performance of
a deep learning model to detect pneumonia in chest radiographs : a cross-sectional
study ». In : PLoS medicine 15.11, e1002683 (page 50).
Zeiler, Matthew D et Rob Fergus (2014). « Visualizing and understanding convolu-
tional networks ». In : European Conference on Computer Vision. Springer, p. 818-
833 (page 51).
Zeng, Qi, Davood Karimi, Emily HT Pang, Shahed Mohammed, Caitlin Schneider,
Mohammad Honarvar et Septimiu E Salcudean (2019). « Liver Segmentation
in Magnetic Resonance Imaging via Mean Shape Fitting with Fully Convolutional
Neural Networks ». In : International Conference on Medical Image Computing and
Computer-Assisted Intervention. Springer, p. 246-254 (page 17).
Zhang, Shifeng, Longyin Wen, Xiao Bian, Zhen Lei et Stan Z Li (2018). « Single-
shot refinement neural network for object detection ». In : Proceedings of the IEEE
conference on computer vision and pattern recognition, p. 4203-4212 (page 72).
118
Zhang, Yizhe, Lin Yang, Jianxu Chen, Maridel Fredericksen, David P Hughes et
Danny Z Chen (2017). « Deep adversarial networks for biomedical image segmenta-
tion utilizing unannotated images ». In : International Conference on Medical Image
Computing and Computer-Assisted Intervention. Springer, p. 408-416 (pages 17, 29).
Zhang, Yu, Peter Tiňo, Aleš Leonardis et Ke Tang (2020). « A Survey on Neural
Network Interpretability ». In : arXiv preprint arXiv :2012.14261 (pages 47-49).
Zhang, Zizhao, Lin Yang et Yefeng Zheng (2018). « Translating and Segmenting
Multimodal Medical Volumes with Cycle- and Shape-Consistency Generative Ad-
versarial Network ». In : IEEE/CVF Conference on Computer Vision and Pattern
Recognition, p. 9242-9251 (page 17).
Zhao, Hengshuang, Jianping Shi, Xiaojuan Qi, Xiaogang Wang et Jiaya Jia (2017).
« Pyramid scene parsing network ». In : Proceedings of the IEEE conference on
computer vision and pattern recognition, p. 2881-2890 (page 15).
Zhao, Zhong-Qiu, Peng Zheng, Shou-tao Xu et Xindong Wu (2019). « Object de-
tection with deep learning : A review ». In : IEEE transactions on neural networks
and learning systems 30.11, p. 3212-3232 (pages 71, 72).
Zhou, Tongxue, Su Ruan et Stéphane Canu (2019). « A review : Deep learning for
medical image segmentation using multi-modality fusion ». In : Array 3-4, p. 100004
(page 18).
Zhou, Yuyin, Zhe Li, Song Bai, Chong Wang, Xinlei Chen, Mei Han, Elliot
Fishman et Alan L Yuille (2019). « Prior-aware neural network for partially-
supervised multi-organ segmentation ». In : Proceedings of the IEEE/CVF Interna-
tional Conference on Computer Vision, p. 10672-10681 (page 16).
Zhou, Zongwei, Vatsal Sodha, Md Mahfuzur Rahman Siddiquee, Ruibin Feng,
Nima Tajbakhsh, Michael B Gotway et Jianming Liang (2019). « Models gene-
sis : Generic autodidactic models for 3D medical image analysis ». In : Internatio-
nal Conference on Medical Image Computing and Computer-Assisted Intervention.
Springer, p. 384-393 (pages 25, 26, 43).
Zhu, Jun-Yan, T. Park, Phillip Isola et Alexei A. Efros (2017). « Unpaired Image-
to-Image Translation Using Cycle-Consistent Adversarial Networks ». In : IEEE In-
ternational Conference on Computer Vision (ICCV), p. 2242-2251 (page 18).
Zou, Yang, Zhiding Yu, BVK Kumar et Jinsong Wang (2018). « Unsupervised do-
main adaptation for semantic segmentation via class-balanced self-training ». In :
Proceedings of the European conference on computer vision (ECCV), p. 289-305
(pages 16, 18).
Zwanenburg, Alex, Martin Vallières, Mahmoud A Abdalah, Hugo JWL Aerts,
Vincent Andrearczyk, Aditya Apte, Saeed Ashrafinia, Spyridon Bakas, Roe-
lof J Beukinga, Ronald Boellaard et al. (2020). « The image biomarker standar-
dization initiative : standardized quantitative radiomics for high-throughput image-
based phenotyping ». In : Radiology 295.2, p. 328-338 (pages 10, 57, 65, 97).
119
120
Annexe A
Publications
Articles publiés
— Vincent Couteaux, Salim Si-Mohamed, Olivier Nempont, Thierry Lefevre,
Alexandre Popoff, Guillaume Pizaine, Nicolas Villain, Isabelle Bloch, Anne
Cotten et Loïc Boussel (2019). « Automatic knee meniscus tear detection
and orientation classification with Mask-RCNN ». Diagnostic and interventional
imaging 100.4 p. 235-242.
— Vincent Couteaux, Salim Si-Mohamed, Raphaële Renard-Penna Olivier
Nempont, Thierry Lefevre, Alexandre Popoff, Guillaume Pizaine, Nico-
las Villain, Isabelle Bloch, Julien Behr, Marie-France Bellin, Catherine
Roy, Olivier Rouviere, Sarah Montagne, Nathalie Lassau et Loïc Boussel
(2019). « Kidney Cortex segmentation in 2D CT with U-Nets ensemble aggrega-
tion ». Diagnostic and Interventional Imaging 100, p. 211-217.
— Vincent Couteaux, Olivier Nempont, Guillaume Pizaine et Isabelle Bloch
(2019). « Towards interpretability of segmentation networks by analyzing Deep-
Dreams »Interpretability of Machine Intelligence in Medical Image Computing
and Multimodal Learning for Clinical Decision Support. Springer, p. 56-63.
Article accepté
— Vincent Couteaux, Olivier Nempont, Guillaume Pizaine et Isabelle Bloch
(2021). « Cooperating networks to enforce a similarity constraint in paired but
unregistered multimodal liver segmentation ». International Symposium on Bio-
medical Imaging.
Soumission ArXiv
— Vincent Couteaux, Olivier Nempont, Guillaume Pizaine et Isabelle Bloch
(2021). « Comparing Deep Learning strategies for paired but unregistered mul-
121
timodal segmentation of the liver in T1 and T2-weighted MRI ». ArXiv :
2101.06979.
122
Annexe B
123
Diagnostic and Interventional Imaging (2019) 100, 211—217
a
Philips Research France, 33, rue de Verdun, 92150 Suresnes, France
b
LTCI, Télécom ParisTech, Université Paris-Saclay, 75013 Paris, France
c
CREATIS, CNRS UMR 5220, Inserm U1206, INSA-Lyon, Claude Bernard Lyon 1 University, 69100
Villeurbanne, France
d
Department of Radiology, Hospices Civils de Lyon, 69002 Lyon, France
e
Department of Radiology, Hôpital Tenon, AP—HP, GRC-UPMC n◦ 5 Oncotype-URO, Sorbonne
universités, 75020 Paris, France
f
Department of Radiology, CHRU de Besançon, 25000 Besançon, France
g
Department of Radiology, Hôpitaux Universitaires Paris Sud, 94270 Le Kremlin Bicêtre,
France
h
Department of Radiology, CHU de Strasbourg, Nouvel Hôpital Civil, 67000 Strasbourg, France
i
Department of Uroradiology, Hospices Civils de Lyon, Faculté de Médecine Lyon Est, 69002
Lyon, France
j
Department of Radiology, Hôpital Pitié Salpétrière, AP—HP, 75013 Paris, France
k
Department of Radiology, Gustave Roussy, IR4M, UMR8081, CNRS, Université Paris-Sud,
Université Paris-Saclay, 94805 Villejuif, France
KEYWORDS Abstract
Renal cortex; Purpose: This work presents our contribution to one of the data challenges organized by the
Image segmentation; French Radiology Society during the Journées Francophones de Radiologie. This challenge con-
Artificial intelligence sisted in segmenting the kidney cortex from coronal computed tomography (CT) images, cropped
(AI); around the cortex.
Computed Materials and methods: We chose to train an ensemble of fully-convolutional networks and to
tomography (CT) aggregate their prediction at test time to perform the segmentation. An image database was
made available in 3 batches. A first training batch of 250 images with segmentation masks was
provided by the challenge organizers one month before the conference. An additional training
batch of 247 pairs was shared when the conference began. Participants were ranked using a
Dice score.
∗ Corresponding author. Philips Research France, 33, rue de Verdun, 92150 Suresnes, France.
E-mail address: [email protected] (V. Couteaux).
https://doi.org/10.1016/j.diii.2019.03.001
2211-5684/© 2019 Société française de radiologie. Published by Elsevier Masson SAS. All rights reserved.
212 V. Couteaux et al.
Results: The segmentation results of our algorithm match the renal cortex with a good precision.
Our strategy yielded a Dice score of 0.867, ranking us first in the data challenge.
Conclusion: The proposed solution provides robust and accurate automatic segmentations of
the renal cortex in CT images although the precision of the provided reference segmentations
seemed to set a low upper bound on the numerical performance. However, this process should
be applied in 3D to quantify the renal cortex volume, which would require a marked labelling
effort to train the networks.
© 2019 Société française de radiologie. Published by Elsevier Masson SAS. All rights reserved.
Renal diseases are often associated with cortical morpho- shared when the conference began. Two days later, the
logical changes, such as volume reduction or notch defect. teams were ranked on a test batch of 299 images.
All these features are considered as surrogate markers of CT images in the coronal plane, cropped and resized
renal diseases and can be visible on imaging examinations, around the kidney (192 × 192 pixels with a pixel size of
such as ultrasound, magnetic resonance imaging (MRI), or 1 × 1 mm and intensity in Hounsfield units [HU]) were pro-
computed tomography (CT) [1,2]. Despite a well-established vided (Fig. 1). The reference segmentation was provided as
qualitative assessment of the renal cortex with these modal- a binary mask for each image of the training set. Due to the
ities, a quantitative approach helps improve the diagnostic usual difficulties of manual segmentation, in particular for
work-up of renal diseases [3]. However, to date quantita- irregularly shaped objects such as the renal cortex, several
tive assessment of renal cortex is hampered by complex and reference segmentations were debatable or even erroneous.
time-consuming analyses such as semi-automated segmen- We observed that a proportion of the pixels at the edge
tations based on a pixel value threshold algorithm, region of the cortex were either left out when they should not
growing, appearance models combined with graph cuts or have been, or mislabeled as cortex while clearly outside
random forests [4—8]. The recent development of convolu- (Fig. 1c). Moreover, blood vessels inside the kidney were
tional neural networks (CNN), as well as the access to very occasionally included in the reference segmentation, but
large imaging databases, could help overcome these limi- this was inconsistent throughout the dataset (Fig. 1d). In
tations. Very promising results have recently been obtained fact, it can be hard to distinguish actual renal columns from
in several applications such as the segmentation of cardiac some blood vessels. We clipped the image intensity values
chambers, and the brain [9,10]. However, the appropriate between −150 HU and 200 HU and rescaled them between
artificial intelligence (AI) tools for kidney analysis still need 0 and 1. This range has been chosen manually to contain
to be developed. all the renal cortex dynamic and limit the influence of high
Fully-convolutional networks have drastically improved values in the image, corresponding to bones, and very low
the state-of-the-art in image segmentation [11]. U-Nets are values, corresponding to air.
currently a standard approach for two-dimensional (2D) or To address the specific difficulties of this challenge,
three-dimensional (3D) medical image segmentation prob- such as the imprecision of the reference segmentations, we
lems [12—18]. adopted several popular strategies such as artificial data
The Journées Francophones de Radiologie was held in augmentation, meta parameter optimization, pre-training
Paris in October 2018. For the first time this year, the French and post-processing with connected components analysis
Society of Radiology organized an AI competition. Teams [19—22]. We also used ensemble aggregation, a standard
of industrial researchers, students, and radiologists were machine learning technique frequently applied to deep
invited to take part in five data challenges. In this paper, learning [12,22,23].
we present our approach to address the kidney cortex seg-
mentation challenge aiming at segmenting the renal cortex
on 2D coronal CT images.
Network architecture
We chose a U-Net architecture with 5 levels of depth,
Method residual blocks, and rectified linear units (ReLU) activation
functions, and added convolutions on the skip connec-
Kidney cortex segmentation challenge tions (Fig. 2) [18,24—26]. We set the meta-parameters
using a Bayesian optimization approach [19,20]. We used
An image database was made available in 3 batches. A first artificial data augmentation during training to limit overfit-
training batch of 250 images with segmentation masks was ting, by randomly applying translations, rotations, zooms,
provided by the challenge organizers one month before the noise, brightness and contrast shifts to the input samples.
conference. An additional training batch of 247 pairs was The training was performed until convergence and lasted
Kidney cortex segmentation 213
Figure 1. CT images of the kidney from the training set provided by the data challenge organizers. The reference segmentation is
overlapped in blue; a: image only; b: correct segmentation; c: inaccurate segmentation and renal column clusters (arrow); d: blood vessels
included in the segmentation (arrow).
Figure 2. Selected network architecture to achieve the segmentation task. Green boxes are residual blocks, blue boxes are simple
convolutional layers with ReLU activation. Batch normalization is applied after convolution and before activation.
between one and two hours. We used Adam optimizer with that pre-training the network on a large and publicly-
a learning rate of 1.10−4 on batches of 10 images. available dataset would be advantageous. We therefore
pre-trained our U-Nets to segment persons, the common
Weight initialization and pre-training objects in context (COCO) dataset [26]. We compared
training experiments using randomly initialized weights or
Considering the low amount of data available for training fol- pre-training (Fig. 3). Although the final score was similar,
lowing the popular practice initiated in [21], we considered the training converges faster using a pre-trained network,
214 V. Couteaux et al.
Figure 3. Impact of pre-training on the training procedure: a: evolution of the Dice score on the validation set during training (red is
pre-trained, green is not); b: evolution of the binary cross-entropy on the training set (blue is pre-trained, pink is not). The x-axis represents
the number of training steps.
Figure 4. Top line: segmentation achieved by three networks trained on three different folds of the training database (each output is
displayed on a different color channel, so that white represents a consensus for positively-labeled regions. We observe inconsistencies on
the inner parts of the renal columns, and to a lesser extent on the outermost edge of the renal cortex). Bottom line: corresponding input
CT images.
and was more stable overall. Therefore, we used pre-trained results by taking the median value for each pixel, as it has
networks. shown to produce better results than the mean, by reducing
the influence of extreme or outlier values.
Post-processing and ensemble aggregation
We noticed that networks trained on different folds of the Results
training database behave differently, especially on ambigu- 2|P∩T |
ous pixels (Fig. 4). To improve the robustness and reduce the Participants were ranked using a Dice score: S = |P |+|T | ,
variability, we used ensemble aggregation. where P is the predicted mask and T is the reference mask.
We trained five networks on random folds of the training We obtained a score of 0.867 on the test dataset and won
dataset, and two others on the complete training dataset. the challenge by a narrow margin. The slight improvement
For each image at test time, we thus obtained seven seg- obtained by the ensemble aggregation enabled us to win this
mentation masks taking pixel values in the interval ‘‘[0,1]’’. challenge, as the second ranked team scored higher than our
In each mask we only kept the largest connected compo- best network.
nent in order to remove obvious false positives (see, for The segmentation results of our algorithm match the
instance Fig. 4, top middle: a blob is falsely labeled posi- renal cortex with a good precision (Fig. 5). However, some of
tively by one of the networks). Finally, we aggregated the the flaws of the provided reference segmentations remain,
Kidney cortex segmentation 215
Figure 5. Illustration of automatic segmentation results obtained with the proposed approach (overlapped in blue on the input CT image);
a: correct segmentation; b: cluster of renal columns; c: overextended segmentation.
Figure 6. Illustration of test cases where the automatic segmentation results (blue) seem more accurate than the provided reference
segmentation (red). Intersection in pink; a: vessels included in the reference mask but not in automatic segmentation result; b: reference
segmentation obviously too wide.
such as the large clusters of renal columns, or when parts the first and second place (< 0.003 Dice points), and the gap
of the cortex are too widely segmented and join each other. between all the candidates (< 0.03 Dice points). As a con-
Nonetheless, our algorithm seems to be less imprecise than sequence, the performance gain achieved by each of our
the provided annotation, especially at the boundary of the algorithm details (image intensity scaling, data augmenta-
cortex (Fig. 6). tion, pre-training, meta-parameter optimization, connected
components analysis and ensemble aggregation) was dif-
ficult to quantify and barely significant if at all when
Discussion considered alone, but enabled us, when added together, to
improve the overall performance and win the challenge.
The state-of-the-art in image segmentation has improved In conclusion, although 3D segmentation is useful clin-
greatly during the past five years, thanks to the progress ically, the choice of 2D makes sense for a data challenge
accomplished in Deep Learning, to the point that some seg- as it simplifies data collection, annotation, and storage
mentation problems, which would have been considered a [13,15—17]. Future research is needed to address the prob-
challenge ten years ago, now seem easy [27,28]. This is the lem of renal cortex segmentation in 3D volumes.
case of renal cortex segmentation, where one can quickly
achieve good results by training a UNet with any recent
architecture found in the literature [18]. To the best of Human and animal rights
our knowledge, all the contestants chose a deep learning
approach and the gap between participants was less than The authors declare that the work described has been car-
0.03 Dice points. ried out in accordance with the Declaration of Helsinki of
The precision of the reference segmentations provided the World Medical Association revised in 2013 for experi-
for this challenge seemed to set a low upper bound on the ments involving humans as well as in accordance with the
performance, as corroborated by the narrow gap between EU Directive 2010/63/EU for animal experiments.
216 V. Couteaux et al.
Informed consent and patient details Sarah Montagne: conceptualization and design;
resources; data curation.
The authors declare that this report does not contain any Nathalie Lassau: conceptualization and design;
personal information that could lead to the identification of resources; data curation; writing — original draft
the patient(s). preparation; review & editing.
The authors declare that they obtained a written Anne Cotten: conceptualization and design; data cura-
informed consent from the patients and/or volunteers tion; resources; review & editing.
included in the article. The authors also confirm that the Loïc Boussel: conceptualization and design; supervision;
personal details of the patients and/or volunteers have been writing — original draft preparation; review & editing.
removed.
Disclosure of interest
Funding
The authors declare that they have no competing interest.
This work received funding from Association Nationale de la
Recherche et de la Technologie (Contract 2018/2439)
References
[1] van den Dool SW, Wasser MN, de Fijter JW, Hoekstra J,
Author contributions van der Geest RJ. Functional renal volume: quantitative analy-
sis at gadolinium-enhanced MR angiography–feasibility study in
All authors attest that they meet the current International healthy potential kidney donors. Radiology 2005;236:189—95.
Committee of Medical Journal Editors (ICMJE) criteria for [2] Gandy SJ, Armoogum K, Nicholas RS, McLeay TB, Houston JG.
Authorship. A clinical MRI investigation of the relationship between kid-
ney volume measurements and renal function in patients with
renovascular disease. Br J Radiol 2007;80:12—20.
[3] Grantham JJ, Torres VE, Chapman AB, Guay-Woodford LM, Bae
Credit author statement KT, King Jr BF, et al. Volume progression in polycystic kidney
disease. N Engl J Med 2006;354:2122—30.
Vincent Couteaux: conceptualization and design; data cura- [4] Chen X, Summers RM, Cho M, Bagci U, Yao J. An automatic
tion; writing-original draft preparation; review & editing. method for renal cortex segmentation on CT images: evalua-
Salim Si-Mohamed: conceptualization and design; data tion on kidney donors. Acad Radiol 2012;19:562—70.
curation; supervision; resources; writing — original draft [5] Halleck F, Diederichs G, Koehlitz T, Slowinski T, Engelken F,
preparation; review & editing. Liefeldt L, et al. Volume matters: CT-based renal cortex volume
Raphaele Renard-Penna: conceptualization and design; measurement in the evaluation of living kidney donors. Transpl
resources; data curation; writing — original draft prepara- Int 2013;26:1208—16.
tion; review & editing. [6] Jin C, Shi F, Xiang D, Jiang X, Zhang B, Wang X, et al. 3D fast
automatic segmentation of kidney based on modified AAM and
Olivier Nempont: conceptualization and design; data
random forest. Trans Med Imaging 2016;35:1395—407.
curation; writing — original draft preparation; review & edit- [7] Pohle R, Toennies KD. A new approach for model-based adap-
ing. tive region growing in medical image analysis. Computer
Thierry Lefevre: conceptualization and design; data cura- Analysis of Images and Patterns Springer 2001;2124:238—46.
tion; writing — original draft preparation; review & editing. [8] Torimoto I, Takebayashi S, Sekikawa Z, Teranishi J, Uchida K,
Alexandre Popoff: conceptualization and design; data Inoue T. Renal perfusional cortex volume for arterial input func-
curation; writing — original draft preparation; review & edit- tion measured by semiautomatic segmentation technique using
ing. MDCT angiographic data with 0.5-mm collimation. AJR Am J
Guillaume Pizaine: conceptualization and design; data Roentgenol 2015;204:98—104.
[9] Akkus Z, Galimzianova A, Hoogi A, Rubin DL, Erickson BJ. Deep
curation; writing — original draft preparation; review & edit-
learning for brain MRI segmentation: state of the art and future
ing.
directions. J Digit Imaging 2017;30:449—59.
Nicolas Villain: conceptualization and design; data cura- [10] Avendi MR, Kheradvar A, Jafarkhani H. Automatic segmentation
tion; writing — original draft preparation; review & editing. of the right ventricle from cardiac MRI using a learning-based
Isabelle Bloch: conceptualization and design; data cura- approach. Magn Reson Med 2017;78:2439—48.
tion; writing — original draft preparation; review & editing. [11] Shelhamer E, Long J, Darrell T. Fully convolutional networks
Julien Behr: conceptualization and design; resources; for semantic segmentation. IEEE Trans Pattern Anal Mach Intell
data curation; writing — original draft preparation; review 2017;39:640—51.
& editing. [12] Chen Y, Shi B, Wang Z, Zhang P, Smith CD, Liu. J.Hippocampus
Marie-France Bellin: conceptualization and design; segmentation through multi-view ensemble ConvNets. 2017. p.
192—6.
resources; data curation.
[13] P.F. Christ, F. Ettlinger, F. Grün, M.E.A. Elshaera, J. Lip-
Catherine Roy: conceptualization and design; resources;
kova, S. Schlecht, et al. Automatic liver and tumor
data curation; writing — original draft preparation; review segmentation of CT and MRI volumes using cascaded
& editing. fully convolutional neural networks. https://arxiv.org/
Olivier Rouviere: conceptualization and design; abs/1702.05970 [Accessed on March 20, 2019].
resources; data curation; writing — original draft [14] Çiçek Ö, Abdulkadir A, Lienkamp SS, Brox T, Ronneberger O.
preparation; review & editing. 3D U-Net: learning dense volumetric segmentation from sparse
Kidney cortex segmentation 217
annotation. Medical Image Computing and Computer-Assisted [21] Oquab M, Bottou L, Laptev I, Sivic J. Learning and trans-
Intervention. MICCAI, 9901. Cham: Springer; 2016 [Lecture ferring mid-level image representations using convolutional
Notes in Computer Science]. neural networks. Computer Vision and Pattern Recognition.
[15] Dong H, Yang G, Liu F, Mo Y, Guo Y. Automatic brain tumor IEEE; 2014. p. 1717—24.
detection and segmentation using U-Net based fully convo- [22] Rokach L. Ensemble-based classifiers. Artificial Intelligence
lutional networks. In: Valdés Hernández M, González-Castro Review 2009;33:1—39.
V, editors. Medical Image Understanding and Analysis. MIUA. [23] Marmanis D, Wegner JD, Galliani S, Schindler K, Datcu M, Stilla
Communications in Computer and Information Science, 723. U. Semantic segmentation of aerial images with an ensemble
Cham: Springer; 2017. of CNNs, ISPRS Annals of the Photogrammetry. Remote Sens
[16] Erden B, Gamboa N, Wood S. 3D convolutional neural Spatial Info Sci 2016;III:473—80.
network for brain tumor segmentation. Computer Sci- [24] He K, Zhang X, Ren S, Sun J. Deep residual learning for image
ence. Stanford University; 2017 http://cs231n.stanford.edu/ recognition. Computer Vision and Pattern Recognition. IEEE;
reports/2017/pdfs/526.pdf. 2016. p. 770—8.
[17] F. Milletari, N. Navab, SA. Ahmadi. V-Net: Fully convolutional [25] Peng C, Zhang X, Yu G, Luo G, Sun J. Large kernel matters
neural networks for volumetric medical image segmentation. improve semantic segmentation by global convolutional net-
3D Vision. IEEE 2016:565-71 [Accessed on March 20, 2019]. work. Computer Vision and Pattern Recognition. IEEE; 2017. p.
[18] Ronneberger O, Fischer P, Brox T. U-Net: convolutional net- 1743—51.
works for biomedical image segmentation. Medical Image [26] Lin TY, Maire M, Belongie SJ, Bourdev LD, Girshick RB, Hays J,
Computing and Computer-Assisted Intervention; 2015. p. et al. Microsoft COCO: common objects in context. European
234—41. Conference on Computer Vision; 2014. p. 740—55.
[19] Bertrand H, Ardon R, Perrot M, Bloch I. Hyperparameter opti- [27] Garcia-Garcia A, Orts S, Oprea S, Villena-Martinez V, Rodríguez
mization of deep neural networks: combining hyperband with JG. A review on deep learning techniques applied to seman-
bayesian model selection. France: CAP; 2017. tic segmentation. Computer Vision and Pattern Recognition.
[20] Bertrand H, Perrot M, Ardon R, Bloch I. Classification of MRI Cornell University; 2017.
data using deep learning and Gaussian process-based model [28] LeCun Y, Bengio Y, Hinton G. Deep learning. Nature
selection. Biomedical Imaging. IEEE; 2017. p. 745—8. 2015;521:436—44.
Diagnostic and Interventional Imaging (2019) 100, 235—242
a
Philips Research France, 33, rue de Verdun, 92150 Suresnes, France
b
LTCI, Télécom ParisTech, université Paris-Saclay, 46, rue Barrault, 75013 Paris, France
c
Inserm U1206, INSA-Lyon, Claude-Bernard-Lyon 1 University, CREATIS, CNRS UMR 5220, 69100
Villeurbanne, France
d
Department of Radiology, hospices civils de Lyon, 69002 Lyon, France
e
Department of Musculoskeletal Radiology, CHRU de Lille, 59000 Lille, France
KEYWORDS Abstract
Knee meniscus; Purpose: This work presents our contribution to a data challenge organized by the French Radi-
Artificial intelligence; ology Society during the Journées Francophones de Radiologie in October 2018. This challenge
Mask region-based consisted in classifying MR images of the knee with respect to the presence of tears in the knee
convolutional neural menisci, on meniscal tear location, and meniscal tear orientation.
network (R-CNN); Materials and methods: We trained a mask region-based convolutional neural network (R-CNN)
Meniscal tear to explicitly localize normal and torn menisci, made it more robust with ensemble aggregation,
detection; and cascaded it into a shallow ConvNet to classify the orientation of the tear.
Orientation Results: Our approach predicted accurately tears in the database provided for the challenge.
classification This strategy yielded a weighted AUC score of 0.906 for all three tasks, ranking first in this
challenge.
Conclusion: The extension of the database or the use of 3D data could contribute to further
improve the performances especially for non-typical cases of extensively damaged menisci or
multiple tears.
© 2019 Société française de radiologie. Published by Elsevier Masson SAS. All rights reserved.
∗ Corresponding author. Philips Research France, 33, rue de Verdun, 92150 Suresnes, France.
E-mail address: [email protected] (V. Couteaux).
https://doi.org/10.1016/j.diii.2019.03.002
2211-5684/© 2019 Société française de radiologie. Published by Elsevier Masson SAS. All rights reserved.
236 V. Couteaux et al.
Introduction Method
Meniscal lesions are a frequent and common cause of knee Knee meniscus tear challenge
pain, responsible for approximately 700,000 arthroscopic
partial meniscectomies per year in the United States [1]. Sagittal MR images centered around the knee were provided
They are defined as a tear within the meniscus, and can with the following annotations:
lead to articular cartilage degeneration over time, further • position of the image (medial or lateral);
necessitating surgical treatment. Magnetic resonance imag- • presence of a tear in the posterior meniscus;
ing (MRI) plays a central role in the diagnosis of meniscus • presence of a tear in the anterior meniscus;
lesions, the preoperative planning and the postoperative • orientation of the tear in the posterior meniscus (if any);
rehabilitation of the patient [2,3]. As meniscal lesions are • orientation of the tear in the anterior meniscus (if any).
very frequent, their diagnosis could certainly benefit from
Two training batches were provided; the first made of
a quantitative and automated solution giving more accurate
257 images was shared one month before the conference
results in a faster way. Computer-aided detection systems and the other, made of 871 images, 2 days before the end
for meniscal tears were thus proposed whereby regions of of the challenge. The first batch contained 55/257 (21.4%)
interest in the image are extracted and classified based on images with horizontal posterior tears, 46/257 (17.9%) with
handcrafted image features [4—8]. vertical posterior tears, 13/257 (5.1%) with horizontal ante-
The Journées Francophones de Radiologie was held in
rior tears and 8/257 (3.1%) with vertical anterior tears. The
Paris in October 2018. For the first time, the French Society second batch contained 107/871 (12.3%) images with hori-
of Radiology organized an artificial intelligence (AI) compe-
zontal posterior tears, 60/871 (6.9%) with vertical posterior
tition involving teams of industrial researchers, students and
tears, 8/871 (0.9%) with horizontal anterior tears and 3/871
radiologists.
(0.3%) with vertical anterior tears. The classes were imbal-
This paper presents our contribution to the knee menis-
anced, with horizontal tears and posterior meniscus tears
cus tear challenge, where participants had to classify being more frequent, and a low number of anterior tears
sagittal MRI slices cropped around the knee depending on were available for training. We reviewed the database and
the presence of tears in anterior and posterior menisci removed any ambiguous annotations from the training set.
and on their orientation (horizontal or vertical). We pro- Images of size 256 × 256, either of the medial or of the
posed a method that takes advantage of recent advances in lateral plane of the knee, were provided, as illustrated in
deep learning [9,10]. More precisely, we propose to local-
Fig. 1a, b. The femur was always on the left and the tibia
ize, segment, and classify healthy and torn menisci using on the right, with the anterior meniscus at the top and the
a mask region-based convolutional neural network (R-CNN) posterior meniscus at the bottom of the image. Horizontal
approach that is cascaded into a shallow ConvNet to classify tears appeared vertical and vice versa. The grey level scale
tear orientation. was in an arbitrary unit scaled between 0 and 1, and the
Figure 1. Database contains either medial e.g. (a) or lateral e.g. (b) MR images of the knee. (a—b) MR images shows healthy menisci.
(c—f) MR images shows examples of tears as present in the database. (c) Horizontal tear in posterior meniscus, (d) Horizontal tear in anterior
meniscus, (e) Vertical tear in posterior meniscus and (f), Vertical tear in anterior meniscus. Arrows point out tears.
Automatic knee meniscus tear detection and orientation classification with Mask-RCNN 237
Figure 2. MR images illustrate challenging cases. (a) Potentially misleading lesion. (b) Barely visible meniscus. (c) Multiple tears in the
same meniscus.
Figure 4. (a) Image from the training database with a clearly visible torn posterior meniscus that was correctly classified by the ConvNet.
(b) Same image with a superimposed saliency mask indicating that the network focuses on non-relevant regions and barely considers the
posterior meniscus itself. (c) Image (a) after applying a black top-hat filter with a disk structuring element of radius 5 pixels. (d) Saliency
map for the processed image.
Figure 5. Pre-processing of the data used as input of the Mask R-CNN. (a) Original image. (b) 5 × 5 white top-hat. (c) 11 × 11 white
top-hat. (d) 21 × 21 white top-hat.
Figure 6. Output of Mask R-CNN. (a—b) Correct results. (c) Posterior meniscus incorrectly segmented and labeled as torn.
In this way, we obtained the localization of each menis- is appropriately identified as torn. However, the posterior
cus, the classification of healthy vs. torn, and a classification meniscus is too widely segmented and incorrectly labeled
score. We chose to perform the classification of tear orienta- as torn (Fig. 6).
tion independently on the segmented meniscus region only,
as explained below because the classes would have been too Training
imbalanced otherwise (only 11 vertical tears in the anterior
meniscus for instance). We fine-tuned a Mask R-CNN with a ResNet-101 backbone,
We used a Mask R-CNN model pre-trained on the common pretrained on COCO dataset) [13—15]. The training was done
object in context (COCO) dataset [14] whose input is a three using an Adam optimizer, 1.10 −3 learning rate and batches
channel image. We applied three white top-hat filters (the of 8 images, during 1000 epochs of 100 batches.
dual of the black top-hat filters described above) on origi-
nal MRI slices with square structuring elements of size 5 × 5, Ensemble aggregation
11 × 11 and 21 × 21 (Fig. 5) to generate network inputs. Note
that we did not constrain the model to return exactly one To improve the robustness of our model, we applied ensem-
result for each meniscus because the two menisci were cor- ble aggregation. We trained five models on random folds of
rectly detected in almost all cases. We illustrate in Fig. 6 the the full training data set (1128 images) and retained five
output of the Mask R-CNN. In Fig. 6a, the two healthy menisci additional models trained on random folds of the first train-
are properly detected. In Fig. 6b, the posterior meniscus ing batch only (the first 257 images). We aggregated the
Automatic knee meniscus tear detection and orientation classification with Mask-RCNN 239
Figure 7. Patch extraction for orientation classification. (a) Extracted patch, resized to 47 × 47. (b) Local orientation map, = 3. (c) Local
orientation map, = 1. (d) Black top-hat, r = 4. (e) Black top-hat, r = 8.
results differently for anterior and posterior menisci. We (approximately 5 min). We validated the method on the
classified the anterior meniscus as torn when at least one remaining 54 cases and selected the model with the highest
network had detected a torn anterior meniscus, with a prob- validation accuracy.
ability Pant (F) equal to the mean classification score of all
detected torn anterior menisci by the ensemble. We classi-
fied the posterior meniscus as torn when the strict majority Results
of the networks had detected a torn posterior meniscus.
The probability Ppost (F) is equal to the mean classification Score and ranking
score of all detected torn posterior menisci by the ensemble.
We used different aggregation methods as a large major- Teams were ranked according to a weighted average of the
ity of anterior menisci are healthy. Some networks may not area under the ROC curves (AUC) of the tear detection task
have seen enough torn anterior menisci in order to recognize Det (tear in any meniscus), the tear localization task Loc
them. (anterior or posterior) and the orientation classification task
Or (horizontal or vertical), according to Eq. 1 (E1):
Tear orientation classification Score = 0.4 × AUC (Det) + 0.3 × AUC (Loc)
To classify the orientation of torn menisci as horizontal or + 0.3 × AUC (Or) (E1)
vertical, we trained a neural network on images cropped
to the bounding boxes of detected torn menisci, resized The organizers therefore removed from the database
to 47 × 47 pixels. This network was fed with pre-processed cases where both menisci had tears and the following values
patches, each input having five channels illustrated in Fig. 7: were submitted for each image:
• unprocessed patch; • Probability of a tear in any meniscus P(F);
• local orientation map, computed with = 3 (see below); • Probability that the tear (if any) is in the anterior meniscus
• local orientation map, computed with = 1;
P(Ant);
• black top-hat transform, with a disk structuring element • Probability that the tear (if any) is horizontal P(H).
of radius 4 pixels;
• black top-hat transform, with a disk structuring element The Mask R-CNN ensemble outputs a probability Pant (F)
of radius 8 pixels. that the anterior meniscus is torn, and a probability Ppost (F)
that the posterior meniscus is torn, both being independent
The local orientation map represents the angle of the a priori. This results in Eq. 2 (E2)
smallest eigenvector of the Hessian matrix at each pixel. The
Hessian matrix was computed with the second derivative of a P (F ) = Ppost (F ) + Pant (F ) − Ppost (F ) Pant (F ) (E2)
Gaussian kernel, whose standard deviation is a parameter. where P(Ant) is defined by Equation 3 (E3)
Only 300 torn menisci were provided for training. There-
fore, we trained a very shallow CNN based on a VGG-like P (Ant) = Pant (F ) / Pant(F ) + Ppost (F ) (E3)
architecture:
• Convolution, 3 × 3 kernel, 8 filters, ReLU activation; To obtain P(H), we applied the orientation classifier on
• Max-pooling, 2 × 2; the anterior meniscus when P(Ant) > 0.5 and on the posterior
• Convolution, 3 × 3 kernel, 16 filters, ReLU activation; meniscus otherwise.
• Max-pooling, 2 × 2; A test set of 700 images was used for ranking. We
• Convolution, 3 × 3 kernel, 32 filters, ReLU activation; obtained a score of 0.906 and shared the first place with
• Max-pooling, 2 × 2; another team (score 0.903).
• Dense Layer with 1024 units, ReLU activation, P = 0.5
dropout; Visual inspection
• Dense Layer with 1024 units, ReLU activation, P = 0.5
In most cases, the prediction was in line with our inter-
dropout;
• Dense Layer with 2 units and a softmax activation. pretation as illustrated in Fig. 8, but a few cases seemed
suspicious. The resulting classification scores were almost
We trained this network on 246 torn menisci of the train- binary, either very close to 1 or very close to 0, especially
ing database with a Stochastic Gradient Descent, 1.10 −3 P(F). However, for some images, the predictor returned clas-
learning rate and batches of 32 images, during 800 epochs sification scores close to 0.5 (Fig. 9).
240 V. Couteaux et al.
Figure 8. Prediction results on the testing batch. Most results seem correct, e.g. (a—b). However, some predictions are suspicious, e.g.
(d—e). (a) No tear. (b) Horizontal tear on the posterior meniscus. (d) P(Ant) ∼ 0.45 but the anterior meniscus looks torn. (e) P(F) ∼ 0 but a
tear is visible in the anterior meniscus. (c) Distribution of P(F). (f) Distribution of P (H) for cases satisfying P(F) > 0.5.
Figure 9. Cases for which P (F) (a—c) or P (H) (d—f) were close to 0.5. (a) Tear on the anterior meniscus but a slice where the menisci are
connected was selected which does not meet the inclusion criteria. (b) Damaged anterior meniscus, but the presence of a tear is unclear.
Yet the algorithm focused on the anterior meniscus: P (Ant) > 0.99. (c) Untypical lesion on the anterior meniscus. (d—e) Extensively damaged
meniscus. (f) Several tears in one meniscus.
Automatic knee meniscus tear detection and orientation classification with Mask-RCNN 241
[9] Garcia-Garcia A, Orts S, Oprea S, Villena-Martinez V, Rodríguez [13] He K, Gkioxari G, Dollár P, Girshick R. Mask R-CNN. International
JG. A review on deep learning techniques applied to seman- Conference on Computer Vision (ICCV). IEEE; 2017. p. 2980—8.
tic segmentation. Computer Vision and Pattern Recognition. [14] Lin TY, Maire M, Belongie SJ, Bourdev LD, Girshick RB, Hays J,
Cornell University; 2017. et al. Microsoft COCO: Common objects in context. European
[10] LeCun Y, Bengio Y, Hinton G. Deep learning. Nature Conference on Computer Vision (ECCV); 2014. p. 740—55.
2015;521:436—44. [15] He K, Zhang X, Ren S, Sun J.Deep residual learning for image
[11] Simonyan K, Zisserman A. Very deep convolutional networks for recognition. 2016. p. 770—8.
large-scale image recognition. arXiv preprint arXiv :1409.1556; [16] Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, et al.
2014. Imagenet large scale visual recognition challenge. Int Comput
[12] Xu Y, Géraud T, Puybareau E, Bloch I, Chazalon J. White matter Vision 2015;115:211—52.
hyperintensities segmentation in a few seconds using fully con- [17] Krizhevsky A, Sutskever I, Hinton GE. Imagenet classification
volutional network and transfer learning, brain lesion: glioma, with deep convolutional neural networks. Adv Neural Info Proc
multiple sclerosis, stroke and traumatic brain injuries. Lect Syst 2012:25.
Notes Comp Sci 2017:1067.
Titre : Apprentissage profond pour la segmentation et la détection automatique en imagerie multi-modale.
Application à l’oncologie hépatique
Mots clés : Segmentation, Détection d’objets, Interprétabilité, Apprentissage profond, IRM, Lésions
hépatiques
Résumé : Pour caractériser les lésions hépatiques, La segmentation multi-modale dans un contexte où
les radiologues s’appuient sur plusieurs images les images sont appariées mais pas recalées entre
acquises selon différentes modalités (différentes elles est un problème peu abordé dans la littérature.
séquences IRM, tomodensitométrie, etc.) car celles- Je propose une comparaison de stratégies d’appren-
ci donnent des informations complémentaires. En tissage proposées pour des problèmes voisins, ainsi
outre, les outils automatiques de segmentation et de qu’une méthode pour intégrer une contrainte de simi-
détection leur sont d’une grande aide pour la ca- larité des prédictions à l’apprentissage.
ractérisation des lésions, le suivi de la maladie ou la L’interprétabilité en apprentissage automatique est
planification d’interventions. A l’heure où l’apprentis- un champ de recherche jeune aux enjeux par-
sage profond domine l’état de l’art dans tous les do- ticulièrement importants en traitement de l’image
maines liés au traitement de l’image médicale, cette médicale, mais qui jusqu’alors s’était concentré sur
thèse vise à étudier comment ces méthodes peuvent les réseaux de classification d’images naturelles. Je
relever certains défis liés à l’analyse d’images multi- propose une méthode permettant d’interpréter les
modales, en s’articulant autour de trois axes : la seg- réseaux de segmentation d’images médicales.
mentation automatique du foie, l’interprétabilité des Enfin, je présente un travail préliminaire sur une
réseaux de segmentation et la détection de lésions méthode de détection de lésions hépatiques dans des
hépatiques. paires d’images de modalités différentes.
Title : Deep Learning for automatic segmentation and detection in multi-modal imaging. Application to hepatic
oncology
Keywords : Segmentation, Object detection, Interpretability, Deep learning, MRI, Liver lesions
Abstract : In order to characterize hepatic lesions, ra- images are paired but not registered with respect to
diologists rely on several images using different mo- each other is a problem that is little addressed in the
dalities (different MRI sequences, CT scan, etc.) be- literature. I propose a comparison of learning strate-
cause they provide complementary information. In ad- gies that have been proposed for related problems, as
dition, automatic segmentation and detection tools well as a method to enforce a constraint of similarity
are a great help in characterizing lesions, monito- of predictions into learning.
ring disease or planning interventions. At a time when Interpretability in machine learning is a young field of
deep learning dominates the state of the art in all research with particularly important issues in medi-
fields related to medical image processing, this thesis cal image processing, but which so far has focused
aims to study how these methods can meet certain on natural image classification networks. I propose a
challenges related to multi-modal image analysis, re- method for interpreting medical image segmentation
volving around three axes : automatic segmentation of networks.
the liver, the interpretability of segmentation networks Finally, I present preliminary work on a method for de-
and detection of hepatic lesions. tecting liver lesions in pairs of images of different mo-
Multi-modal segmentation in a context where the dalities.