Validation-And-Interpretation-Of-A-Multimodal-Drow - 2024 - Computer-Methods-and FR
Validation-And-Interpretation-Of-A-Multimodal-Drow - 2024 - Computer-Methods-and FR
Validation-And-Interpretation-Of-A-Multimodal-Drow - 2024 - Computer-Methods-and FR
somnolence
à l'aide de l'apprentissage automatique explicable
Md Mahmudul Hasan a,b,*Christopher N. Watling b,c,d, Gr'e goire S. Larue b,e
a École d'informatique et d'ingénierie, Université de Nouvelle-Galles du Sud (UNSW), Australie
b Centre de recherche sur les accidents et la sécurité routière - Queensland (CARRS-Q), Université de technologie du Queensland (QUT), Australie
c École de psychologie et de bien-être, Université de Southern Queensland (USQ), Australie
d École des sciences de l'exercice et de la nutrition, Université de technologie du Queensland (QUT), Australie
e Road Safety Research Collaboration, School of Law and Society, University of the Sunshine Coast (USC), Australie
A R T I C L E EN F A B S T R A C T
O
Contexte et objectif : La somnolence au volant est un problème majeur de sécurité routière et les efforts se
Mots-clés : concentrent sur le développement de systèmes de détection de la somnolence au volant. Cependant, la plupart des
Caractéristiques
études sur la détection de la somnolence au volant à l'aide de signaux physio- logiques se sont concentrées sur le
Signaux
développement d'un classificateur d'apprentissage automatique "boîte noire", en accordant beaucoup moins
physiologiques
Validation
d'importance à la "robustesse" et à l'"explicabilité", deux propriétés cruciales d'un modèle d'apprentissage
Interprétabilité automatique digne de confiance. C'est pourquoi cette étude s'est concentrée sur l'utilisation de techniques de
Analyse SHAP validation multiples pour évaluer la performance globale d'un tel système à l'aide de plusieurs classificateurs
Analyse de dépendance supervisés basés sur l'apprentissage automatique, puis pour débrider le modèle de la boîte noire à l'aide de
partielle l'apprentissage automatique explicable.
Méthodes : La conduite a été simulée par une tâche de vigilance psychomotrice de 30 minutes pendant que les
participants signalaient leur niveau de somnolence subjective et que leurs signaux physiologiques
(électroencéphalogramme (EEG), électrooculogramme (EOG) et électrocardiogramme (ECG)) étaient
enregistrés. Six techniques différentes, comprenant des techniques dépendantes du sujet et des techniques
indépendantes, ont été appliquées pour la validation du modèle et le test de robustesse avec trois classificateurs
d'apprentissage automatique supervisés, à savoir les K-voisins les plus proches (KNN), les machines à vecteurs de
support (SVM) et la forêt aléatoire (RF), et deux méthodes explicatives, à savoir l'analyse SHapley Additive
exPlanation (SHAP) et l'analyse de dépendance partielle (PDA), ont été exploitées pour l'interprétation du
modèle.
Résultats : L'étude a identifié la technique de validation indépendante du sujet (leave one participant out) comme
étant la plus utile, avec une sensibilité de 70,3 %, une spécificité de 82,2 % et une précision de 80,1 % en
utilisant le classificateur de la forêt aléatoire pour résoudre le problème d'autocorrélation dû aux différences
interindividuelles dans les signaux physiologiques. En outre, les résultats explicables suggèrent les
caractéristiques physiologiques les plus importantes pour la détection de la somnolence, avec un seuil clair
dans la limite de décision.
Conclusions : L'implication de l'étude garantira une validation rigoureuse des tests de robustesse et une
approche d'apprentissage automatique explicable pour développer un système de détection de la somnolence
digne de confiance et améliorer la sécurité routière. Les résultats de l'apprentissage automatique explicable
sont prometteurs pour le déploiement en situation réelle du système de détection de la somnolence basé sur les
signaux physiologiques dans les véhicules, avec une fiabilité et une explicabilité accrues, ainsi qu'un coût de
système plus faible.
* Auteur correspondant à : School of Computer Science & Engineering (CSE), Building K17, UNSW, Sydney 2052, Australie.
Adresse électronique : [email protected] (M.M. Hasan).
https://doi.org/10.1016/j.cmpb.2023.107925
Reçu le 3 septembre 2023 ; Reçu sous forme révisée le 28 octobre 2023 ; Accepté le 7 novembre 2023.
Disponible en ligne le 8 novembre 2023
0169-2607/© 2023 Les auteurs. Publié par Elsevier B.V. Il s'agit d'un article en libre accès sous licence CC BY (http://creativecommons.org/licenses/by/4.0/).
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
107925
automatique à l'aide de ces signaux. Dans le cadre de l'exploration du
les approches et les combinaisons de signaux, la sélection et la
domaine multimodal, quelques études ont travaillé sur des combinaisons
conception de modèles de classification appropriés, la validation et
hybrides de signaux physiologiques pour la détection de la somnolence.
l'interprétation des modèles.
Oliveira et ses collègues [19] ont effectué une analyse multimodale
Les travaux antérieurs sur la détection de la somnolence à l'aide de
basée sur l'apprentissage automatique et ont conclu que la performance
signaux physiologiques se sont concentrés sur les méthodes
était améliorée pour la méthode combinée (électrooculogramme (EOG)
d'extraction de caractéristiques, ont utilisé une validation singulière et
+ électrocardiogramme (ECG)) pour la détection de la somnolence (CV
ont surtout eu recours à des approches unimodales avec des
multiplié par 10). Amin et al. ont également réalisé une étude multimodale
classificateurs d'apprentissage mécanique traditionnels. Par exemple,
[20] combinant l'EEG et l'EOG pour un système de détection de la
Taran et Bajaj [2] ont utilisé la décomposition basée sur les fonctions
somnolence en temps réel et ont rapporté une précision de 81
d'Hermite pour l'extraction des caractéristiques de
Toutefois, ils n'ont utilisé que trois participants dans leur étude afin
l'électroencéphalogramme (EEG), ont utilisé six classificateurs d'évaluer la qualité de leur travail.
différents et ont obtenu la meilleure précision de 95,45 % en utilisant évaluer les performances (pas de rapport sur la validation). Hasan et al [21]
un système d'apprentissage extrême (ELM) avec une validation croisée ont réalisé une étude comparative approfondie des signaux physiologiques
(CV) 10 fois [2]. Sharma et al. se sont également concentrés sur l'extraction unimodaux et multimodaux pour la détection de la somnolence, qui
de caractéristiques à l'aide de la transformée en ondelettes des signaux comprend sept combinaisons différentes d'EEG, d'EOG et d'ECG (unimodal
EEG et ont obtenu une précision de 95,6 % dans leur étude (en : EEG, EOG, ECG ; multimodal : EEG + EOG, EEG+ ECG, EOG + ECG et
utilisant une validation croisée 10 fois) [3]. Khare et al [4] ont utilisé EEG + EOG).
une nouvelle méthode d'extraction de caractéristiques "variational non-
linear chirp mode decomposition" et ont rapporté une précision de 92,4
% à l'aide d'un classificateur de type Boosting Tree. Lee et al. [5] ont
proposé un diagramme de récurrence (ReLU-RP), qui présente une
précision supérieure de 4 à 17 % pour les signaux d'ECG et de
photopléthysmogramme (PPG). Babaeian et Mozumdar [6] ont utilisé
l'ondelette (WT) et la transformée de Fourier courte (STFT) pour
extraire les caractéristiques de l'électrocardiogramme (ECG), ont
utilisé des machines à vecteurs de support (SVM) et les k plus proches
voisins (KNN) comme classificateurs et ont obtenu la meilleure
performance de 87,5 % en utilisant le classificateur SVM (rando split). De
même, Chui et al [7] ont utilisé le signal EEG et mis au point une
machine à vecteur de support basée sur un algorithme génétique pour
l'électrocardiogramme (ECG GA-SVM), qui leur a p e r m i s d'obtenir
une précision de 97,01 % (en utilisant 10 fois le CV).
La validation est une approche essentielle pour unifier les
performances du modèle et tester la robustesse du système basé sur
l'apprentissage automatique. Parmi les méthodes de validation
utilisées, la validation croisée K-fold [2,4] dans les études
susmentionnées permet de surmonter les limites de la validation
holdout (ou approche train-test-split) en validant de manière répétée
avec différentes graines aléatoires. Toutefois, elle présente certaines limites
pour les ensembles de données déséquilibrés, et la validation k-fold
stratifiée est utilisée pour y remédier (résultats de précision allant de
91,8 à 92,13 % [par exemple, 8,9]). Étant donné que les validations
mentionnées précédemment ne traitent pas le problème de
l'autocorrélation pour les signaux physiologiques, la validation croisée
fractionnée des séries temporelles est utilisée pour y remédier [10].
Néanmoins, aucune des validations mentionnées ci-dessus ne tient
compte des différences interindividuelles dans les données
physiologiques. Les techniques d'exclusion, notamment l'exclusion
d'un essai ( LOTO) et l'exclusion d'un participant (LOPO), traitent à la
fois de l'autocorrélation [11] et des différences interindividuelles [12].
La méthode LOPO a été couramment utilisée pour la détection de la
somnolence chez les conducteurs dans le cadre de plusieurs essais et
sur plusieurs sujets, avec des résultats de sensibilité et de spécificité
allant de 58,0 à 98,8 %.
% et 98,3-98,2 %, respectivement [par exemple, 13,14,15]. Cependant,
Watling et al [16] ont indiqué que les résultats de l'étude, en particulier
les mesures liées à la performance globale du modèle, ne peuvent pas
être comparés en raison des différentes méthodes de validation
employées.
Alors que les études susmentionnées travaillaient principalement
sur l'extraction de caractéristiques et les signaux unimodaux, un
examen critique récent de Yaacob et al [17] a suggéré la nécessité
d'utiliser la fusion multimodale et l'explicabilité pour la détection de la
somnolence. Outre la détection de la somnolence, une étude
systématique réalisée par Khare et al [18] dans le domaine médical à
l'aide de signaux physiologiques a également mis en évidence la
nécessité de fusionner les données et d'expliquer l'apprentissage
2
M.M. Hasan et al. qu'ils n'aient pas de troubles
Méthodes du sommeil
et programmes et qu'ils
informatiques ne prennent
en biomédecine pas de
243 (2024)
+ ECG). Leurs résultats indiquent que la fusion multimodale de 107925
médicaments affectant la somnolence ou l'éveil.
l'EEG, de l'EOG et de l'ECG donne une précision supérieure de 7,5
% (en moyenne) à celle des signaux unimodaux et contribue en outre
2.2. Conception de l'étude
à réduire la disparité entre la sensibilité et la spécificité (8,0 %).
L'étude a révélé que parmi les combinaisons multimodales, la fusion
Il s'agit d'une étude expérimentale, menée spécifiquement en
de l'EEG, de l'EOG et de l'ECG donne les meilleures performances,
laboratoire. Comme stimulus pour mesurer la vigilance
avec une précision de 83,5 % à l'aide de réseaux neuronaux artificiels
comportementale, une tâche de vigilance psychomotrice (PVT)
(ANN) ; toutefois, l'étude a utilisé une validation croisée 10 fois sur
personnalisée d'une durée de 30 minutes a été mise au point à l'aide
quatre classificateurs différents, utilise une approche d'apprentissage
d'un logiciel expérimental pour la conception d'études psychologiques
automatique en boîte à outils et manque d'explicabilité.
(PEBL). Les participants ont reçu un
D'après l'examen des études précédentes, il est évident que
l'explication des caractéristiques identifiées et l'interprétation des
modèles d'apprentissage automatique ont reçu moins d'attention que
les mesures de performance [16-18], ce qui empêche les parties
prenantes de comprendre les raisons de leurs décisions et entrave la
mise en œuvre des solutions de recherche sur le marché [16].
Cependant, l'explicabilité est un élément essentiel d'un apprentissage
automatique digne de confiance [22]. En tant que tel, il est important
de sortir le modèle de la boîte noire pour les questions de sécurité, de
comprendre et d'expliquer comment le système fait ses prédictions et
d'aider à établir la confiance dans le système et à augmenter sa
fiabilité [23], sa transparence et sa responsabilité, ce qui est
particulièrement important dans les applications critiques pour la
sécurité telles que la détection de la somnolence chez les conducteurs
[24]. Il est également important de s'assurer que les prédictions qu'il
fait sont justes et impartiales, car cela permet aux parties prenantes
de comprendre les facteurs qui sont pris en compte dans le processus
de prise de décision. Deuxièmement, il n'est pas clair quelle méthode
de validation est prometteuse pour l'évaluation du classificateur de
détection de la somnolence, d'autant plus que très peu d'études ont
comparé plusieurs méthodes de validation en utilisant la même
source de données, ce qui soulève la question de la robustesse du
système. Selon Raja et ses collègues [22], l'"explicabilité" et la
"robustesse" sont deux éléments essentiels d'un modèle
d'apprentissage automatique "digne de confiance", la
vérification/validation étant un élément indissociable de la
robustesse. Par conséquent, ces deux questions ne sont pas
suffisamment prises en compte dans la détection de la somnolence à
l'aide de signaux physiologiques et de l'apprentissage automatique, ce
qui soulève des inquiétudes quant à la fiabilité du système.
Prise en compte du besoin d'explicabilité dans les modèles
d'apprentissage automatique
et la nécessité de tester plusieurs méthodes de validation pour
garantir la "fiabilité", cette étude se concentre spécifiquement sur
l'apprentissage automatique explicable pour la détection de la
somnolence à l'aide de signaux physiologiques multimodaux, en
décomposant le modèle d'apprentissage automatique "boîte noire"
pour un système de détection de la somnolence dans le monde réel. À
notre connaissance, aucune analyse explicable utilisant les
exPlanations additives de SHapley (SHAP) et l'analyse de
dépendance partielle (PDA) n'a encore été réalisée en termes d'études
de détection de la somnolence à partir de signaux physiologiques, en
particulier pour un système multimodal utilisant
l'électroencéphalographie (EEG), l'électrocardiographie (ECG) et
l'électrooculographie (EOG), qui utilise la PVT comme stimulus de
somnolence par rapport à la KSS comme mesure de la somnolence. L'étude
actuelle visait donc à évaluer la fiabilité d'un système multimodal de
détection automatique de la somnolence basé sur des signaux
physiologiques, en mettant l'accent sur l'"explicabilité" et la
"robustesse".
2. Méthode
4
M.M. Hasan et al. des niveaux faiblesMéthodes
de l'ECG s'est avérée
et programmes être laenplus
informatiques efficace
biomédecine 243 pour
(2024) la
Lors de la première session, les sujets ont signé un formulaire de 107925
détection de la somnolence.
consentement à la collecte de leurs données physiologiques et ont
reçu une montre actigraphique, qu'ils ont portée afin d'observer leurs
Tableau 1
habitudes de sommeil pendant au moins cinq jours et de s'assurer
La fréquence de coupure inférieure et supérieure pour le prétraitement et le filtrage
qu'ils respectent les protocoles de l'étude. Un agenda du sommeil leur des données.
a également été fourni afin d'enregistrer les heures de sommeil et
Chaîne Filtre basse Filtre haute fréquence Filtre à
d'éveil. fréquence encoche
Les sujets ont participé à la deuxième session au laboratoire à 14 EEG 0,3 Hz 35 Hz 50 Hz
heures. EOG 0,3 Hz 35 Hz 50 Hz
m. dans le cadre de la session de test. Avant de commencer la session de ECG 0,3 Hz 70 Hz 50 Hz
test, ils devaient avoir dormi la quantité habituelle de sommeil au
cours des nuits précédant l'expérience. À leur arrivée au laboratoire,
leurs données actigraphiques ont été examinées pour confirmer le
respect de leur rythme normal de sommeil et d'éveil au cours des
trois jours précédant l'expérience finale. En cas d'écart significatif par
rapport à leur rythme de sommeil habituel, la session de test était
reportée à une date ultérieure. En cas de problèmes techniques avec
l'actigraphe, l'agenda du sommeil du participant a été utilisé pour
évaluer ses habitudes de sommeil.
Une fois qu'il a été établi que le participant avait suivi le pro-
tocole de l'étude, il a reçu une explication sur les évaluations KSS,
qui mesurent les niveaux subjectifs de somnolence, et a bénéficié
d'une brève introduction à la tâche PVT qui a duré une minute.
Ensuite, le participant a été soumis à la session principale, au cours
de laquelle des électrodes EEG, EOG et ECG ont été fixées pendant
qu'il effectuait la tâche PVT sur un écran d'ordinateur pendant une
période de 30 minutes dans le cadre de l'expérience. Pendant
l'exécution de la tâche PVT, les niveaux de somnolence subjective des
participants ont été mesurés toutes les cinq minutes, à l'aide de
l'échelle KSS. Le logiciel PEBL contrôlait le PVT et l'échelle KSS. Une
webcam a été installée pour observer les participants pendant qu'ils
effectuaient la tâche. Il a été noté que certains participants n'étaient
pas totalement engagés dans la tâche, ce qui a été confirmé par un
nombre élevé d'échecs (>25) et ces participants ont donc été retirés
de l'étude. Ainsi, les données de 26 participants ont été utilisées pour
la suite de l'analyse.
(μV2 /Hz) (μV2 /Hz) Les études sur la détection de la somnolence à l'aide de signaux
2 Thêta central 2 Rapport 2 Puissance moyenne
physiologiques [21,36]. La mise à l'échelle des caractéristiques a été
(θ-EEG C3) amplitude- à haute fréquence
(μV2 /Hz) vélocité (Mean P- HF) (μV2 effectuée en termes de normalisation (mise à l'échelle Min-Max) et de
3 Beta Central (AVR) /Hz) standardisation avant d'appliquer KNN et SVM, respectivement. Tous
(β-EEG C3) 3 Vitesse de 3 Intervalle R-R les classificateurs ont été utilisés pour examiner l'utilité des différentes
(μV2 /Hz) fermeture (RRI)
techniques de validation dans l'étude en cours ; toutefois, la forêt
maximale millisecondes
(PCV) (ms) aléatoire a été utilisée comme base pour l'évaluation de l'efficacité des
(degrés/s) classificateurs.
a été utilisé pour des raisons d'interprétabilité, car il ne nécessite pas de
caractéristiques.
4 Thêta occipital (μV2 /Hz) 4 Taux de clignotement (BR) 4 Fréquence cardiaque (FC) (battements
(θ-EEG O1) 7 β /α Central (C3) par minute (bpm)
(μV2 /Hz) 8 (θ + α) / β
5 Bêta occipital Centrale (C3) 5 Amplitude (Amp) 5 Rapport LF/HF
(β-EEG O1) 9 (θ + α) / (α+ β) Central (C3)
(μV2 /Hz)
6 Alpha Occipital
(α-EEG O1)
6
M.M. Hasan et al.
l'échelonnement deux classes pour un ensemble de scores processus itératif Méthodes
afin d'obtenir l'ac-
et programmes curité en
informatiques la biomédecine
plus élevée après
243 (2024)
et l'explicabilité KSS : somnolent et éveillé. Étant donné validation croisée. 107925
Dans le cas des classificateurs KNN, les
des installations. que le risque d'accident est fortement
Une associé aux scores KSS 7-9 [37], cette Tableau 3
classification plage a été utilisée comme état de Distribution des scores dans l'ensemble des données pour tous les participants
binaire a été somnolence et les scores KSS 2-6 comme éligibles.
effectuée en état d'éveil. Les hyperparamètres de ID du participant État d'éveil État de somnolence
considérant chaque classificateur ont été affinés par un
10 β /α Occipital
(O1) Score KSS KSS- KSS- KSS- KSS- KSS- KSS- KSS- KSS-
11 (θ + α) / β 2 3 4 5 6 7 8 9
Occipital (O1) Compte KSS 4 6 19 10 38 35 25 19
12 (θ + α) / (α+ KSS Nombre 77 79
β) Occipital dans chaque
(O1) classe
Note : EEG, électroencéphalographie ; Total KSS 156
EOG, l'électro-oculographie ECG,
électrocardiographie. compter
;
7
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
107925
Fig. 1. Nombre de scores KSS pour tous les échantillons de l'ensemble des données (a) Nombre catégorique KSS sur les scores 2-9 (b) Nombre total KSS (états de
somnolence et d'éveil).
2.9. Validation
Tableau 4
Paramètres pris en compte pour le réglage de l'hyperparamètre pour les
différents classificateurs.
Classificateurs Paramètre ajusté
8
M.M. Hasan et al. SHapley Additive exPlanations,
Méthodes abrégé
et programmes en SHAP,
informatiques est une243méthode
en biomédecine (2024)
a permis de garantir une distribution égale des étiquettes des classes 107925
permettant d'expliquer les résultats des modèles d'apprentissage
cibles (somnolent et éveillé) dans les données d'apprentissage et de
automatique en attribuant la prédiction aux caractéristiques qui y ont
test. La validation croisée des séries temporelles a été appliquée aux
contribué [39]. Pour ce faire, elle utilise le concept des valeurs de
ensembles de données comportant des points de données de séries
Shapley, une méthode issue de la théorie des jeux, pour répartir
temporelles corrélées, empêchant l'inclusion de points de données
équitablement le "crédit" d'une prédiction entre les caractéristiques qui
voisins dans les ensembles de formation et de test, ce qui permet de
y ont contribué. Les valeurs SHAP sont utiles pour calculer
résoudre les problèmes d'autocorrélation [10].
l'importance de chaque caractéristique dans la prédiction d'un modèle,
ce qui permet d'expliquer comment le modèle est parvenu à sa
2.9.2. Validation indépendante du participant
prédiction en montrant quelles caractéristiques ont eu la plus grande
Les techniques de validation indépendantes des participants
influence sur le résultat final.
utilisées dans cette étude comprenaient la validation croisée avec un
Les valeurs de Shapley représentent l'importance des caractéristiques
seul participant (LOO CV) et la validation croisée avec un seul
dans les modèles d'apprentissage automatique avec multicollinéarité. Cette
participant (LOPO CV). LOO CV implique N itérations, où N représente
approche implique de réentraîner le modèle sur différents sous-ensembles
le nombre d'instances, en utilisant (N-1) instances pour la formation
de caractéristiques (S ⊆ F, F étant la collection de toutes les
et une pour la validation à chaque itération. Pour cette étude avec N
caractéristiques), en attribuant des valeurs d'importance à chaque
= 156 instances, 155 instances ont été utilisées pour la formation à
caractéristique afin d'évaluer son influence sur les prédictions du modèle.
chaque itération. LOPO CV a regroupé les données sur la base des
Le calcul consiste à former un modèle d'apprentissage automatique (f(x), x
identifiants des participants, créant 26 groupes pour les 26
étant les ensembles de caractéristiques) avec et sans une caractéristique
participants. La validation croisée a été effectuée 26 fois, les données
particulière, et à comparer leurs prédictions (fS∪{i} (xS∪{i} ) - fS (xS )).
d'un participant étant utilisées pour la validation et les données des
Comme cet impact dépend d'autres caractéristiques, ces différences sont
autres participants pour la formation à chaque itération.
calculées pour tous les sous-ensembles possibles S⊆F\{i}. Les valeurs de
2.10. Interprétation Shapley (φi ) sont ensuite dérivées de ces calculs et servent d'attributions
de caractéristiques, représentant une moyenne pondérée de toutes les
différences potentielles [39] (Eq. (1)). ) )]
2.10.1. Analyse additive de Shapley (SHAP) ∑ |S| !(|F| - |S| - 1) ! [
φ= fS i xS i - fS (xS
Note:KNN : K-nearest neighbours, SVM : support vector machines et RF : i
|F|
∪{ } ∪{ } (1)
S⊆F\{i}
random forest. !
9
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
107925
Fig. 2. Méthodologie proposée pour la validation et l'interprétation d'un système de détection de la somnolence basé sur des signaux physiologiques multimodaux. Note
: EEG : é l e c t r o e n c é p h a l o g r a m m e , EOG : électrooculographie, ECG : électrocardiographie, GT : vérité de terrain, PVT : tâche de vigilance psychomotrice,
CV : validation croisée, KNN : K-nearest neigh- bours, SVM : support vector machine et RF : random forest, SHAP : K-nearest neigh- bours, SVM : support vector
machine et RF : random forest : K-nearest neigh- bours, SVM:support vector machine et RF : random forest, SHAP : SHapley Additive exPlanation.
11
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
107925
Tablea
u5
Agrégation des classements des caractéristiques (les caractéristiques ombrées signifient les caractéristiques exclues ; critères d'exclusion, ANOVA valeur F<2,0,
coefficient de corrélation <0,10).
Note : α-C3, Alpha Central ; θ-C3, Thêta Central ; β-C3, Bêta Central ; α-O1, Alpha Occipital ; θ-O1, Thêta Occipital ; β-O1, Bêta Occipital ; BD, Blink Duration ;
AVR, Amplitude Velocity ratio ; PCV, Peak Closing Velocity ; BR, Blinking Rate ; Amp, Amplitude ; LF/Mean P-LF, Mean Power at Low Frequency ; HF/Mean P-HF, Mean Power
at High Frequency.
Tableau 6
Répartition des étiquettes obtenues entre les systèmes de validation de la rétention.
Holdout (données d'essai : 20 %, RS =1), Trai-test split (RS=1) Holdout (données d'essai : 30 %, RS =1), Trai-test split (RS=1)
Données sur les Données d'essai Former + Données sur les Données d'essai Former +
trains tester trains tester
Compte éveillé Compte de la Compte éveillé Compte de la Nombre Compte éveillé Compte de la Compte éveillé Compte de la Nombre
somnolence somnolence total somnolence somnolence total
64 60 13 19 156 56 53 21 26 156
13
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
107925
Tableau 7
Distribution des étiquettes obtenues dans le cadre des systèmes de validation croisée 10 fois, 10 fois stratifiée et série temporelle (split=10).
Pliage CV 10 fois plus élevé CV stratifié 10 fois CV fractionné de la série temporelle (fractionnement=10)
Données sur les trains Données d'essai Train Données sur les trains Données d'essai Train Données sur les trains Données Train
+ + d'essai +
Test Test Test
Réveil Somnolenc Réveil Somnolenc Total Réveil Somnolenc Réveil Somnolenc Total Réveil Somnolenc Réveil Somnolen Total
e e e e e ce
Compter Compter Compter Compter compt Compter Compter Compter Compter compt Compter Compter Compter Compter compter
er er
1 69 71 8 8 156 69 71 8 8 156 8 8 7 7 30
2 65 75 10 6 156 69 71 8 8 156 19 11 6 8 44
3 69 71 8 8 156 69 71 8 8 156 25 19 8 6 58
4 67 73 12 4 156 69 71 8 8 156 33 25 7 7 72
5 66 74 11 5 156 69 71 8 8 156 46 26 5 9 86
6 74 66 6 10 156 69 71 8 8 156 51 35 8 6 100
7 69 72 8 7 156 69 72 8 7 156 52 48 6 8 114
8 69 72 8 7 156 70 71 7 8 156 60 54 7 7 128
9 70 71 7 8 156 70 71 7 8 156 70 58 8 6 142
10 75 66 6 9 156 70 71 7 8 156 75 67 7 7 156
3.3. Interprétation
Importance des caractéristiques basée sur la SHAP. Une analyse SHAP a été
réalisée sur l'ensemble de données comportant les caractéristiques
incluses afin de générer un classement des caractéristiques (figure 4
(a)). Physiquement, le classement des caractéristiques de la figure 4
fournit un classement clair des caractéristiques basé sur la moyenne
des valeurs absolues de Shapley par caractéristique correspondant aux
échantillons totaux de chaque classe, et trié dans un ordre décroissant
qui quantifie leur impact sur les prédictions du modèle. D'après la
figure 4(b), la valeur positive de Shapley signifie que la valeur de la
caractéristique correspondante pousse la sortie du modèle à être plus
élevée que la prédiction moyenne (c'est-à-dire l'état de somnolence) et
vice versa pour les valeurs négatives (c'est-à-dire l'état d'éveil). Le
codage couleur (bleu pour les valeurs faibles et rouge pour les valeurs
élevées) dans la figure représente visuellement la force de l'influence
de la caractéristique sur les différents échantillons.
D'un point de vue scientifique, l'analyse des figures 4(a) et (b)
suggère que les caractéristiques de l'EOG, telles que la durée du
clignement (BD) et le rapport de vélocité de l'amplitude (AVR), sont
considérées comme les deux caractéristiques les plus importantes par
le concept de forme. La figure 4(b) montre que plus la durée de
clignement est longue et plus le rapport AVR est élevé, plus
l'échantillon a de chances d'être classé dans la catégorie des états de
somnolence. Outre les caractéristiques EOG, la puissance des signaux
14
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
du signal EOG (Fig. 5(a,b)). Physiquement, les diagrammes de 107925
dépendance SHAP interprètent l'impact des valeurs de
caractéristiques spécifiques sur la probabilité prédite de somnolence.
Par exemple, dans la figure 5(a), il est physiquement évident que
lorsque la durée du clignement (BD) est inférieure à 0,15 s, le modèle
diminue systématiquement la probabilité prédite d'être classé comme
somnolent, mais une BD de plus de 0,15 s augmente
systématiquement la probabilité prédite de somnolence. De même, le
diagramme de dépendance SHAP de l'AVR dans la figure 5(b)
montre qu'en dessous du ratio de 0,075, le modèle classe les
échantillons comme étant en état d'éveil, alors qu'il augmente la
probabilité d'être classé comme somnolent dans l'AVR est supérieur
ou égal à 0,075.
La figure 5(c,d) donne un aperçu nuancé et scientifiquement
significatif des interactions entre les caractéristiques de l'EOG et de
l'EEG et une compréhension détaillée de la manière dont les
différentes caractéristiques interagissent et influencent les prédictions
du modèle. Elle montre une visualisation des puissances des bandes thêta
(canal C3) et alpha (canal O1) de l'EEG correspondant aux
caractéristiques de l'EOG qui interagissent fortement, c'est-à-dire BD et
AVR. La figure 5(c) montre que dans les cas où la puissance du canal C3
de l'EEG thêta est supérieure à 0,00023 μV2 /Hz, la présence de
durées de clignement plus longues (points de couleur rouge)
augmente les chances de se sentir somnolent. Inversement, pour des
durées de clignement plus courtes (points de couleur bleue) réduit les
chances des instances d'être classées comme somnolentes. De même,
la figure 5(d) montre que la puissance de la bande alpha O1 de l'EEG
supérieure à 0,0002 μV2 /Hz augmente les risques de somnolence,
avec un rapport amplitude-vitesse plus élevé (couleur rouge).
15
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
107925
65.5 ± 11.1
69.3 ± 19.8
65.5 ± 11.1
69.3 ± 19.8
57.1 ± 17.8
58.6 ± 18.9
69.9 ± 22.3
71.2 ± 11.2
60.3 ± 20.1
Moyenne ±
22 Cross-Validation ; LOO CV : SD : Standard Deviation ; Leave One Out Cross-Validation ; LOPO CV : LOPO CV : Leave One Participant Out Cross-Validation ; RS : Random Split ; k :
80.1 ± 8.2
Précision
SD (%)
78.1
81.3
74.5
76.6
Performance de classification pour différentes techniques de validation, chiffres indiqués : moyenne ± écart-type ; les chiffres surlignés représentent la meilleure performance en utilisant la technique de
63.9 ± 25.8
67.7 ± 26.4
63.9 ± 25.8
67.7 ± 26.4
76.5 ± 36.7
75.8 ± 36.9
68.8 ± 24.3
72.7 ± 10.7
50.4 ± 26.4
Moyenne ±
82.2 ± 9.8
Spécificité
SD (%)
76.9
84.6
66.7
66.7
Sensibilité Moyenne
Forêt aléatoire (RF)
66.6 ± 16.9
70.5 ± 29.4
66.6 ± 16.9
70.5 ± 29.4
38.6 ± 32.1
41.6 ± 35.2
70.9 ± 15.4
69.6 ± 13.9
70.3 ± 29.3
70.3 ± 29.4
SD (%)
78.9
78.9
80.8
84.6
±
ques dans la technique de validation par élimination car les données n'ont été transmises qu'une seule fois dans cette approche.
65.0 ± 22.3
68.7 ± 13.1
58.5 ± 14.5
68.7 ± 09.1
64.3 ± 20.7
62.8 ± 21.1
72.4 ± 44.7
77.5 ± 09.1
65.8 ± 22.4
73.3 ± 28.4
Moyenne ±
Précision
SD (%)
68.7
75.0
68.1
74.4
54.1 ± 27.3
76.4 ± 16.6
76.4 ± 16.1
43.1 ± 33.3
67.7 ± 33.6
57.5 ± 28.9
72.4 ± 24.1
66.3 ± 26.4
84.8 ± 16.5
Moyenne ±
63.6 ± 18.6
Spécificité
Machines à vecteurs de support
SD (%)
76.9
84.6
66.6
61.9
Sensibilité Moyenne
sélectionnées 13 incluses.
SD (%)
(SVM)
63.2
68.4
69.2
84.6
±
SD (%)
81.2
76.6
72.3
84.6
61.9
80.1
K-Voisins les plus proches
78.9
88.4
65.3
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
Caractéristi
ques
ques
ques
ques
ques
ques
ques
ques
ques
ques
ques
ques
13
22
13
22
13
22
13
13
22
13
22
13
de
A : 121, D :
A : 64, D:60
A : 56, D:53
A : 77
79
A : 77
D : 79
A : 77
D : 79
A : 77
D : 79
A : 77
D : 79
Train
Train
Test
Test
Maintien (données
%, RS =1)
%, RS =1)
Classificateur
Pli K stratifié
d'essai:20
d'essai:30
LOPO CV
multiplié
LOO CV
10)
CV
16
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
l'interprétation physique
107925 est que le seuil spécifique déclenche
l'interaction entre ces caractéristiques, ce qui entraîne des changements
dans la probabilité de somnolence. L'interprétation scientifique
approfondit la relation entre les caractéristiques de l'EOG et de l'EEG,
démontrant que certaines interactions ne deviennent significatives que
dans des conditions spécifiques, ce qui pourrait permettre de mieux
comprendre les processus contribuant à la somnolence.
17
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
107925
Fig. 4. Classement des 10 meilleures caractéristiques selon SHAP (a) Classement des caractéristiques selon SHAP (b) Graphique récapitulatif selon SHAP. Note : BD :
durée du clignement, EEG : électroencéphalogramme, C3 : canal central, O1 : canal occipital. PCV : vitesse de fermeture maximale, AVR : rapport amplitude-vitesse.
L'axe des x représente les valeurs de shapley tandis que l'axe des y représente le classement des caractéristiques incluses. Chaque point bleu correspond à une
magnitude plus faible de la caractéristique pour différents échantillons, tandis que les points rouges indiquent des magnitudes plus élevées des caractéristiques.
Fig. 5. Diagramme de dépendance des caractéristiques SHAP ; seuils (a)BD : durée du clignement (0,146577 s), (b) AVR : rapport amplitude-vitesse
(0,0739612), (c) EEG C3 : électroencépha- lographie thêta canal central (0,0002386 μV2 /Hz), (d) EEG O1 : électroencéphalographie alpha canal occipital
(0,00016376 μV2 /Hz). L'axe des x de la figure représente la de la valeur de la caractéristique (magnitude) tandis que l'axe des y présente les valeurs de shapley
correspondantes.
10
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
La dépendance partielle a été calculée en prenant la moyenne des 107925
valeurs absolues des valeurs de dépendance partielle. Si l'on
considère la mesure de l'importance globale de la caractéristique dans
le modèle, la dépendance partielle-
10
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
107925
Fig. 6. (a) ICE et PDP pour BD (durée du clignement) (b) ICE et PDP pour AVR (rapport de vitesse d'amplitude) (c) limite de décision pour BD (0,140086 s) (d) limite
de décision pour AVR (0,074356) (e) tracé 3D ; BD : durée du clignement, AVR : rapport de vitesse d'amplitude. L'axe des x de la figure représente la valeur de
la caractéristique (magnitude) tandis que l'axe des y présente la dépendance partielle des caractéristiques.
11
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
Pour les deux modèles explicables, une analyse statistique multiple a 107925
été effectuée et les résultats ont été représentés graphiquement (Fig.
10). Tout d'abord, une analyse de corrélation a été réalisée entre les
scores des caractéristiques SHAP et la dépendance partielle moyenne
des caractéristiques. Le coefficient de corrélation obtenu est de r =
0,849, ce qui indique une forte corrélation positive entre les scores
SHAP et les scores de dépendance partielle. Cela signifie que les
deux méthodes ont tendance à produire des classements similaires
pour les caractéristiques. Deuxièmement, la valeur p a été calculée
entre les scores de caractéristiques obtenus. Elle produit une valeur p-
12
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
107925
Fig. 7. (a) ICE et PDP pour EEG thêta C3 (b) ICE et PDP pour EEG alpha O1 (c) limite de décision pour EEG thêta C3 (0,0002369256 μV2 /Hz) (d) limite de décision
pour EEG alpha O1(0,00016429 μV2 /Hz) (e) tracé 3D ; EEG : électroencéphalographie, C3 : canal central, O1 : canal occipital. L'axe des x de la figure représente la
valeur de la caractéristique (magnitude) tandis que l'axe des y présente la dépendance partielle des caractéristiques.
de 0,0019, qui est relativement faible (<0,05), ce qui indique que la ont également tendance à présenter de forts effets de dépendance
corrélation observée entre les scores SHAP et les scores de dépendance partielle. Cela prouve que la relation entre le SHAP et la dépendance
partielle est statistiquement significative. La faible valeur p suggère partielle est réelle et n'est pas due à des fluctuations aléatoires.
qu'il est peu probable d'observer une corrélation positive aussi forte par Troisièmement, un diagramme de distribution a été réalisé et les deux
hasard. Cela implique que les caractéristiques qui sont importantes diagrammes de distribution pour les scores SHAP et les scores de
selon l'analyse SHAP dépendance partielle montrent une distribution similaire, ce qui
13
signifie
M.M. Hasangénéralement
et al. que les deux scores SHAP et les scores de Méthodes et programmes informatiques en biomédecine 243 (2024)
107925
dépendance partielle sont similaires.
14
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
107925
Fig. 8. PDP numérique à deux voies utilisant un classificateur de forêt aléatoire ; BD : durée du clignement, AVR : rapport amplitude-vitesse, EEG :
électroencéphalographie, C3 : canal central.
Fig. 9. Classement moyen des 10 premières caractéristiques en fonction de la dépendance partielle. Note : BD : durée du clignement, EEG : électroencéphalogramme, C3 :
canal central, O1 : canal occipital. PCV : vitesse de fermeture maximale, AVR : rapport amplitude-vitesse.
4. Discussion
16
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
107925
Fig. 10. (a) Un diagramme de dispersion avec une ligne de régression pour visualiser la relation linéaire entre les scores SHAP et les scores de dépendance
partielle (PD_Score) afin d'évaluer la force et la direction de la corrélation. (b) Un histogramme ou un diagramme de densité de noyau pour visualiser la
distribution des scores SHAP et des scores de dépendance partielle afin de comprendre la dispersion et la tendance centrale de ces valeurs.
18
M.M. Hasan et al. Méthodes et programmes informatiques en biomédecine 243 (2024)
107925
sensibilité de 70,3 % (RF),
sur route.
84,8 % de spécificité (SVM) et 80,1 % de précision (RF). Bien que ces
performances ne soient pas comparables à celles d'autres études en raison
4.4. Points forts, limites et travaux futurs
des différents paramètres, de la fenêtre temporelle, du stimulus à la
somnolence et des scores de somnolence [16], notre objectif principal
Notre étude est centrée sur l'évaluation de l'"explicabilité" d'un
était d'évaluer la "fiabilité" plutôt que de produire les "meilleures
système de détection de la somnolence basé sur des signaux
métriques de performance".
physiologiques multimodaux, induits par la tâche de vigilance
Cinquièmement, nous avons inclus un nombre limité de
psychomotrice (PVT) et évalués à l'aide des scores de l'échelle de
caractéristiques, ce qui réduit le coût de calcul mais aussi le nombre de
somnolence de Karolinska (KSS). Si l'intégration de techniques de
capteurs en termes de déploiement dans le monde réel. Une étude
validation multiples renforce la robustesse de notre modèle
systématique et une méta-analyse récentes de Watling et al [16]
d'apprentissage automatique, elle joue également un rôle essentiel dans
montrent que l'augmentation du nombre de caractéristiques n'améliore
l'établissement de la fiabilité du modèle [22]. L'accent que nous
pas nécessairement les performances de la détection de la somnolence à
mettons sur l'"explicabilité" nous distingue des travaux existants dans
l'aide de signaux physiologiques. Dans cette étude expérimentale, seuls
ce domaine. Nous introduisons notamment la "validation multiple"
deux canaux EEG ont été utilisés pour la détection de la somnolence.
pour évaluer la "fiabilité" du système. À notre connaissance, les
analyses explicatives complètes telles que la SHAP et l'analyse de
dépendance partielle n'ont pas été appliquées à un système multimodal
basé sur les signaux physiologiques qui incorpore des données EEG, EOG et
ECG pour évaluer la contribution marginale des caractéristiques
physiologiques en réponse à la tâche PVT et à des mesures KSS bien
validées. Par conséquent, notre étude représente une contribution
significative à l'ensemble des connaissances existantes dans ce
domaine.
Les limites de l'étude doivent être prises en compte lors de
l'interprétation des résultats. Tout d'abord, la tâche de vigilance
psychomotrice (PVT) a été mise en œuvre dans cette étude comme
tâche principale pour induire une somnolence rapide dans un
environnement de laboratoire contrôlé, en remplacement de la tâche de
conduite. L'inconvénient du PVT est que les niveaux de KSS d'un
individu peuvent diminuer rapidement lorsqu'il exécute la tâche
pendant une durée relativement courte. D'autre part, dans des situations
réelles, les gens ont tendance à ressentir de la somnolence plus
fréquemment après des durées prolongées. Par conséquent, se baser
uniquement sur le PVT peut ne pas fournir une représentation précise
des fluctuations et des changements de somnolence qui se produisent au
cours d'activités réelles telles que la conduite. Deuxièmement, la taille de
l'échantillon utilisé dans cette étude est faible, ce qui n'est pas suffisant pour
explorer les différences interindividuelles ou pour réaliser un essai par
participant afin d'examiner l'utilité de la validation "leave one trial out"
(LOO). De futures recherches pourraient être menées en utilisant un plus
grand nombre de participants, ce qui permettrait de mieux comprendre
les différences interindividuelles et les techniques de validation.
Troisièmement, dans cette étude, les caractéristiques les plus utiles
identifiées dans la littérature antérieure ont été sélectionnées pour
l'évaluation des mesures de performance à partir des données
physiologiques hybrides, en utilisant des techniques traditionnelles
d'apprentissage automatique supervisé. En règle générale, des
algorithmes d'apprentissage conventionnels sont utilisés, dans lesquels
le processus d'extraction des caractéristiques pertinentes et la
classification spécifique des caractéristiques sont réalisés en tant
qu'étapes distinctes [49]. Néanmoins, ces dernières années, les modèles
d'apprentissage profond ont gagné en popularité dans la conception de
systèmes de bout en bout, dans lesquels le processus d'extraction des
caractéristiques est automatique et ne nécessite pas d'effort manuel.
Ainsi, les architectures d'apprentissage profond [49] sont capables
d'extraire des caractéristiques plus résistantes et plus abstraites, qui
peuvent s'avérer plus utiles pour la détection de la somnolence. De
futures recherches pourraient être menées pour valider les
performances des architectures d'apprentissage en profondeur et
interpréter les résultats en conséquence.
Quatrièmement, les performances des modèles d'apprentissage
automatique utilisés dans l'étude produisent un score de métriques
raisonnable avec l'ensemble donné de 13-22 caractéristiques, avec une
sensibilité maximale de 88,4 % (KNN), une spécificité de 84,6 % (KNN,
SVM & RF) et une précision de 81,3 % (RF) en utilisant la validation
de maintien dépendant des participants, qui a encore diminué en raison
de la validation croisée dépendant des participants, c 'est-à-dire une
19
M.M. Hasan et al. Scholarship et QUT Faculty
Méthodes Write Upinformatiques
et programmes Scholarship.en biomédecine 243 (2024)
a été utilisé, ce qui a permis d'obtenir 12 caractéristiques EEG. Bien 107925
que des casques EEG à 32 canaux soient disponibles sur le marché et
que l'utilisation des caractéristiques extraites puisse améliorer les Références
performances du système, cela peut augmenter le coût du système et
[1] Conseil australien des transports, "National road safety strategy 2011-2020",
la complexité de calcul. En outre, l'utilisation d'un grand nombre de 2011. [En ligne]. Disponible :
caractéristiques rend le modèle complexe, ce qui est difficile à https://www.roadsafety.gov.au/sites/default/files/2019-11/ nrss_2011_2020.pdf.
[2] S. Taran, V. Bajaj, Drowsiness detection using adaptive hermite decomposition and
interpréter par les méthodes "explicables" [50] ; c'est pourquoi nous
extreme learning machine for electroencephalogram signals, IEEE Sens. J. 18 (21)
nous en sommes tenus à un nombre limité de caractéristiques les plus (2018) 8855-8862, https://doi.org/10.1109/jsen.2018.2869775. Nov.
utiles dans notre étude. C'est pourquoi nous nous en sommes tenus à un
nombre limité de caractéristiques les plus utiles dans notre étude.
Cependant, certaines caractéristiques plus utiles avec de nouvelles
méthodes d'extraction de caractéristiques [4] peuvent être appliquées
à l'avenir pour améliorer la robustesse, l'explicabilité et la fiabilité du
système.
Enfin, les techniques d'apprentissage automatique interprétables
telles que SHAP et PDA présentent plusieurs limites. Elles sont
souvent utilisées avec des modèles complexes de type boîte noire et
offrent une interprétabilité locale plutôt que globale [41]. Le SHAP
peut être coûteux en termes de calcul [39] et le PDA suppose des
relations linéaires, ce qui limite leur applicabilité aux caractéristiques
numériques [41]. Les données de haute dimension avec des
caractéristiques étendues [50], la subjectivité de l'interprétation et la
sensibilité de la distribution des données sont des défis
supplémentaires pour ces méthodes [39]. Malgré leurs limites, SHAP
et PDA restent utiles pour améliorer la transparence dans les modèles
complexes d'apprentissage automatique avec un nombre limité de
caractéristiques, ce qui permet d'évaluer la fiabilité du système.
5. Conclusion
Remerciements
111