Article RB D
Article RB D
Article RB D
RÉSUMÉ. Le travail se situe dans le domaine de l’extraction des connaissances à partir des don-
nées (ECD). L’ECD permet d’acquérir des informations pertinentes pour les systèmes inter-
actifs d’aide à la décision (SIAD). Mais, dans plusieurs domaines, les données évoluent d’une
manière dynamique et finissent par dépendre de plusieurs dimensions. Dans ce travail nous
proposons une approche pour l’ECD à partir des données temporelles. Le Réseau Bayésien RB
est une des techniques les plus utilisée en ECD. Pour cela, nous avons développé un SIAD basé
sur les RB Dynamiques RBD. Notre objectif revient à fixer les meilleures modèles de connais-
sances extraites par les RBD et à l’utiliser dans la prise de décision d’une manière dynamique.
Une évaluation réalisée dans le service de réanimation de l’hôpital Habib Bourguiba à Sfax
pour la lutte contre l’infection nosocomiale a montré son efficacité.
ABSTRACT. This Work is located in the domain of the knowledge Discovery from data (KDD).
KDD permits to acquire applicable information for the the Decision Support Systems (DSS).
But, in several domains, the data evolve with a dynamic manner and finish by depending on
several dimensions. In this work we propose an approach for the KDD use the temporal data.
The Bayesian Network BN is one of the techniques used in KDD. For it, we developed a KDD
based on the Dynamic BN (DBN). Our objective comes back to fix the best knowledge models
extracted by the DBN and to use it in the dynamic decision. An assessment achieved in the ICU
of the Habib Bourguiba hospital in Sfax for struggle against the Nosocomial Infection showed
its efficiency.
MOTS-CLÉS : Les Réseaux Bayésiens Dynamiques, les données temporelles, Les infections Noso-
comiales
KEYWORDS: Dynamic Bayesian Networks, Temporal data, Nosocomial infections
2 5èmes Journées Francophones sur les Réseaux Bayésiens, Nantes, 10-11 Mai 2010
1. Introduction
Plusieurs systèmes interactifs d’aide à la décision sont souvent basés sur le proces-
sus ECD. L’ECD contient plusieurs phases de traitement parmi les quelles la phase de
fouille de données (Fayyad, 1996). La plus part des techniques de fouille de don-
nées utilisent des algorithmes qui fonctionnent sur des données fixes non tempo-
relles (chaque individu est représenté par un vecteur de caractéristiques) (Lefébure
et al., 2001). Dans plusieurs domaines, telque celui de la santé, les données concer-
nant un patient sont saisies à des moments différents plus ou moins périodiques. Ainsi,
le temps est un important concept dans les soins médicaux (Shahar, 2000),(Peelen et
al., 2010). L’exploitation de ces données (que certains qualifient de complexes) est
difficile et délicate. Peu des travaux proposent des algorithmes pour l’extraction des
connaissances à partir de données multidimensionnelles et temporelles.
D’après Becker et al, l’information n’est pas la connaissance (Becker et al., 1999).
Certaines de ces connaissances peuvent être extraites à l’aide d’un outil décisionnel
qu’est l’Extraction de Connaissances à partir des Données (ECD) (Fayyad, 1996).
A mesure que se développent les technologies permettant de stocker, d’échanger de
l’information et d’y accéder, la question de l’analyse et de synthèse de ces informa-
tions devient essentielle. L’une des techniques intelligentes pour la fouille de don-
nées est les Réseaux Bayésiens. Nous sommes intéressés dans cet article par cette
dernière technique. Dans ce cadre, plusieurs équipes ont étudié les Réseaux Bayé-
siens. Certaines d’entre elles ont étudié cette technique côté apprentissage et infé-
rence (Leray, 2006), (Naïm et al., 2007) et d’autres l’ont étudiée en la comparant avec
d’autres techniques de data mining comme le réseau de neurone (Correa et al., 2009),
KPPV (Pernkopf, 2005), etc. La plus part des études sont limitées sur les Réseaux
Bayésiens statique (Antonucci et al., 2008), (Correa et al., 2009). Ce qui est insuffisant
pour la prise de décision dynamique tel que le domaine sur le quel nous travaillons. Le
contexte applicatif de notre projet est la lutte contre les infections nosocomiales (IN)
des patients hospitalisés dans le service de réanimation du CHU Habib Bourguiba de
Sfax (Tunisie).
Les données dont nous disposons sont temporelles et multidimensionnelles. La dé-
cision à prendre dépend de l’état actuel du patient et de ses observations antérieurs.
Nous avons donc utilisé les Réseaux Bayésiens dynamiques comme technique d’ana-
lyse pour obtenir des modèles de connaissances qui évoluent avec le temps.
Le présent article est organisé en quatre sections. Dans la section 2, nous présenterons
l’état de l’art en particulier les systèmes interactifs d’aide à la décision (SIAD) et la
technique d’apprentissages adoptée. Nous expliquons l’aspect dynamique du contexte
de notre travail qui est la lutte contre les infections nosocomiales dans la section 3.
Dans cette section, nous décrirons aussi la réalisation d’un processus ECD comme
outil pour l’aide à la prise de décision. Dans la section 4, nous discuterons les résul-
tats obtenus par notre système. Finalement, une conclusion et plusieurs perspectives
seront soulignées.
Les SIAD basés sur les RBD 3
2. L’état de l’art
modélise sur un processus temporel (Neapolitan, 2004). Murphy l’a définie comme
un RB spécial qui est utilisé pour les modèles de processus dynamique stochastique
(Murphy, 2002).
Notation : Dans ce qui suit Xt i définit une variable aléatoire continue ou discrète. Des
valeurs de la variable aléatoire seront indiquées par les lettres minuscules telles que
xt i . Pour une variable discrète qui prend r valeurs, (xk i )t définir une tâche spécifique
pour 1 <= k <= r, 1 <=i <= n et 1 <= t <= T . Un ensemble de variables est nommé en
caractères majuscules des lettres X = X1 , X2 ,... Xn .
On peut définir un RBD comme un RB qui contient T vecteurs aléatoires de variables
X[t]=X1 [t]...., X n [t], un RB est caractérisé par :
L’aspect applicatif de notre projet entre dans le cadre d’un grand projet visant
à lutter contre les infections nosocomiales. Les infections nosocomiales (IN) repré-
sentent un des problèmes majeurs de santé publique. Une infection est considérée
comme telle lorsqu’elle était absente au moment de l’admission du patient (Garner et
al., 1988). Lorsque l’état infectieux du patient à l’admission est inconnu, l’infection
est classiquement considérée comme nosocomiale si elle apparaît après un délai de
48 heures d’hospitalisation. Plusieurs travaux ont proposé des systèmes informatiques
de surveillance des IN basés sur les techniques de fouille de données (Brossette et
al., 2000).
Une étude sur la prévalence de la survenue d’infections nosocomiales dans le CHU
Habib Bourguiba à Sfax, Tunisie (Kallel et al., 2005), a montré que 17,9 % des 280
Les SIAD basés sur les RBD 5
patients hospitalisés dans l’ensemble de l’hôpital ont été victimes d’une IN entre le
17 avril 2002 (minuit) et le 18 avril 2002 (minuit). Notre projet est en lien avec les
médecins du service de réanimation de cet hôpital. Ces médecins sont les experts et
futurs utilisateurs du SIAD que nous étudions et développons.
On dispose d’une base de données médicale qui contient toutes les informations
concernant les patients d’un service de réanimation à l’hôpital. Notre objectif est d’ex-
traire les variables qui représenteront les noeuds pour notre modèle de connaissance
statique : les variables utilisées dans notre modélisation sont :
– âge, poids : champs numériques, correspendants à l’âge et au poids des patients.
– date entreRea, date entrée hôpital, date sortie Rea : champs dates, correspond
aux date d’entré au service de réanimation, date d’entré à l’hôpital et date de sortie du
service de réanimation.
– origine : correspond à l’origine du patient, hôpital ou domicile.
– servOrig : service d’origine : Maternité, Pédiatrie, Neuro chirurgie....
– priseAnt d’ATB : dans ce champ est indiqué si le patient a pris des antibiotique,
de valeurs binaires.
– catégorie : la catégorie de chaque patient soit Médical, Chirurgical ou Trauma-
tique.
– cissue : ce champ est utilisé pour indiquer l’état du patient actuel : survécu ou
décédé.
– infNos : ce champ indique si le patient a acquis une IN ou non.
– diag1, diag2 : ces deux champs représentent les diagnostics.
Nous avons décrit les champs des données fixes. Se sont des données dont la valeur
ne change pas pendant la période d’hospitalisation d’un patient. Elles contiennent plu-
sieurs informations hétérogènes, où nous avons 17 champs et 280 enregistrements (pa-
tients). Donc nous allons tout d’abord traiter cette base de données afin de réduire le
nombre des variables et de ne laisser que des variables utiles à la prédiction. Nous rap-
pelons que nous avons d’autre type de données. Elles sont caractérisées par le temps,
elles ont une structure plus complexe que les données fixes. ce sont des données qui
contiennent une valeur pour chaque série de temps (jour) pendant la période d’hospi-
talisation d’un patient.
Nous avons utilisé des tables qui contiennent des données temporelles (examInf, Ve-
rifierActe, avoirAnt). Ces données ont une structure très complexe (la représentation
est multidimensionnelle) et engendrent des problèmes lors de la phase d’apprantissage
dans les RB.
– Acte : sont les actes effectués pour un patient à une date donnée par (date_acte)
6 5èmes Journées Francophones sur les Réseaux Bayésiens, Nantes, 10-11 Mai 2010
– examInf : les examens infectieux effectués pour un patient à une date donnée par
(date_exam)
– Pres_Ant : concernant la consommation de l’antibiotique pour un patient à une
date donnée par (date_Prise) et une dose précise.
Ces données sont irrégulières et bruitées. Mais elles contiennent des informations très
pertinentes pour notre prédiction et classification. Comme nous l’avons mentionné,
plus haut, nous disposons d’une base contenant 280 cas. Il existe dans Les trois tables
plus que 5600 enregistrements (pour tous les patients de la base) concernant les ob-
servations saisies quotidiennement.
3.3. Modélisation
un graphe causal avec les tables de probabilités associées à chaque noeud. L’utilisa-
tion conjointe des probabilités et du graphe nous offre une famille de modèles qui ne
sont pas très riches de connaissances utiles. Il faut donc passer à l’étape suivante qui
consiste à apprendre les données temporelles et à élaborer des modèles de connais-
sances temporels qui sont plus riches que les modèles statiques.Nous allons présenter
la structure du Réseau Bayésien dynamique obtenu par notre algorithme itératif et ré-
cursif d’apprentissage.
L’objectif de notre RBD est de prédire l’événement d’acquisition d’une infection no-
socomiale par un patient et ceci tout au long de son hospitalisation, par le calcul de
la probabilité quotidienne d’avoir un événement au futur sachant les observations (les
actes et les examens infectieux effectués) dans le passé et au cours du jour courant. La
figure figure 3-B montre qu’une transition du RB est composée par deux types d’arc :
(1) Les arcs intra-tranche qui représentent l’interdépendance entre les variables d’une
tranche. Nous avons utilisé pour cette structure celle du RB naïf puisque les variables
8 5èmes Journées Francophones sur les Réseaux Bayésiens, Nantes, 10-11 Mai 2010
de chaque série de temps (acte1 ,... acte10 , exinf1 ... exinf30 ) n’ont aucune dépendance
entre elles et qu’elles sont toutes connectées directement avec les deux noeuds cibles
(de prédiction) qui sont result (ou infnos) et cissue. (2) les arcs d’inter-tranche qui
représentent les arcs de temps. En effet, ces arcs symbolisent les interdépendances qui
existent entre la variable elle-même mais pour des tranches de temps différentes et
successives. Notre système a appris que le résultat de prédiction d’un jour t dépend
directement du résultat de t-1. Aussi, nous avons inséré dans notre modèle temporel
des connaissances données par l’expert en ce qui concerne les examens infectieux.
Notre RBD est un RB qui modélise des distributions de la probabilité sur les collec-
tions semi-infinies de variables aléatoires (result, acti ,..., exminfi ,...,cissue) . Chaque
modèle décrit les relations entre les différentes variables et le noeud cible "resultt ". Le
principe de notre RBD peut être défini comme un déroullement des transitions jusqu’à
la fin de. Le résultat de la distribution des probabilités jointes est donné par :
∏
T ∏
N
P (result1:T ) = P (resultit |P a(resultit )) [3]
t=1 i=1
4. Résultats
Notre étude a pour objectif de prédire la survenue d’IN chez un patient tout au
long de sa hospitalisation. Les mesures quotidiennes enrichissent les modèles de pré-
diction. A chaque jourt d’hospitalisation du patient nous avons pu prévoir son état
au futur par une probabilité, qui sera utilisée, dans la prédiction du jourt+1 , avec ces
observations mesurées.
La figure ci-dessous montre la prédiction effectuée sur un patient qui est resté 40 jours
dans le service de réanimation. Pour le quel notre système a prédit la survenue d’une
infection nosocomiale au 7ieme jour de son hospitalisation et dans le 10ieme jour le
patient a effectivement attrapé une IN.
Sur la figure 4, nous avons présenté trois bulles :
(A) indique les 40 identifiants des séries de temps relatives à la durée d’hospitalisation
du patient en question ;
(B) montre les différentes valeurs de probabilité prédite d’acquérir une IN et ceci pour
9 jours de son hospitalisation c-à-dire avant la détection d’une IN ;
(C) après cette période le patient a acquis une IN. qui conforme au résultat du 7ieme
jour ;
La figure 4 présente les données temporelles concernant le patient de code P216. Notre
base de données contient un identifiant pour chaque patient à chaque jour d’hospita-
lisation (ex :le code P216S14 correspond au 14ieme jour d’hospitalisation du patient
code P216). La variable dsj représente le nombre de jour d’hospitalisation, c’est une
10 5èmes Journées Francophones sur les Réseaux Bayésiens, Nantes, 10-11 Mai 2010
Tableau 1. La matrice de confusion des résultats donnés par notre Réseau Bayésien
dynamique
variable très importante et qui a une action directe sur la prédiction. Plus la valeur de
cette variable est grande plus la probabilité d’attraper IN est grande. La base contient
aussi des données temporelles comme les actes et examens. il y a 10 types d’actes
et 320 types d’examens infectieux. Chaque patient subit au maximum 10 actes et 30
examens par jour. Nous avons représenté dans la figure 4 quelques acronymes d’actes
(CAT, PIV, CV), d’examens infectieux et le comportement du germe vis a vis de l’an-
tibiotique (résistant ou sensible). Un autre champ contient le résultat de prédiction
donné à chaque jour par notre système.
Cette prédiction est donnée sous forme d’une probabilité, plus cette probabilité aug-
mente plus le danger d’attraper un IN est élevé. Nous remarquons que pour le patient
P216, notre système a prédit une probabilité de 0,05 pour le premier jour d’hospitali-
sation, cette probabilité a augmenté à 0,11 puis à 0,63 pour respectivement le 2ieme et
le 3ieme jour. A ce stade le médecin peut prédire que ce patient attrapera une IN. Cette
probabilité démunie dans les jours suivants jusqu’à atteindre une probabilité de 0,10.
Au 7ieme et 8ieme jour cette dernière a augmenté de nouveau pour dépasser 0,6. En se
moment, le médecin est sûr que ce patient va attraper une IN dans les jours suivants.
Ce qui est réellement passé, en effet ce patient a bien attrapé une IN le 10ieme jour
de son hospitalisation. Nous avons classé ce patient comme un patient infecté en lui
assigné la valeur "oui" dans la base de résultats.
Dans cette section, nous rappelons que notre base contient 280 cas. Nous n’avons
tenu compte pour l’évaluation de notre système que des patients qui ont un séjour plus
de 48 heures à l’hôpital (une infection est considérée comme nosocomiale si elle a
apparue après 48h d’hospitalisation). Nous avons utilisé des cas de patients pour le
test différents des cas utilisés dans l’apprentissage (200 cas pour l’apprentissage et 23
cas pour le test).
Le tableau 1 illustre clairement que le taux des reconnaissances positives correctes est
élevé, 5 patient sont correctement classés parmi 8 qui ont attrapé une IN. Nous avons,
aussi,un taux des reconnaissances négatives correctes grand, 2 cas sont incorrectement
classés parmi 15 patients non infectés (voir Tableau 1). Nous montrons les résultats
obtenus de la prédiction dynamique dans la matrice de confusion (Tableau 1) : Nous
avons calculé les taux d’évaluation à partir des résultats de prédiction obtenus par
Les SIAD basés sur les RBD 11
notre structure élaborée par le RBD, nous avons trouvé que le taux de classification
était correcte à 0.78, le pouvoir de prédiction positif = 0.62, Le pouvoir de prédiction
négatif = 0.86, Sensibilité = 0.71, Spécificité = 0.8125 et les chances proportionnelles
= 3,6.
5. Conclusion
Dans ce travail, nous avons proposé une approche d’extraction des connaissances à
partir des données temporelles. Notre approche consiste à appliquer les RB classiques
sur les données fixes et les RBD sur les données temporelles. Nous avons validé notre
approche sur un cas réel. Nous avons ainsi développé un système de prédiction quo-
tidienne de l’IN chez les patients dans le service de réanimation de l’hôpital Habib
Bourguiba de Sfax, Tunisie. Nous avons pu extraire des modèles de connaissance et
de les transformer automatiquement comme des résultats probabilistes, quantitatives
et qualitatives pour la prédiction.
Comme perspectives nous envisageons de mettre en place ce système dans d’autre
service, adopter à d’autre types de prédiction. Et enfin améliorer notre approche en ce
qui concerne l’apprentissage dynamique et temporelle des modèles de connaissances.
6. Bibliographie
Keen P., Scott M., « An organizationnal perspective », Decision Support, Systems Addison-
Wesley Publishing Company, 1978.
Lefébure R., Venturini, Data Mining : Gestion de la relation client, Personalisation des sites
Web, Eyrolles, Paris, 2001.
Lepreux S., Approche de Développement centré décideur et à l’aide de patrons de Systèmes
Interactifs d’Aide à la Décision, Thèse de doctorat, l’Université de Valenciennes et du
Hainaut-Cambrésis, 2005.
Leray P., Réseaux Bayésiens : apprentissage et modélisation de systèmes complexes, habilita-
tion à diriger les recherches, Université de Rouen, 2006.
Murphy K., Dynamic Bayesian Networks : Representation, Inference and Learning, Thèse de
doctorat, University of California, Berkeley, 2002.
Naïm P., Wuillemin P., Leray P., Pourret O., Becker A., Les Réseaux bayésiens, Editions Ey-
rolles, Paris, 2007.
Neapolitan R., Learning Bayesian Networks, Pearson Education, upper saddle River, 2004.
Pearl J., Probabilistic Reasoning in Intelligent Systems : Networks of Plausible Inference, Mor-
gan Kaufmann Publishers, San Mateo, 1988.
Peelen L., Keizer N. D., Jonge E. D., Bosman R., Abu-Hanna A., Peek N., « Using hierarchical
dynamic Bayesian networks to investigate dynamics of organ failure in the Intensive Care
Unit », journal of Biomedical Informatics, vol. 43, n˚ 2, p. 273-286, 2010.
Pernkopf F., « Bayesian network classifiers versus selective K-NN classifier », Pattern Recog-
nition, vol. 38, p. 1-10, 2005.
Scott M., « Computer based support for decision making », Management decision systems,
Harvard University, Boston, MA, USA, 1971.
Shahar Y., « Dimensions of time in illness : an objective view », Ann Interrn Med, vol. 132,
p. 45-53, 2000.
Sprague R., Carlson E., « Building Effective Decision Support Systems », Prentice-Hall, Har-
vard University, Boston, MA, USA, Inc, Englewood Cliffs, 1982.
Trabelsi G., Ayed M. B., Alimi A., « Système d’extraction des connaissances à partir des don-
nées temporelles basé sur les Réseaux Bayésiens Dynamiques », RNTI E19 Extraction et
Gestion des Connaissances EGC, cépadués edition, Hammemet, Tunisie, p. 241-246, JAN,
2010.