Etude Des Indices Topologiques Et Leur Application
Etude Des Indices Topologiques Et Leur Application
Etude Des Indices Topologiques Et Leur Application
THSE DE DOCTORAT
Pour lobtention du grade de
DOCTEUR
Prsente par
Mohamed ESSALIH
Examinateurs :
M. Ahmed HAMMOUCH
M. Mohamed EL HASSOUNI
M. Mohamed EL MARRAKI
Invits :
M. Mohamed Nabil SAIDI
M. Aziz YASRI
Remerciement
Remerciement
Je tiens aussi remercier M. Mohamed Nabil SAIDI, professeur lInstitut National de
Statistique et dEconomie Applique (INSEA) de Rabat et membre permanent de LRIT,
davoir accept dtre examinateur de ma thse.
Jai eu loccasion, lors de deux projets scientifiques effectus en collaboration avec M. Ivan
GUTMAN et M. Boris FURTULA, Professeurs denseignement suprieur la Facult des
Sciences de lUniversit de Kragujevac en Serbia, de dcouvrir de prt la recherche en reprsentation molculaire (Kenograph et Plerograph). Je remercie donc toute lquipe de ces
projets, en particulier M. Ivan GUTMAN et M. Boris FURTULA.
Merci galement M. Tawfiq BARHOOM, M. Ramzi ABED, votre gentillesse et votre gnrosit ont normment compt pour moi lors dinoubliable confrence organise Gaza. Jespre
que nous aurons prochainement loccasion de nous rencontrer lors de futures confrences. Merci
aussi tous les chercheurs que jai rencontrs lors de congrs, pour leurs remarques et leurs
suggestions, qui mont permis davancer dans ce travail de recherche.
Merci mes amis de longue date que ces trois annes mont un peu loigns de vous. Mais
que jespre vous retrouver, bientt, et mes anciens compagnons du master dInformatique
et Tlcommunication. Je tiens remercier galement M. Mohammed AZEEM, Mme. Fatima
Zahra TELIMSANI et Mlle Keltoum AIT LAASRI de leurs remarques de forme de ce mmoire,
ainsi qu toute personne qui a contribu de prt ou de loin de la finalit de cette thse.
Par ailleurs, cest avec beaucoup dmotions que je remercie mes parents pour leurs nombreux sacrifices ainsi que pour le soutien et la confiance quils mont toujours accord. Il mest
difficile de traduire par les mots laffection et la gratitude que je leur rserve. Aussi, est-ce
eux que je ddie ces heures de travail, de joies et de souffrances quils ont partags. Jespre
quils se rjouissent de la russite qui couronne mes efforts.
ii
ix
xi
Introduction gnrale
Dfinitions et proprits
Les graphes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1
Matrice dadjacence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2
Matrice de distances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3
Matrice dincidence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4
Listes dadjacences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.5
Matrice Laplacienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2
Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.2
iii
II
Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.2
Les descripteurs 1D . . . . . . . . . . . . . . . . . . . . . . . . 23
1.2.2
Les descripteurs 2D . . . . . . . . . . . . . . . . . . . . . . . . 23
1.2.3
Les descripteurs 3D . . . . . . . . . . . . . . . . . . . . . . . . 24
Dfinition de QSAR/QSPR . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2
2.3
2.4
2.4.2
2.4.3
2.4.4
2.5
2.6
la validation de moldle . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.7
2.7.2
Le criblage virtuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1
3.2
3.2.2
3 Lindice de Wiener
1
41
1.2
1.3
iv
21
Le graphe Star-trees . . . . . . . . . . . . . . . . . . . . . . . . 44
1.3.2
1.4
2
2.1
2.2
2.4
2.2.1
2.2.2
2.2.3
2.2.4
2.3.2
3.2
2.3
Le graphe Path-trees . . . . . . . . . . . . . . . . . . . . . . . . 45
3.1.2
Larbre de Thorn . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.2.2
Lindice de Hyper-Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.1
1.2
77
Linvariant de Wiener-Type . . . . . . . . . . . . . . . . . . . . . . . . . 78
1.1.1
Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
1.1.2
Lindice de Hyper-Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . 81
1.2.1
Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
1.2.2
1.2.3
1.2.4
83
Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2.1.2
2.2
III
Quelques proprites de M T I
. . . . . . . . . . . . . . . . . . . 88
Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2.2.2
2.2.3
Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
3.2
Quelques proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.2.1
3.2.2
3.2.3
1.1
Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
1.2
Dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
1.2.2
1.2.3
1.2.4
2.2
2.2.2
2.2.3
2.3.2
2.3.3
vi
111
2.3
109
Problmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
3.1.2
3.2
3.3
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
3.2.2
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
3.3.2
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
139
143
2.2
2.3
2.4
2.5
4.2
4.1.2
5.2
5.3
6
5.2.1
5.2.2
5.2.3
5.2.4
. . . . . . . 151
vii
6.2
6.2.2
6.2.3
Rfrences bibliographiques
viii
157
1.1
1.2
1.3
1.4
1.5
2.1
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15
ix
3.16
3.17
3.18
3.19
3.20
3.21
4.1
4.2
4.3
4.4
4.5
4.6
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
5.10
La corrlation entre 1 (Ke) et 1 (P l) pour les isomres dUndecanes (C12 H26 ) 128
5.11
La corrlation entre EE(Ke) et EE(P l) pour les isomres dUndecanes (C12 H26 )128
5.12
5.13
5.14
5.15
5.16
A.1
A.2
. . . . . . . . . . . 122
. . . . . . . . . . . . . . . . . . . . . . 146
1.1
2.1
5.1
5.2
5.3
5.4
xi
Rsum
Les processus qui mnent la dcouverte de nouveaux mdicaments sont longs et fastidieux,
et les taux de succs sont relativement faibles. Lidentification de candidats par le biais de tests
exprimentaux savre coteuse, et ncessite de connatre en profondeur les mcanismes daction
de la protine vise afin de mettre en place des essais efficaces. La modlisation de proprits
et dactivits de molcules peut considrablement acclrer ces processus en permettant une
valuation rapide de plusieurs milliers de molcules afin de dterminer lesquelles sont les plus
susceptibles de se lier une activit biologique ou proprit physique/chimique dune molcule.
Lun des challenges de la chmo-Informatique est dtre capable de dcrire de manire simple
des molcules afin de pouvoir les utiliser dans des tudes de similarit ou de pouvoir prdire leur
activit en se basant sur les informations contenues dans les composs dj connus. De nombreuses recherches ont t menes, au cours des dernires dcennies, pour trouver la meilleure
faon de reprsenter linformation contenue dans la structure des molcules, et ces structures
elles-mmes, en un ensemble de nombres rels appels indices topologiques ; une fois que ces
nombres sont disponibles, il est possible dtablir une relation entre ceux-ci et une proprit
ou activit molculaire, laide doutils de modlisation classiques. Ces indices topologiques
ralisent de ce fait un codage de linformation chimique en un vecteur de rels.
Le premier objectif de ce travail tait damliorer la faon de calculer quelques principaux
indices topologiques tels que : les indices de Wiener, de degr de distance, dHyper-Wiener et de
Terminal de Wiener, en proposant des formules utilisant juste le nombre de paires de sommets
ayant la mme distance k (dG (k)) pour les calculer. On a utilis ces formules avec des graphes
de littrature, de diffrents diamtres, ou que nous les avons conus afin de les vrifies. Ltude
de ces indices nous a fourni une vision globale sur leurs dfinitions et nous la exploit afin de
regrouper ces indices en des groupes selon la matire premire de leurs dfinitions (distance
entre deux sommets, degrs des sommets, ...) et donc, donn pour chaque groupe dindices une
relation qui lui convient. Ce regroupement amliorera, sans doute, les techniques de mthodes
de la slection des variables qui font parties des mthodes de modlisation. Puis, on a tudi
la notion de la reprsentation molculaire (Kenograph et Plerograph) car elle se considre
dans la littrature comme le premier pas de calcul des indices topologiques en donnant dautres
raisons justifiant la domination de type Kenograph depuis la cration de la thorie des graphes
molculaire.
Mots cls : Descripteurs molculaires, Indices toplogiques, Graphe, Kenograph, Plerograph,
Indice de Wiener.
xiii
Abstract
The process of drug discovery is long and tedious. Besides, it is relatively inefficient in terms of
hit rate. The identification of candidates through experimental testing is expensive and requires
extensive data on the mechanisms of the target protein in order to develop efficient assays. The
modeling of the molecular properties and activities can considerably accelerate the process by
quickly evaluating large databases of compounds and determining the most likely to bind to a
biological activity or physical/chemical property of a molecule. One of the challenges faced by
Chemo-informatics is the following : to be able to describe compounds in a simple way, in ordre
to use them in similarity studies or to predict their activity, based on information contained in
already known compounds. In recent decades, much researches have been carried out to find
the best way of representing the information contained in the structure of molecules, and these
structures themselves, into a set of real numbers called topological indices ; Once these numbers
are available, it is possible to establish a relationship there between and a molecular property
or activity, using the traditional modeling tools. These topological indices realize this is an
encoding of chemical information into a vector of real numbers.
The first objective of this work were to improve the manner of calculating some mains topological indices such as : the Wiener index, the degree distance index, the Hyper-Wiener index and
the Terminal Wiener index, by proposing formulas using just the number of pairs of vertices
having the same distance k (dG (k)) to calculate them. We applied these formulas on graphs of
literature, having different diameters, or that we have designed in order to verified it. The study
of these indices has given us a global vision about their definitions and we exploited it to bring
together these indices into groups according to the raw material of their definitions (distance
between two vertices, vertex degrees, ...) and therefore, given for each group of these indices a
relationship that appropriate it. This grouping will improve undoubtedly the technical methods
of the selection of variables which that are part of the modeling methods. The second objective is to study the concept of the molecular representation (Kenograph and Plerograph)
because it is considered in the literature as the first step to calculate the topological indices,
and giving an other reasons for the dominance of the Kenograph type since the creation of
the of molecular graphs.
Keywords : Molculars descriptors, Topological indices, Graph, Kenograph, Plerograph, Wiener index
Introduction gnrale
Introduction gnrale
Les relations entre les structures des molcules et leurs proprits ou activits sont gnralement tablies laide de mthodes de modlisation par apprentissage statistique. De nombreuses
recherches ont t menes, au cours des dernires dcennies, pour trouver la meilleure faon
de reprsenter linformation contenue dans la structure des molcules, et ces structures ellesmmes, en un ensemble de nombres rels appels indices topologiques ; une fois que ces nombres
sont disponibles, il est possible dtablir une relation entre ceux-ci et une proprit ou activit
molculaire, laide doutils de modlisation classiques. Ces descripteurs numriques ralisent
de ce fait un codage de linformation chimique en un vecteur de rels. On en dnombre aujourdhui plus de 3000 familles des indices topologiques, qui quantifient des caractristiques
physico-chimiques ou structurelles de molcules. Ils peuvent tre obtenus de manire empirique
ou non-empirique, mais les descripteurs calculs, et non mesurs, sont privilgier : ils permettent en effet deffectuer des prdictions sans avoir synthtiser les molcules, ce qui est un
des objectifs de la modlisation. Il existe cependant quelques descripteurs mesurs : il sagit
gnralement de donnes exprimentales plus faciles mesurer que la proprit ou lactivit
prdire (coefficient de partage eau-octanol [36], polarisabilit, ou potentiel dionisation). Avant
donc toute modlisation, il est ncessaire de calculer ou de mesurer un grand nombre de descripteurs diffrents, car les mcanismes qui dterminent lactivit dune molcule ou une de ses
proprits sont frquemment mal connus. Il faut ensuite slectionner parmi ces variables celles
qui sont les plus pertinentes pour la modlisation.
Ce rapport est dcoup en trois parties :
La premire partie est constitue de deux chapitres et consacre ltude de la thorie des
graphes et ses applications aux diffrentes mthodes de QSAR/QSP R. On commence dans
le chapitre 1 par introduire la notion de graphe et donner quelques dfinitions et proprites
relatives aux graphes. On sintressera plus particulirement aux graphes molculaires. Le
chapitre 2 traite lui de la notion des descripteurs molculaires ainsi que du rle important
que va jouer ces drniers dans les tudes QSAR/QSP R.
La deuxime partie explique en dtaille les diffrentes mthodes de calcul dune catgorie particulire des descripteurs molculaires (les indices topologiques, en particulier lindice de Wiener et ses extensions). Cette partie comporte lessentiel de nos contributions
[77][1][150][151][3] [5][4][2][6][7]. Elle est dcoupe en deux chapitres, le premier chapitre (chapitre 3) est ddi au calcul de lindice de Wiener en utilisant plusieurs mthodes (utilisation
directe de la dfinition, utilisation du thorme bas sur le diamtre). On tudiera plus particulirement les arbres (graphe connexe et sans cycle). Le deuxime chapitre de cette partie
(cest--dire le chapitre 4) est consacr ltude de quelques autres indices topologiques qui
Introduction gnrale
sont en relation avec lindice de Wiener (comme les indices de Hyper-Wiener, de degr de
distance et Terminal de Wiener).
La dernire partie de ce rapport (partie III) est forme dun seul chapitre (chapitre 5). Elle
est consacre ltude des reprsentations Kenograph Ke et Plerograph P l. Aprs avoir
donn les dfinitions des ces reprsentations, on a tudi la relation entre eux. Pour pouvoir
trouver cette corrlation il nous a fallut utiliser lindice de Terminal de Wiener. Les travaux
de ce chapitre ont fait lobjet de deux contributions avec M. Ivan Gutman [117][108].
On termine ce rapport par donner une conclusion gnrale et quelques perspectives. Et la
fin de ce manuscrit se trouve une annexe qui relate la notion de classification et ses diffrentes
mthodes statistique (rseaux de neuron, K-plus proche voisin, ...).
Introduction gnrale
Premire partie
Dfinitions et proprits
Chapitre 1
Les concepts fondamentaux
Introduire une nouvelle matire nest pas toujours chose plaisante car il sagit souvent dune
accumulation de dfinitions ! Et cest la situation rencontre dans ce chapitre. Nous allons donc
agrmenter cette prsentation, autant que faire se peut, dexemples mettant en lumire lintrt pratique de la thorie des graphes. Comme lindique le titre de ce chapitre, nous nous
intressons aux concepts fondamentaux des graphes, en particulier aux leurs diffrentes dfinitions, quelques leurs proprits. Nous allons aussi voir une petite introduction des graphes
chimiques dans laquelle nous nous intresserons leur importance pratique travers les descripteurs topologique, et dans chaque section nous donnerons des exemples qui vont clarifier
ces dfinitions.
Les graphes
Dfinition 1.1. Soient V un ensemble (fini ou infini) et E une partie de V V (i.e., une
relation sur V ). Le graphe G = (V, E) est la donne du couple (V, E). Les lments de V sont
appels les sommets ou noeuds de G, et ceux de E sont appels les arcs ou artes de G. Si V est
fini, on parlera de graphe fini [29, 34, 133, 159, 163, 197]. La Figure 1.1 montre trois exemples
des graphes finis : G1 , G2 et G3 .
Dfinition 1.2. Lordre dun graphe, not n, est le nombre de ses sommets.
Exemple 1.1. Les ordres des graphes G1 , G2 et G3 de la Figure 1.1, sont n1 = 12, n2 = 12 et
n3 = 11 respectivement.
Dfinition 1.3. La taille dun graphe, note m, est le nombre de ses artes.
Exemple 1.2. Les tailles des graphes G1 , G2 et G3 de la Figure 1.1, sont m1 = 11, m2 = 14
et m3 = 13 respectivement.
Dfinition 1.4. Le voisinage dun sommet, not , est lensemble de tous ses sommets adjacents. Sa taille est ||.
Exemple 1.3. Le voisinage du sommet w2 du graphe G3 de la Figure 1.1 est (w2 ) =
{w1 , w3 , w7 , w8 , w9 , w10 , w11 }, et |(w2 )| = 7.
v8
v10
v11
u1
v1
v2
v3
v4
v5
v6
u5
u7
w8
u12
w7
v12
u6
u11
w9
G2
G1
w3
w5
w11
u8
u10
u4
w4
w1
w2
v7
u2
v9
u9
u3
w10
w6
G3
Remarque 1.1. Vis--vis les deux types de graphe (orient ou non orient), on a les remarques
suivantes :
1. Observons que lordre au sein des couples appartenant E est intrinsquement prsent. On
parlera donc parfois de graphe orient ou de graphe dirig (digraph). Si V est lensemble
des sommets du graphe G et si a = (vi , vj ) E est une arte de ce graphe, on pourra
alors parler de lorigine vi et de la destination vj de larc a. On dit que vi et vj sont les
extrmits de larc a et que a relie vi vj . Si b = (vi , vi ), on parle gnralement de la
boucle b.
2. Il est souvent commode de donner une reprsentation sagittale dun graphe. Les sommets
sont reprsents par des points et si la paire de sommets (vi , vj ) reprsente un arc, alors
on trace une flche de vi vers vj .
3. Dans un graphe orient (resp. non orient), nous nous efforcerons de parler darcs (resp.
dartes), pour dsigner la liaison entre deux sommets dans ce graphe.
Dfinition 1.5. Soit G = (V, E) un graphe. Si E est une relation symtrique sur V , on dira
que G est un graphe non orient. Autrement dit, G est non orient si :
vi , vj V : (vi , vj ) E (vj , vi ) E
Remarque 1.2. Dans le cas des graphes non orients :
(1.1)
u3
w4
e1
v5
u5
7.6
8
5
e6
v3
v4
u2
e2
w1
w3
e5
u4
e3
v1
u1
e4
2.9
0.7
1.5
6.1
w2
v2
G1
G2
G3
Dfinition 1.6. Un multi-graphe est un graphe contenant des boucles et/ou plusieurs artes
reliant les mmes sommets.
Dfinition 1.7. Un graphe G = (V, E) est dit simple sil ne sagit pas dun multi-graphe et
sil ne contient pas de boucle.
Dfinition 1.8. Un graphe planaire est un graphe quon peut dessiner sur une surface plate
sans que ses artes ne se croisent. Les graphes quon ne peut pas dessiner sans croisement sont
dits non planaires [29, 34, 133, 159, 163, 197].
Dfinition 1.9. Un graphe G = (V, E) est dit bi-parti si V peut tre partitionn en deux
ensembles V1 et V2 de manire que E V1 V2 . Si |V1 | = n1 , |V2 | = n2 et E = V1 V2 , alors
on parle du graphe bi-parti complet et il est not Kn1 ,n2 .
Exemple 1.5. Voici les exemples suivants :
Tous les graphes qui figurent dans la Figure 1.1 sont des graphes simples et planaires. Les
graphes G1 et G2 de la Figure 1.2 sont deux graphes non planaires.
Le graphe G3 de la Figure 1.2 est un multi-graphe.
Le graphe G2 de la Figure 1.2 est un graphe bi-parti.
Le graphe G1 de la Figure 1.1 est un graphe simple.
Dfinition 1.10. Deux artes sont dites adjacentes sils ont au moins une extrmit en commun.
Exemple 1.6. Les artes {v2 , v3 } et {v3 , v4 }, du graphe G1 figurant dans la Figure 1.1, sont
adjacentes.
Dfinition 1.11. Deux sommets vi , vj V sont adjacents si larte {vi , vj } appartient E.
On dit aussi quils sont voisins. Lensemble des voisins de v se note (v).
Exemple 1.7. Les sommets u7 et u8 , du graphe G2 figurant dans la Figure 1.1, sont adjacents.
Dfinition 1.12. Un graphe G = (V, E) est complet, si toutes les paires de ses sommets sont
adjacentes. Un graphe complet dordre n est not Kn (le K est en lhonneur de Kuratowski, un
pionnier de la thorie des graphes).
Dfinition 1.13. On appelle degr du sommet u , not par deg(u) = |(u)|, le nombre dartes
incidentes u, on suppose en outre que les boucles apportent une double contribution au degr
dun sommet. Le degr dun graphe est le degr maximum de tous ses sommets.
Exemple 1.8. Voici les exemples suivants :
Les degrs des sommets v1 , u7 et w2 des graphes G1 , G2 et G3 de la Figure 1.1, sont, respectivement, de degG1 (v1 ) = 4, degG1 (u7 ) = 3 et degG3 (w2 ) = 7.
Le graphe G1 de la Figure 1.2 est un graphe complet.
Lemme 1.1. [133] Si G = (V, E) est un multi-graphe non orient, alors :
X
uV
10
deg(v) = 2|E|
(1.2)
Dfinition 1.14. Un chemin dans un graphe orient est une suite de sommets relis les uns
aux autres par des arcs. Sa longueur est le nombre de ses arcs, ou le nombre de ses sommets
moins un. Un chemin simple ne peut pas visiter le mme arc plus dune fois. Un chemin ferm
a pour dernier sommet le premier.
Dfinition 1.15. Une chane dans un graphe non orient est une suite de sommets relis par
des artes. Sa longueur est le nombre de ses artes, ou le nombre de ses sommets moins un.
Une chane lmentaire ne peut pas visiter le mme sommet deux fois. Une chane simple ne
peut pas visiter la mme arte deux fois.
Exemple 1.9. Voici les exemples suivants :
La suite de sommets s1 = {w1 , w2 , w7 , w8 , w2 , w1 } du graphe G3 de la Figure 1.1, forme une
chane de longueur l1 = 5.
La suite de sommets s2 = {v1 , v2 , v3 , v4 , v5 , v6 , v7 , v11 } du graphe G1 de la Figure 1.1, forme
une chane lmentaire de longueur l2 = 7.
La suite de sommets s3 = {u1 , u3 , u5 , u7 , u9 , u12 , u11 } du graphe G2 de la Figure 1.1 forme
une chane simple de longueur l3 = 6.
Dfinition 1.16. Un graphe connexe est un graphe dans lequel chaque paire de sommets est
relie par une chane. Un graphe qui nest pas connexe est dit non connexe, et se dcompose
en composantes connexes.
Exemple 1.10. Tous les graphes de la Figure 1.1 sont des graphes connexes.
Dfinition 1.17. Dans un graphe orient, un circuit est un chemin ferm et simple.
Dfinition 1.18. Dans un graphe non orient, un cycle est une chane lmentaire, simple et
dont ses extrmits concident.
Exemple 1.11. Voici les exemples suivants :
La suite de sommets, c = {u1 , u3 , u5 , u6 , u4 , u2 } du graphe G2 de la Figure 1.1, est un cycle.
La suite de sommets c1 = {v1 , v2 , v3 } du graphe G1 de la Figure 1.2, est un circuit de longueur
l1 = 3.
La suite de sommets c2 = {v1 , v2 , v3 , v4 , v5 , v1 } du graphe G1 de la Figure 1.2 est un chemin
ferm, et qui est aussi un circuit, de longueur l2 = 5.
Dfinition 1.19. La distance entre deux sommets u et v, not par d(v, u), est la longueur de
la plus courte chane entre eux.
Dfinition 1.20. Le diamtre dun graphe G = (V, E), not par D(G) est la plus longue
distance entre deux sommets de ce graphe.
11
2.1
Matrice dadjacence
1, si (i, j) E ;
aij =
0, sinon.
Remarque 1.3. Cette matrice a plusieurs caractristiques :
1. Elle est carre.
12
2. Il ny a que des zros sur la diagonale. Un 1 sur la diagonale indiquerait une boucle.
3. Elle est symtrique : aij = aji . On peut dire que la diagonale est son axe de symtrie.
4. Une fois quon fixe le nombre de sommets, il existe une matrice dadjacences unique pour
chaque graphe. Celle-ci nest la matrice dadjacence daucun autre graphe.
5. Un graphe orient a une matrice dadjacence quelconque, alors quun graphe non orient
possde une matrice dadjacence toujours symtrique.
6. Ce mode de reprsentation engendre des matrices creuses. Cependant la recherche de
chemin ou de chane seffectue aisment avec une telle reprsentation.
7. Le graphe complet non orient sans boucle dordre n a une matrice dadjacence A particulre :
1, pour i =
6 j;
aij =
0, i = j.
Exemple 1.14. La matrice dadjacence du graphe G3 de la Figure 1.1 est :
A=
0
1
0
0
0
0
0
0
0
0
1
1
0
1
0
0
0
1
1
1
1
1
0
1
0
1
1
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
1
0
0
0
0
0
0
1
0
0
1
1
0
0
0
0
0
0
0
0
0
Dmonstration. Par rcurrence. Pour k = 1, aij = aij est bien le nombre de chemins de
longueur 1 de vi vj . Supposons lnonc vrai pour k 1. On a Ak = Ak1 A, on a alors
Akij =
n
X
(k1)
ail
.alj
l=1
13
(k1)
et ail
1, si (vl , vj ) E ;
0, sinon.
Remarque 1.4. Lorsque G = (V, E) est un graphe simple non orient o V = {v1 , v2 , ..., vn }, la
matrice dadjacence de G est la matrice dadjacence du graphe orient G0 associ G. Cette
matrice A est, bien sr, symtrique. De plus les entres de Ak comptent le nombre de chanes
de longueur k dans G.
2.2
Matrice de distances
(1.3)
D=
0
1
2
3
3
3
2
2
2
2
1
1
0
1
2
2
2
1
1
1
1
1
2
1
0
1
1
1
2
2
2
2
2
3
2
1
0
2
2
3
3
3
3
3
3
2
1
2
0
2
3
3
3
3
3
3
2
1
2
2
0
3
3
3
3
3
2
1
2
3
3
3
0
1
2
2
2
2
1
2
3
3
3
1
0
2
2
2
2
1
2
3
3
3
2
2
0
1
2
2
1
2
3
3
3
2
2
1
0
2
1
1
2
3
3
3
2
2
2
2
0
Remarque 1.5. La matrice de distance D dun graphe G dpond toujours a celle de ladjacence
A du mme graphe.
14
2.3
Matrice dincidence
Dfinition 1.27. Considrons un graphe orient sans boucle G = (V, E) dordre n et de taille
m. Sa matrice dincidence note I = (iij ) est une matrice de dimension n m, tel que :
1,
si vi est lextrmit initiale de ej ;
iij = 1, si vi est lextrmit terminale de ej ;
0,
si vi nest pas une extrmit de ej .
I=
2.4
0
1
0 1 0
0
0
0
1
0
0 1
1
0
0
0 1 0
0
0 1 1
1
0
1 1 0
0
0
1
Listes dadjacences
Le sommet
u1
u2
u3
u4
u5
ses successeurs
u5
u4
u5
u1 , u3
u2
ses prdcesseurs
u4
u5
u4
u2
u1 , u3
15
Un graphe orient peut tre reprsent laide dun dictionnaire ; il sagit dune table simple
entre o chaque ligne correspond un sommet et comporte la liste des successeurs ou des
prdcesseurs de ce sommet. Dans la mesure o, pour une table donne, le nombre de successeurs
ou de prdcesseurs nest pas le mme pour chaque sommet, il est prfrable de reprsenter le
dictionnaire sous forme de deux tableaux : le premier comprenant autant dlments que de
sommets, ces lments pointant, dans un second tableau, les dbuts de listes de successeurs (ou
de prdcesseurs).
Exemple 1.17. Le tableau 1.1 affiche les listes dadjacences du graphe G2 de la Figure 1.2.
2.5
Matrice Laplacienne
Dfinition 1.28. La matrice Laplacienne note L(G) correspondant au graphe G est la matrice
dfinie comme suit :
L(G) = D(G) A(G)
(1.4)
O D(G) est la matrice diagonale comportant les degrs des sommets du graphe, et A(G) sa
matrice dadjacence.
Exemple 1.18. La matrice Laplacienne du graphe de la Figure 1.3 est :
L(G) =
16
1 1 0
0
0
0
0
0
1 3 1 0 1 0
0
0
0 1 3 1 0 1 0
0
0
0 1 1
0
0
0
0
0 1 0
0 1 0
0
0
0
0 1 0
0
3 1 1
0
0
0
0
0 1 1
0
0
0
0
0
0
1
0
1
Remarque 1.7. Par la suite ne nous concderons que les graphes simples, non orients, plainaires,
connexes et finis.
La chimie est qualifie de science centrale en raison des puissants liens quelle possde avec
les mathmatiques, la biologie et la physique, ainsi quavec la mdecine, la pharmacie, linformatique et la science des matriaux, sans oublier des domaines appliqus tels que le gnie des
procds. Nous nous intresserons sa relation avec linformatique, et pour bien comprendre
lintrprtation chimique de nos travaux, nous seront obligs dintroduire quelques notions de
base de chimie, qui vont tre utiles dans la suite de notre travail.
3.1
La chimie est une science de la nature. Elle est divise en plusieurs spcialits exprimentales
et thoriques linstar de la physique et de la biologie avec lesquelles elle partage parfois des
espaces dinvestigations communs ou proches. Selon lAmerican Chemical Society (ACS), une
grande association de chimistes au monde, la chimie tudie :
Les lments chimiques ltat libre, atomes ou ions atomiques, et les innombrables et diverses associations par liaisons chimiques qui engendrent notamment des composs molculaires stables ou des intermdiaires plus ou moins instables. Ces entits de matire peuvent
tre caractrises par une identit relie des caractristiques quantiques et des proprits
prcises ;
Les processus qui changent ou modifient lidentit de ces particules ou molcules de matire,
dnomms raction, transformation, interaction... ;
Les mcanismes intervenant dans les processus chimiques ou les quilibres physiques entre
deux formes. Leurs dfinitions prcises permettent de comprendre ou dinterprter avec des
hypothses lvolution matrielle avec en vue une exploitation des rsultats de faon directe
ou induite ;
Les phnomnes fondamentaux observables en rapport avec les forces de la nature qui jouent
un rle chimique, favorisant les ractions ou synthse, addition, combinaison ou dcomposition, sparation de phases ou extraction. Lanalyse permet de dcouvrir les compositions,
le marquage slectif ouvre la voie un schma ractionnel cohrent dans des mlanges complexes.
17
Dfinition 1.29. La matire est ce qui compose tout corps ayant une ralit tangible (que lon
peut connatre en touchant).
Dfinition 1.30. Un lment chimique dsigne lensemble des atomes caractriss par un
nombre dfini de protons dans leur noyau atomique. Lhydrogne, le carbone, lazote, loxygne, sont des lments chimiques, de mme que le fer, le cuivre, largent, lor, etc. Chacun est
conventionnement dsign par un symbole chimique, tel que H, C, N , O, ou encore F e, Cu,
Ag, Au, etc. Au total, 118 lments chimiques ont t observs ce jour. Parmi ceux-ci, 94
lments se rencontrent dans le milieu naturel. Les lments chimiques peuvent se combiner
entre eux au cours de ractions chimiques pour former dinnombrables composs chimiques
Dfinition 1.31. Un corps simple est une forme chimique ne comportant quun lment chimique, par opposition aux composs chimiques, infiniment plus nombreux et dans lesquels
plusieurs lments diffrents sont associs de diverses manires.
Dfinition 1.32. Un atome est la plus petite partie dun corps simple pouvant se combiner
chimiquement avec une autre. Il est gnralement constitu dun noyau compos de protons et
de neutrons autour desquels orbitent des lectrons. Sa taille caractristique est de lordre du
dixime de nanomtre (nm).
Dfinition 1.33. La liaison chimique est le phnomne physique qui lie les atomes entre eux
en changeant ou partageant un ou plusieurs lectrons ou par des forces lectrostatiques.
Dfinition 1.34. Une molcule est une structure de base de la matire. Cest lensemble
datomes unis les uns aux autres par des liaisons chimiques. La composition chimique dune
molcule est donne par sa formule chimique. Exemples :
La molcule de mthane CH4 est constitue dun atome de carbone(C) et de quatre atomes
dhydrogne(H) ;
La molcule de dioxygne O2 est constitue de deux atomes doxygne (O).
Dfinition 1.35. La formule chimique (structure) est la reprsentation de molcules qui sutilise en chimie pour dcrire les molcules et leurs structures, cette reprsentation graphique
permet de dcrire les liaisons molculaires, le nombre et le type datomes qui composent une
molcule, sa forme dans lespace ou simplement de dcrire sommairement la molcule de manire
simple et rapide. La plupart de ces reprsentations sont surtout utilises en chimie organique
ou en biochimie.
Exemple 1.19. Les formules chimiques de 2, 2, 4, 6-tetramethylheptane (I) et diphenylene
(II) respectivement figurent dans la Figure 1.4.
18
3.2
Dans le jargon mathmatique on appelle le thme traitant les graphes, la thorie des graphes.
Comme nous lavons vu au dbut de ce chapitre, un graphe est un objet mathmatique identifi
essentiellement par ses deux principaux lments : arte et sommet. Dans un graphe toute arte
correspond deux sommets, appels sommets adjacents qui sont habituellement dessins par
des petits cercles ou des grands points, et les artes sont dessines par des traits.
Aujourdhui, la thorie des graphes a connu plusieurs applications dans divers domaines, tels que
llectro-technique, la sociologie, la physique nuclaire, linformatique, lethnologie, lingnierie,
la gographie, la linguistique, la biologie, le transport et en particulier la chimie organique.
Nombreux livres [17, 24, 38, 40, 118, 137, 164, 169] et articles [27, 46, 173, 175, 202] ont t crits,
montrent les applications des graphes en chimie. Ces applications chimiques sont bases sur le
fait quune similarit existe entre un compos chimique et un graphe. La Figure 1.4, montre les
composs chimiques de 2, 2, 4, 6-tetramethylheptane (I) et diphenylene (II) respectivement,
qui ressemblent au niveau de formes aux graphes G1 et G2 de la Figure 1.1. videment G1 et G2
peuvent tre vus comme les reprsentations graphiques des formules chimiques des molcules
2, 2, 4, 6tetramethylheptane et diphenylene respectivement. Donc on dit que G1 est le graphe
chimique de 2, 2, 4, 6tetramethylheptane et le graphe G2 et celui de diphenylene.
H
H
H
H
H
H
H
H
H
H
I
H
H
II
19
Que les graphe chimiques sont obligatoirement conncts [41, 119, 170].
Ils y des graphes qui ne sont pas des graphes chimiques, par exemple le graphe G3 de la
Figure 1.1.
3.2.1
Dfinition
On appelle un graphe chimique ou un graphe molculaire tout modle dun systme chimique,
quon utilise pour caractriser les interactions entre ses composantes chimiques : les atomes,
les liaisons, les groupes datomes ou bien de molcules. La formule structurelle dun compos
chimique peut tre reprsente par un graphe molculaire, dont ses sommets reprsentent les
atomes et ses et artes correspondant aux liaisons chimiques.
3.2.2
La notion dun graphe chimique a t utilise depuis le dix-neuvime sicle par plusieurs chimistes. Mr Arthur Cayley sest considr parmi les inventeurs de ce concept, ce qui est claire
dans ses articles [9][167]. Dans son article chemical graph theory [9] Cayley a propos deux reprsentations graphiques dune molcule, la reprsentation plerogram et celle kenogram,
dfinissent ainsi :
Dfinition 1.36. La reprsentation Plerogram est le graphe molculaire dans lequel tous les
atomes de la molcule y compris ceux dhydrognes sont reprsents par des sommets, et les
liaisons entre eux sont reprsentes par des artes.
Dfinition 1.37. La reprsentation Kenogram est le graphe molculaire o on ne reprsente
par des sommets que les atomes des carbones dune molcule. On lappelle aussi le graphe
atome dhydrogne-supprim, la Figure 1.5 montre les deux reprsentations de 2, 2, 3, 5
tetramethylhexane [163].
20
Chapitre 2
La prdiction de proprits et activits
molculaires
Lutilisation des outils informatiques chez les chimistes est devenue obligatoire afin de bien
manipuler les informations molculaies qui ont t, au cours des dernires annes, stockes
numriquement sur les ordinateurs dans des bases de donnes en trs grandes quantits. De
plus, la multiplication des donnes exploitables par les chimistes a donn lieu une obligation
de la numrisation, afin dtre capable de stocker, visualiser et traiter ces mmes donnes
aisment.
La discipline dcrivant lutilisation des outils informatiques pour traiter et rsoudre des problmes la fois dans le domaine chimique et biologique est dsigne par La Chmoinformatique. Ses utilisations sont trs varies et vont de la cration et lutilisation de base de
donnes de petites molcules la manipulation de fichiers en passant par les tudes statistiques. Cependant, son application la plus communment admise est dans le domaine de la
recherche de nouveaux mdicaments drug discovery, domaine dans lequel elle joue un rle
central dans lanalyse et linterprtation des donnes de structures et de proprits collectes
au cours des criblages haut dbit (technique se fait par les biologiste et visant identifier
des molcules nouvelles et potentiellement actives dans des bases de donnes de composs).
Lmergence de cette discipline peut tre mise en parallle avec la multiplication des donnes
chimiques stockes numriquement. En effet, les quantits de donnes gnres par les nouvelles
approches de drug design nont eu de cesse daugmenter et il sest avr ncessaire, pour traiter
les rsultats de criblage haut dbit ou encore de la chimie combinatoire, de dvelopper et
dutiliser des techniques informatiques [69].
Les avances technologiques de la dernire dcennie ont rendu possibles de nombreuses dcouvertes et applications inaccessibles auparavant. Par exemple, le nombre de composs disponibles
dans les tudes de criblage a augment de manire exponentielle. En parallle, les dveloppe-
21
De nombreuses recherches ont t menes, au cours des dernires dcennies, pour trouver la
meilleure faon de reprsenter linformation contenue dans la structure des molcules, et ces
structures elles-mmes, en un ensemble de nombres rels appels descripteurs ; une fois que ces
nombres sont disponibles, il est possible dtablir une relation entre ceux-ci et une proprit ou
activit molculaire, laide doutils de modlisation classiques.
1.1
Dfinition
22
1.2
On dnombre aujourdhui plus de 10000 descripteurs molculaires, qui quantifient des caractristiques physico-chimiques ou structurelles de molcules. Ils peuvent tre obtenus de manire
empirique ou non-empirique, mais les descripteurs calculs, et non mesurs, sont privilgier : ils permettent en effet deffectuer des prdictions sans avoir synthtiser les molcules, ce
qui est un des objectifs de la modlisation. Il existe cependant quelques descripteurs mesurs : il
sagit gnralement de donnes exprimentales plus faciles mesurer que la proprit ou lactivit prdire (coefficient de partage eau-octanol [36], polarisabilit, ou potentiel dionisation).
Les descripteurs molculaires sont frquemment classs par rapport la dimensionalit de la
reprsentation molculaire sur laquelle ils sont calculs : On parlera alors de descripteurs 1D,
2D, ou 3D [28].
1.2.1
Les descripteurs 1D
Les descripteurs 2D
Les descripteurs molculaires utilisent la reprsentation des molcules comme des graphes sont
dits descripteurs 2D et contiennent des informations propos de la connectivit ou propos
de certains fragments molculaires, mais aussi des estimations des proprits physico-chimiques.
Cest partir de ce niveau que lon peut esprer la capture dinformations chimiques pertinentes
pour la prdiction de la majorit des proprits molculaires. On trouvera dans cette catgorie
les descripteurs suivants :
Les indices topologiques, qui considrent la structure du compos comme un graphe, les
atomes tant les sommets et les liaisons sont les artes. De nombreux indices quantifiant
la connectivit molculaire ont t dvelopps en se basant sur cette approche, comme par
exemple lindice de Wiener [98], qui compte le nombre total de liaisons dans les chemins les
plus courts entre toutes les paires datomes (en excluant les hydrognes), et qui sera galement
laxe central de cette thse. Dautres indices bass sur les chemins ont t dvelopps [25, 84,
153].
23
Le but de cette thse, donc tour au tour de cette catgorie, ltude de ses principales indices,
de diffrentes faons de leurs calculs et de la prsentation de leurs fondamentales proprits.
Nous tudierons, donc, dans les prochains chapitres les indices de Wiener, de Hyper-Wiener,
de degre de distance, Terminal de Wiener, en dmontrerons les principales corrlations qui
peuvent existes entre eux et dautres indices de la mme catgorie. Comme nous allons tudier
les deux principales reprsentations molculaires sur lesquelles en se base pour calculer les
indices de cette catogie.
Les informations sur les lectrons de valence peuvent tre inclues dans les indices topologiques [131, 143]. Enfin, des descripteurs combinant les informations de connectivit avec
dautres proprits sont aussi disposition, comme par exemple les descripteurs BCUT, qui
se prsentent sous la forme de matrices de connectivits des atomes, avec sur la diagonale la
charge atomique, la polarisabilit ou les valeurs du potentiel de liaisons hydrognes, et des
termes additionnels hors diagonale [59, 72].
Les indices constitutionnels, qui se basent sur des motifs sous-structuraux. Par exemple,
les empreintes BCI [135] sont des ensembles de bits indiquant la prsence ou labsence de
certains fragments dans une molcule. Les fragments prennent en compte les atomes et leurs
plus proches voisins, les paires datomes et les squences ou encore les fragments bass sur
des cycles. Lapproche des cls MDL est une approche similaire comprenant la recherche des
166 fragments M DL [16, 70, 134].
Ces descripteurs 2D refltent bien les proprits physiques dans la plupart des cas, mais sont
insuffisants pour expliquer de faon satisfaisante certaines proprits ou activits, telles que les
activits biologiques. Des descripteurs, accessibles partir de la structure 3D des molcules, ont
pu tre calculs grce au dveloppement des techniques instrumentales et de nouvelles mthodes
thoriques.
1.2.3
Les descripteurs 3D
Les descripteurs 3D dune molcule sont valus partir des positions relatives de ses
atomes dans lespace, et dcrivent des caractristiques plus complexes ; leurs calculs ncessitent
donc de connatre, le plus souvent par modlisation molculaire empirique ou ab
initio, la gomtrie 3D de la molcule. Ces descripteurs savrent donc relativement coteux en
temps de calcul, mais apportent davantage dinformations, et sont ncessaires la modlisation
de proprits ou dactivits qui dpendent de la structure 3D. On distingue plusieurs familles
importantes de descripteurs 3D :
24
Les descripteurs gomtriques, parmi ceux qui sont les plus importants sont le volume
molculaire, la surface accessible au solvant, le moment principal dinertie.
Les descripteurs lectroniques, ils permettent de quantifier diffrents types dinteractions
inter- et intra-molculaires, de grande influence sur lactivit biologique de molcules. Le
calcul de la plupart de ces descripteurs ncessite la recherche de la gomtrie pour laquelle
lnergie strique est minimale, et fait souvent appel la chimie quantique. Par exemple,
les nergies de la plus haute orbitale molculaire occupe et de la plus basse vacante sont
des descripteurs frquemment slectionns. Le moment dipolaire, le potentiel dionisation, et
diffrentes nergies relatives la molcule sont dautres paramtres importants.
Les descripteurs spectroscopiques : les molcules peuvent tre caractrises par des mesures spectroscopiques, par exemples par leurs fonctions donde vibrationnelles. En effet, les
vibrations dune molcule dpendent de la masse des atomes et des forces dinteraction entre
ceux-ci ; ces vibrations fournissent donc des informations sur la structure de la molcule et sur
sa conformation. Les spectres infrarouges peuvent tre obtenus soit de manire exprimentale, soit par calcul thorique, aprs recherche de la gomtrie optimale de la molcule. Ces
spectres sont alors cods en vecteurs de descripteurs de taille fixe. Le descripteur EV A [194]
est ainsi obtenu partir des frquences de vibration de chaque molcule. Les descripteurs
de type MoRSE [132] (Molecule Representation of Structures based on Electron diffraction)
sont calculs partir dune simulation du spectre infrarouge ; ils font appel au calcul des
intensits thoriques de diffraction dlectrons.
Ces descripteurs requirent une conformation 3D de la molcule exprimentale ou prdite. De
plus, linformation sur la structure de la cible (protine) est parfois requise. On pourra ainsi
distinguer les descripteurs 3D qui ncessitent un alignement de la molcule guid par ltude des
complexes ligand-cible (ou, au moins, par des contraintes visant doptimiser le recouvrement
spatial des champs lectriques et striques des ligands, faute dinformation sur le vrai mode
de fixation dans la cible) avant dtre calculs, comme par exemple les descripteurs CoMFA
[16, 70, 177].
Les premiers essais de modlisation dactivits de molcules datent de la fin du 19me sicle,
lorsque Crum-Brown et Frazer [12] postulrent que lactivit biologique dune molcule est une
fonction de sa constitution chimique. Mais ce nest quen 1964 que furent dvelopps les modles
de contribution de groupes, qui constituent les rels dbuts de la modlisation QSAR. Depuis,
lessor de nouvelles techniques de modlisation par apprentissage, linaires dabord, puis non
25
linaires, ont permis la mise en place de nombreuses mthodes ; elles reposent pour la plupart
sur la recherche dune relation entre un ensemble de nombres rels, descripteurs
de la molcule, et la proprit ou lactivit que lon souhaite prdire.
2.1
Dfinition de QSAR/QSPR
2.2
Une bonne prparation des donnes dentre est ncessaire pour une tude QSAR/QSPR
efficace. Cette prparation implique plusieurs tapes de travail sur les composs :
Sassurer que les conditions exprimentales dans lesquelles ont t obtenues les mesures dactivit des molcules sont similaires,
liminer les doublons,
Appliquer les mmes rgles de standardisation pour les structures des composs,
liminer les mlanges (sauf si, bien sr, il faut prdire les proprits de mlanges).
26
2.3
Une fois les donnes dentre sont prpares, la premire tape de ltude consiste obtenir un
ensemble de descripteurs pour chacune des molcules.
En effet, les composs, encods comme des ensembles de liaisons covalentes et datomes, ne
peuvent tre utiliss directement sur un ordinateur. Les structures chimiques ne contiennent
pas habituellement dinformation explicite les reliant lactivit. Cette information doit tre
extraite grce au descripteurs varis quil est possible de mettre en place. De cette manire,
des proprits implicites contenues dans la structure de la molcule vont tre mises en avant,
sachant que seules certaines dentre elles peuvent ventuellement corrler avec lactivit (la
proprit). Comme indiqu au paragraphe des descripteurs molculaire (paragraphe I de ce
chapitre), ces descripteurs sont bass non seulement sur la structure des composs mais aussi
sur un ensemble de proprits physico-chimiques.
Pour des raisons techniques, les descripteurs sont reprsents sous la forme de vecteurs de
nombres pour chaque molcule. Ces vecteurs doivent tous tre de la mme longueur. En effet,
la plupart des mthodes utilises pour la prdiction requirent comme donnes dentre des
objets comparables de taille constante, ce qui nest pas naturellement le cas des structures des
composs, qui sont diverses en taille et en nature.
2.4
27
Remplacer les variables corrles par de nouvelles variables synthtiques, obtenues partir
de leurs combinaisons,
Slectionner les variables les plus pertinentes.
Nous allons maintenant dcrire brivement les mthodes les plus frquemment utilises.
2.4.1
Lanalyse en composantes principales (ou ACP ) [128], est une technique danalyse de donnes
utilise pour rduire la dimension de lespace de reprsentation des donnes. Contrairement
dautres mthodes de slection, celle-ci porte uniquement sur les variables, indpendamment
des grandeurs (proprit ou activit) que lon cherche modliser. Les variables initiales sont
remplaces par de nouvelles variables, appeles composantes principales, deux deux non corrles, et telles que les projections des donnes sur ces composantes soient de variance maximale.
Elles peuvent tre classes par ordre dimportance. Puisque les composantes principales sont
des combinaisons linaires des variables initiales, linterprtation du rle de chacune de ces
composantes reste possible. Il suffit en effet de dterminer quels descripteurs dorigine leur sont
le plus fortement corrls. Les variables obtenues peuvent ensuite tre utilises en tant que
nouvelles variables du modle. Par exemple, la rgression sur composantes principales [82] (ou
P CR) est une mthode de modlisation dont la premire tape est une analyse en composantes
principales, suivie dune rgression linaire multiple (voir le prochain paragraphe).
2.4.2
La rgression des moindres carrs partiels [21, 101] (M CP , ou P LS) est galement une mthode
statistique utilise pour construire des modles prdictifs lorsque le nombre de variables est
lev et que celles-ci sont fortement corrles. Cette mthode utilise la fois des principes de
lACP et de la rgression multilinaire. Elle consiste remplacer lespace initial des variables
par un espace de plus faible dimension, sous-tendu par un petit nombre de variables appeles
variable latentes , construites de faon itrative. Les variables retenues sont orthogonales
(non corrles), et sont des combinaisons linaires des variables initiales. Les variables latentes
sont obtenues partir des variables initiales, mais en tenant compte de leur corrlation avec la
variable (activit ou proprit) modlise, contrairement aux variables rsultant de lanalyse en
composantes principales. Elles doivent ainsi expliquer le mieux possible la covariance entre les
entres et la sortie. Elles sont alors les nouvelles variables explicatives dun modle de rgression
classique, telles que la rgression linaire multiple.
28
2.4.3
Lanalyse en composantes principales a pour but de rduire les corrlations entre les variables,
mais cette tape de rduction est indpendante de la grandeur modlise. Or, les variables
calcules nont pas ncessairement une influence sur cette grandeur. Il est ncessaire dliminer
celles dont linfluence est infrieure celle du bruit, et de slectionner uniquement les plus
pertinentes dentre elles. Cette mthode permet denvisager toutes les combinaisons possibles
de descripteurs, mais sa mise en oeuvre est trs lourde. Des approches alternatives ont donc
t dveloppes :
La slection progressive, qui consiste incorporer les variables au modle une une, en
slectionnant, chaque tape, la variable dont la corrlation partielle avec la grandeur modlise est la plus leve. linverse, lors de llimination progressive, on dbute la modlisation
avec lensemble des descripteurs, en les liminant un par un jusqu obtenir le meilleur jeu
de composantes.
La slection pas pas, qui est une combinaison des deux mthodes voques prcdemment. Les variables sont incorpores une une dans le modle, par slection progressive.
Cependant, chaque tape, on vrifie que les corrlations partielles des variables prcdemment introduites sont encore significatives.
Dautres mthodes plus efficaces ces deux dont nous venons de les annonces existent
par exemple : la mthode du descripteur sonde, pour plus de dtaille voir [92, 94].
Dans le suivant paragraphe nous donnerons lide de notre contribution dans les techniques de
slection de variables.
2.4.4
En voyant ces techniques de la slection des variables, on peut les relier quelques travaux
quon a pu le faire durant la dure de cette thse. Ces travaux portent sur le regroupement de
plusieurs indices topologiques en une seule dfinition. Donc, on a arriv donner une dfinition
unifie aux indices topologiques utilisant la distance, les degrs, ... en leurs dfinitions (voir le
dernier chapitre).
Lide de regroupement de plusieurs dfinitions des indices en une seule est presque la mme
chose que lapproche Remplacer les variables corrles par de nouvelles variables
synthtiques, obtenues partir de leurs combinaisons , et donne le mme rsultat que
la technique danalyse en composantes principales vu auparavant, sauf que pour nous,
on les remplace au dbut des tapes des tudes QSAR/QSP R, par contre les mthodes de
slection de variables vu dans cette sous section les rduisent au cours de traitement et en tant
29
que possible. Donc, thoriquement on peut les regrouper en une seule dfinition ce qui facilite
leur utilisation aux mthodes de QSAR/QSP R, et pratiquement, nous les rendrons parmi nos
rgents perspectives. Nous allons arriver ces regroupements, qui seront expliqus en dtail
dans le chapitre V de ce mmoire.
2.5
Une fois les descripteurs molculaires utiles calculs et slectionns, lavant dernire tape est
de crer une fonction reliant leurs valeurs la grandeur analyse. La valeur qui quantifie la
grandeur (activit ou proprit) sera donc exprime comme tant une fonction des valeurs
des descripteurs. Les meilleures fonctions sont en gnral mises en place en se basant sur
linformation contenue dans lensemble dentrainement (les composs pour lesquels la grandeur
est connue).
Comme il est expliqu en Annexe A, il existe une gamme de familles de fonctions trs vaste,
incluant des fonctions linaires, qui ont t utilises depuis le dbut du QSAR. Ces fonctions prdisent la grandeur comme tant une fonction linaire des descripteurs molculaires.
En gnral, ces fonctions linaires sont facilement interprtables et suffisamment prcises pour
de petits ensembles de composs similaires, spcialement lorsque les descripteurs sont slectionns avec soin pour une grandeur donne. Ces mthodes sont par exemple la rgression
linaire multiple (M LR : Multiple Linear Regression) [16, 37, 189, 193], La mthode
des moindres carrs (P LS : Partial Least Squares) [16, 190, 191] ou encore lanalyse
discriminante linaire (LDA : Linear Discriminant Analysis) [180].
Dautres mthodes, non-linaires, tendent lapproche des relations plus complexes. Ces
mthodes gnrent des modles se rvlent tre plus prcis, spcialement pour des ensembles
de donnes plus larges et plus divers. Cependant, ces modles nous heurtent parfois des
difficults de comprhension et sont parfois en proie loverfitting (ils se borneront dans ce
cas dcrire du bruit au lieu de la relation sous-jacente entre descripteurs et activit). On
utilisera comme mthodes non-linaires la classification de Bayes [198], la mthode des k
plus proches voisins(k N N ) [192], des rseaux de neurones [16, 22, 73], mais aussi des
arbres de dcision [136, 183], ou des mthodes des machines vecteurs de support
(SV M Vector Machines Support) [16, 35].
2.6
la validation de moldle
La modlisation vise fournir un modle qui soit non seulement ajust aux donnes dapprentissage, mais aussi capable de prdire la valeur de la sortie sur de nouveaux exemples, cest--dire
30
de gnraliser. La drnire phase des tudes QSAP/QSPR donc est de lvaluer pour quon
serai sur de son utilisation dans la pratique.
Plusieurs techniques on t conus pour la slection de modle, pour en savoir plus, voir [16].
2.7
La modlisation dune proprit ou dune activit molculaire ncessite de disposer dinformations caractrisant les molcules, informations partir desquelles la grandeur en question est
prdite. Il peut sagir de descripteurs, mais il existe des mthodes alternatives de caractrisation
des molcules.
Nous avons vu les utilisations des descripteurs 2D et les mthodes qui les utilisent dans ce qui est
pass, maintenant nous allons donner deux exemples des utilisations des autres descripteurs,
un pour 1D et lautre pour 2D. Nous prsenterons dans un premier temps la mthode de
contribution de groupes (exemple pour les descripteurs 1D), qui, bien que datant des dbuts
de la modlisation QSAR, est toujours utilise pour des applications particulires. Puis la
mthode dAnalyse comparative de champs molculaires (exemple pour les descripteurs 3D),
qui a montr son fficacit dans la discipline de modlisation.
2.7.1
Les mthodes de contribution de groupes consistent valuer une proprit en dcomposant la molcule en un ensemble de groupes fonctionnels, et en sommant les contributions
relatives des fragments de molcules [23, 76]. Ces contributions sont dtermines partir
dune base dexemples de molcules, dont les valeurs de la proprit sont connues. Plusieurs
types de groupes fonctionnels peuvent tre dfinis. Ils sont gnralement organiss en un systme
hirarchique :
Les groupes dordre 0 sont des atomes, et le calcul dune proprit est effectu en sommant
les contributions de chacun des atomes de la molcule considre.
La dcomposition en groupes dordre 1 consiste dcouper la molcule en groupes
datomes (tels que CH2, CH3 ou OH). Leurs contributions une proprit donne
sont sommes sans que lenvironnement de chacun des groupes dans la molcule ne soit pris en
considration. Ainsi, le groupe CH2 a une contribution fixe, quil soit reli un carbone ou
un groupe oxygn. Ces groupes sont assez souvent employs, car ils permettent destimer
rapidement la valeur dune proprit, avec une prcision parfois suffisante (par exemple pour
lenthalpie de formation). Cependant, les rsultats obtenus, pour la temprature dbullition
31
par exemple, ne sont pas toujours satisfaisants. De plus, certains isomres peuvent conduire
la mme dcomposition : il est alors impossible de les distinguer par cette mthode.
Les groupes dordre 2 [16, 140] sont constitus des atomes centraux de la molcule (autres
que H), accompagns de leurs plus proches voisins, cest--dire de tous les atomes auxquels
ils sont relis. Contrairement aux groupes dordre 1, ceux dordre 2 tiennent compte de
lenvironnement des atomes.
Exemple 2.1. Le Tableau 2.1 prsente une comparaison des dcompositions des molcules de
butan 2 ol et 2 mthylpropan 1 ol, reprsentes sur la Figure 2.1. On observe que
OH
CH3
CH3
CH
H3 C
CH2
HO
CH
CH2
a) butan-2-ol
CH3
b) mthylpropan-1-ol
Groupe 1
Groupe 2
Groupe
C
H
O
CH
CH2
CH3
OH
C (C)(H)3
C (C)2 (H)2
C (C)(O)(H)2
C (C)3 (H)
C (C)2 (O)(H)
Nombre de
groupe a)
4
10
1
1
1
2
1
2
1
0
0
1
Nombre de
groupe b)
4
10
1
1
1
2
1
2
0
1
1
0
32
De nombreuses mthodes sappuient donc sur des groupes des trois ordres pour amliorer la
prcision des prdictions et diffrencier les isomres. Elles sont principalement utilises pour prdire des proprits thermodynamiques, par exemples des proprits critiques (temprature ou
pression critique) et de nombreuses grandeurs nergtiques. Elles prsentent galement lavantage de permettre lestimation de proprits de mlanges, par addition des contributions des
composants du mlange.
2.7.2
33
Le criblage virtuel
Le fait davoir accs des bases de donnes de composs de plus en plus fournies a entrain
une ncessit dutiliser des outils informatiques afin didentifier les candidats potentiels, ce qui
34
permet de rduire les tests rels (sur des tres vivants) en nenvoyant en laboratoire que les
composs susceptibles de se lier la cible dintrt.
Devenu ainsi depuis une dizaine danne une partie intgrante du processus de recherche de
nouvelles molcules bio-actives le Criblage Virtuel dsigne laction de rechercher laide
de programmes informatiques, grce de larges bases de donnes, des molcules virtuels pouvant selon la prdiction se lier des cibles macromolculaires ayant un intrt pharmaceutique,
ou possder les proprits souhaites. Lintrt donc du Criblage Virtuel est de permettre
de dcouvrir des composs nouveaux, dans le sens o certains composs ayant des structures
inhabituelles par rapport aux ligands communment utiliss peuvent tre mis jour au cours
du criblage. Ces composs, suffisamment diffrents des composs requtes, peuvent potentiellement tre considrs comme une nouvelle classe dagents thrapeutiques.
Les Hits (cest--dire, les molcules candidates) choisis sont envoys pour tre tests au niveau
biologique et dcouvrir si de nouveaux composs actifs sont identifis parmi eux.
Le Criblage Virtuel est habituellement divis en deux sous-catgories : le Criblage virtuel
bas sur la structure de la cible et le Criblage Virtuel ligand-based (bas sur la
structure du ligand) [70].
3.1
3.2
Lorsque la structure de la cible nest pas connue, une autre mthode de Criblage Virtuel est
applique afin de dterminer des candidats. Cette mthode, base sur la structure et sur diverses
caractristiques des ligands connus de la cible, implique de cribler des bases de donnes de
composs en utilisant ces informations comme requtes [74, 79]. Il existe plusieurs manires de
mettre en place un Criblage Virtuel bas sur la structure du ligand. Nous pouvons ainsi
distinguer ces mthodes :
35
3.2.1
Les mthodes locales sont bases sur des caractristiques pr-dfinies comme tant dterminantes pour lactivit biologique. Auparavant, il est donc ncessaire de savoir quels sont les
sous-ensembles de la structure globale qui impactent sur lactivit, cette information qui peut
tre extraire partir dexemples dactifs et dinactifs dj connus. Pour lextraire on peut faire :
La recherche via des modles QSAR (Relation Structure-Activit) : Lanalyse
QSAR est capable dextraire linformation sur lactivit biologique dune molcule partir
dun ensemble de molcules de rfrence. (voir le prcedent paragraphe).
La recherche par sous-structure : La recherche par sous-structure renvoie tous les composs contenant la sous-structure requte. Cette mthode est base uniquement sur la comparaison des composs en prenant en compte leur structure. Cest un cas particulier de QSAR,
bas sur un modle postulant que lactivit est conditionne par la prsence dun fragment
spcifique vu dans toutes les structures dactifs connus, et absent dans les inactifs. Note : une
recherche sous-structurale est souvent utilise dans un contexte de planning synthtique :
pour faire des amides, il faut chercher acides -COOH et amine N substitu par carbones saturs dans la base ici, le modle structure-activit nest pas conu spcifiquement
pour ce problme, mais il est appris en cours de chimie organique.
La recherche via des pharmacophores 3D : On utilise lors dune recherche via des
pharmacophores 3D un ensemble de conformations 3D obtenues partir de molcules actives
et inactive de rfrence. Il est possible de dterminer partir de cet ensemble quelles sont les
parties des molcules qui interagissent avec la cible ce qui, encore une fois, relve du domaine
du QSAR. Larrangement dans lespace de ces points dinteraction est utilis comme requte
dans la base de donnes et les molcules trouves dans la base de donnes qui prsentent des
arrangements similaires au pharmacophore sont slectionnes comme candidates.
3.2.2
Les mthodes globales prennent en compte la structure molculaire complte (car on ne sait pas
o l-dedans se cachent les vrais points-cls dffinissant lactivit). Elles se basent sur le principe
de la similitude : des molcules similaires ont une plus forte chance de prsenter des
activits similaires(par rapport nimporte quelle paire de composs choisie alatoirement).
Les Hits, dans ce contexte-l, seront alors les molcules les plus similaires la structure dun
actif connu, le compos-requte. Il reste dfinir sur quelle base cette similitude sera value :
Recherche base sur les graphes : Dans cette mthode, les molcules sont reprsentes
comme des graphes, cest--dire des ensembles de sommets (les atomes) relis entre eux
36
par des artes (les liaisons). La recherche peut ainsi se faire par sous-graphes, en utilisant
des parties de la molcule comme requte ou par graphe complet. On va donc rechercher la
meilleure correspondance entre les atomes et les liaisons de la requte par rapport aux atomes
et aux liaisons des composs de la base de donnes (cest--dire le sous-graphe connexe
commun maximal, contenant le plus de noeuds). Cette mthode peut prendre ou non en
compte les proprit physico-chimiques des atomes et des liaisons.
Recherche base sur la superposition : Cette technique essaye de superposer une molcule sur une autre. Pour les graphes molculaires, cette superposition, improprement qualifie
de 2D se fait en cherchant la correspondance entre les atomes de la molcule A et les atomes
de la molcule B. En 3 dimensions, elle implique de trouver la meilleure superposition entre
les deux objets tridimensionnels, en se basant soit sur les distances entre atomes, soit sur
une distance par exemple entre les champs entourant les atomes. Il existe de nombreuses
mthodes de superposition [11, 129, 182].
Recherche base sur des descripteurs : Cette mthode considre les molcules comme
un ensemble de descripteurs (habituellement chiffrs), reprsentant des proprits structurales ou physico-chimiques. Ainsi, une molcule est considre comme tant un point dans un
espace multidimensionnel de descripteurs : indices topologiques, proprits physico-chimiques
calcules, histogrammes de distribution des diffrentes proprits locales(comptage de fragments, de multiplets datomes, etc). On dtermine la similarit entre deux molcules grce
des fonctions scoring [70].
37
38
Deuxime partie
Les mthodes de calcul de lindice de
Wiener et ses extensions
39
Chapitre 3
Lindice de Wiener
Puisque la majorit des substances chimiques sont composes de molcules, et ces dernires possdent une structure, ce qui est connu depuis la moiti du dix-neuvime sicle, lun des principaux objectifs de la chimie organique, est dtablir une relation entre des proprits physicochimiques des substances et leur structure molculaire. En gnrale, ces proprits (chimiques
en particulier) connues comme nous avons vu au prcdent chapitre et depuis la fin du 19me
sicle par les groupes fonctionnels, sont venues de la nature. Lvident exemple est, lorsque
le compos possde la molcule COOH a explique automatiquement lexistence de lacide
dans la substance comportant cette molcule. Lancienne tendance de la chimie organique est
daller plus loin, des mthodes de contribution des groupes, et dessayer de quantifier,
puis de classifier les molcules composant des composs plus complexes. Mais sai t toujours
confront par une problmatique persiste dans les esprits de plusieurs scientifiques (informaticiens, chimistes, biologistes et mme mathmaticiens) depuis la fin des annes quatre-vingts.
Elle se base sur le fait quune structure molculaire est une notion non numrique, par contre
les proprits physico-chimiques contenues dans les molcules sont des valeurs numriques.
Plusieurs solutions ont t proposes. Mais, la seule sur laquelle, les modlateurs ont t daccord, est de quantifier tout dabord linformation contenue dans la structure molculaire, ces-dire, on doit les transformer en des valeurs numriques qui les refltent. Ce qui va les rendre plus
ou mois quivalentes, et rendre aussi leur corrlation possible. Mais, jusquau dbut des annes
quatre-vingts, personne ne savait comment faire cette transformation, malgr les nombreuses
tentatives quelles ont eues lieu dans ce sens. Mais il nous fallait attendre quelques chercheurs
qui vont utiliser le soi-disant lindice topologique. Un indice topologique est un nombre
rel qui est en quelque sorte calcul partir de la molcule aprs lavoir reprsente en un graphe
planaire, et pour lequel on croit quil reflte ses caractristiques structurelles pertinentes.
Le prsent chapitre tudiera lun des plus importants et anciens indices topologiques, lindice
de Wiener. En donnant tout dabord sa dfinition de base, ses applications sur des graphes
41
particuliers afin de savoir la complexit de cette dfinition, comme nous allons donner travers
ce chapitre quelques utilits des indices topologiques en prenant comme exemple lindice de
Wiener. Puis nous consacrons la deuxime section nos premires contributions, qui portent
sur la modification de la formule de dfinition de lindice de Wiener et ses applications sur des
graphes particuliers. Le troisime section dans ce chapitre va nous parler sur le type particulier
des graphes le plus utilis en thorie des graphe molculaire, les arbres, en donnant quelques
mthodes pour calculer leur indice de Wiener, afin de valoriser et voir limportance de notre
contribution. Ce chapitre terminera par une section traitant une notion trs importante en
graphe molculaire en particulier et la thorie des graphes en gnrale, cest la conjoncture
de Wiener.
1
1.1
En 1947, Harold Wiener a publi son article [98] intitul par Structural Determination of
Paraffin Boiling Points, dans lequel il a dfini une nouvelle grandeur, qui va changer radicalement, les visions des chercheurs dans diffrentes disciplines, en particulier, la pharmacologie,
la chimie, la physique, la tlcommunication... Cette notion tait lindice de Wiener. Les files
de cette histoire ont dbut entre les annes 1947 et 1948, lorsque H. Wiener publiait une srie des articles [96100] o il a prouv lexistence dune excellente corrlation entre lindice de
Wiener et diffrentes proprits physico-chimies des composs organiques, ce qui va donner les
premires vues dune nouvelle discipline. Mais, il nous fallait attendre quinze ans aprs que L.
Steil et G. Thodos [145] entreprenaient de nouveau donner de lnergie aux scientifiques pour
quils sapprofondissaient cette discipline. Parmi les scientifiques, qui vont rpondre lappel
de Steil et Thodos, on trouve H. Hosoya [81] qui va proposer en 1971 une autre dfinition plus
applicable et plus gnrale de lindice de Wiener, puis, les annes 1975 et 1976 vont connatre
lmergence de deux autres scientifiques, D. H. Rouvaray et B. C. Crafford, qui ont pens que
cet indice a t mal popularis, ce qui va les pousser le rinventer de nouveau, pour quil
serait largement connu chez les thoriciens et les mathmaticiens chimistes, cette initiative va
rapidement, dans la moiti des annes 1970, donner lindice de Wiener une trs large bonne
rputation, prouve par une large srie des articles publis sur lindice de Wiener [44, 49].
Les dbuts des annes 1990, vont connatre un trange phnomne : cest lapparition dun
grand nombre des indices topologiques, qui eux aussi se basent en leurs dfinitions sur la notion
de distance et de degrs, ce qui va les rendre comme des extensions de lindice de Wiener.
42
1.2
Dans le jargon de la thorie des graphes, la valeur numrique reprsentant la structure topologique dune molcule aprs sa reprsentation en graphe est dsigne par Descripteur
Topologique. Les descripteurs topologiques sont des invariants structurels, qui ne dpendent
ni de ltiquetage du graphe, ni de langle dont on voit le graphe. En dautre terme, ils sont les
valeurs calcules partir dun graphe projet diffremment, et qui ne se changent pas mme si on
change langle de projection. Lorsquun descripteur topologique corrle une proprit (physique
ou chimique) dune molcule, il devient un indice molculaire ou un indice topologique. Lindice topologique est, donc, un descripteur topologique qui doit tre capable de
reprsenter une proprit (activit) molculaire [163]. La reprsentation des proprits (structures) molculaires en des vecteurs numriques, rend lexistence de la molcule sur lordinateur
une chose possible. Cette existence rend par la suite la prvision dautres proprits ou activits
possible et dune faon rapide. Ce processus nest que lune des plus importantes tapes de la
dcouverte des nouveaux medicaments en utilisant les ordinateurs. Comme la t dfini au
T1
s
TN
Ti
TN 1
Figure 3.1 Exemple de graphe Star-Trees
dbut par H. Wiener [98], lindice de Wiener dun graphe G, not W (G), est gale la somme
de toutes les distances entre toutes les paires de sommets dans un graphe :
W (G) =
d(u, v)
(3.1)
{u,v}V (G)
1 X X
(d(u, v))
2 uV (G) vV (G)
(3.2)
1 X
w(u, G)
2 uV (G)
(3.3)
43
O w(u, G) nom lindice de Wiener dun sommet u du graphe G est dfinie en [150, 151, 168]
par :
w(u, G) =
(3.4)
d(u, v)
vV (G)
Cest une notion introduite depuis la fin des annes 1980 en plusieurs articles, par exemple
[150, 151, 168]. Et qui sera beaucoup utilise dans cette thse. Cest une valeur sommant les
diffrentes distances entre le sommet u et les autres sommets du graphe.
Le prochain paragraphe connatra lapplication directe de ces prcdentes dfinitions sur quelques
graphes, afin de toucher la difficult de leurs manipulations directes dune part et pour les se
familier dautre part. Les suivants travaux sont publis dans [149], ainsi quen dautres papiers
scientifiques.
1.3
Nous allons utiliser dans ce paragraphe les dfinitions 3.1 et 3.4 pour calculer lindice de Wiener
de quelques graphes simples connus dans la litrature comme le graphe Star-Trees construit de
N arbres connexes par un seul sommet, puis dautres graphes apparus plus compliqus comme
le graphe de Path-trees afin de montrer la difficult de leurs applications dans les situations
gnrales. Nous voulons juste signaler que tous les rsultats qui serons vus dans ce paragraphe
s1
T1
si+1
si
T2
Ti
sM 1
TM 1
TM
Le graphe Star-trees
On dfinie un graphe Star-trees not TN tout graphe construit de N arbres nots Ti chaque
arbre Ti est dordre ni , pour i = 1, 2, ..., N . Les arbres Ti sont connexes tous par un sommet s
(voir la Figure 3.1).
44
Thorme 3.1. [149][77] Soit TN un graphe Star-trees, donc lindice de Wiener de ce graphe
est :
W (TN ) =
N
X
W (Ti ) +
i=1
N
1
X
N
X
(3.5)
i=1 j=i+1
La dmonstration de ce thorme est facile mais un peu longue, voir [149] et [77]. Maintenant
si on prend le cas o tous les arbres Ti possdent le mme ordre n (cest--dire ni = n pour
i = 1, ..., n), on notera cet arbre par T . Le thorme 3.1 devient :
Proposition 3.1. [149] Soit TN le graphe de Star-trees construit de N mmes arbres T dordre
n, donc :
W (TN ) = N W (T ) + N (N 1)(n 1)w(s, T )
(3.6)
Pour plus de dtaille et rsultats sur ce type de graphes voir [1] et [77].
1.3.2
Le graphe Path-trees
On appelle un graphe Path-trees not TM tout graphe form de M arbres Ti , chacun de ces
arbres dordre ni concatns les uns aux autres par un sommet si , pour i = 1, 2, ..., M 1,
larbre Ti est relie larbre Ti+1 par le sommet si (voir la Figure 3.2).
Thorme 3.2. [149][77] Soit un graphe Path-trees not TM . Donc, lindice de Wiener de ce
graphe est :
W (TM ) =
M
X
i=1
W (Ti )+
M
1
X
M
2
X
M
X
[(nj 1)w(si , Ti )+
i=1 j=i+1
i=1
(3.7)
La mme chose que le prcdent rsultat, la dmonstration de la formule 3.7 demande beaucoup
de faciles calculs, voir [149] et [77] pour plus de dtail. Le cas particulier du theorme 3.2 est
lorsquon considre les arbres Ti tous de mme ordre n (cest--dire ni = n pour i = 1, 2, ..., M ).
Proposition 3.2. [149][77] Soit TM le graphe Path-trees construit de M mmes arbres T
dordre n. Donc, lindice de Wiener de ce graphe est :
W (TM ) = M W (T ) + M (n 1)(M 1)w(s1 , T ) +
Pour plus de dtaille et rsultats sur ce type de graphes voir [1] et [77].
45
1.4
Malgr la perte probable de linformation cache dans les composs chimiques en raison de
lidentification des molcules par des valeurs numriques, les descripteurs topologiques ont eu
diverses applications dans diffrents domaines. Dans la drnire dcennie, ils sont beaucoup
utiliss dans le processus de la dcouverte des nouveaux mdicaments, ou ce que les pharmacologists le dsignent par Drug discovry (voir le chapitre II et [26][48] pour plus dinformations). Ils sont aussi appliqus dans les tests de similarit, lisomorphisme (voir le chapitre II,
et [155][161] pour plus de dtails) et dans dautres nouvelles disciplines comme par exemples le
Graph Mining apparu plus rcemment [43][71].
Les premiers utilits de cet indice est apparat ds le dbut dans le papier [98], lorsque H.
Wiener va le dclarer dans sa formule (la formule de Wiener pour les points dbullition tB ) au
but de calculer les points dbullition des Alcanes. La formule est dfinie comme suit :
tB = .W + .p +
(3.9)
46
A travers la section que nous venons de la voir, nous avons constat que lutilisation de dfinition
de lindice de Wiener est beaucoup plus complexe. Cette complixit sagrandie autant que
lordre du graphe augmente. Or, la plupart des graphes chimiques sont plus complexe (plusieurs
molcules se relient lune lautre), ce qui demande dlargir la problmatique du calcul de
lindice de Wiener et dessayer, par consquence, de donner des formules valables non seulement
pour les graphes simples mais aussi pour nimporte quel graphe connexe, fini et planaire.
2.1
Lorsquon examine les projets quon a t raliss concernant le calcul de lindice de Wiener
ou ses extensions dans la rcente ou ancienne litrature, on constate quils traitent des graphes
particuliers, par exemple, le graphe dOne-Heptagonal Carbon Nanocone [147], les
graphes de Thorn [19], les graphes reprsentant le Benzenoid [195][61], la chane
des Hexagonals [187], ou divrs graphes.
Lide de modifier la formule de dfinition de lindice de Wiener simpose. On sintrse dans
cette section, comme il tait dj fait mais juste pour les graphes de diamtre 2 (voir [148][168][122]),
lcriture de la formule de lindice de Wiener W (G) en fonction du diamtre du graphe G
et des dG (k) (le nombre de pairs de sommets ayant la mme distance k). Commenant par les
rsultats concernant les graphes de diamtre 2.
Thorme 3.3. [148][168][122] Soit G un graphe dordre n, de taille m et son diamtre est
D(G) = 2. Donc, lindice de Wiener de G peut tre crit comme suit :
W (G) = n(n 1) m.
(3.10)
47
1 X X
(d(u, v))
2 uV (G) vV (G)
1 X X
1 X X
d(u,v)=1 1 +
d(u,v)=2 2
2 uV (G) vV (G)
2 uV (G) vV (G)
= |E| +
(n deg(u) 1)
uV (G)
= n(n 1) m.
Dfinition 3.1. On appelle le graphe Maximale planaire not En tout graphe dordre n dans
lequel chacun de ses sommets possde le mme ordre. Autrement dit, le graphe Maximale
planaire est le graphe dont ses sommets sont tous adjacents entre eux et donc de degr n
(deg(vi ) = n, pour i = 1, ..., n) voir la Figure 3.3.
v0
v1
v2
v3
v4
v5
vn1
vn
Le rsultat le plus important de ce que nous venons de voir, est celui disant que la valeur de
lindice de Wiener W (G) de tout graphe fini, connexe, planaire et simple est comprise entre celle
du graphe Maximale planaire W (En ) et de graphe Path (une suite des artes concatnes
les unes aux autres par un sommet vi voir la Figure 3.13) W (Pn ) [148][168][150], et qui a t
dmontre depuis 1996 dans [104].
Thorme 3.4. [148][168][150][104] Soient G un graphe fini, simple, connexe et planaire
48
(3.11)
Nous avons modifi nous aussi la formule de dfinition de lindice de Wiener, on la rcrit en
fonction de diamtre D(G) et dG (k) (le nombre de pairs de sommets ayant la mme distance
k) du graphe G dont on cherche son indice de Wiener. Cette nouvelle criture, qui est la
gnralisation de la formule 3.10 vue prcdement, facilite le calcul de lindice de Wiener pour
la majorit des graphes en particulier ceux que nous pouvons trouver facilement leur dG (k) et
qui sont finis, simples, planaires et connexes.
Thorme 3.5. [150][151][3][5][4][7] Soit G un graphe connexe, fini, non orint, planaire et
simple, dordre n , et de taille m. Donc,
W (G) = n(n 1) m + dG (3) + 2dG (4) + ... + (D 2)dG (D)
= n(n 1) m +
D
X
(k 2)dG (k).
k=3
49
polarisation) qui nest que dG (3). Donc si on veut la rcrire en remplaant lindice de Wiener
par notre formule, on trouve si 6= 0 :
tB = W + P +
= [n(n 1) m + dG (3) + 2dG (4) + ... + (D 2)dG (D)] + dG (3) +
Dans le paragraphe suivant, nous allons utiliser la formule 3.5 pour calculer lindice de Wiener
de quelques graphes connus dans la litrature. Cette application va nous confirmer lutilit de
cette rcriture pour quelques catgories de graphes.
2.2
Dans ce paragraphe, nous allons citer les applications de la formule 3.5 sur des classes prdfinies de graphes qui sont classs selon leurs diamtres. Nous commencerons cette application
par les graphes de diamtre 2, que nous allons les dcrire au dbut du prochain paragraphe.
2.2.1
Dfinition 3.2. On appelle un graphe Fan dordre n not Fn , tout graphe de taille m = 2n 3
et dans lequel on a un sommet de v0 de degr deg(v0 ) = n1 adjacent tous les autres sommets.
Les autres sommets du graphe forment un graphe path dordre n 1 dont ses sommets sont
tous de degr deg(vi ) = 3, pour i 6= 0, 1, n sauf les sommets v1 et vn que leur degrs gaux 2
deg(vj ) = 2 pour j = 1, n (voir la Figure 3.4).
v0
v1
v2
v3
v4
v5
vn1
vn
Dfinition 3.3. On appelle un graphe Wheel dordre n not Wn , tout graphe de taille m =
2n 2 et dans lequel on a un sommet de v0 de degr deg(v0 ) = n 1 adjacent tous les
autres sommets. Les autres sommets du graphe forment un graphe Cycle dordre n 1 dont
ses sommets sont tous de degr deg(vi ) = 3, pour i 6= 0 (voir la Figure 3.5).
50
vn
v1
vn1
v2
v8
v0
v3
v7
v4
v6
v5
vn2
v5
v1
v4
v3
v7
v9
vn1
Dfinition 3.5. On appelle un graphe Crystal dordre n not Cn tout graphe Maximale planaire
En dordre n en levant larte reliant les deux sommets v0 et vn . Le graphe Crystal est un graphe
de taille m = 3n 7 (voir la Figure 3.7).
Aprs ces braves dfinitions de graphes de diamtre 2, nous appliquons la formule 3.5 sur ces
graphes.
51
v0
v1
v2
v3
v4
v5
vn1
vn
Gn
Fn
Wn
En
Bn
Cn
n
n3
n5
n3
n4
n5
Dmonstration. En appliquant juste soit le thorme 3.5 soit le thorme 3.3 car ces graphes
sont de diamtre 2.
2.2.2
Nous discuterons dans la classe des graphes de diamtre 3, un exemple de graphe que nous
les appelons le graphe Double-Crystal. Le graphe Double-Crystal dordre toujours pair n not
DCn de taille m = 3(n 4) est un graphe construit de deux graphes Crystal C n2 dordre
n
2
concatns par deux artes, une reliant les deux sommets en haut des deux graphes Crystal
et lautre reliant les deux sommets en bas de ces deux graphes, ces quatres sommets relis v0 ,
v n2 , v n2 et vn1 sont tous de degr
2
n2
.
2
Crystal v1 , v n2 2 , v n2 +1 et vn2 sont tous de degr 3 et les autres sommets restant du graphe
sont tous de degr 4 (voir la Figure 3.8). Maintenant nous analysons ce graphe pour extraire
52
vn
v0
v n 2
v1
v n +1
vn1
v n 1
vn
quelques moyens qui seront utile pour lutilisation de la formule 3.5 avec ce graphe. Le lemme
suivant montre ces moyens.
Lemme 3.1. [5][4] Soit DCn un graphe Double-Crystal dordre n comme nous lavons dfini
prcdemment. Donc,
Pour i = 0, 1, 2,... n 1, on a :
w(vi , DCn ) =
si i = 0,
5n14
, si i = 1,
2
5n16
, sinon
2
2 n,
n
2
n
2
1, n2 , n 1
2, n2 + 1, n 2
(3.12)
Pour k = 1, 2, 3 = D(DCn ), on a :
dDCn (k) =
3(n 4), si k = 1
n2 6n+24
, si k = 2
4
n2 8n+24
, si k = 3
4
(3.13)
(3.14)
53
2.2.3
Dans la catgorie des graphes de diamtre 4 nous traiterons deux exemples de graphes, le graphe
Double-Wheel DWn et le graphe Sunflower FLn . On commence par le graphe Sunflower dfinie
comme suit :
Dfinition 3.6. Le graphe Sunflower dordre toujours impair n et de taille m = 2(n 1) not
FLn est le graphe dont le degr de son sommet de centre v0 est deg(v0 ) = n1
, le degr des
2
sommets des indices impairs v1 , v3 , ...,vn1 est deg(v2i+1 ) = 5, et le degr des sommets v2 , v4 ,
... vn est deg(v2i ) = 2 (voir 3.9).
v2
vn
v4
v1
vn2
v3
vn1
v5
v6
v0
v17
v16
v7
v8
v15
v9
v13
v11
v14
v10
v12
w(vi , FLn ) =
7
35
2n 2 ,
et :
54
3
n
2
5
n
2
3
,
2
23
,
2
si i est pair, et i 6= 0
si i = 0
si i est impair et i 6= 0
(3.15)
d1 (FLn )
d2 (FLn )
d3 (FLn )
d4 (FLn )
2n 2
1 2
n + n 98
8
1 2
n 2n + 47
4
1 2
n 23 n + 11
8
8
(3.16)
v n +15
2
v n 1
vn
v1
v n +1
2
vn
2
v0
v3
v4
Lemme 3.3. [4] Soit DWn le graphe Double-Wheel dordre n 10 et de taille m, dfini avant.
Donc,
55
Pour i = 0, 1,... n 1, on a :
w(vi , DWn ) =
si i = 0, n2 + 1
si i = 1, 2
si i = 3, n2 , n2 + 2, n 1
sinon
2n 6,
2n 7,
5n16
,
2
3n 10,
(3.17)
dDWn (k) =
2n 1,
n2 6n+28 ,
4
3n 22,
( n8
)2 ,
2
si
si
si
si
k
k
k
k
=1
=2
=3
=4
(3.18)
(3.19)
Les graphes de diamtre suprieur 4 sont nombreux, et nous nous limitons quelques exemples
comme, le graphe Path not Pn , Cycle not On , et Grid not Gn qui sont plus connus et plus
faciles aux traitements. Mais avant de calculer leurs indices de Wiener nous allons les dcrire.
Dfinition 3.8. On appelle un graphe Cycle dordre n et de taille m = n not On tout
graphe Path dont ses extrmits concident. Les sommets dun graphe Cycle sont tous de degr
deg(vi = 2), pour i = 1, 2, ..., n (voir la Figure 3.11).
Le calcul de lindice de Wiener du graphe Cycle demande quelques donnes quon les trouve
dans le lemme suivant :
Lemme 3.4. [3][150][151][7][6] Soit On un graphe Cycle dordre n 2 et de taille m = n,
56
vn
v1
vn1
v2
v8
v3
v7
v4
v6
v5
1 n2 ,
w(vi , On ) =
1 n2
4
et :
dOn (i) =
1
,
4
si n pair
si n impair
n, si n est impair, et 1 i
(3.20)
(3.21)
n1
2
1 n3 ,
8
1 3
n
8
1
n,
8
si n est pair
si n est impair
(3.22)
57
v1
v3
v5
v7
vn1
v2
v4
v6
v8
vn
n
2
(3.23)
(3.24)
= D(Gn ), on a :
dGn (k) =
3 n 2,
si k = 1
2n 4k + 2, si k = 2, ..., D(Gn )
2
(3.25)
n3 n2 n
+
pour (n 4)
12
4
3
(3.26)
v2
v3
v4
v5
v6
vn
Lemme 3.6. [3][7] Soit Pn un graphe Path dordre n 2 et de taille m = n 1 (voir la Figure
3.13). Donc,
Pour i = 1, 2,... n, on a :
w(vi , Pn ) =
58
n2 + n
i(n + 1) + i2
2
(3.27)
Pour k = 1, 2,...
n
2
= D(Pn ), on a :
dPn (k) = n k
(3.28)
(3.29)
2.3
Lune des catgories des graphes sur lesquelles on a travaill est celle des graphes composs de
deux graphes. Dans la litrature on trouve plusieurs cas de la composition de deux graphes : le
produit, le produit des artes, le produit des sommets, ... pour en savoir plus voir KKKK. Le
cas le plus tudi dans la litrature est celui du produit des sommets ou ce quon peut dsigner
par le produit corona. Dans ce paragraphe nous traiterons ce type de composition traverse
deux exemples : Le produit Corona de deux graphes Cycle et Le produit Corona dun graphe
Cycle et Path.
2.3.1
Dfinition 3.10. Soient deux graphes Cycle des ordres respectivement n1 et n2 not Cn1 et
Cn2 . On appelle le produit corona des graphes Cn1 et Cn2 not Cn1 Cn2 le graphe obtenu
en prenant n1 copies du graphe Cn2 , puis on connecte chaque ime sommet du graphe Cn1 par
une arte chaque sommet du j me copie de Cn2 pour 1 i, j n1 . Les degrs des sommets
appartenant au graphe Cycle Cn1 devinent gale n2 et les autres sommets sont tous de degr
3 (voir la Figure 3.14) [32, 95].
Lemme 3.7. [7][6] Soit Cn1 Cn2 un graphe rsultant du produit Corona de deux graphes
Cycle dordre n = n1 + n1 n2 , de taille dCn1 Cn2 (1) = m = n1 + 2n1 n2 et de dCn1 Cn2 (2) =
2
n1 + 2n1 n2 + n1 (n2 3)n
, comme on a dfini avant. Donc :
2
59
Figure 3.14 Exemple du produit Corona de deux graphes Cycle Cn1 Cn2
si n1 est pair
3 k D(Cn1 Cn2 ) 3 ;
k = D(Cn1 Cn2 ) 2 ;
k = D(Cn1 Cn2 ) 1 ;
k = D(Cn1 Cn2 ).
(3.30)
n1 n22 ,
k = D(Cn1 Cn2 ).
(3.31)
+ n1 n22 + 2n1 n2 ,
+ 2n1 n2 + n1 n22 ,
2
n1 n22 + n1 n2 ,
n1 n2
,
2
n1
n1
si n1 est impair
D(Cn1 Cn2 ) =
n1
2
+ 2,
+ 2,
2
n1 1
60
si n1 est pair ;
si n1 est impair ;
(3.32)
Thorme 3.13. [7][6] Soit Cn1 Cn2 le graphe rsultant du produit Corona de deux graphes
Cycle dordre n = n1 + n1 n2 et de taille m. Donc, lindice de Wiener de ce graphe est :
W (Cn1 Cn2 ) =
3
2
n1 (n2 +1)
si n1 est pair ;
si n1 est impair.
(3.33)
Dmonstration. Puisque les deux cas (pair et impair) sont similaires, on va dmontre juste le
case o n1 est pair, en appliquant le thorme 3.5 et le lemme 3.7.
W (Cn1 Cn2 ) = n(n 1) m +
D(Cn1 Cn2 )
2)
k=3
n1 n22
n1
+ 2n1 n2 ) +
(D(Cn1 Cn2 ) 2)+
2
2
n1
n1 n1 n22
n1
2)( + 2n1 n2 + n1 n22 ) (n1 + 2n1 n2 ) + (
) + (n1 +
2
2
2
2
n1 n2 )(n1 + n1 n2 1) +
+(
2.3.2
n21 10n1 + 24
(n1 n22 + n1 + 2n1 n2 )
8
n1
1)(n1 n2 + n1 n22 )
2
1 3
n1 (n2 + 1)2 + n21 (n2 + n22 ) + n1 (2n2 ).
8
Dfinition 3.11. Soient un graphe cycle not Cn1 dordre n1 et un graphe Path not Pn2
dordre n2 . On dfinie le graphe rsulte du produit Corona de Cn1 et Pn2 not Cn1 Pn2 le
graphe obtenu en prenant n1 copies du graphe Pn2 et pour chaque i, on connecte le ime sommet
de Cn1 et chaque sommet du ime copie de Pn2 par une arte, pour 1 i n1 . Les degrs des
sommets du graphe Cycle est n2 et les autres sommets sont soit de degr 2 soit de degr 3 (Voir
la Figure 3.15).
Le calcul de lindice de Wiener du produit corona des graphes Cycle et Path, demande les
donnes suivantes :
61
Figure 3.15 Exemple du produit Corona des graphe Cycle et Path Cn1 Pn2
Lemme 3.8. [7][6] Soient Cn1 Pn2 le graphe rsultant du produit Corona des graphe Cycle et
Path dordre n = n1 + n1 n2 , de taille dCn1 Pn2 (1) = m = 2n1 n2 et de dCn1 Pn2 (2) = n1 + 2n1 n2 +
2
n1 (n2 3)n
, comme est dfini avant. Donc,
2
Si n1 est pair
3 k D(Cn1 Pn2 ) 3 ;
k = D(Cn1 Pn2 ) 2 ;
k = D(Cn1 Pn2 ) 1 ;
k = D(Cn1 Pn2 ).
(3.34)
2
n1 n2 ,
k = D(Cn1 Pn2 ).
(3.35)
+ n1 n22 + 2n1 n2 ,
+ 2n1 n2 + n1 n22 ,
2
n1 n22 + n1 n2 ,
n1 n2
,
2
n1
n1
Si n1 est impair
D(Cn1 Pn2 ) =
n1
+ 2,
+ 2,
2
n1 1
2
si n1 est pair ;
si n1 est impair ;
(3.36)
62
et Path dordre n = n1 + n2 n1 et de taille m, comme est dfini avant. Donc, lindice de Wiener
de ce graphe est :
W (Cn1 Pn2 ) =
3
2
n1 (n2 +1)
si n1 est pair ;
1), si n1 est impair.
(3.37)
2.4
Dans ce paragraphe nous aborderons un type spciale des graphes de diamtre suprieur 4.
Le graphe Cobweb qu traverse lui nous monterons quelques difficults qui peuvent rencontrer
le thorme 3.5 et qui se voit au recherche de dG (k) du graphe en question. Pour ce parat
graphe, on trouve quelques difficults la recherche de dG (k), ce qui exige lutilisation de la
dfinition dorigine.
Dfinition 3.12. On appelle un graphe spiders web (Cobweb) dordre n = Lp et de taille
m = Lp + (L 1)p not WBn tout graphe construit de L graphes Cycle dordre p, et chaque
graphe Cycle se situe au niveau l. Tous les sommets de tous les graphes Cycle composant le
graphe Cobweb sont relis par un graphe Path dordre L. Tous les sommets du graphe Cobweb
sont de degr 4 sauf ceux du premier niveau et du dernier niveau qui sont de degr 3 (voir la
Figure 3.16).
Le calcul de lindice de Wiener de WBn demande sa dfinition car la recherche de dWBn (k) est
difficile, mais le calcul de lindice de Wiener du sommet ui,l w(ui,l , WBn , u) o ui,l est le sommet
dindice i qui se trouve au niveau l dans WBn .
Lemme 3.9. [3][2][151] Soit WBn un graphe Cobweb dordre n et de taille m, comme nous
lavons dfini avant. Donc, lindice de Wiener du sommet dindice i, qui se trouve au niveau l,
cest--dire w(ui,l ) est :
Pour i = 1, ...., p, et l = 1, ...., L
w(ui,l , WBn ) =
(3.38)
63
vL,7
vL,p
vi,7
vi,p
v1,7
v1,p
v1,1
vi,1
vL,1
Corollaire 3.1. [3][2][151] Soit WBn un graphe Cobweb dordre n, de taille m et de L niveau,
comme nous lavons dfini avant. Donc, lindice de Wiener de ce graphe est :
W (WBn ) =
3 2
3p L +4p2 L3 4p2 L3pL2 ,
24
si p est impair
si p est pair
(3.39)
Dmonstration. Puisque les deux cas (pair et impair) sont similaires, nous allons se limiter
dmontrer le cas o p est impair, et lautre cas est de la mme faon. Donc, on utilise la
troisime formule de lquation 3.1, on a :
W (WBn ) =
1 X
w(u, WBn );
2 uV (WBn )
(3.40)
l=1 (pl(l
PL
1) +
L(2Lp4pl+(p+1)2 2)
)
4
24
1
=
(6L(2pL2 + Lp2 + 2Lp L) + 4pL + 4pL(3L + 2L2 ) 12L(pL2 + 2pL + p))
24
1
=
(3p3 L2 3pL2 + 4p2 L3 4p2 L).
12
64
Nous avons pu voir dans cette section limportance des mathmatiques dans toute la vie humaine. Et puisque linformatique est le terrain dapplication des mathmatiques, nous allons
essayer de donner ce bagage mathmatique un got informatique dans nos prochaines recherches.
Les calculs directes utilisant la dfinition de lindice de Wiener pourraient sapparatre trs
faciles, surtout, lorsque le nombre de sommets du graphe considr est petit. Mais a va tre
presque impossible, dans le cas des grands graphes molculaires, par ce que les calculs devient
difficiles et impraticables. Tous a exige des mathmaticiens et informaticiens chimistes de
doubler leurs efforts pour fournir des formules ou/et des mthodes qui vont facilites les tches
aux chimistes.
Comme il est mentionn au chapitre I, le chemin entre deux sommets dun arbre est unique, et
par consquence, le calcul de lindice de Wiener dun arbre serai relativement facile que dautre
graphe. Dans cette section nous allons donner un petit tat de lart des diffrentes formules, qui
ont t utilises pour le calculer. Pour rduire autant que possible ne nous allons pas inclure
les dmonstrations des formules verront dans cette section. En citant juste leurs rfrences, Et
pour ceux qui seraient en besoin peuvent les revoir aux rfrences de formule ou en [168].
3.1
La premire formule que nous allons la voir dans ce chapitre, est une formule basique qui
sapplique juste sur les arbres, et qui a t propose aussi par H. Wiener [98] en 1947. Cette
formule et contrairement celle propose lors de la premire dfinition de lindice de Wiener
3.1 comptant le nombre dartes ncessaire pour aller chercher tous les sommets partir de
chaque sommets du graphe, elle compte le nombre de fois ncessaire pour passer sur toute arte
du graphe. Lannonce de cette formule demande dabord les dfinitions suivantes.
Dfinition 3.13. Soit e = (u, v) E(T ) une arte de larbre T . les sous-arbres Tu et Tv sont
dfinis comme tant les composs conncts de larbre T contenant u et v, respectivement.
Leurs ordres sont nots par nu (e) = |V (Tu )| et nv (e) = |V (Tv )| [168][14][109].
65
nu (e)nv (e)
(3.41)
e=(u,v)E(T )
Dmonstration. Soit larte e T . Puisque T est un arbre et puisque les chemins reliant les
sommets de lensemble Tu et Tv sont uniques, alors tout chemin deux doit contenir larte
e. Par consquence le nu (e)nv (e) est exactement le nombre de fois o larte e existe dans le
chemin de toute pairs de sommets de T . Et donc, la somme de toutes les artes de T nest que
lindice de Wiener. Voir [168] [14][109], pour plus de dtaille.
Dfinition 3.14. Soit e = (u, v) E(G) une arte du graphe G. Les ensembles des sommets
Bu (e) et Bv (e) du graphe G sont dfinis comme suit :
Bu (e) = {x V (G) : dG (x, u) < dG (x, v)}
(3.42)
(3.43)
On dsigne par nu (e) = |Bu (e)| et nv (e) = |Bv (e)|, Leurs cardinaux respectivement [168].
Thorme 3.16. [168] Soit T un arbre dordre n. Donc,
X
1
W (T ) = [n2 (n 1)
[dT (v) dT (u)]2 ]
4
(u,v)E(T )
(3.44)
(3.45)
Les auteurs J. Doyle et J. Graver en [130] ont propos, dautres types de formules pour calculer
lindice de Wiener dun arbre. Mais leurs formules ncessitent les dfinitions avec lesquels nous
allons commencer ce paragraphe, pour les comprendre.
66
Dfinition 3.15. Soient G un graphe connexe, et trois sommets v1 , v2 , et v3 V(G). On dit que v1 ,
v2 , et v3 sont collinears, sils sont ordonns de tel sort que :
dG (vi , vj ) + dG (vj , vk ) = dG (vi , vk )
(3.46)
Dans le cas inverse, on dit qui ils sont non collinears, et on not leur 3 subsets par : (G)
[130].
v
u1
u2
T1
um
T2
Tm
(3.47)
vV (T ) 1i<j<kdegT (v)
n1 (S)nlS +1 (S)lS +
Sseg.deT
1 X
lS (lS 1)(3n 2lS + 1)
6 Sseg.deT
(3.48)
O n1 (S) et nlS +1 (S) sont les nombres de sommets des deux composs connexes obtenus par la
suppression de tous les sommets interns de S et leurs artes correspondes.
Dmonstration. Voir [168][13].
67
X
X
1
1
[(3n2 + 1)(n 1) 3
[dT (v1 ) dT (vlS +1 )]2
lS3 ]
12
l
Sseg.of T S
Sseg.of T
(3.49)
i
X
X
1h
(3n + 1)(n 1) + 3
qv w(v, T )
lS3
12
Sseg.deT
vSP (T )
(3.50)
68
X
X 1
1
1
[n(n 1) +
degT (v)dT (v) + 2
( (lS 1)[w(v1 , T ) + w(vlS +1 , T )] lS (lS2 ) 1)]
4
6
ST 2
vSP (T )
X
X
X
X
1
lS ]
[3n(n1)+3
degT (v)w(v, T )+3
(lS 1)[w(v1 , T )+w(vlS +1 )]
lS3 +
12
ST
ST
ST
vSP (T )
X
X
X
1
[3n(n1)+3
degT (v)w(v, T )+3
(qv degT (v))w(v, T )
lS3 +(n1)]
12
ST
vSP (T )
vSP (T )
3.1.2
X
X
1
[(3n + 1)(n 1) + 3
qv w(v, T )
lS3 ].
12
ST
vSP (T )
Parmi Les mthodes, de calcul de lindice de Wiener dun arbre, qui ont connues une large
diffusion, surtout chez les mathmaticiens dalgbre, cest celle qui utilise les valeurs propres
de la matrice Laplacienne du graphe associ. Cette mthode, elle a t propose en plusieurs
sources depuis 1990, et cest une mthode, qui diffre carment des autres mthodes, et qui va
ouvrir les portes devant lindice de Wiener, pour qui il tire les intentions des chercheurs des
autres disciplines, comme lalgbre par exemple. Par ce que, elle va rendre lindice de Wiener
comme un point commun entre la chimie et lalgbre, et mme, elle va donner des astuces trs
importants, qui vont aider les algbristes dans leurs calculs dlicats.
Thorme 3.21. [168] Soient T un arbre dordre n et 1 ... n1 > n = 0 sont les
valeurs propres de la matrice Laplacienne corresponde. Donc,
W (T ) = n
n1
X
i=1
1
i
(3.51)
3.2
Dans tous ce que nous venons de voir, on na pu calculer lindice de Wiener pour les arbres
que laide des formules explicites. En dautre terme, pour calculer lindice de Wiener dun
arbre dans les formules prcdentes, on a considr tout larbre, sans prendre on considration
ses sous composs connexes. Mais en ralit, il y a des arbres, qui sont des combinaisons de
plusieurs autres simples arbres. Par exemple, on trouve des arbres qui sont la concatnation
de plusieurs arbres toiles, Paths ou dautres. Donc, calculer lindice de Wiener de larbre T ,
revient automatiquement calculer celui de ses composs, et avec une simple opration de la
somme ou la multiplication ou dautres opration mathmatique, on dduira lindice de Wiener
de larbre tout entir. On appelle ces mthodes de calcul, Les mthodes rcursives. Durant ce
petit paragraphe, nous allons essayer dtudier, quelques combinaisons de quelques arbres, en
donnant leurs formules pour calculer leurs indices de Wiener. On peut dire que la premire
astuce de la rcursivit, est de supprimer feuille par feuille et chaque fois on calcule lindice
de Wiener de chaque arbre rsultant.
69
(3.53)
Ce thorme est un cas particulier du thorme 3.22, par ce que le graphe de ce drnier est
un arbre avec plusieurs feuilles, par contre le graphe du thorme 3.23 possde juste une seule
feuille.
Dmonstration. La dmonstration de ce thorme on peut la trouver en [168]. En [68], il est
dmontr que ce thorme reste valable, en supprimant nimporte quel sommet du graphe.
Thorme 3.24. [168] Soit larbre T dordre n 2, dfini comme dans la Figure 3.17. Donc,
W (T ) =
m
X
i=1
Tu
Tv
70
(3.54)
Thorme 3.25. [168][15] Soient Tu et Tv deux arbres avec nu = |V (Tu )|, nv = |V (Tv )|,
u V (Tu ) et v V (Tv ) deux sommets. On construit larbre T utilisant les arbres Tu et Tv par
la connection de u et v par un chemin de k nouveaux sommets (voir la Figure 3.18). Donc,
1
W (T ) = W (Tu ) + W (Tv ) + (nu + k)dTv (v) + (nv + k)dTu (u) + (k + 1)nu nv + (k 2 + k)(nu + nv )
2
1
+ (k 3 k)
6
(3.55)
(3.56)
T2
u2 = v2
u1 = v1
uk2 = vk2
u3 = v3
uk1 = vk1
T 01
uk = vk
T1
Figure 3.19 Exemple didentification des arbres
Thorme 3.26. [168][15] Soient T1 et T2 deux arbres avec n1 = |V (T1 )| et n2 = |V (T2 )|. Et
soient p1 = (u1 , u2 , ..., uk ) un chemin en T1 et p2 = (v1 , v2 , ..., vk ) un chemin en T2 , en levant
les points de branchement. Donc, lindice de Wiener de larbre T , obtenu par lidentification de
ui et vi , i = 1, ..., k (voir la Figure 3.19), peut tre calculer, comme suit :
W (T ) = W (T1 ) + W (T2 ) + (n1 k)dT2 (v1 ) + (n2 k)dT1 (u1 ) + 2(k 1)[nuk (p1 ) + nvk (p2 )
1
1
nuk (p1 )nvk (p2 )] k(k 1)(n1 + n2 ) + (k 1)(5k 2 k 12)
2
6
(3.57)
71
Avec nui (pi ) est le nombre de sommets dans le compos connexe de Ti contenant uk (vk ) aprs
la suppression de toutes les artes de pi .
Dmonstration. Voir [168] et [15].
Corollaire 3.4. [168] Soient T1 et T2 deux arbres dordre n1 et n2 respectivement et les sommets
u V (V (T1 )) et v V (V (T2 )). Et soit T un arbre construit de T1 et T2 par lidentification de
e = (u, v). Donc,
W (T ) = W (T1 ) + W (T2 ) + (n1 1)dT2 (v2 ) + (n2 1)dT1 (v1 )
(3.58)
v1
u2
v2
u3
v3
v4
u4
plusieurs copies de mme graphe T dans une chane, de telle faon que le sommet u dune copie
de T est li au sommet v de la copie T suivante par une arte (voir la Figure 3.20).
Thorme 3.27. [168][171][149] Soit F un fasciagraph form par m copies dun arbre T
dordre n , m, n 1, et u, v V (T ) sont les sommets par lesquels les copies de T sont
conncts. Donc,
1
1
W (F ) = mW (T ) + nm(m 1)[dT (u) + dT (v)] + n2 m(m 1)[(m 2)dT (u, v) + m + 1] (3.59)
2
6
Dmonstration. Voir [168][171] et [149].
3.2.1
Larbre de Thorn
Nous avons vu dans ce qui est pass la notion de la rcursivt au sens daugmentation de
la valeur de lindice de Wiener. Car lorsquon supprime, sommet par sommet dans un arbre
72
lindice de Wiener saugmente, ce qui est dmontr dans les articles [148]. Exactement, mais
dans le sens inverse, lorsquon ajoute, sommet par sommet un arbre, la valeur de lindice de
Wiener se rduite. Donc pour passer de lindice de Wiener dun arbre T1 celui dun autre
arbre T2 plus petit, il suffit dajouter quelques nouvelles feuilles au arbre T2 [148].
Dfinition 3.17. [148] Soit T un arbre dordre n. Donc, T * est appel arbre de Thorn de T ,
si T * se construit de T par lajoute de ni nouveaux sommets, au sommet vi de larbre T , avec
i = 1, 2, ..., n. (voir la Figure 3.21)
Remarque 3.2. [148] Il est important de noter que :
Il est claire que le nombre de sommets de T * est n* = n + ni=1 ni et degT * (vi ) = degT (vi ) + ni
Il faut noter aussi que, les deux arbre T et T *, ne sont pas unique [168].
P
La formule suivante que nous allons la voir calculant lindice de Wiener dun arbre de Thorn
T *, en utilisant lindice de Wiener de son arbre correspond T , tait propose par I. Gutman en
1998 [106].
Thorme 3.28. [168][106][117][108] Soit T un arbre dordre n et T * son arbre de Thorn.
Donc,
W (T ) = W (T ) +
*
1i<jn
1i<jn
ni nj dT (vi , vj ) + (
1i<jn
n
X
( ni )2 +
i=1
n
X
i=1
(n 1)
n
X
ni ) + (n 1)
2
n
X
ni
i=1
ni
i=1
73
Dmonstration. Voir [168][106]. Nous avons aussi arriv avec I. Gutman en [117][108], une
autre faon de le dmontr, mme si larbre considr en [117][108], est un cas particulier du
Thorn. Nous allons y revenir par la suite.
Corollaire 3.5. [168][117][108][106] Soient T un arbre des sommets v1 , v2 , ..., vn , et T * sont
arbre de Thorn avec ni = k, i = 1, 2, ..., n. Donc,
W (T *) = (k + 1)2 W (T ) + nk(nk + n 1)
(3.60)
2kdT (vi , vj ) + k 2
1i<jn
2
dT (vi , vj ) + (
1i<jn
n
X
k)2 + (n 1)
i=1
n
X
i=1
= (1 + 2k + k )W (T ) + k 2 n2 + kn(n 1)
= (k + 1)2 W (T ) + nk(nk + n 1).
(3.61)
(3.62)
74
(a 1)b
[(a 1)(b 1)(b + 7) + 6(a + 1)] + 1
6
(3.63)
3.2.2
En augmentant la longueur des segments dans un arbre, on obtient un autre concept darbre
(voir [15]).
Dfinition 3.19. Soit T un arbre, larbre T 0 est appel k sous divisions de T , si T 0 se construit
de T , en remplaant chaque arte de T par un Path de longueur k + 1. lordre de T 0 donc
est n0 = k(n 1) + n et le degr de chaque nouveau sommet est exactement gale 2, et
degT 0 (v) = degT (v) pour tout v V (T ) [168][15].
Thorme 3.29. [168][15] Soient T un arbre dordre n et T 0 sont k sous divisions. Donc,
0
(3.64)
o n0 est lordre de T 0
Dmonstration. On applique la formule du thorme 3.17 sur T 0 on a :
0
W (T 0) = C3n +1
|V (T 0i )|.|V (T 0j )|.|V (T 0l )|
vV (T 0) 1i<j<ldegT 0 (v)
0
= C3n +1
vV (T ) 1i<j<ldegT (v)
0
C3n +1
75
Thorme 3.30. [168][15] Soit T un arbre de n sommets et e = (u, v) E(T ). et soit aussi
T1 un arbre, obtenu par un 1 sous division de T . Donc,
1
W (T1 ) = W (T ) + [dT (u) + dT (v) + nu (e) + 2nu (e)nv (e) + nv (e)]
2
(3.65)
Comme nous lavons dj dit aux prcedents chapitres les proprits physico-chimiques des
substances sont lies aux descripteurs topologiques en particulier lindice de Wiener. Donc, il
sera important de faire lopration inverse, cest--dire, de trouver les classes de graphes dont
leurs indices de Wiener gaux des nombres entiers. Proprement dit, soit w N , quel(s)
est (sont) le (s) graphe (s) G, que son(leurs) indice(s) de Wiener vrifie(nt) cette
galit : W (G) = w ? Cette problmatique est connue sous le problme de linverse de Wiener
ou La conjoncture de Wiener.
Les diffrentes rponses proposes depuis 1990 sont lies des classes particulires de graphes.
Parmi ces rponses, on trouve celle de I. Gutman, porpose en 1994 [122], qui concrene les
graphes conncts, et dans laquelle il a prouv que tout nombre entier, outre que 2 et 5,
peut correspond un graphe connexe. Une anne aprs, I. Gutman revient avec un autre
rsultat [121], mais cette fois ci, pour les graphes biparti. Sa drnire rponse exclue les nombres
2, 3, 5, 6, 7, 11, 12, 13, 15, 17, 19, 33, 37 et 39 des nombres entiers dont peuvent tre des indices de
Wiener pour des graphes biparti. Pour la classe des arbres, plusieurs propositions ont t faites
[122][152][200][184][181]. Et pour plus de dtails sur cette notion voir [168].
Ce chapitre nous a donn une ide sur lindice de Wiener, cet indice qui se considre comme le
pre des indices topologiques. Dans ce chapitre nous avons discut quelques outils mathmatiques utiliss dans la litrature facilitant ses calculs, comme nous avons montr aussi les limits
de ses outils. Ces limits vont sapparatent clairement lorsquon compare ces outils avec notre
nouvelle formule 3.5. On a montr dans ce chapitre aussi les avantages, les applications et mme
quelques perspectives, dont nous les reviendrons vers la fin de ce mmoire, de cette nouvelle
formule. Et on a le termin par une prsentation rapide de La conjoncture de Wiener. Dans
le prochain chapitre, nous allons discuter dautres indices (lindice de degr de distance DD(G),
lindice de Hyper-Wiener W W et lindice de Terminal de Wiener T W (G)) qui ne sont que des
extensions de lindice de Wiener, et dont on a fait des contributions.
76
Chapitre 4
Les extensions de lindice de Wiener
Au dbut de la fin des annes soixante-dix, et comme nous lavons dj vu, lindice de Wiener commence affranchir les esprits des grands chercheurs de cette poque avant mme leurs
travaux. Il a connu une trs bonne rputation dans ces annes l, en raison de lapparition
dune longue srie des documents scientifiques qui le traite. Les annes quatre-vingt-dix ont
connu aussi, et aprs cette large diffusion de lindice de Wiener chez la population chimiste,
un phnomne qui a apparu un peu trange cette poque. Ce phnomne ntait que lmergence dun trs grand nombre dindices topologiques qui utilisent, soit les distances entres les
sommets des graphes soit les degrs des sommets de ces graphes comme matire premire de
leurs dfinitions. Par consquence, ces nouvels invariants ont eu une trs forte corrlation avec
leur prdcesseur. Donc, durant cette poque et jusqu ces dernires annes, la discipline de
la thorie des graphes molculaires a connu la cration de plus de 10.000 nouvel indice topologique [163], et la majorit sera dsigne aprs, par les extensions de lindice de Wiener, comme
par exemple, les indices de Hyper-Wiener, de degr de distance, et dernirement lindice de
Terminal de Wiener, qui vont tre le sujet de ce chapitre.
Lindice de Hyper-Wiener
Aprs le grand succs de lindice de Wiener depuis les annes 1970 et jusqu maintenant
dans la discipline de chimie, de la pharmacologie et en chmo-informatique en gnrale, et
surtout, lorsquon a dcouvert son importance dans le processus de la dcouverts des nouveaux
mdicaments, cette grandeur a connu plusieurs gnralisations et mme modifications, qui ont
donn lieu la cration des nouvels indices topologiques corespondents des nouvelles proprits
molculairs. La premire gnralisation de lindice de Wiener a eu lieu en 1996, lorsque I.
Gutman et ses co-auteurs en [104][114][107] ont rcrit sa formule de dfinition sous forme de
dG (k) (le nombre de paires de sommets ayant la mme distance k). La dfinition de W (G)
77
d(u, v)
(4.1)
{u,v}V (G)
kdG (k)
(4.2)
k1
Ces quations dont la premire est utilise juste pour les graphes connexes, par contre la
deuxime peut tre utilse pour nimporte quel graphe, mme sil est dconnexe [107]. Soit
G le graphe form des composs G1 , G2 , ..., Gp , donc son indice de Wiener est :
W (G) = W (G1 ) + W (G2 ) + ... + W (Gp )
1.1
Linvariant de Wiener-Type
Dfinition
Soit un nombre rel ou complexe, linvariant de Wiener-Typer pour les graphes connexes
est dfini en [107][114] comme tant la somme des multiplications de dG (k)k du graphe G,
cest--dire :
W (G) =
dG (k)k
(4.3)
k1
Et pour les graphes dconnexes [107] comme tant la somme des puissance de diffrentes distances du graphe G, cest--dire :
W (G) =
(4.4)
78
de Harary, dfini en [56], et de linverse de Wiener dfini en [166] apparus presque aux annes
quatre-vingt. Et dans le cas de =
1
2
tudier dans le reste de ce mmoire quelques autres indices pouvant tre gnrs partir de
la formule de linvariant de Wiener-Type, comme par exemple lindice de Hyper-Wiener et de
Terminal de Wiener.
1.1.2
Nous avons vu au prcdent chapitre que lindice de Wiener de nimporte quel graphe simple,
planaire et connexe W (G) est major par lindice de Wiener du graphe Path W (P) et minor
par celui de graphe Maximale planaire W (E) (voir la formule 3.4). Par la suite nous allons voir
une parat formule, mais concerne les arbre.
Dfinition 4.1. On appelle un graphe Star dordre n et de taille m = n 1 not Sn , tout
graphe dont n 1 sommets sont adjacents au sommet du centre v0 . Tous les sommets de ce
graphe sont de degr 1 sauf le sommet central qui a le degr n 1 (voir la Figure 4.1).
v1
v2
vn
v7
v0
v6
v3
v4
v5
Le rsultat suivant donne la valeur maximale et minimale de lindice de Wiener dun arbre Sn
dordre n.
W (Sn ) W (Tn ) W (Pn )
(4.5)
O Sn est le graphe star dordre n, Tn un arbre dordre n et Pn est le graphe Path dordre n.
Puisque linvariant de Wiener-Type est la gnralisation de lindice de Wiener ainsi que dautres
indices, voici un rsultat similaire la formule 4.5 donn par I. Gutman en [104].
Thorme 4.1. [104] Soit Tn un arbre dordre n. Si > 0 donc :
W (Sn ) W (Tn ) W (Pn )
(4.6)
79
(4.7)
W (T e)
(4.8)
eE(T )
W (T u)
(4.9)
uV (T )
X
eE(F )
80
W (F e)
(4.10)
1.2
Lindice de Hyper-Wiener
Lune des extensions de lindice de Wiener, qui a connu depuis son mergence en 1993 par M.
Randi une importance particulire pour les mathmaticiennes chimistes, est lindice de HyperWiener. Originalement cet indice not W W (G) a t dfini juste pour les graphes molculaires
non cycliques [156] avant qui il sera gnralise sur tous les autres graphes. Et il a t considre
comme une gnralisation de la formule de lindice de Wiener pour les arbres que nous avons
manipul dans le chapitre III :
W (T ) =
(4.11)
eE(T )
Donc, selon Randi, si T est un arbre, et x, y deux sommets de T , on note n1 (Pxy |T ) et n2 (Pxy |T )
le nombre de sommets de T se trouvant dans les deux cts du chemin Pxy [156]. Lindice de
Hyper-Wiener de T a t dfini comme suit :
W W (T ) =
(4.12)
x<y
Ici la sommation se fait sur toutes les pairs de sommets de T , cest--dire, sur tous les chemins
de T .
Remarque 4.1. On remarque que, si la sommation de lquation 4.12 restraint aux artes, on
tombe dans la formule 4.11.
Mais avant cette dfinition et en 1990 Tratch, Stankevich et Zefirov ont propos un nouvel
indice topologique qui tait similaire lindice de Hyper-Wiener [188], not par W W1 et nomm
lindice de Tratch-Stankevich-Zefirov, que nous lon dfini ainsi [156] :
W W1 (T ) =
(4.13)
x<y
Mais aprs, on a dcouvert que W W1 nest que le cas o k = 0 de la srie suivante [156] :
W Wk (T ) =
(4.14)
x<y
pour k = 0, 1, 2, ...
81
1.2.1
Dfinition
(4.15)
Puisque la premire dfinition de lindice de Hyper-Wiener tait pour les arbres, et vu lunicit
de chemin dun arbre, lindice de Hyper-Wiener ainsi que ses autres familles, ont t beaucoup
appliqus sur les arbres, ce qui a donn lieu un norme rsultats de ces indices topologiques
pour les arbres. Nous avons voulu dpasser lutilisation de ses indices avec les arbres aux leurs
utilisations avec tous les autres types de graphes condition quils soient simples, connexes et
planaires. Ce qui nous a pouss a propos quelques nouvelles formules en fonction de dG (k)
utilises pour tout graphe simple, planaire, connexe et de nimporte quel diamtre, comme celle
de lindice de Wiener W (G) vu prcdemment, et deux autres seront tudies dans ce chapitre
lune pour lindice dHyper-Wiener W W (G) et lautre pour lindice de degr de distance DD(G).
Ce paragraphe donc sera consacr premirement pour la nouvelle rcriture de la formule de
lindice dHyper-Wiener W W (G) puis ses utilisations soit sur des graphes simples soit sur
des graphes construits partir des simples graphes.
82
1.2.3
Nous commenons ce paragraphe par La formule de lindice dHyper-Wiener W W (G) que nous
a rcrit partir de sa dfinition. Donc, cette formule nest que la rcriture de la dfinition
de lindice dHyper-Wiener en fonction de dG (k), ce qui facilite le calcul de cet indice pour la
plupart des graphes simples, connexes et planaires.
Thorme 4.6. [150][151][3][5][4][7] Soit G un graphe connexe, simple et planaire dorder n
et de taille m. Donc lindice dHyper-Wiener de ce graphe est :
1
(3n(n 1) 4m + (32 3)dG (3) + ... + (D2 + D 6)dG (D)).
2
D
X
1
=
(3n(n 1) 4m +
(k 2 + k 6)dG (k).
2
k=3
W W (G) =
(4.17)
(4.18)
dG (k)k 2
k1
n(n 1)
m dG (3) ... dG (D)
2
Maintenant, et comme rsultat directe pour les graphes de diamtre D(G) = 2, on aura la
proposition suivante.
83
(4.19)
Les graphes avec lesquels nous allons utiliser la formule 4.17 sont ceux que nous avons vu au
prcdent chapitre.
1. Les graphes de diamtre 2
Lutilisation de la formule 4.17 avec les graphes de diamtre 2 que avons dfini au chapitre
III (le graphe Fan not Fn , graphe Wheel not Wn , le graphe Maximale planaire not En ,
le graphe Butterfly not Bn et le graphe Crystal not Cn ) donne leurs lindice dHyperWiener travers ce suivant thorme :
Thorme 4.7. [150][151] Soient les graphes Fan not Fn , Wheel not Wn , Maximale
planaire not En , Butterfly not Bn et Crystal not Cn dordre tous n dfinis dans le
prcdent chapitre (voir les dfinitions 3.1, 3.2, 3.3, 3.4 et 3.5). Donc, les indices dHyperWiener de ces graphes sont :
Gn
Fn
Wn
En
Bn
Cn
W W (Gn )
3 2
n 11
n+6
2
2
3 2
n 72 n
2
3 2
n 15
n + 12
2
2
3 2
19
n 2 n + 16
2
3 2
n 15
n + 14
2
2
n
n3
n3
n4
n6
n5
Dmonstration. Lapplication du thorme 4.6 et les dfinitions de ces graphes suffit pour
la dmonstration de ce torme.
2. Les graphes de diamtre 3
84
On passe maintenant aux graphes de diamtre 3 qui seront les mmes avec lesquels on a
utilis la rcriture de lindice de Wiener du chapitre III. Considrons le graphe DoubleCrystal not DCn dordre n comme nous avons dfini avant (voir la Figure 3.8).
Thorme 4.8. [5][4] Soit le graphe Double-Crystal not DCn dordre n et de taille m.
Lindice dHyper-Wiener de ce graphe est :
27
9
W W (DCn ) = n2 n + 42,
4
2
pour(n 10)
(4.20)
25 2 176
151
n
n+
8
8
8
pour(n 11)
(4.21)
13 2 49
n n + 48,
4
2
pour(n 10)
(4.22)
85
2
n (n+2)(n+1) ,
48
2
n(n+3)(n 1) ,
48
si n est pair
si n est impair
(4.23)
n4 n3 5n2 17
+
+
+ n 24
96 12
24
3
pour(n 4)
(4.24)
pour(n 2)
(4.25)
86
man soumet son article [103] intitul Selected properties of the Schultz Molecular Topological
index au journal Chem. Inf. Compu. Sci, dans lequel il dveloppe la formule de M T I pour
quil dcouvre dans celle-ci un nouvel indice topologique. En mme date, A. A. Dobrynin et
son co-auteur A. A. Kochetova, soumettent eux aussi leur article [8], au mme journal, intitul
Degree distance of a graphe : a degree analogue of the Wiener indexdans lequel, ils ont trait
un nouvel indice avec le nom degr de distance avec quelques unes de ses proprits. Le
journal publiera les deux articles successifs en son volume 34.
Dans cette section, nous allons examiner lindice de degr de distance, en dtaillant, dans sa
premire partie, son prdcesseur, M T I, et ses proprites, avant que nous passons lindice de
degr de distance et ses modifications.
2.1
En 1989, H. P. Schultz en [85], proposait un nouvel indice topologique nomm par lindice
topologique molculaire et dsign par M T I. Cinq ans aprs sa cration, lindice topologique
molculaire devient le sujet dtude de plusieurs chercheurs soit ses crateurs, H. P. Schultz, E.
B. Schultz et T. P. Schultz en [8691], soit autres auteurs, comme en [53, 57, 139, 199, 203].
2.1.1
Dfinition
n
X
[V (A + D)]i
(4.26)
i=1
Remarque 4.2. [103] Pour simplifier la formule 4.26, on aura besoin des remarques suivantes :
1. On peut remplacer le vecteur de degrs des sommets du graphe G par :
V = (1, 1, ..., 1)A
(4.27)
(deg(vi )) = 2m
i=1
87
n
X
deg(vi )
C2
i=1
2.1.2
Quelques proprites de M T I
n X
n
X
[(A2 + AD)]ij = M + S
(4.28)
i=1 j=1
O M nest que le premier indice de Zagreb tudi depuis 1975 [111] et sur lequel nous avons
dj parl dans nos prcdents chapitres (voir le chapitre I et III par exemple) :
M = M2 =
n
n X
X
[A2 ]ij =
i=1 j=1
n
X
(deg(vi ))2
i=1
Mais, selon lauteur de [103], le deuxime terme de lquation 4.28 est une nouvelle notion, qui
signale en [88][203] avec la notation M T I 0. Cette nouvelle notion selon Gutman, nest que
lindice de Schultz (degr de distance) que nous dtaillerons par la suite.
S=
n X
n
X
[AD]ij =
i=1 j=1
n X
n
X
[DA]ij
i=1 j=1
Parmi les proprits dont M T I est connu, par sa relation avec lindice de Wiener, est la proprit
suivante :
Proposition 4.2. [53] Soient T un arbre dordre n et P2 le nombre des chemins de longueur
gale 2 (voir la Remarque 4.2). Donc,
M T I(G) = 4W (G) + 2P2 (n 1)(n 2)
(4.29)
2.2
88
chercheurs le nomme par, lindice de Schultz, et qui le dfinit premirement par 2.1.2, puis
et aprs ses simplifications, il arrive le dfinir comme suit :
S(G) =
n X
n
1X
[degvi + degvj ]d(vi + vj )
2 i=1 j=1
(4.30)
Figure 4.2 Larte crant les sous-graphes Fi de mme nombre de sommets et diffrentes DD(Fi )
2.2.1
Dfinition
Au moment o I. Gutman arrive faire sortir lexpression, quil a considre comme un nouvel
indice topologique, indice de Schultz, sans donner aucunes autres informations sur cet indice sauf
quelques unes de ses proprits purement mathmatiques. Les auteurs de [8] ont donn le vrai
nom de cette expression qui sera utilise par la suite par tous les prochains chercheurs. Messieurs
Dobrynin et Kochetova ont propos lindice de degr de distance, comme tant celui qui dcrit
larte crant des sous-graphes de mmes nombre de sommets dans un graphe. autrement dit,
considrant larte craint les sous-graphes marqus par des lignes en gras de la Figure 4.2.
Selon Dobrynin et son collgue Kochetova, la localisation dun sous-graphe Fi G peut tre
dcrire par DD(Fi ) [8]. Donc, on peut dire que le vrai crateur de cet indice est Dobrynin et
son collgue Kochetova.
Par analogie la formule ?? de lindice de Wiener pour les arbres, on trouve dans [103] aussi
la dfinition de lindice de degr de distance pour les arbres.
Dfinition 4.5. Soient T un arbre dordre n, et nu (e), nv (e) le nombre de sommets des deux
ctes de larte e. Donc le lindice de degr de distance de cet arbre est :
DD(T ) =
O,
et
[nu (e)
deg(vi ) + nv (e)
deg(vi )]
(4.31)
sont les sommes sur tous les sommets de deux parties de larte e.
89
G+e
DD(G + e) = 108 W (G + e) = 27
a)
DD(G) = 94 W (G) = 31
DD(G + e) = 100 W (G + e) = 26
b)
Figure 4.3 Le graphe montrant la non-monotonie de DD(G) vis--vis lajout dune arte
Remarque 4.3. [8] Voici quelques remarques qui seront utiles par la suite :
1. Tous les sous-graphes Fi de la Figure 4.2 ont diffrentes valeurs de lindice de degr de
distance DD(Fi )
2. On peut rcrire lindice de degr de distance par :
DD(G) =
=
1 X
(w(u, G) + w(v, G))
2 uvE(G)
1 X
deg(u)w(u, G)
2 uV (G)
(4.32)
4. Les proprits de lindice de degr de distance peuvent tre lis ceux de lindice de
Wiener.
5. Si on ajoute une nouvelle arte un graphe, la valeur du nouveau graphe est une fonction
dcroissante. Ce qui nest pas correcte pour lindice de degr de distance (voir la Figure
4.3).
6. On trouve dans larticle [103], un indice proche lindice de degr de distance, nomm
90
n X
n
X
(4.33)
i=1 j=1
2.2.2
Lune des proprits les plus connues de lindice de degr de distance DD(G) est celle qui le lie
son prdcesseur, lindice de Wiener.
Thorme 4.14. [103] Soit T un arbre dordre n, donc :
DD(T ) = 4W (T ) n(n 1)
(4.34)
(4.36)
(4.37)
Et parmi les travaux rcents traitant lindice de degr de distance on trouve en [172], le thorme
suivant.
Thorme 4.16. [172] Soit G un graphe dordre n et de diamtre D(G) donc :
7
1
DD(T ) nD(G)(n D(G))2 + O(n 2 )
4
(4.38)
91
2.2.3
Dmonstration.
DD(G) =
(deg(u) + deg(v))d(u, v)
{u,v}V (G)
1 X X
(deg(u) + deg(v))d(u, v)
2 uV (G vV (G)
1 X X
(d(u, v)deg(u) + d(u, v)deg(v))
2 uV (G) vV (G)
On a :
X
d(u, v)deg(u) =
uV (G) vV (G)
d(u, v)d(v)
uV (G) vV (G)
Donc,
DD(G) =
d(u, v)deg(u)
uV (G) vV (G)
w(u, G)deg(u).
uV (G)
Le cas particulier de ce thorme est pour les graphes de diamtre infreieur ou gale
2. Ce cas demande la dfinition des quelques notion comme le premier indice de Zagreb,
dfini comme suit.
92
Dfinition 4.6. Soit G un graphe planaire, simple, connexe et fini. On dfinit le premier
indice de Zagreb comme suit :
M1 (G) =
(deg(u))2
(4.39)
uV (G)
w(u, G)deg(u).
uV (G)
w(u, G) =
d(u, v)
vV (G)
d(u, v) +
X
vV (G)
d(u,v)=1
d(u, v)
vV (G)
d(u,v)=2
d(u, v) = deg(u)
X
vV (G)
d(u,v)=1
n =
d(u, v) + n2 + 1
X
vV (G)
d(u,v)=1
uV (G)
= 2(n 1)
deg(u)
uV (G)
deg(u)2
uV (G)
= 4(n 1)m M1
93
94
Thorme 4.19. [5][4] Soit le graphe Double-Crystal not DCn dordre n et de taille
m donc lindice de degr de distance de ce graphe est :
DD(DCn ) = 13n2 88n + 172,
pour(n 10)
(4.40)
21 2 115
n
n + 47
2
2
pour(n 11)
(4.41)
pour(n 10)
(4.42)
1 n3 ,
2
1 n3
2
1
n,
2
si n est pair
si n est impair
(4.43)
95
n3 n2
+
2n
2
2
pour(n 2)
(4.44)
n(n 1)(2n 1)
3
pour(n 2)
(4.45)
X
uV (WBn )
L1
X
w(ui,l , WBn ))
l=2
L1
X
w(u1,l , WBn ))
l=2
= 4p(
L
X
l=1
96
(4.46)
Dfinition 4.7. On appelle un graphe Star-Graph dordre n not Gm,n tout graphe
connectant N graphes simples, connexes, planaires et non orients dordre mi o i =
P
1, ..., N par un sommet s. Ce graphe est dordre n = N
i mi et de taille m (voir la Figure
4.4).
GmN
s
Gm1
Gmi
Thorme 4.26. [78] Soit le graphe Star-Graph not Gm,n dordre n et de taille m, dfini
avant. Donc, lindice de degr de distance de ce graphe est :
DD(Gm,n ) =
N
X
DD(Gmi )
N
X
N
X
mj n + 1)dd(s, Gmi )+
i=1
i=1
N
X
N
X
i=1
X
uV (Gm,n )
X
uV (Gm1 )...V (Gmn )
X
uV (Gm1 \{s})
uV (GmN \{s})
97
N
X
[(
N
X
N
X
i=1
j=1 et j6=i
[(
degGmi (s)) + DD(Gmi ) w(s, Gmi )degGmi (s)] + w(s, Gm,n )degGm,n (s)
Et a termine la dmonstration.
Pour plus de dtaille et rsultats sur ce type de graphes voir [1] et [77].
3.1
Dfinition
Motivs par les drnires recherches sur les matrices de distance terminale et ses applications
[31, 62, 142, 157, 158], les auteurs de [110] ont propos en 2009 lindice de Terminal de Wiener
dun arbre T not par T W (T ). Il se dfinit comme suit :
98
Dfinition 4.8. Soient larbre T dordre n, qui possde k n feuilles et notons lensemble de
ces feuilles par V1 (T ) V (T ). Donc, lindice de Terminal de Wiener est dfini comme suit :
T W (T ) =
d(ui , uj )
(4.48)
3.2
Quelques proprits
Comme toujours, pour faciliter les calculs, on cherche des proprits qui sadaptent aux diffrentes situations. Cest le cas pour ce nouvel indice topologique. On cite dans cette section, les
plus importantes proprits de lindice de Terminal de Wiener. En les classifie selon, si elles
sont pour la maximisation ou la minimisation ou seulement des proprits simples.
3.2.1
Comme on a vu dans ce mmoire, on a deux formules pour calculer linidice de Wiener, soit
pour nimporte quel graphe, soit pour les arbres. Et comme lindice de Terminal de Wiener
est un successeur de ce dernier, lui aussi possde ces deux dfinitions. La premire proprit
propose en [110] de T W (T ) est la suivante.
Thorme 4.27. [110] Soient T un arbre dordre n et de k feuilles et e son arte, on dnote
par p1 (e) et p2 (e) le nombre des feuilles de larbre T se trouvent sur les extrmits de e. Donc,
on peut rcrire lindice de Terminal de Wiener comme suit :
T W (T ) =
p1 (e).p2 (e)
(4.49)
99
Thorme 4.28. [20] Soit Gp le graphe thorn obtenu par lattachement de pi terminaux
sommets au sommet vi dun graphe connexe G, i = 1, 2, 3, ..., n. Donc, si pi > 0 pour i =
1, 2, 3, ..., n :
T W (Gp ) = 2
n
X
i=1
C2pi +
pi .pj (d(vi , vj ) + 2)
(4.51)
1i<jn
p, si i = 1, 2, ... k ;
pi =
0, si i = k + 1, ... n.
pour p > 0. Donc,
T W (Gp ) = p2 T W (G) + pk(pk 1)
(4.53)
Dans ce paragraphe nous allons discuter les limites de lindice de Terminal de Wiener cest-dire, sa valeur maximale et sa valeur minimale.
1. Larbre dindice de Terminal de Wiener minimal
Le graphe de Path Pn dordre n est un graphe possdant deux feuilles, et n 2 sommets
internes, et par consquence on a pour tous les artes p1 (e) = p2 (e) = 1, donc : T W (Pn ) =
(n 1)(1 1). Et puisque 1 est la valeur minimale possible pour le produit p1 (e).p2 (e),
donc (n 1) est la plus petite valeur possible de lindice de Terminal de Wiener.
Thorme 4.30. [110] Pour tout arbre T dordre n on a T W (T ) n 1. Et on aura
T W (T ) = n 1 si et seulement si larbre T est un Path.
100
p1 (e0).p2 (e0)
(4.54)
e0
101
Dans ce paragraphe, nous allons montrer notre contribution concernant lindice de Terminal de
Wiener [108]. Et pour la clarifier on aura besoin de notion suivante.
1. Dfinition
Dfinition 4.10. [108] Soient T un arbre dordre n not T possde un sommet de degr
maximal gale et un entier k, tel que k . Notant u1 , u2 , ..., vn les sommets de T des
degrs degT (ui ), o i = 1, 2, ..., n. On construit un arbre, not T * et nomm arbre rgulier
correspondant larbre T , par lattachement de k degT (ui ) feuilles tout sommet ui de
T . Aprs la transformation tous les sommets de larbre T * sont de degr k.
Exemple 4.1. Pour illustrer la dfinition 4.10 on considre lexemple suivant : Soit T
larbre de la Figure 4.6 de degr maximal = degT (u5 ) = 6. Pour transformer larbre T
T *, choisissant lentier k = 6 et ajoutant tout sommet vi de T 6 degT (ui ) feuilles.
A le fin on aura larbre T * de la mme Figure 4.6 o tous ses sommets devient de degr
gale deg(vj ) = k = 6 (voir la Figure 4.6.
2. Lindice de Wiener de larbre rgulier
Thorme 4.33. [108] Soient T un arbre dordre n et de degr maximal et T * larbre
rgulier correspondant T dcrivent avant. Choisissant k un entier tel que k . Donc,
lindice de Wiener de T * est :
1
W (T *) = (k 1)2 W (T ) + 2kn( kn n + 1) + (n 1)2
2
(4.55)
Avant de donner la dmonstration de ce thorme nous allons introduire certaines notations et faire la dmonstration de quatre lemmes exploiteront dans la dmonstration. Par
la suite, on note T un arbre dordre nT et T * larbre rgulier dordre nT * = (k 1)nT + 2
correspondant T . On notera aussi par V (Tf *) lensemble des feuilles de larbre T *, ()
102
u8
u10
u12
u1
u2
u3
u4
u5
u14
u9
u13
u6
u7
u15
u11
Larbre T
v8
v10
v12
v1
v2
v3
v4
v13
v5
v6
v14
v9
v7
v15
v11
Larbre T * corrspondant T
Figure 4.6 Larbre T et larbre rgulier T * correspondant T pour k = = 6
le degr maximal (minimal) de larbre T , degT (v) (degT (v)) le degr du sommet v de
larbre T (larbre T *) respectivement et on note par w(v, T ), w(v, T *) ou w(v, Tf *) lindice
de Wiener du sommet v dans larbre T , T *, et Tf * respectivement.
Lemme 4.2. [108] Soient T un arbre dordre n et T larbre rgulier correspondant
larbre T . Pour tout v V (T *) on a :
w(v, T *) = w(v, T ) + w(v, Tf *)
(4.56)
d(v, u)
*
uV (T )
X
uV (T )
d(v, u) +
d(v, u)
uV (Tf *)
103
larbre T . On a :
d(u, v) =
uV (Tf *) vV (T )
d(u, v)
vV (T ) uV (T *)
f
d(u, v) =
vV (T ) uV (T *)
f
(|V (T )| + dT (v))
vV (T ) uV (T *)
f
vV (T )
vV (T )
Alors,
X
(dT (v)) = 2W (T )
vV (T )
vV (T )
(4.57)
1
2
w(v, T *)
vV (T *)
1 X
(
2
w(v, T *) +
1 X
(
2
w(v, Tf *) +
vV (Tf *)
vV (Tf *)
w(v, T *)
vV (T )
w(v, T ) +
vV (Tf *)
1 X
= T W (T *) + W (T ) + (
2
vV (Tf *)
104
w(v, T ) +
vV (T )
w(v, T ) +
X
vV (T )
X
vV (T )
w(v, Tf *))
w(v, Tf *)
(4.58)
X
vV (T *)
degT * (v)w(v, T *)
X
vV (Tf *)
degT * (v)w(v, T *) +
w(v, T *) + k
vV (Tf *)
X
vV (T )
degT * (v)w(v, T *)
w(v, T *)
vV (T )
vV (T )
vV (Tf *)
= 2T W (T *) + 2kW (T ) +
w(v, T ) + k
w(v, Tf *)
vV (T )
vV (Tf *)
= 2T W (T *) + 2kW (T ) + (1 + k)
w(v, T )
X
*
vV (Tf )
105
1 W (T *)
1
k 2 2 2k 3
k 2 n2 kn2
1 (k 1)n2
W (T *) = (
)W (T ) +
+ kn n +
2
2
2
2
2
2
2
1
1
=
((k 1)2 W (T ) + 2kn( kn n + 1) + (n 1)2 ).
2
2
(4.59)
1
k 2 2 2(2k 3)
1
T W (T *) = (
)W (T ) + (k 2 n2 kn2 + 2kn n + 1 2(k 1)n2 2n)
2
2
2
1
=
((k 2)2 W (T ) + k 2 n2 3kn2 + 2kn + 2n2 3n + 1).
2
Comme nous avons vu durant tout ce chapitre, on a pu voir trois principaux indices topologiques
ayant une relation forte avec son prdcesseur, lindice de Wiener W (G). On a vu les indices de
106
Degr de distance not DD(G), dHyper-Wiener not W W (G) et de Terminal de Wiener not
T W (G). On a dmontr les corrlations qui se trouvent entre eux, et on a vu leurs corrlations
avec lindice de Wiener W (G). Dans ce prsent chapitre aussi, on a vu les utilisations des
indices de degr de distance et dHyper-Wiener avec certains graphes de diffrentes classes. Le
chapitre suivant donnera une tude particulire des indices topologiques en gnrale concernant
leurs corrlations entre eux dune part et leurs utilisations comme moyens, surtout lindice de
Terminal de Wiener T W (G), pour rpondre question fondamentale reste sans rponse plus
dun siecle. On discutera dans le chapitre V, la question suivante : pourquoi transformons-nous
les molcules en des graphes ayant la reprsentation Kenograph et non la reprsentation
Plerograph ?
107
108
Troisime partie
La corrlation entre Plerograph et
Kenograph
109
Chapitre 5
Les reprsentations Kenograph et de Plerograph
La structure dune molcule organique peut tre reprsente par deux types des graphes molculaires qui se dsignent, selon A. Cayley, par Plerogram et Kenogram. Mais, dans la thorie
des graphes chimiques contemporaine, presque toutes les molcules sont reprsentes par le type
Kenogram. Ce qui a demand aux chercheurs de la thorie des graphes chimiques de chercher
le secret derrire cette domination, et dessayer de revivre la terminologie de M. Caylye.
Dans le chapitre II, nous avons trait la notion de la modlisation et ses diffrentes tapes.
Ltape la plus importante est entre autre celle de la slection des variables (peu de descripteurs, variables dans le cas gnral, portent plus dinformation sur lactivit ou sur la molcule
de faon gnrale sera sans doute le but des diffrentes mthodes de la slections des variables).
En considrant ce principe et en ajoutant la molcule en discussion, nous avons cherch les
diffrentes corrlations qui peuvent exister entre les diffrents indices topologiques en les regroupant selon la matire (distance, degr, diamtre, ...) de base de leurs dfinitions, au but
dlminer ceux qui sont corls. La relation entre les deux types (Kenogram et Plerogram) a
t prise en considration afin dutiliser celui le plus simple lors de calculer de lun de ceux
indices dune part, et dtudier leur utilisation parmi les facteurs dinfluence aux mthodes de
slection de variables dautre part.
Dans ce chapitre, nous allons tudier dans la premire section les diffrentes volutions des
terminologies de la reprsentation des molcules depuis leur apparition, puis dans la deuxime
section nous verrons la relation entre ces reprsentations. La troisme section traitera la corrlation entre les indices topologiques. A la fin de ce chapitre nous discuterons la relation existante
entre les indices topologiques et les reprsentations molculaires.
111
La reprsentation dun problme par un dessin contribue souvent sa comprhension. Le langage des graphes est construit, lorigine, sur ce principe. Nombres de mthodes, de proprits,
de procdures ont t penses ou trouves partir dun schma pour tre ensuite formalises
et dveloppes. Toutefois, entre cette notion vague o des points, reprsentant des individus,
des objets, des lieux ou des situations, sont relis par des traits, il y a une longue laboration
des concepts. La premire difficult laquelle on peut tre confront concerne la terminologie.
Dans notre vie quotidienne, la terminologie joue un rle trs important, par ce quelle dcrit
lobjet dsign par ce terme. Ce qui va le rendre unique dans les esprits de ses utilisateurs.
Donc, lunicit de terme, donne lobjet en question une importance particulire, surtout chez
les chercheurs, par ce quils vont penser la mme chose et donc fournir le mme rsultat.
Ce qui ntait pas le cas pour la transformation des graphes aux autres graphes dsgns par
quelques chercheurs par les graphes de Thorns. Comme nous allons le voir dans nos prochaines sous-sections, depuis 120 ans ou les chercheurs manipulent le mme objets mais avec
des termes diffrents ; et des fois ils fournissent le mme rsultat ce qui nest pas bon au point
de vue recherche scientifique, par ce que, cest une perte de temps et des efforts des chercheurs.
1.1
Historique
Tout le monde saccorde considrer que la thorie des graphes est ne en 1736 avec la communication dEuler dans laquelle il proposait une solution au clbre problme des ponts de
Knigsberg (Deux les I1 et I2 sur la rivire Pregel Knigsberg, aujourdhui dsign par Kaliningrad, taient relies entre elles ainsi quaux rivages R1 et R2 laide de sept ponts P1 , P2 ,
P3 , P4 , P5 , P6 et P7 , comme le montre la figure 5.1. Le problme pos consiste, partir dune
terre quelconque I1 , I2 , R1 et R2 et traverser chacun des ponts une fois et une seule et
revenir son point de dpart ; bien sr sans traverser la rivire la nage). Pendant les cent
annes qui suivirent, rien ne fut fait dans ce domaine de recherche.
En 1847, le physicien Kirchhoff dveloppa la thorie des arbres pour lappliquer lanalyse de
circuits lectriques. Presque aux mmes annes, Cayley dcouvrit la notion darbre alors quil
essayait dnumrer les isomres saturs des hydrocarbures de type Cn H2n+2 . A cette poque,
deux autres problmes dimportance pour la thorie des graphes furent galement proposs et
partiellement rsolus : La conjecture des quatre couleurs en 1840, et le problme du
chemin Hamiltonien en 1859.
112
Les annes 1920 virent la rsurgence de lintrt pour les graphes ; et partir de 1946, la thorie
des graphes a connu un dveloppement intense sous limpulsion de chercheurs motivs par la
rsolution de problmes concrets.
Donc, la vrai naissance de la thorie des graphes chimiques est ne en 1847, lorsque le mathmaticien anglais distingue de la 19m sicle, Arthur Cayley (1821 1895), a propos en
son papier On the mathematical theory of isomers publi en 1874, deux types de graphe
molculair quil nommait par Plerogram et Kenogram [10].
1.2
1.2.1
Durant presque un scicle, et avec lapparition de la thorie des graphes chimiques, toute la
recherche a t faite sous ces deux types (Plerogram et Kenogram) ; en particulier le Kenogram.
Et personne na pens ni essay les renommer ni les remplacer par dautres graphes. La
seule raison qui les a freins et quon peut accepter cest qu cette poque, comme nous venons
de le voir, les chimistes nont pas encore dcouvert la notion des graphes ; et ils ont manipul
sa place le mot diagramme. Le terme graphe nt manipul que par les mathmaticiens
depuis 1736 ; et mme la thorie des graphe cette poque vcu (ces annes) en silence. Mais
113
depuis 1920 et aprs ldition de plusieurs livre traitant la thorie des graphes, les chimistes
commencent penser de changer les termes de Kenogram et Plerogram, car ils sont dsigns
aux graphes molculairs, en composition de deux mots : Keno et Plero comme prfxes et
diagramme comme suffixe [60].
En 1986 O.E.Polansky et I.Gutman en leur livre [120] intitul Mathematical Concepts in
Organic Chemistry proposaient la premire modfication de ces termes en skeleton graphs
pour le Kenogram et complete molecular graphs pour le Plerogram. Ces nouveaux termes
ne vont pas plier M. D.Vukicevi et ses co-auteurs au papier [60] intitul Paths and Walks in
acyclic structures : Plerographs versus Kenographs qui vont profiter de loccasion de la 75m
anniversaires de M. Alexander T. Balaban pour le lui ddir en 2005. Cet article comporte
la modification des nouveaux termes de Polansky et son collgue. Ils ont propos kenograph
pour Kenogram et Plerograph pour Plerogram. Cette modification est justifie par le fait
que lobjet rsultant dune molcule est un graphe et nest pas un diagramme. Donc, pour eux
A.Cayley ntait pas au courant du mot graphe, sinon il lutiliserait. Et nous par la suite, nous
garderons ces nouveaux termes, lorsquon veut dsigner une reprsentation molculaire.
1.2.3
La ngligence du Plerograph
Les chercheurs utilisrent ces termes tels quels, avec une large domination de la reprsentation
Kenograph. Par ce que dans la vaste majorit des livres, papier, ... traitant la thorie des graphes
chimiques, le terme graphe molculair pour eux veut dire Kenograph, et dans la littrature
chimique contemporaine presque jamais le mot Plerograph est utilis, ni un mot qui le signifie.
A. Cayley dans en article [9], a justifi son choix du type Kenograph, mme sil est quivalant
celui de Plerograph dans le cas des numrations des isomres des Alkanes, par ce quil contient
moins de nombre de sommets que le type Plerograph et une structure simple et significative. Les
chercheurs en [113][60][117][108] ont ajout dautres raisons de la domination du type Kenograph
dans la littrature : comme lapparition des indices topologiques qui sont presque tous dfinis
sur le type Kenograph ; lapparition de la thorie des graphe de Hckel [120][80] et sa connexion
avec la thorie des graphe spectrale [120][80]. Et nous tudierons par la suite dans ce chapitre
quelques trs importantes autres raisons.
La reprsentation Plerograph ntait utilise que dans quelques travaux de recherche scientifique
limits, comme la modlisation des proprits electron des molcules organiques satures
[67, 75, 83, 160, 196].
Donc, si on veut rsumer, on dit quen quelques applications chimiques le type Kenograph
est obligatoire : la thorie des graphes de Hckel par exemple. En dautres applications les
114
deux types sont quivalants. Par exemple : lnumration des isomres des arbres en gnrale
et les Alkanes en particulier. Mais le plus convivial au niveau pratique est la reprsentation
Kenograph. Et il y a dans la thorie des graphes chimiques des domaines o il nest pas vident
de prfrer le Kengraph au Plerograph. Par exemple lorsquon traite les invariants topologiques.
Car ils sutilisent aux tudes QSAR/QSP R qui se vrifieront aprs les tests sur les ordinateurs
dans les laboratoire dune manire pratique : cest--dire on les exprimente sur des cellules
biologiques ; ce qui signifie quil ny a pas une raison claire de priorit dindices topologiques
du Kenograph sur ceux du Plerograph [113].
1.2.4
Le cas gnrale
Les reprsentations Kenograph et Plerograph ne sont que des cas particuliers pour une notion
gnrale que nous avons dj trait. La notion de graphe Thorn ou plus largement les graphes
Thorny (voir la Figure 4.6). Le graphe Thorn est une notion propose rcemment par I.
Figure 5.2 Exemple de graphe Thorn pour max = 3 pour 2 et max = 4 pour 1
115
Aprs la dfinition des deux types de reprsentations molculaies, nous allons discuter lutilisation exclusive du Kenograph Ke vis--vis le Plerograph P l. Nous avons vu ensemble les raisons
donnes par les chercheurs depuis les annes 1990 traitant cette particularit ; et nous nous
sommes mis daccord sur lavantage du nombre rduit des sommets du Kenograph par rapport
au Plerograph, ainsi que lapparition des indices topologiques qui sont dfinis ds leur premire
apparition sur le Kenograph. On a aussi signal le rle que la thorie des graphe de Hcky
a jou en ce sens. Dans cette section nous allons agrandir ltude de cette problmatique en
ajoutant dautres justificatifs qui peuvent tre des avantages du Kenograph sur le Plerograph
travers les indices topologiques. Ces drniers, qui sont comme nous le savons les vrais descripteurs des structures molculaires. Puisque les indices topologiques sont parmi les moyens les
plus importants pour rendre les molcules manipulable dans la chmo-informatique en gnrale
et le domaine de la dcouverte des nouveaux mdicaments en particulier, donc si on arrive
trouver des corrlations entre les indices calculs sur le Kenograph et ceux calculs sur le
Plerograph, cela veut dire que les deux structures sont quivalentes et on peut manipuler parmi
eux, lune la plus simple. Cette section aussi traitera le problme de la slection des variables,
pour les mthodes de modlisation ; en sens de chercher les corrlation existantes entre plusieurs
descripteurs (variables au jargon des mthodes de classifications) ce qui va aider les mthodes
de slection rduire les descriteurs.
La section traitera donc trois parties, tournant toutes autour de la relation entre les types
Kenograph et Plerograph, quon dmontrera. Les deux dernires parties dmonteront cette
relation travers la corrlation entre les indices topologiques calculs sur les deux types. Lavant
drnire partie prend en compte les indices bass dans leur dfinition sur la distance et la
dernire traitera les indices topologiques bass sur les degrs des sommets. La premire partie
donnera une autre faon de voir cette relation en utilisant les notions de Walks et les Paths
dans le graphe.
2.1
Puisque les indices topologiques se basent sur les distances et les degrs, ce qui demande lexistence de la notion de Paths (le Paths est le sous-arbre dans lequel tous les sommets interns
sont de degr gale 2) et de la nouvelle notion de Walk introduite par les auteurs de [60]
(qui est une squence alterne de sommets et des artes, avec chaque arte tant incident sur
les sommets prcdant et succdant dans la squence), nous allons prsenter, donc, dans ce
116
7-Walks en Kenograph
1254
1528
1676
1712
1856
2284
2136
1994
1822
2602
2272
2304
2882
3072
2634
3218
2592
4094
7-Walks en Plerograph
29006
29834
30176
30212
30554
31490
31328
31040
30680
32138
31652
31688
32750
33236
32372
33524
32462
35072
Figure 5.3 La corrlation entre w(Ke) et w(P l) pour les isomres dOctane
par i W alks le nombre de Walks de taille i. Le tableau 5.1 montre le nombre de 7 W alks,
cest--dire le nombre de Walks de longueur 7.
117
Comme montre la Figure 5.3, la corrlation entre le walk de Plerograph w(P l) et celui de
Kenograph w(Ke) est presque linaire, la chose confrme par cette quation :
w(P l) = 2.1w(Ke) + 26678.9
(5.1)
Donc, cette corrlation qui a comme coefficient 0.995, a montr que si dans la modlisation
QSAR/QSP R on utilise les Walks comme descripteurs des structures non-cycliques, il sera
mieux dutiliser le Kenograph la place de Plerograph comme reprsentateur des molcules
tudies. Car mme si la reprsentation Plerograph est la plus proche la molcule au niveau
forme, elle prendra plus du temps du calcule, car elle est plus complexe que celle de Kenograph.
2.2
Lorsquon a vu dans les prcdents chapitres les relations entre les indices topologiques T I
des graphes molculaires et les proprits physico-chimiques des molcules correspondantes, on
sest mis daccord sur le fait que les indices topologiques reprsentent les molcules et quils
les caractrisent laide des proprits physico-chimiques. Ce qui rendra la classification des
molcules possible. Et on a aussi vu laugmentation exponentielle du nombre des indices topologiques. Et autant que ce nombre augmente autant quon aura mal classifier les molcules, ce
qui exige, comme on a vu, lexistence des mthodes dites de slection de variables (la deuxime
tape du procdure de la classification). Ce paragraphe et le suivant vont nous donner quelques
techniques qui joueront srement un rle important dans ces mthodes. On va dmontrer les
diffrentes corrlations qui relient les indices topologiques entre eux en les regroupant selon les
moyens de base de leur dfinition.
2.2.1
1. La formule gnrale
On a dit prcdemment que tous les indices topologiques bass en leur dfinition sur la distance ne sont quun cas particulier de linvariant de Wiener-Type (W (G) =
k1
dG (k)k )
que nous avons dj vu sa dfinition. En 1998 en article [113] il a t dmontr quil existe
une relation forte entre le Kenograph Ke et le Plerograph P l travers cet invariant.
Thorme 5.1. [113] Soient les reprsentations Plerograph not P l, Kenograph not
Ke dune molcule organique de type Alkane et un nombre rel ou complexe. Donc,
linvariant de Wiener-Type des deux reprsentations Ke et P l peut sexprimer comme
118
suit :
W (P l) = aW (Ke) + b
(5.2)
a
b
a
b
a
b
a
b
a
b
a
b
a
b
a
b
5
0.44
16.62
0.82
18.02
1.54
22.43
2.82
36.76
9
256
15.53
891.60
26.10
3366.55
42.72
13392.51
6
0.50
19.38
0.93
20.78
1.72
25.83
3.09
43.80
9
361
14.55
1385.14
22.74
5812.36
34.49
26002.15
7
0.53
22.19
1.00
23.63
1.83
29.41
3.25
51.48
9
484
14.01
1994.44
20.96
9040.43
30.29
44052.69
8
0.56
24.96
1.05
26.39
1.93
32.87
3.38
59.27
9
625
13.64
2729.26
19.81
13139.22
27.73
68332.49
9
0.59
27.62
1.12
28.90
2.05
35.81
3.55
66.21
9
784
13.26
3634.00
18.71
18608.24
25.49
103279.06
10
0.62
30.28
1.18
31.42
2.14
38.83
3.67
73.61
9
961
12.99
4680.33
17.94
25251.84
23.92
148241.84
Tableau 5.4, tir de [113], nous donne les Coefficients de corrlation de lquation 5.2,
calculs pour les ensembles de tous les isomres Cn H2n+2 , pour les valeurs de n = 5 10.
Ce tableau clarifie donc, la formule 5.2 et la confirme. Nous rappelons que tout indice
topologique correspond a une valeur particulire de de la formule 5.2. Certains indices
sont dj lis quelques valeurs, comme est dj dit au prcedent chapitre toute valeur
3 2 correspond un indice topologique particulier (voir le tableau 5.3), par
contre dautres valeurs ne sont pas encore corresponds aucun autre indice. Le Tableau
119
n\
5
6
7
8
9
10
-4
0.9992
0.9979
0.9959
0.9942
0.9904
0.9885
-3
0.9992
0.9981
0.9965
0.9953
0.9928
0.9914
-2
0.9993
0.9986
0.9976
0.9968
0.9957
0.9950
-1
0.9996
0.9992
0.9987
0.9984
0.9982
0.9979
1
1
1
1
1
1
1
2
0.9998
0.9998
0.9996
0.9996
0.9996
0.9996
3
0.9989
0.9990
0.9985
0.9984
0.9986
0.9986
4
0.9974
0.9979
0.9969
0.9965
0.9969
0.9969
5.2, tir aussi de [113], montre certaines valeurs des variables a et b de la mme formule
5.2. Ce tableau explique aussi lexistence de ces rels dans la prcdente formule exprime
par leurs dpendances des valeurs de et de n (le nombre des atomes du carbone dans
une molcule organique).
3. Le thorme 5.1 pour les indices de Harary et linverse de Wiener
Nous continuons vrifier la linairt de la formule du thorme 5.1 pour certaines
valeurs de correspondes des indices particuliers, en se basant sur quelques figures
montrant cette corrlation. Par exemple la Figure 5.4, montre la corrlation entre les
indices de Harary (correspond = 2) calcul pour le Kenograph et le Plerograph des
isomres de loctane (cest--dire pour n = 8 : C8 H18 ). On constate que la corrlation est
presque linaire. La Figure 5.5, montre aussi la corrlation entre les indices de linverse
de Wiener pour Plerograph et Kenograph des mmes isomres.
Remarque 5.1. On signale juste que les Figures 5.8, 5.4 5.5 et les deux tableaux 5.4 et 5.2 sont
tirs tous de larticle [113].
2.2.2
Parmi les valeurs de pour lesquelles la formule du thorme 5.1 est linaire est celle correspond
lindice de Wiener. Nous traitons le cas de lindice de Wiener pour lequel sa valeur calcule sur
120
Kenograph est fortement corrle et dune manire linaire avec celle calcule sur le Plerograph.
Le thorme suivant montre cette linart.
Thorme 5.2. [113] Soient les reprsentations Plerograph not P l et Kenograph not Ke
dune molcule organique de type Alkane. Alors, lindice de Wiener de ces reprsentations est
lies de la manire suivante :
W (P l) = 9W (Ke) + (3n + 1)2
(5.3)
Dmonstration. La dmonstration est plus ou moins vidente, elle se base sur la rgle de la chimie organiques disant que lorsquon veut passer de la reprsentation Kenograph au Plerograph
on ajoute 2n + 2 feuilles (chaque atome du carbone est li quatre atomes dhydrogne), pour
121
exactement la question pose en [113], et sa rponse est donne dans la Figure 5.7, qui montre
la relation entre les indices de Wiener de Kenograph W (Ke) et de Plerograph W (P l) pour
que les isomres des molcules produisent des graphes qui ne sont pas des arbres, en prenant
122
Monocyclicooctane (C8 H16 ) comme exemple. Cette figure dmontre la complexit de cette
relation, qui ne sera jamais linaire.
2.2.3
Nous traiterons dans ce petit paragraph, lune parmi les plus importantes raisons pour lesquelles
le Kenograph est largement utilis chez la communaut chimiste depuis 1874. Nous allons
dmontrer que lindice de Terminal de Wiener du Plerograph T W (P l) dun Alkane est en
corrlation linaire exacte avec lindice de Wiener de Kenograph W (Ke). Donc, les deux indices
possdent prcisment la mme dpendance structurelle. Mais avant de passer au thorme
fondamental de ce paragraphe, on va se mettre daccord sur quelques notations utilises par la
suite, ainsi que quelques rsultats que nous aurons besoin pour la dmonstration de rsultat
fondamental. On rappelle dabord que si on a une reprsentation Kenograph de n sommets,
e6
e9
e5
e7 e8
e3
e10
f2
e15
f4
e17
e1
e18
f1
e2
f3
f6
f5
e4
e11
f7
e14
e16
e13
e12
3pi (f |P l) 1
2
(5.4)
123
pour i = 1, 2
Dmonstration. La dmonstration est comme suit :
ni (f |P l) = 3ni (f |Ke) + 1
ni (f |Ke) + p1 (f |P l) = 3ni (f |Ke) + 1
pi (f |P l) = 2ni (f |Ke) + 1
pi (f |P l) = 2(ni (f |P l) p1 (f |P l)) + 1
2ni (f |P l) = 3pi (f |P l) 1.
124
on a :
W (P l) =
n1 (v)n2 (v)
n1 (f )n2 (f ) +
X
f
n1 (e)n2 (e)
3p1 (f |P l) 1 3p2 (f |P l) 1
)(
) + (2n + 2)(3n + 1)
2
2
9X
3X
1X
(p1 (f |P l)p2 (f |P l))
k+
(1) + (2n + 2)(3n + 1)
4 f
4 f
4 f
9
3
1
9
T W (P l) + (2n + 2)( (2n + 1) (n 1) + 3n + 1) + (n 1)
4
4
4
4
9
1
=
T W (P l) (18n2 + 21n 5).
4
4
=
(5.5)
Nous avons vu donc, travers cet important rsultat (le thorme 5.4) et travers aussi la
Figure 5.9, que dans le cas des Alkanes, non seulement lindice de Wiener de la reprsentation
Plerograph a prcisment une dependence structurelle comme lindice de Wiener de celle de
Kenograph (le thorme 5.2), mais a reste aussi valable pour lindice de Terminal de Wiener de
la reprsentation Plerograph T W (P l). Et donc, par consquence si les indices de Terminal de
Wiener et de Wiener sont pris en considration dans les mthodes de classifications, on naura
pas besoin du Plerograph et on peut travailler juste par le Kenograph pour faciliter les calculs.
125
2.3
Lutilisation des descripteurs de la structure molculaire reprsente par des graphes est devenue
obligatoire. Surtout dans le processus de la dcouverte de mdicaments. Ces descripteurs sont
bass en leurs dfinitions sur plusieurs matires premires du graphe comme la distance, les
degrs des sommets ou bien les deux. On continue dans ce petit paragraphe la dcouverte des
relations qui lient les deux reprsentations dune molcule : Kenograph et Plerograph. Dans le
prcdent paragraphe nous avons tud les indices bass sur la distance en leurs dfitions, et
nous avons vu comment ces indices relient les deux types de reprsentations molculaires. Dans
ce paragraphe on tudiera les indices bass sur le degr en leurs dfinitions et on tudiera aussi
leurs influences sur la relation entre les types Kenograph et Plerograph.
2.3.1
La formule de base
Un trs grand nombre dindices topologiques sont bass, en leurs dfinitions, sur les degrs des
sommets dun graphe. Donc, on peut leurs donner cette dfinition gnrale.
Thorme 5.5. Soit G un graphe simple, planaire et connexe. Donc, tout indice topologique
T I bas en sa dfinition sur les degrs des sommets de G peut scrire comme suit :
T I(G) =
F (i, j)mij
(5.6)
1ijn1
O mij est le nombre des artes de G connectes aux sommets de degrs i et j respectivement.
Dmonstration. En gnrale ce thorme, nest que le rsultat dune remarque approfondie des
diffrentes dfinitions des indices utilisant en leurs dfinitions le degr dun sommet du graphe.
Car tout indice bas sur le degr peut scrire comme suit :
T I(G)
F (deg(u), deg(v)).
(5.7)
eE(G)
Avec deg(u) et deg(v) sont les degrs respectivement des sommets construits larte e du graphe
G.
La plupart des dfinitions des indices topologiques actuels, dfinis par les degrs, corresponds
la fonction F (x, y). Par exemple les dfinitions des indices de Randi [154][33], de la bonde-atom
de connectivit [65][144], de Zagreb augment r
[30, 201] et dHarmonique [146] correspondants
xy
2
la fonction F (x, y) sont respectivement 1xy , (x+y2)
, [ (x+y2)
]3 et (x+y)
.
xy
126
2.3.2
Le cas de Plerograph
Lors quon voit la Figure 1.5, reprsentant un exemple de Kenograph et de Plerograph des
Hydrocarbons, on constate que toute reprsentation Plergraph na que des sommets u de degr
soit deg(u) = 1 soit deg(u) = 4, ce qui exige que leurs artes ne sont que des artes ayant des
extrmits de 1 ou 4. Et donc la formule 5.6 pour le Plerograph devient.
Corollaire 5.1. Les indices topologiques bass sur les degrs du graphe de Plerograph sont
dfinis comme suit :
h
(5.8)
T I(P l) = hF (1, 4) + (2n F (4, 4))
2
O h = m14
Dmonstration. Puisquon a dit que les artes du Plerograph ne possde que les extrimts des
degrs 1 et 4 ou de 4 et 4, lquation 5.6 devient :
T I(P l) = F (1, 4)m14 + F (4, 4)m44 .
(5.9)
127
Figure 5.10 La corrlation entre 1 (Ke) et 1 (P l) pour les isomres dUndecanes (C12 H26 )
carbone). Cette corrlation a comme coefficient 0.992 ce qui veut dire que presque 1. Donc, la
situation avec les descripteurs bass sur les valeurs propres nest pas trs bonne, par ce que
cette corrlation est assez bonne que la dpendance structurelle des deux types, est pratiquement identique. Le cas de lindice dEstrada reste diffrent, comme dans la Figure 5.11, qui
Figure 5.11 La corrlation entre EE(Ke) et EE(P l) pour les isomres dUndecanes (C12 H26 )
montre les indices dEstrada des Plerograph EE(P l) et du Kenograph EE(Ke) pour les isomres dUndecane. La figure montre que lindice dEstrada de Plerograph EE(P l) est presque
indpendant de la structure molculaire, ce qui nest pas le cas avec lindice dEstrada de Kenograph EE(Ke) dont les valeurs varient dans un intervalle assez grand. Ce qui explique que
les deux reprsentations sont totalement indpendantes dans le cas lindice dEstrada.
128
Vu lexistence dune relation linaire exacte entre les indices de Wiener calculs en utilisant
les reprsentations Kenograph W (Ke) et Plerograph W (P l) des isomres dAlkane (voir les
prcdents paragraphes) et puisque lindice de Wiener est le prdcesseur de lindice de Terminal
de Wiener on a essay dans le papier [108] de dcortiquer la relation entre les indices de Terminal
de Wiener calculs en utilisant les reprsentations Kenograph T W (Ke) et Plerograph T W (P l)
croyant quon pouvait les relier. Aprs plusieurs efforts on a su la fin que cette relation
ne sera jamais linaire ni approximativement linaire. Mais, on a dcouvert que elle possde
un comportement particulier (voir la Figure 5.12) ncessite une tude particulire. Car nous
avons constat que lindice de Terminal de Wiener T W dpond de la structure des molcules.
Alors, cette section va tudier la dpendance de lindice de Terminal de Wiener aux structures
Kenograph Ke et Plerograph P l.
3.1
3.1.1
129
Discussion
Puisque la dfinition de lindice de Terminal de Wiener se base sur le produit du nombre des
feuilles existantes aux extrmits de chaque arte (p1 /p2 ) du graphe (voir la dfinition 4.2) les
groupes construits aux figures des isomres, comme la Figure 5.12, sinfluencent automatiquement au nombre de feuilles not par p dans chaque isomre. Lors de linspection de la Figure
5.12 ou les autres figures pour n 6= 9 on dduit automatiquement que les points de donnes
sont regroups en quelques groupes disjoints. Et daprs ce quon a dit au dbut, il nest pas
130
(5.10)
Pour p = 3
Si dans la reprsentation Kenograph le nombre de feuilles p = 3 alors, toute arte de ce
graphe est de (1, 2) type. Et puisque tous les isomres de tel Kenograph nont que ces
types dartes lindice de Terminal de Wiener de tout isomre de ce Kenograph pour
p = 3 et pour n 4 sera :
T W (Ke) = 1 2(n 1) = 2(n 1).
(5.11)
Car on a n 1 artes.
Cette quation signifie que tous les isomres dAlkane ayant quun seul atome du carbone du degr 3 (cest--dire lie trois autres atomes du carbone) du Kenograph ont
la mme valeur de Terminal de Wiener T W (Ke), par contre chaque isomre possde
sa propre valeur de Terminal de Wiener de Plerograph T W (P l). Et si on analyse la
Figure 5.12 et ses groupes, on dduit rapidement que le groupe des points de donnes
correspond ce type des isomres (p = 3) nest que le deuxime groupe du ct le
plus gauche (La seule ligne verticale. Et si on remplace dans lquation 5.3 n par
9 on trouve exactement T W (Ke) = 16 pour tout le groupe et diffrentes valeurs de
Plerograph T W (P l)).
Pour p = 4
Dans le cas o p = 4, on aura deux combinaisons, soit (1, 3) soit (2, 2). Cest--dire
que toute arte de Kenograph est : soit de (1, 3) type ou bien de (2, 2) type. La
131
deuxime chose attirante de ce cas est que lisomre du plus petite valeur de Terminal
de Wiener T W (Ke) est celui qui possde au moins 4 artes de (1, 3) type. Et celui
de plus grande valeur de Terminal de Wiener T W (Ke) est celui possdant au plus 4
artes de (1, 3) type et toutes les autres sont de (2, 2) type. Donc, tous les isomres
de Kenograph o p = 4 et n 5 ont comme indice de Terminal de Wiener pour le
Kenograph T W (Ke) :
1 3(n 1) = 3n 3 T W (Ke) 1 3(4) + 2 2(n 5) = 4n 8.
(5.12)
(5.14)
Et pour p = 7 et n 10 on aura :
6n + 6 T W (Ke) 12n 54.
(5.15)
Et cette situation nous confirme lhypothse quon a dj suppos, disant que chaque
groupe de points de donnes correspond une valeur particulire de T W (Ke).
132
exemples, quon a trait dans le mme article [108]. Pour n = 15 par exemple, il existe
des Kenographs avec deux cas de nombre de feuilles diffrents p = 5 et p = 6 (voir la
Figure 5.13) mais les deux isomres possdent la mme valeur de Terminal de Wiener
T W (Ke). Et pour n 15 quelques Kenographs avec p = 5 ont une valeur de Terminal
de Wiener plus grande que quelques Kenographs avec p = 6. Maintenant, si on prend par
133
3.2
Pour faciliter le passage au cas gnrale de lindice de Terminal de Wiener pour le type Kenograph, on tait oblig de revenir au cas de p = 3 o on a une seule valeur pour tous les
isomres de type Kenograph et des valeurs diffrentes pour chaque isomre de type Plerograph.
Puis le comparer au cas de p 4 o on a plusieurs sous-groupes de chaque cas de p. Ce qui
nous a demand de chercher la cause de ces diffrents comportements de T W (Ke) dun cas
un autre. A la fin on est arriv dterminer la cause drire ces comportements. On a compris
que ces diffrentes valeurs lors du passage du cas o p = 3 celles du cas o p 4 venu du
faite que dans le premier cas on a quune seule permutation, cest--dire on a que les artes de
(1, 2) type. Par contre le cas par exemple de p = 4, on a deux permutations, cest--dire ou
on a les artes de (1, 3) type et celles de (2, 2) type, et ainsi de suite pour les autres cas o
p 5.
3.2.1
Le rsultat principal
On a t dirig lastuce suivant, on change la place des artes et donc automatiquement son
type sera chang et tout a va influencer dune manire indirecte aux valeurs de T W (Ke). Notre
astuce est expliqu la Figure 5.15. Dans ce schma on explique le passage du Kenograph Ke
sa transformation Ke0. Dans le Kenograph Ke les artes uv, ij et jk sont respectivement
de (q, p q) type (q feuilles au ct droit de larte uv et p q feuilles dans lautre ct),
(1, p 1) type et (1, p 1) type. Et dans sa transformation Ke0 on a chang la place
dune arte du faite quil devient les artes uj, jv et ik respectivement de (q, p q) type,
(q, p q) type et (1, p 1) type o q est entier infrieur ou gale p (voir la figure 5.15).
Le thorme suivant nous explique ce qui se passe lorsquon change le (p1 , p2 ) type dune seule
arte.
134
Thorme 5.6. Soit la reprsentation Kenograph Ke possdant p feuilles, et dont ses dtails
sont expliqus dans la Figure 5.12. Faisant la transformation de Ke Ke0, comme il montre
la mme figure. Et soit aussi larte uv de la mme reprsentation Ke de (q, p q) type, o
q p. Alors :
T W (Ke0) T W (Ke) = q(p q) (p 1).
(5.16)
Dmonstration. Daprs ce quon a expliqu la Figure 5.15, et en appliquant la dfinition de
Terminal de Wiener, on aura :
T W (Ke) = q(p q) + (p 1) + (p 1) + T C
T W (Ke0) = q(p q) + q(p q) + (p 1) + T C
O T C est la partie de lquation commune entre Ke et Ke0. En faisant la diffrence entre les
deux quations on parvient lquation 5.16.
Remarque 5.2. Si q = 1, nous trouvant le cas trivial o T W (Ke0) = T W (Ke), et si q 2, on
aura T W (Ke0) > T W (Ke).
3.2.2
Discussion
Pour enrichir les discussions faites au dbut de cette section, nous avons appliqu le prcdent
thorme aux cas de la Figure 5.12. Ces cas sont cits dans le corollaire suivant :
Corollaire 5.2. Les cas spciales suivant sont trs importants :
1. Si p = 4, et puisque q |p = 2| = 2, donc obligatoirement q = 2, et par consquence
T W (Ke0) T W (Ke) = 1.
135
3.3
Ltude de la dependance des valeurs de T W (P l) la structure molculaire est plus complique si lon compare avec la dependance de celles de T W (Ke). Car, comme on le sait depuis
le premier chapitre de ce mmoire, Le type Plerograph comporte plus de sommets que son
analogue Kenograph. Et autant que les sommets sajoutent autant que le nombre des isomres
saugmente, ce que veut dire dune faon ou dune autre que les artes de (p1 , p2 ) type se
multiplient. Et on sera la fin dans une situation plus complique, et difficile ne serait que
pour lanalyser. Afin de montrer la complexit de cette situation on a tudi dans le mme
article des nos prcdents travaux, juste le cas de Plerograph dont p = 3. Et comme on a vu
prcdemment, ce cas est le plus simple, et o tous les Kenograph ont la mme valeur de T W .
3.3.1
Le rsultat principal
3
X
k=1
136
a2k
3
7
5
4X
a3k + n + .
3 k=1
3
3
(5.17)
ak
3 X
X
k=1 i=1
ak
3 X
X
= (2n + 2)(2n + 1) +
= 2(n 1)
3
X
a2k
k=1
3.3.2
4
3
(2i + 1)(2n 2i + 1)
k=1 i=1
3
X
a3k +
k=1
7
5
n+ .
3
3
Discussion
Donc, si on constate profondment le thorme 5.7, on dduit facilement que lindice de Terminal
de Wiener du Plerograph T W (P l) dpend de la longueur des trois branches, autrement dit, il
dpond de a1 , a2 et a3 . Et en se basant sur le thorme 5.7, Le thorme suivant, nous donnerons
le Plerograph de plus grande et plus petite valeur.
Thorme 5.8. Soient n 4, et a1 + a2 + a3 = n 1 avec a1 a2 a3 . Donc,
La valeur de T W (P l(a1 , a2 , a3 )) est la plus grande si et seulement si a1 = a2 = 1 et a3 = n3.
La valeur de T W (P l(a1 , a2 , a3 )) est la plus petite si et seulement si a3 a1 1.
Dmonstration. Evident.
Dans ce chapitre, on a analys les diffrentes relations et/ou corrlation reliant les structures
des molcules aux expressions des indices topologiques en particulier les indices de Wiener et
celui de Terminal de Wiener. Et cette tude est trs importante au moins pour les chimistes qui
cherchent toujours comprendre les comportements inhabits de leurs molcules, surtout celles
de la chimie organique comme les Alkanes par exemple. Mais si on largie le cercle de cette tude,
137
on trouve quautomatiquement elle atteint dune manire ou dune autre les biologistes aussi.
Car tous les protines ne sont que des molcules. Maintenant quon a compris limportance de
ce travail au niveau de la chimie et la biologie, on sera capable de comprendre son rle radicale
pour le processus de la dcouverte de nouveaux mdcaments ou ce quon appelle par Drag
discovert que nous avons dj introduit dans nos prcdents chapitres.
138
Dans le cadre de cette thse, nous avons tudi quelques indices topologiques ; comme lindice
de Wiener, lindice dHyper-Wiener, lindice de degr de distance et lindice de Terminal de
Wiener. Les molcules chimiques sont modlises par des graphes molculaires trs complexes.
Le but de notre thse est de trouver des formules qui permettent de calculer des indices topologiques des graphes molculaires plus facilement. en ameliorant leurs formules de dfinition,
dune part et de voir les diffrentes relations qui peuvent tre cres entre eux dautre part, en
les regroupant en des relations particulires selon leur matire premire de dfinition (comme la
distance entre deux sommets, le degr de sommet, ...) afin damliorer les mthodes de slection
de variables qui sont lune des principaux tapes de processus de la modlisation. Durant ces
annes de thse nous avons aussi tudi les diffrentes faons de transformer la molcule ou
le compos molculaire, en particulier ceux qui sont de type organique, en un graphe planaire
simple et connexe qui a t le sujet central de cette thse en rendant service nos collgues les
chimistes qui ont utilis la transformation Kenograph pendant cent vingt annes sans chercher
les raisons de cette domination de cette reprsentation sur celle de Plerograph. Les techniques
traditionnelles de modlisation tablissent une relation entre la grandeur modlise et un vecteur de variables qui la dterminent. Les principaux obstacles de ces mthodes rsident dans la
difficult du choix des variables pertinentes lors de la phase de modlisation, et dans leur calcul
ou leur mesure pralable. Dans ce rapport qui a t form de trois principales parties, dont la
premire est ddie aux concepts de base de la thorie de graphe (dfinitions et proprits) dans
son premier chapitre et lexplication de la notion de prdiction de proprits et dactivits
de molcules travers les tudes QSAR et QSP R en dtaillant leurs principaux tapes ainsi
que leurs diffrentes mthodes dans son deuxime chapitre. Le troisime chapitre qui sintgre
dans la deuxime partie de ce rapport a t consacr aux principales mthodes de calcul de
lindice de Wiener soit pour les graphes en gnrale soit pour les arbres en particulier et le
139
140
141
142
Pour introduire et toucher de prt la notion de classification, voyons ensemble ces exemples
simples de classification quon les trouve dans notre vie quotidienne, et travers desquels on
comprend la notion de classification.
Exemple .1. Quelques exemples de classification :
Un exemple courant dapplication de la classification est le tri automatique du courrier par
un dispositif de lecture et dinterprtation du code postal ou de ladresse manuscrite. Pour
143
Puisque les objets quon manipule et on cherche les dcrivent, pour les classer, durant ce
mmoire, peuvent tre vus comme des formes (les molcules) ; nous expliquerons dans ce paragraphe le dispositif de reconnaissance automatique de formes, qui est gnralement conu
comme une chane de modules de traitement [58]. Ainsi, un systme de reconnaissance de
formes comporte habituellement :
2.1
Module dacquisition
Dans ce module, les capteurs mesurent des grandeurs caractristiques de lobjet classer. Cet
ensemble de grandeurs constitue la premire reprsentation de lobjet.
144
2.2
Module de prtraitement
Dans ce module on trouve des algorithmes de filtrage, par ce quil se peut tre judicieux de
modifier les grandeurs brutes issues des capteurs par un algorithme afin de tenir compte des
connaissances qui peuvent tre disponibles a priori sur le problme. Par exemple de filtres
destins annuler les effets de taille ou de positionnement pour la classification envisage.
2.3
Modules complmentaires
Aprs le module de prtraitement, autres modules de traitement peuvent tre se trouvs, qui
laborent les reprsentations successives de lobjet ; ces diffrentes reprsentations ont gnralement pour objectif de rduire la dimension de la reprsentation, cest--dire de diminuer le
nombre de descripteurs de lobjet, et dlaborer des descripteurs de plus en plus pertinents pour
la tche de classification accomplir.
2.4
Module de classification
2.5
Exemple .2. La Figure A.1 illustre un exemple dune chane de classification comporte un
seul module de prtraitement. On rappelle juste que le module dacquisition de cette chane,
dans notre thse la phase de la transformation dune molcule (ou un systme molculaire) en
un graphe planaire qui lui correspond, puis aprs cette transformation on calcule les descripteurs (indices) topologiques que nous les utiliserons par la suite dans la phase de classification.
Dans la figure on distingue aussi les trois modules et les reprsentations successives de lobjet. Naturellement, on peut imaginer un dispositif sans module de prtraitement ; dans ce cas
lalgorithme de classification travaille directement sur les grandeurs releves par les capteurs.
Remarque .3. Dans le processus dun systme de reconnaissance de formes La tche de lalgorithme de classification est dautant plus aise que la reprsentation de lobjet est pertinente.
Par exemple dans un problme de commande dun processus chimique, on peut imaginer que
la distinction entre les situations normales et les situations de danger est entirement dfinie
145
Les exemples prcdents font apparatre la classification comme une tche qui consiste ranger
des formes ou individus dcrits par un ensemble de variables descriptives en un certain nombre
de catgories ou classes dfinies priori.
Traduit en termes mathmatiques, un problme de classification comporte les ingrdients suivants :
une population de N individus I i , (i variant de 1 N ),
P variables descriptives Xdi , qui permettent de dcrire les individus ; elles sont aussi appeles
plus simplement descripteurs (variant de 1 P ),
C classes Ck , dans lesquelles on cherche ranger les individus (k variant de 1 C),
Rsoudre un problme de classification, cest trouver une application de lensemble des objets
classer, dcrits par les variables descriptives choisies, dans lensemble des classes. Lalgorithme
ou la procdure qui ralise cette application est appel classifieur.
Les variables descriptives considres ici sont celles qui sont fournies lalgorithme de classification. Comme indiqu plus haut, elles peuvent tre le rsultat dun prtraitement des variables
initiales.
Pour diffrencier les mthodes de classification existantes : les mthodes paramtriques, non
paramtrique, semi paramtriques, symboliques, non symboliques, probabilistes et
non probabilistes ; tudiant ensemble ces exemples de classification.
146
4.1
4.1.1
La classification exacte
Le rangement de pices de monnaie
Nous trouvons un premier exemple de classification dans la vie de tous les jours : le rangement
de pices de monnaie. En effet, un commerant doit, de temps autre, rassembler les pices
identiques contenues dans sa caisse afin den faire des rouleaux quil remettra la banque.
Dans cet exemple, le fond de caisse du commerant constitue la population concerne, chaque
individu est une pice de monnaie. Les classes sont au nombre de neuf :
Pices de 5 centimes
Pices de 50 centimes
Pices de 5 Dirhams
Pices de 10 centimes
Pices de 1 Dirhams
Pices de 10 Dirhams
Pices de 20 centimes
Pices de 2 Dirhams
pices trangres ou fausses
Les variables descriptives sont nombreuses, on trouve par exemple : Diamtre, paisseur, poids,
couleur(s), matriau (composition chimique), mot/chiffres/dessins en relief la surface, bruit
qui fait la pice en tombant,... Ces descripteurs peuvent tre considrs comme des grandeurs
descriptives potentielles. Dans notre exemple, chacun dentre eux est pertinent pour dpartager
les pices. Cependant, il nest pas ncessaire de les utiliser tous. En ralit, les descripteurs dont
peut se servir le commerant sont la couleur et le diamtre (mme sil ne le mesure pas, mais
lvalue seulement). Dans ce cas, la relation F 1 qui relie les variables descriptives la classe
est de la forme :
(1)
On voit donc que plusieurs rgles de dcision, toutes aussi pertinentes les unes que les autres,
permettent de ranger cette population dans les classes dsires. Dans cet exemple, les fonctions
peuvent tre dcrites explicitement (le commerant ou laveugle peuvent expliquer comment
147
ils procdent) et elles conduisent au mme rsultat. Lorsquune telle tche doit tre effectue
de manire rptitive, on est tent de la confier un automate (cest dailleurs le cas dans
les caisses automatiques de parkings, distributeurs de titres de transport, etc.). En effet, ds
que les variables descriptives et la fonction peuvent tre exprimes si simplement, une telle
classification mcanique peut facilement tre ralise par un automate ralisant une suite
doprations logique (systme expert). Celui-ci se fondera peut-tre sur le gabarit, le poids ou
la composition chimique des pices, cest--dire utilisera la fonction suivante :
H(poids, diamtre, composition chimique) = classe de pice.
(2)
Malheureusement, les processus de classification ne sont pas toujours aussi simples et la rgle
de dcision ne peut pas toujours tre explicite.
4.1.2
Dautres tches de classification, qui sont, elles, fondes sur lintuition, sont susceptibles dtre
automatises. La notation des restaurants dans les guides touristiques est, par exemple, un
problme de classification plus complexe. Il sagit bien de classer nimporte quel restaurant dans
lune des quatre classes : aucune toile, une toile, deux toiles ou trois toiles. En essayant
soi-mme dvaluer tous les restaurants o lon a dj mang (en prenant quatre niveaux :
exceptionnel, satisfaisant, correct et viter) puis dexpliquer sa propre classification.
Remarque .4. on constate que :
il nest pas toujours facile de faire la liste des lments que lon prend en considration (les
variables descriptives),
il est quasiment impossible de formaliser la rgle de dcision que lon adopte, cest--dire
de dcrire comment slabore notre jugement. Dans un cas, le sourire de la serveuse aura
suffi compenser la tideur du steak et la table sera classe correcte ; une valeur trs
positive de variable service aura prdomin sur la pitre qualit du repas. Dans une
autre circonstance, un dlicieux foie gras fera oublier quon la attendu trois quarts dheure
en contemplant des murs lpreux ; la variable qualit du repas la emport sur deux variables
service et cadre, etc.
Ainsi, la classification est souvent complexe dans les problmes pour lesquels lexpert ragit en
fonction de son intuition et ne peut pas toujours formaliser la fonction quil adopte. Pourtant,
il peut tre ncessaire de savoir reproduire la classification de lexpert. Par exemple, les chargs de clientle dune banque ne peuvent pas se contenter systmatiquement dune valuation
subjective et personnelle de solvabilit dun client qui leur demande un prt. Or, donner un
148
avis favorable ou dfavorable la demande du client revient effectuer une classification des
demandes en deux classes : celles que lon accepte et celles que lon refuse. Limage de marque
de la banque et sa scurit financire exigent que cette classification soit unifie, dans toute la
mesure du possible.
4.2
4.2.1
La classification probabiliste
La discrimination des femmes des hommes
Dans les exemples prcdents, la classe des individus est bien dfinie ; mais ce nest pas toujours
le cas. Considrons une autre tche qui consiste discriminer les femmes des hommes partir
du seul facteur : taille. Pour simplifier, supposons que, lon dispose des deux lments suivants :
Il y a autant de femmes que dhommes dans la population considre
Aprs la croissance, les femmes adultes mesurent en moyenne 1, 65 m avec un cart-type de
16 cm (moyenne gale 1, 75 m et cart-type gale 15 cm pour les hommes). Ces donnes
nont bien videmment aucune valeur significatives ; juste titre dexemple.
La question dont nous chercherons sa rponse est : quelle est le sexe dune personne mesurant
1, 60 m ?
Comment rpondre intelligemment cette question ? Une premire rflexion de bon sens conduit
dire que cette personne est une femme. Mais, tout le monde connat des hommes de cette
taille. La rponse est donc errone. Une meilleure rponse consistera dire, par exemple, que
cet individu a une probabilit de 60% dtre une femme et la probabilit complmentaire dtre
un homme (40%).
Nous navons plus faire une classification binaire (cest une femme ou cest un homme) mais
une classification probabiliste. De plus, face un tel problme, une rponse probabiliste est
une bonne solution ; en effet, la taille ne suffit pas dpartager distinctement les deux classes,
mais elle apporte une information interprte en termes de probabilit.
Lorsque lexpert ne peut pas expliciter son processus de classification, il faut se tourner vers
des systmes de classification qui apprennent par exemple . A partir dun lot dindividus dj
classs par lexpert, le systme peut apprendre classer comme lexpert. Aprs apprentissage,
le systme est capable de classer de nouveaux individus.
149
5.1
Le principe de rsolution
Prenons lexemple de la lecture qui est aussi un exercice de classification. En effet, elle consiste,
pour un texte normal, classer des signes en 26 classes que sont les lettres de lalphabet. Si
la classification sous-jacente toute lecture ne pose pas beaucoup de problmes lorsquil sagit
dun document imprim, on sait quel point lexercice peut devenir difficile avec certaines
critures manuscrites. Par exemple, les signes ci-dessous doivent-ils tre lus a ou ce ?
Dans la pratique, le contexte permet dlucider la plupart de ces difficults de dchiffrage dune
criture, cest--dire de classification des signes qui la composent. Mais, lorsque le sens ne
permet pas cette lucidation, il reste la possibilit de regarder comment sont crits les autres
a que lon a reconnus de manire certaine.
Ce petit exemple illustre le principe de rsolution des problmes de classification partir dobservations, que nous dsignons, conformment lusage dans le domaine des rseaux de neurones, sous le terme dexemples. Pendant la phase dapprentissage, on apprend reconnatre
la lettre a dans quelques cas non ambigus, et, par la suite, on peut identifier ce signe dans
dautres situations.
5.2
5.2.1
Premire tape
faire classer un chantillon dindividus par un expert ; cet chantillon est dsign, dans le domaine des rseaux de neurones, sous le nom de base dapprentissage,
5.2.2
Deuxime tape
150
5.2.3
Troisime tape
5.2.4
Dernire tape
5.3
151
F1 3 suivante :
F1 (X, Y, Z) =
A,
A,
...,
C,
Si X = 1, Y = 2 et Z = 4 ;
Si X = 3, Y = 2 et Z = 6 ;
... ;
Si X = 7, Y = 7 et Z = 5.
(3)
F1 3 nonce, individu par individu, la classification de lexpert quelle reproduit donc parfaitement. Mais, si lindividu suivant est dcrit par (2; 0; 0), dans quelle classe se range-t-il ? Cette
premire fonction envisage ne permet pas de rpondre. On peut dire quelle est top spcialise.
Considrons une autre fonction, F2 4, dfinie par :
F2 (X, Y, Z) =
A, Si X + Y < Z ;
B, Si X + Y = Z ;
C, Si X + Y > Z.
(4)
152
Alors que son collgue vient juste de trouver cette fonction F2 4 qui semble satisfaisante, lexpert
revient et lui apprend quen fait la fonction de classification ne portait que sur Y , quil ne fallait
tenir compte ni de X ni de Z figurant dans le dossier pour dutilisations. Sa rgle est en effet :
F (X, Y, Z) =
A, Si Y est pair ;
B, Si Y = 0 ;
C, Si Y est impair.
(5)
Cet exemple illustre, de faon caricaturale, les principales difficults que lon rencontre dans la
rsolution par apprentissage.
Problme .1. Donc, on peut dire que les problmes de la classification supervise sont :
Choix des variables descriptives : dans lexemple, si la seule variable Y avait figur, la rgle
de classement fonde sur la parit aurait vraisemblablement saut aux yeux !
Optimisation de la fonction : il faut toujours trouver un compromis entre une fonction trs
performante sur les individus de la base dapprentissage et une fonction peut-tre moins
performante sur lchantillon, mais qui prsente de meilleures capacits de gnralisation .
Taille de lchantillon : si la classe B avait comport 50 individus, on aurait certainement vu
que leur point commun tait davoir une valeur de Y nulle. Autrement dit, la base dapprentissage doit tre suffisamment grande et reprsentative.
La suivante section rsumera tous ce que nous venons de le discuter dans ce prsent chapitre.
Elle donnera la notion pratique de la classification, ses types, et quelques domains dapplication.
6
6.1
Comme nous lavons vu durant ce brve chapitre, les approches utilises pour rsoudre le
problme de classification sont nombreuses, dont la premire est lapproche systmes experts
, dans laquelle la connaissance dun expert est dcrite sous forme de rgles. Cet ensemble de
rgles forme un systme expert qui est utilis pour classifier de nouveaux cas. Cette approche,
qui tait largement utilise dans les annes 80, dpend fortement de la capacit extraire et
formaliser les connaissances de lexpert.
153
6.2
Systme dapprentissage
6.2.1
Les mthodes statistiques supposent que les descriptions des objets dune mme classe se rpartissent en respectant une structure spcifique la classe. On fait des hypothses sur les
distributions des descriptions lintrieur des classes et les procdures de classification seront
construites laide dhypothses probabilistes. La varit des mthodes viendra de la diversit
des hypothses possibles. Ces mthodes sont appeles semi-paramtriques. Des mthodes non
paramtriques (sans hypothse a priori sur les distributions) ont t galement proposes en
statistiques.
6.2.2
Les mthodes issues de lintelligence artificielle sont des mthodes non paramtriques. On distingue les mthodes symboliques (la procdure de classification produite peut tre crite sous
forme de rgles) des mthodes non symboliques ou adaptatives (la procdure de classification
produite est de type bote noire). Parmi les mthodes symboliques, les plus utilises sont
bases sur les arbres de dcision. Pour les mthodes adaptatives, on distingue deux grandes
classes : les rseaux de neurones et les algorithmes gntiques.
154
6.2.3
Lapprentissage automatique, dans une dfinition trs gnrale, consiste en llaboration des
programmes qui samliorent avec lexprience. Les applications sont nombreuses et concernent
des domaines trs varis. On peut citer, par exemple, la reconnaissance de formes avec, en particulier, la reconnaissance de la parole et du texte crit, le contrle de processus et le diagnostic
de pannes, les programmes de jeu.
Les mthodes dapprentissage partir dexemples sont trs utilises dans la recherche dinformations dans de grands ensembles de donnes. En effet, lvolution de linformatique permet de
nos jours de manipuler des ensembles de donnes de trs grande taille (datawarehouse ou entrept de donnes). Par exemple, les chanes de magasin peuvent mmoriser de grandes quantits
de donnes concernant les consommateurs et ce quils achtent. Le dveloppement des technologies Internet et Intranet font que de nombreuses donnes issues de sources diverses et dans
des formats varis deviennent accessibles.
Le processus de recherche dinformations dans de grands ensembles de donnes (KDD : Knowledge Discovery in Databases) comporte diffrentes tapes :
1. la slection des donnes (extraction des informations de lentrept) ;
2. la prparation des donnes (suppression des doublons, limination des donnes aberrantes,
...) ;
3. le codage des donnes (normalisation des donnes, choix de codage,...) ;
4. la phase dextraction proprement dite appele fouille de donnes (Data mining) ;
5. la sortie des rsultats.
La phase dextraction dinformation utilise les outils usuels dinterrogation tels que les requtes
SQL standard et les requtes multi-dimensionnelles, mais aussi, pour lextraction dinformations
caches, les algorithmes dapprentissage partir dexemples. Les algorithmes les plus utiliss
sont : les k-plus proches voisins, les arbres de dcision, les systmes de rgles (programmation
logique inductive), les rseaux de neurones et les algorithmes gntiques. Citons, parmi dautres,
quelques applications et leur domaine :
Chimie : les mthodes de QSAR/QSPR, les mthodes de criblage virtuel,
Analyse financire : prvision dvolution de marchs,
Banque : attribution de prts,
Mdecine : aide au diagnostic, dcouvert des nouveaux mdicaments.
Tlcom : dtection de fraudes.
155
156
Rfrences bibliographiques
[1] International Conference on Discrete Mathematics and Computer Science (DIMACOS11), 2011. 2, 45, 98
[2] International Workshop On Inforamation Technologies and Communication (WOTIC2011), 2011. 2, 58, 63, 64, 96
[3] The 3rd International Conference on Multimedia Computing and Systems (ICMCS12),
2012. 2, 49, 56, 57, 58, 59, 63, 64, 83, 84, 86, 92, 93, 95, 96
[4] International Symposium On Signal, Image, Video and Communications (ISIVC2012),
2012. 2, 49, 53, 55, 56, 58, 83, 84, 85, 92, 93, 95, 96
[5] Journes Doctorales en Systme dInformation, Rseaux et Tlcommunication (JDSIRT2012), 2012. 2, 49, 53, 54, 55, 83, 84, 85, 92, 93, 95
[6] Journes Doctorales en Systme dInformatique et Tlcommunication (JDSIT12), 2012.
2, 56, 57, 59, 61, 62, 86, 95, 96
[7] Palestinian International Conference on Information and Communication Technology
(PICICT2013), 2013. 2, 49, 56, 57, 58, 59, 61, 62, 83, 84, 86, 92, 93, 95, 96
[8] A.A.Dobrynin and A.A.Kochetova. Degree distance of a graph a degree analogue of the
wiener index. J. Chem. Inf. Comput. Sci., 34(5) :10821086, 1994. 87, 89, 90
[9] A.Cayley. On the mathematical theory of isomers. Philos. Mag., 10(47) :444446, 1874.
20, 114
[10] A.Cayley. On the mathematical theory of isomers. Philos. Mag., 10 :444446, 1874. 113
[11] A.Cheng, D.Diller, S.Dixon, W.Egan, G.Lauri, and K.Merz. Computation of the physiochemical proprieties and data mining of large molecular collections. J. Comput. Chem.,
23(1) :172183, 2002. 37
157
Rfrences bibliographiques
[12] A.Crum-Brown and T.Frazer. On the connection between chemical constitution and
physiological action. Transactions of the Royal Society of Edinburgh, 25 :151203, 186869. 25
[13] A.Dobrynin. Branchings in trees and the calculation of the wiener index of a tree. MATCH
Commun. Math. Comput. Chem., 41 :119134, 2000. 67
[14] A.Dobrynin and I.Gutman. On a graph invariant related to the sum of all distances in a
graph. Publ. Inst. Math. (Beograd), 56 :1822, 1994. 65, 66
[15] A.Dobrynin, R.Entringer, and I.Gutman. Wiener index of trees : theory and application.
Acta Appl. Math., 66 :211249, 2001. 71, 72, 75, 76
[16] A.GOULON-SIGWALT-ABRAM. Une nouvelle mthode dapprentissage de donnes
structures : applications laide la dcouverte de mdicaments [thse en ligne]. PhD
thesis, Paris : Universit Pierre et Marie Curie (Paris 6), 2008. 1, 22, 23, 24, 25, 30, 31,
32
[17] A.Graovac, I.Gutman, and N.Trinajst. Topological Approach to the Chemistry of Conjugated Molecules. Springer-Verlag, Berlin, 1977. 19
[18] A.Graovac, I.Gutman, and N.Trinajst`c. Topological Approach to the Chemistry of Conjugated Molecules. 1977. 46
[19] A.Heydari and I.Gutman. On the terminal wiener index of thorn graphs. Kragujevac J.
Sci., 32 :5764, 2010. 47
[20] A.Heydari and I.Gutman. On the terminal wiener index of thorn graphs. Kragujevac J.
Sci., 32 :5764, 2010. 99, 100
[21] A.Hskuldson. Pls regression methods. Journal of Chemometrics, 2 :211228, 1988. 28
[22] A.Jain, J.Mao, and K.Mohiuddin. Artificial neural networks : a tutorial. Computer,
29(3) :3144, 1996. 30
[23] A.Leo and al. Calculation of hydrophobic constant (logp) from and f constants. Journal
of Medicinal Chemistry, 18 :865, 1975. 31
[24] A.T.Balaban. Chemical Application of Graph Theory. Academic Press, London, 1976. 19
[25] A.T.Balaban. Highly discriminating distance-based topological index. Chemical Physics
Letters, 89(5) :399404, 1982. 23
[26] A.T.Balaban, I.Motoc, D.Bonchev, and O.Mekenyan. Topological indices for structureactivity correlations. Top. Curr. Chem, 114 :2155, 1993. 46
[27] A.T.Balaban, J.W.Kennedy, and L.V.Quintas. The number of alkanes having n carbons
and a longest chain of length d. Journal of Chemical Education, 65 :304313, 1988. 19
158
Rfrences bibliographiques
[28] A.Z.Dudek, T.Arodz, and J.Glvez. Computational methods in developing quantitative structure-activity relationships (qsar) : A review. Combinatorial Chemistry & High
Throughput Screening, 9 :213228, 2006. 23, 26
[29] B.B.West. Introduction to graph theory. Pearson Education (Singapore), 2002. 7, 10
[30] B.Furtula, A.Graovac, and D.Vukicevi. Augmented zagreb index. J. Math. Chem.,
48 :370380, 2010. 126
[31] B.Horvat, T.Pisanski, and M.Randi. Terminal polynomials and star-like graphs. MATCH
Commun. Math. Comput. Chem., 60 :493512, 2008. 98
[32] B.Lin, H.Cheng, J.Yang, and F.Xia. The wiener index of the corona two graphs cm cn .
South Asian Journal of Mathematicas, 2(2) :122125, 2012. 59
[33] B.Liu and Z.You. A survey on comparing zagreb indices. MATCH Commun. Math.
Comput. Chem., 65(3) :581593, 2011. 126
[34] C.Berge. Graphes et hypergraphes. 1970. 7, 10
[35] C.Cortes and V.Vapnik. Support-vector networks. Mach. Learn., 20 :273297, 1995. 30
[36] C.Hansch, A.Leo, and D.Hoekmann. Exploring QSAR : hydrophobic, electronic and steric
constants. Washington, DC : American Chemical Society, 1995. 2, 23
[37] C.Senese, J.Duca, D.Pan, A.Hopfinger, and Y.Tseng. 4d-fingerprints, universal qsar and
qspr descriptors. J. Chem. Inf. Model., pages 15261539, 2004. 30
[38] D.Bonchev. Information Theoretic Indices for Characterization of Chemical Structure.
Research Studies Press, 1983. 19
[39] D.Bonchev. Information Theoretic Indices for Characterization of Chemical Structure.
Chichester, 1983. 46
[40] D.Bonchev and D.H.Rouvray. Chemical Graph Theory Introduction and Fundamentals.
Gordon & Breach, 1991. 19
[41] D.Bonchev and D.H.Rouvray. Chemical Graph Theory Introduction and Fundamentals.
Gordon & Breach, 1991. 20
[42] D.Bonchev and D.H.Rouvray. Chemical Graph Theory Introduction and Fundamentals.
Gordon Breach, New York, 1991. 46
[43] D.Chakrabarti. Tools for Large Graph Mining. PhD thesis, Center for Automated Learning and Discovery, School of Computer Science, Carnegie Mellon University, Pittsburgh,
PA 15213, 2005. 46
[44] D.H.Rouvray. The value of topological indices in chemistry. Commun. Math. Comput.
Chem. (MATCH), 1 :125134, 1975. 42
159
Rfrences bibliographiques
[45] D.H.Rouvray. Mathematics and computational concepts in chemistry. Horwood, Chichester, pages 295306, 1986. 46
[46] D.H.Rouvray. Predicting chemistry from topology.
255 :3643, 1986. 19
[47] D.H.Rouvray. The prediction of biological activity using molecular connectivity indices.
Acta Pharm. Jugosl., 36 :239251, 1986. 47
[48] D.H.Rouvray. The challange of characterizing branching in molecular species. Discr.
Appl. Math, 19 :317338, 1988. 46
[49] D.H.Rouvray and B.C.Crafford. The dependence of physicochemical properties on topological factors. South Afr. J. Sci., 72 :4751, 1976. 42
[50] D.H.Rouvray and R.B.King. Chemical Applications of Topology and Graph Theory, pages
159177. 1983. 46
[51] D.J.Klein and I.Gutman. Wiener-number-related sequences. J. Chem. Inf. Comput. Sci.,
39 :534536, 1999. 82
[52] D.J.Klein, I.Lukovits, and I.Gutman. On the definition of the hyper-wiener index for
cycle-containing structures. J. Chem. Inf. Comput. Sci., 35 :5052, 1990. 82
[53] D.J.Klein, Z.Mihali, D.Plavsi, and N.Trinajsti. Molecular topological index : A relation
with the wiener index. J. Chem. InJ Compur. Sci., 32 :304305, 1992. 87, 88
[54] D.Kitchen, H.Decornez, J.Furr, and J.Bajorath. Docking and scoring in virtual screening
for drug discovery : methods and applications. Nat. Rev. Drug Discov, 3 :935949, 2004.
35
[55] D.M.Cvetkovi and I.Gutman. Note on branching. Croat. Chem. Acta, 49 :115121, 1977.
127
[56] D.Plavsi, S.Nikoli, N.Trinajsti, and Z.Mihali. On the harary index for the characterization of chemical graphs. J. Math. Chem., 12 :235250, 1993. 79
[57] D.Plavsi, S.Nikoli, N.Trinajsti, and D.J.Klein. Relation between the wiener index and
the schultz index for several classes of chemical graphs. Croat. Chem. Acta., 66 :345353,
1993. 87
[58] D.Price. Classification probabiliste par rseaux de neurones : application la reconnaissance de lcriture manuscrite. PhD thesis, lUniversit pierre et Marie Curie-Paris VI,
1996. 144
[59] D.T.Stanton. Evaluation and use of bcut descriptors in qsar and qspr studies. J. Chem.
Inf. Comput. Sci., 39(1) :1120, 1999. 24
160
Rfrences bibliographiques
[60] D.Vukicevi, A.Milicevi, S.Nikoli, J.Sedlar, and N.Trinajsti. Paths and walks in acyclic
structures : plerographs versus kenographs. ARKIVOC, pages 3344, 2005. 113, 114, 116,
117
[61] D.Vukicevi and N.Trinajsti. Wiener indices of benzenoid graphs. Bulletin of the Chemists and Technologists of Macedonia, 23(2) :113129, 2004. 47
[62] E.A.Smolenskii, E.V.Shuvalova, L.K.Maslova, I.V.Chuvaeva, and M.S.Molchanova. Reduced matrix of topological distance with a minimum number of independent parameters
distance vectors and molecular codes. J. Math. Chem., 45 :10041020, 2009. 98
[63] E.Bolton, Y.Wang, P.A.Thiessen, and S.H.Bryant. Chapter 12 pubchem : Integrated
platform of small molecules and biological activities. Annual Reports in Computational
Chemistry, 4 :217241, 2008. 22
[64] E.Estrada. Characterization of the folding degree of proteins. Bioinformatics, 18(5) :697
704, 2002. 127
[65] E.Estrada. Atombond connectivity and the energetic of branched alkanes. Chem. Phys.
Lett, 463 :422425, 2008. 126
[66] E.Estrada. The Structure of Complex Networks-Theory and Applications. Oxford Univ.
Press, 2012. 127
[67] E.Heilbronner. A simple equivalent bond orbital model for the rationalization of the
c2s photoelectron spectra of the higher nalkanes, in particular of polyethylene. Helv.
Chim. Acta, 60 :22482257, 1977. 114
[68] E.R.Canfield, R.Robinson, and D.H.Rouvray. Determination of the wiener molecular
branching index for the general tree. J. Comput. Chem., 6 :598609, 1985. 70
[69] E.Russo. Chemistry plans a structural overhaul. Nature Jobs, 419 :47, 2002. 21
[70] F.Bonachera. Les triplets pharmacophoriques flous : dveloppement et applications [thse
en ligne]. PhD thesis, Lille : Universit Lille1 sciences et tchnologies, 2011. 22, 23, 24,
25, 26, 35, 37
[71] F.Diot, E.Fromont, B.Jeudy, E.Marilly, and O.Martinot. Graph mining for object tracking
in videos. ECML PKDD 2012, Part I, LNCS, 7523 :394409, 2012. 46
[72] F.R.Burden. Molecular identification number for substructure searches. Journal of Chemical Information and Computer Sciences, 29 :225227, 1989. 24
[73] F.Rosenblatt. The perceptron : A probabilistic model for information storage and organization in the brain. Psychol. Rev., 65(6) :386408, 1959. 30
[74] F.Stahura and J.Bajorath. New methodologies for lignd-based virtual screening. Curr.
Pharm. Des, 11(9) :11891202, 2005. 35
161
Rfrences bibliographiques
[75] G.Bieri, J.D.Dill, E.Heilbronner, and A.Schmelzer. Application of the equivalent bond
orbital model to the c2s ionization energies of saturated hydrocarbons. Helv. Chim. Acta,
60 :22342247, 1977. 114
[76] G.Klopman and al. Computer automated logp calculations based on an extended group
approach. Journal of Chemical Information and Computer Sciences, 34(4) :752781, 1994.
31
[77] G.Al Hagri, M.El Marraki, and M.Essalih. The wiener index of some particular graph.
International Journal of Computer Science and Network Security (IJCSNS), 11(5) :6469,
2011. 2, 45, 98
[78] G.Al Hagri, M.El Marraki, and M.Essalih. The degree distance of certain particular
graphs. Applied Mathematical Sciences (AMS), 6(18) :857867, 2012. 97
[79] H.Eckert and J.Bajorath. Molecular similarity analysis in virtual screening : foundations,
limitations and novel approaches. Drug Discov, 12(5-6) :225233, 2007. 35
[80] H.H.Gnthard and H. Primas. Zusammenhang von graphentheorie und mo-theorie von
molekeln mit systemen konjugierter bindungen. Helv. Chim. Acta, 39 :16451653, 1956.
114
[81] H.Hosoya. Topological index. a newly proposed quanti ty characterizing the topological
nature of structural isomers of saturated hydrocarbons. Bull. Chem. Soc. Japan, 44 :2332
2339, 1971. 42
[82] H.Martens and T.Ns. Multivariate calibration. Chichester : Wiley, 1989. 28
[83] H.Narumi and H.Kita. Equivalent bond index. Commun. Math. Chem. (MATCH),
30 :225242, 1994. 114
[84] H.P.Schultz. Topological organic chemistry. 1. graph theory and topological indices of
alkanes. Journal of Chemical Information and Computer Sciences, 29(3) :227228, 1989.
23
[85] H.P.Schultz. Topological organic chemistry. 1. graph theory and topological indices of
alkanes. J. Chem. Inf. Compur. Sei., 29 :227228, 1989. 86, 87
[86] H.P.Schultz, E.B.Schultz, and T.P.Schultz. Topological organic chemistry. 2. graph theory,
matrix determinants and eigenvalues, and topological indices of alkanes. J. Chem. Inf.
Compur. Sci., 30 :2729, 1990. 87
[87] H.P.Schultz, E.B.Schultz, and T.P.Schultz. Topological organic chemistry. 4. graph theory,
matrix permanents, and topological indices of alkanes. J. Chem. InJ Compur. Sci, 32 :69
72, 1992. 87
162
Rfrences bibliographiques
[88] H.P.Schultz, E.B.Schultz, and T.P.Schultz. Topological organic chemistry. 7. graph theory
and molecular topological indices of unsaturated and aromatic hydrocarbons. J. Chem.
Inf. Compur. Sci., 33 :863867, 1993. 87, 88
[89] H.P.Schultz and T.P.Schultz. Topologicalorganicchemistry. 3. graph theory, binary and
decimal adjacency matrices, and topological indicts of alkanes. J. Chem. InJ Comput.
Sei., 31 :144147, 1991. 87
[90] H.P.Schultz and T.P.Schultz. Topological organic chemistry. 5. graph theory, matrix
hafnians and pfaffians, and topological indices of alkanes. J. Chem. InJ Compur. Sci.,
32 :364366, 1992. 87
[91] H.P.Schultz and T.P.Schultz. Topological organic chemistry. 6. theory and topological
indices of cycloalkanes. J. Chem. InJ Compur. Sci., 33 :240244, 1993. 87
[92] H.Stoppiglia. Mthodes statistiques de slection de modles neuronaux ; applications financires et bancaires [thse en ligne]. PhD thesis, Paris : Universit Pierre et Marie
Curie, 1997. 29
[93] H.Stoppiglia. Mthodes statistiques de slection de modles neuronaux ; applications financires et bancaires [thse en ligne]. PhD thesis, ESPCI ParisTECH, 1997. 143
[94] H.Stoppiglia and al. Ranking a random feature for variable and feature selection. Journal
of Machine Learning Research, 3 :13991414, 2003. 29
[95] H.Wang and G.Yu. All but 49 numbers are wiener indices of trees. Acta Appl.Math.,
92 :1520, 2006. 59
[96] H.Wiener. Correlation of heats of isomerization, and differences in heats of vaporization
of isomers, among the paraffin hydrocarbons. J. Am. Chem. Soc., 69 :26362638, 1947.
42, 46
[97] H.Wiener. Influence of interatomic forces on paraffin properties. J. Chem. Phys, 15 :766
766, 1947. 42, 46
[98] H.Wiener. Structural determination of paraffin boiling points. Journal of Chemical Information and Computer Sciences, 69 :1720, 1947. 23, 42, 43, 46, 65
[99] H.Wiener. Relation of the physical properties of the isomeric alkanes to molecular structure. surface tension, specific dispersion, and critical solution temperature in aniline. J.
Chem. Phys., 52 :10821089, 1948. 42, 46
[100] H.Wiener. Vapor pressure-temperature relationships among the branched paraffin hydrocarbons. J. Chem. Phys., 52 :425430, 1948. 42, 46
[101] H.Wold. Estimation of principal components and related models by iterative least squares,
in multivariate analysis, krishnaiaah, p.r., editor. New York : Academic Press, pages 391
420, 1966. 28
163
Rfrences bibliographiques
[102] H.Y.Zhu, D.J.Klein, and I.Lukovits. Extensions of the wiener number. J. Chem. Inf.
Comput. Sci., 36 :420428, 1996. 79
[103] I.Gutman. Selected properties of the schultz molecular topological index. J. Chem. Inf.
Comput. Sci., 34(5) :10871089, 1994. 87, 88, 89, 90, 91, 92
[104] I.Gutman. A property of the wiener number and its modifications. Indian J. Chem.,
36(A) :128132, 1997. 48, 49, 77, 78, 79, 80
[105] I.Gutman. Distance in thorny graph. Publ. Inst. Math(Beograd), 63 :3136, 1998. 115
[106] I.Gutman. Distance of thorny graphs. Publ. Inst. Math. (Beograd), 63 :3136, 1998. 73,
74
[107] I.Gutman, A.A.Dobrynin, S.Klavzar, and L.Pavlovi. Wiener-type invariants of trees and
their relation. Bull. Inst. Combin. Appl., 40 :2330, 2002. 77, 78, 80, 141
[108] I.Gutman, B.Furtula, J.Tosovi, M.Essalih, and M.El Marraki. On terminal wiener indices of kenograms and plerograms. Iranian Journal of Mathematical Chemistry(IJMC),
4(1) :7789, 2013. 3, 73, 74, 102, 103, 104, 105, 113, 114, 129, 133
[109] I.Gutman, B.Furtula, and M.Petrovi. Terminal wiener index. J Math Chem, 46 :522531,
2009. 65, 66
[110] I.Gutman, B.Furtula, and M.Petrovi. Terminal wiener index. J Math Chem, 46 :522531,
2009. 98, 99, 100, 101, 102
[111] I.Gutman, B.Rusci, N.Trinajsti, and C.F.Wilcox. Graph theory and molecular orbitals.
xii. acyclic polyenes. J. Chem. Phys, 62 :33993405, 1975. 88
[112] I.Gutman and D.Vidovi. Two early branching indices and the relation between them.
Theor. Chem. Acc, 108 :98102, 2002. 127
[113] I.Gutman, D.Vidovi, and L.Popovi. Graph representation of organic molecules cayleys
plerograms vs. his kenograms. J. Chem. Soc., Faraday Trans, 94(7) :857860, 1998. 113,
114, 115, 118, 119, 120, 121, 122, 129
[114] I.Gutman, D.Vidovi, and L.Popovi. On graph representation of organic moleculescayleys plerograms vs. his kenograms. J. Chem. Soc. Faraday Trans., 94 :857860, 1998.
77, 78
[115] I.Gutman and J.H.Potgieter. Performing your original search. South Afr. J. Sci., 92 :47
48, 1996. 46
[116] I.Gutman and J.H.Potgieter. Wiener index and intermolecular forces. J Serb. Chem.
Soc., 62 :185192, 1997. 46
164
Rfrences bibliographiques
[117] I.Gutman, M.Essalih, M.El Marraki, and B.Furtula. Why plerograms are not used in
chemical graph theory ? the case of terminal-wiener index. Chemical Physics Letters,
568 :195197, 2013. 3, 19, 73, 74, 113, 114
[118] I.Gutman and O.E.Polansky. Mathematical Concepts in Organic Chemistry. SpringerVerlag, 1986. 19
[119] I.Gutman and O.E.Polansky. Mathematical Concepts in Organic Chemistry. SpringerVerlag, 1986. 20
[120] I.Gutman and O.E.Polansky. Mathematical Concepts in Organic Chemistry. SpringerVerlag, 1986. 114
[121] I.Gutman and Y.N.Yeh. The sum of all distances in bipartite graphs. Mathematica
Slovaca, 45 :327334, 1995. 76
[122] I.Gutman, Y.N.Yeh, and J.C.Chen. On the sum of all distances in graphs. Tamkang J.
Math., 25 :8386, 1994. 47, 76
[123] I.Gutman, Y.N.Yeh, S.L.Lee, and Y.L.Luo. Some recent results in the theory of the
wiener number. Indian J. Chem, 32(A) :651661, 1993. 46
[124] I.Kuntz, J.Blaney, S.Oatley, R.Langridge, and T.Ferrin. A geometric approach to
macromolecule-ligand interactions. J. Mol. Biol., 161 :269288, 1982. 35
[125] I.Lukovits. Application to drugreceptor interactions. J. Chem. Soc. Perkin II, pages
16671671, 1988. 47
[126] I.Lukovits. Correlation between components of the wiener index and partition coefficients
of hydrocarbons. Intern. J. Quantum Chem. Quantum Biol. Symp., 19 :217223, 1992.
47
[127] I.M.Kapetanovic. Computer-aided drug discovery and developement (caddd) : in silicochemico-biological approach. Chem Biol Interact, 171(2) :76165, 2008. 1
[128] I.T.Jolliffe. Principal Component Analysis. New-York, NY : Springer, 2me dition, 2002.
28
[129] J.Bajorath. Selected concepts and investigations in compound classification, molecular
descriptor analysis, and virtual screening. J. Chem. Inf. Comput. Sci., 41(2) :233245,
2001. 37
[130] J.Doyle and J.Graver. Mean distance in a graph. Discrete Math, 17 :147154, 1977. 66,
67
[131] J.Glvez, R.Garci-Domenech, M.T.Salabert-Salvador, and R.Soler. Charge indexes.
new topological descriptors. Journal of Chemical Information and Computer Sciences,
34 :520525, 1994. 24
165
Rfrences bibliographiques
[132] J.H.Schuur, P.Selzer, and J.Gasteiger. The coding of the three-dimensional structure
of molecules by molecular transforms and its application to structure-spectra correlations and studies of biological activity. Journal of Chemical Information and Computer
Sciences, 36(2) :334344, 1996. 25
[133] J.Labelle. Thorie des graphes. Bibliothque nationale de Canada, 1981. 7, 10
[134] J.L.Durant, B.A.Leland, D.R.Henry, and J.G.Nourse. Reoptimization of mdl keys for use
in drug discovery. Journal of Chemical Information and Computer Sciences, 42(6) :1273
1280, 2002. 24
[135] J.M.Barnard and G.M.Downs. Chemical fragment generation and clustering software.
Journal of Chemical Information and Computer Sciences, 89-5 :141142, 1997. 24
[136] J.Quinlan. Induction of decision trees. Mach. Learn., 1 :81106, 1986. 30
[137] J.R.Dias. Molecular Orbital Calculations Using Chemical Graph Theory. Springer-Verlag,
1993. 19
[138] J.Sadowski and J.Gasteiger. From atoms and bonds to three-dimensional atomic coordinates : automatic model builders. Chemical Reviews, 93 :25672581, 1993. 33
[139] J.V.Knop, W.R.Mller, K.Szymanski, and N.Trinajsti. On the determinant of the
adjacency-plus-distance matrix as the topological index for characterizing alkanes. J.
Chem. InJ Compur. Sci., 31 :8384, 1991. 87
[140] J.W.Jalowka and T.E.Daubert. Group contribution method to predict critical temperature and pressure of hydrocarbons. Industrial and Engineering Chemistry Process Design
and Development, 25(1) :139142, 1986. 32
[141] J.Xu. Theory and Application of Graphs. Kluwer Academic Publishers, 2003. 12
[142] K.Zaretskii. Reconstruction of a tree from the distances between its pendant vertices.
Uspekhi Math. Nauk., 20 :90, 1965. 98
[143] L.B.Kier and L.H.Hall. Derivation and significance of valence molecular connectivity.
Journal Pharm Sci., 70(6) :583589, 1981. 24
[144] L.Gan, H.Hou, and B.Liu. Some results on atom-bond connectivity index of graphs.
MATCH Commun. Math. Comput. Chem., 66 :669680, 2011. 126
[145] L.Stiel and G.Thodos. The normal boiling points and critical constants of saturated
aliphatic hydrocarbons. J. Am. Inst. Chem. Eng., 8 :527534, 1962. 42
[146] L.Zhong. The harmonic index for graphs. Appl. Math. Lett., 25 :561566, 2012. 126
[147] M.A.Alipour and A.R.Ashrafi. A numerical method for computing the wiener index of
one-heptagonal carbon nanocone. Journal of Computational and Theoretical Nanoscience,
6 :14, 2009. 47
166
Rfrences bibliographiques
[148] M.EL Marraki and A.Modabish. Wiener index of planar maps. Journal of Theoretical
and Applied Information Technology(JATIT), 18(1) :710, 2010. 47, 48, 49, 73
[149] M.EL Marraki and G.AL Hagri. Calculation of the wiener index for some particular trees.
Journal of Theoretical and Applied Information Technology(JATIT), 22(2) :7783, 2010.
44, 45, 72
[150] M.Essalih, M.El Marraki, and G.Al hagri. Calculation of some topological indices. Journal
of Theoretical and Applied Information Technology (JATIT), 30(2) :122127, 2011. 2, 44,
48, 49, 52, 54, 55, 56, 57, 83, 84, 85, 86, 92, 93, 94, 95
[151] M.Essalih, M.El Marraki, and G.Al hagri. Some topological indices of spiders web planar
graph. Applied Mathematical Sciences(AMS), 6(63) :31453155, 2012. 2, 44, 49, 52, 54,
55, 56, 57, 58, 63, 64, 83, 84, 85, 86, 92, 93, 94, 95, 96
[152] M.Lepovi and I.Gutman. A collective property of trees and chemical trees. J. Chem.
Inf. Comput. Sci., 38 :823826, 1998. 76
[153] M.Randi. Characterization of molecular branching. J. Am. Chem. Soc, 97(23) :6609
6615, 1975. 23
[154] M.Randi. On characterization of molecular branching. J. Am. Chem. Soc, 97 :66096615,
1975. 126
[155] M.Randi`c. Design of Molecules with Desired Properties. A Molecular Similarity Approach to Property Optimization, in Concepts and Applications of Molecular Similarity,
chapter 5, pages 77145. John Wiley & Sons, 1990. 46
[156] M.Randi. Novel molecular descriptor for structure-property studies. Chem. Phys. Lett.,
211 :478483, 1993. 81
[157] M.Randi. 2-d graphical representation of proteins based on virtual genetic code. sar-qsar.
EnViron. Res., 15 :191205, 2004. 98
[158] M.Randi, J.Zupan, and D.V.Topi. On representation of properties by starlike graphs.
J. Mol. Graph. Modell., 26 :290305, 2007. 98
[159] M.Rigo. Thorie des graphes, 2009. 7, 10, 12
[160] M.Sana and G.Leroy. Graph theory, electronic structures and reaction mechanisms. J.
Mol. Struct. (THEOCHEM), 109 :251269, 1984. 114
[161] M.V.Diudea. Layer matrices in molecular graphs. J. Chem. Inf. Comput. Sci, 34 :1064
1071, 1994. 46
[162] M.V.Diudea and I.Gutman. Wiener-type topological indices. CROATICA CHEMICA
ACTA, 71(1) :2151, 1998. 47
167
Rfrences bibliographiques
[163] M.V.Diudea, I.Gutman, and L.Jantschi. Molecular Topology. Science publishers, 1999. 7,
10, 20, 22, 43, 77
[164] M.V.Diudea and O.Ivanciuc. Molecular Topology. Comprex (in Romanian), 1995. 19
[165] M.V.Diudea and O.Ivanciuc. Molecular Topology. Comprex, Cluj, Romanian, 1995. 46
[166] M.V.Diudea, O.Ivanciuc, S.Nikoli, and N.Trinajsti. Matrices of reciprocal distance,
polynomials and derived numbers. MATCH - Commun. Math. Comput. Chem., 35 :41
64, 1997. 78, 79
[167] N.L.Biggs, E.K.Lloyd, and R.J.Wilson. Graph theory 1736 1936. Oxford University
Press, 1976. 20
[168] N.S.SCHMUCK. The Wiener index of a graph. PhD thesis, Graz University of Technology, 2010. 44, 47, 48, 49, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76
[169] N.Trinajsti`c. Chemical Graph Theory. CRC, Boca Raton, Fl., 1992. 19
[170] N.Trinajsti. Chemical Graph Theory. CRC, Boca Raton, Fl, 1992. 20
[171] O.E.Polansky and D.Bonchev. The wiener number of graphs. i. general theory and changes
due to some graph operations. MATCH Commun. Math. Comput. Chem., 21 :133186,
1986. 72
[172] P.Dankelmann, I.Gutman, S.Mukwembi, and H.C.Swart. On the degree distance of a
graph. Discrete Applied Mathematics, 157 :27732777, 2009. 91
[173] P.G.Seybold, M.May, and U.A.Bagal. Molecular structure-property relationships. Journal
of Chemical Education, 64 :575582, 1987. 19
[174] P.J.Hansen and P.C.Jurs. Chemical applications of graph theory. J. Chem. Educ., 65 :574
580, 1988. 46
[175] P.J.Hansen and P.C.Jurs. Chemical applications of graph theory. part i. fundamentals
and topological indices. Journal of Chemical Education, 65 :574580, 1988. 19
[176] P.Lyne. Structure-based virtual screening : an overview. Drug Discov. Today, 7(20) :1047
1055, 2002. 35
[177] R.D.Cramer, D.E.Patterson, and J.D.Bunce. Comparative molecular field analysis
(comfa). 1. effect of shape on binding of steroids to carrier proteins. J. Am. Chem.
Soc, 110(18) :59595967, 1988. 25
[178] R.D.Cramer, D.E.Patterson, and J.D.Bunce. Comparative molecular field analysis
(comfa). 1. effect of shape on binding of steroids to carrier proteins. Journal of the
American Chemical Society, 110(18) :5959, 1988. 33
168
Rfrences bibliographiques
169
Rfrences bibliographiques
[194] T.W.Heritage and al. Eva : A novel theoretical descriptor for qsar studies. Perspectives
in Drug Discovery and Design, 9-11(0) :381398, 1998. 25
[195] V.Chepoi. The wiener index and the szeged index of benzenoid systems in linear time.
J. Chem. Inf. Comput. Sci., 37 :752755, 1997. 47
[196] V.Gineityte. Secular polynomials for chemical graphs of alkanes in terms of atoms and
bonds and their spectral properties. Int. J. Quantum Chem., 60 :743752, 1996. 114
[197] V.KBalakrishnan. Graph theory. Mcgraw-hill companies, 1995. 7, 10, 12
[198] V.Svetnik, T.Wang, C.Tong, A.Liaw, R.Sheridan, and Q.Song. Boosting : An ensemble
learning tool for compound classification and qsar modeling. J. Chem. Inf. Model, pages
786799, 2005. 30
[199] W.R.Mller, K.Szymanski, J.V.Knop, and N.Trinajsti. Molecular topological index. J.
Chem. Inf. Compur. Sci., 30 :160163, 1990. 87
[200] Y.E.A.Ban, S.Bereg, and N.H.Mustafa. A conjecture on wiener indices in combinatorial
chemistry. Algorithmica, 40(2) :99118, 2004. 76
[201] Y.Huang, B.Liu, and L.Gan. Augmented zagreb index of connected graphs. MATCH
Commun. Math. Comput. Chem., 67(2) :483494, 2012. 126
[202] Z.Mihali and N.Trinajsti. A graph theoretical approach to structure-property relationships. Journal of Chemical Education, 69 :701712, 1992. 19
[203] Z.Mihali, S.Nikoli, and N.Trinajsti. Comparative study of molecular descriptors derived from the distance matrix. J. Chem. InJ Comput. Sci., 32 :2837, 1992. 87, 88
170