TC Qqla 26583
TC Qqla 26583
TC Qqla 26583
Thèse présentée
à la Faculté des études supérieures de l'Université Laval
dans le cadre du programme de doctorat en génie civil
pour l'obtention du grade de Philosophiae Doctor (Ph.D)
2009
Dans cette thèse l'on cherche à remplacer le module BV3C (bilan vertical 3 couches) du
modèle distribué HYDROTEL par un ensemble de réseaux de neurones. BV3C divise le sol en
trois couches où il simule les teneurs en eau et les débits sortant de chacune des couches. Cette
démarche a pour but d'explorer l'opportunité de remplacer des modules de modèles
complexes par des réseaux de neurones qui, une fois optimisés, constituent des outils de
calculs très simples, rapides et transportables sur des supports informatiques simples. Le défi
d'une telle démarche est de trouver une base de données représentative susceptible d'être
utilisée par le module substitué. Dans le cas présent, des données provenant de zones hydro-
climatologiques différentes ont été utilisées. Ces données sont utilisées comme entrées du
module original extrait de l'ensemble du modèle HYDROTEL. Les résultats de simulation
sont classés avant d'être utilisés en partie pour l'optimisation et le test des réseaux de
neurones. Les réseaux mis en œuvre sont testés sur une autre partie des données et dans un
cadre opérationnel où les réseaux de neurones sont réintégrés dans le modèle.
Les résultats des différents tests montrent tout d'abord que la substitution donne des résultats
satisfaisants sur l'ensemble des données qui n'ont servi ni à l'optimisation, ni aux tests des
réseaux de neurones. En plus, on enregistre un léger gain de temps. Les résultats sur les
teneurs en eau sont nettement meilleurs. Cela s'explique par le fait que celles-ci connaissent
de faibles variations dans le temps. Les variations plus importantes des débits des différentes
couches rendent plus difficile leur modélisation mais les résultats obtenus rendent la
substitution envisageable aussi bien dans le présent cas que dans des modules plus complexes.
Abstract
In hydrology the simulation of the transformation of the rainfall into runoff is still a
dynamic area of research. Upon implementation of new models, we also attempt to improve
existing ones with the opportunity afforded by new tools for data acquisition and growth of
computer power. The computing power of new computers makes possible the use of
algorithms previously difficult to implement. Neural networks (NN) are part of these
algorithms and have experienced strong growth in hydrological modeling in the 1990s
when they were used mainly in the implementation of rainfall-runoff models.
In this thesis we attempt to replace a module namely BV3C (3 vertical layers balance) of
HYDROTEL, a distributed model, by a group of neural networks. BV3C divides soil into
three layers where it simulates the moisture and flows from each layer. This approach aims
to explore the opportunity to replace the modules of complex models by neural networks
that, once optimized, can be very simple calculations tools, fast and portable on single
media. The challenge of this approach is to find a representative data basic to be used by
the replaced module. In this case, data from different hydro-climatic zones are used. These
data are used as inputs of the module extract from HYDROTEL model and simulation
results sorted before being used in part for optimization and testing neural networks. The
implemented networks are tested on another part of the data and in operational framework
in which neural networks are integrated into the model.
The results of different tests show first that the substitution gives satisfactory results on all
data that have not been used for optimization or testing the neural networks. In addition
there is a slight gain in computing time. The results on moisture estimation are much better
because of low temporal variability, they are aware of small changes over time. The larger
variations of the flows of different layers make modeling more difficult but the results
suggest that the substitution in this case as well as for more complex modules should be
possible.
Avant-Propos
La présente thèse a pu se réaliser grâce à de multiples soutiens institutionnels et individuels
que je tiens à remercier. Ainsi je remercie l'Agence Universitaire de la Francophonie
(AUF) qui m'a offert l'opportunité de faire un stage à l'Université Laval à travers une
bourse. Mon admission au programme de doctorat s'inscrit à la suite de ce stage. Il me plait
également de remercier l'Université Laval à travers le département de génie civil qui m'a
accepté en son sein d'abord comme étudiant stagiaire puis comme étudiant au doctorat.
Merci également à Hydro-Québec dont j'ai bénéficié des subventions de recherche à travers
mon directeur de thèse M. François Anctil.
Comme individus, je tiens à remercier particulièrement :
- Le Professeur François Anctil, mon directeur de thèse; cette thèse est certes le résultat
de son encadrement mais bien plus; c'est aussi le résultat de son soutien financier, de sa
disponibilité constante (même pendant son année sabbatique), ses encouragements et
surtout son optimisme inébranlable, autant de catalyseurs qui m'ont permis de mener à
bout ce travail. Je lui suis très reconnaissant.
Le Dr Vincent Fortin, prévisionniste à Environnement Canada, co-directeur de la
présente thèse. Malgré ses nombreuses contraintes, il a toujours pu être disponible pour
moi et j'ai été surtout impressionné par sa capacité à créer rapidement une ambiance de
travail très décontractée.
Le Professeur Paul Lessard, directeur de programmes de deuxième et troisième cycles
pour sa disponibilité pour toutes les questions administratives et pour le partage de son
expérience au cours des réunions hebdomadaires du VLAP.
- Les Professeurs Brian Morse et Jean-Loup Robert pour avoir participé au comité
d'évaluation de ma thèse.
- Les Professeur(e)s Geneviève Pelletier et Peter Vanrolleghem pour avoir participé au
comité d'évaluation de ma thèse et pour avoir partagé avec nous leurs expériences à
travers les réunions hebdomadaires du VLAP.
- Denyse Marcotte, agente de gestion des études pour sa disponibilité.
- Annie-Claude Parent, professionnelle de recherche pour son soutien technique et sa
bonne humeur permanente.
Le Professeur Salif Yonaba de l'Université de Ouagadougou, qui durant tout mon cycle
ne s'est pas ménagé pour me donner presqu'au jour le jour les nouvelles de ma famille
au Burkina Faso. Cela a été une source de grand réconfort.
Le Dr Saidou Yonaba (Médecin) pour avoir partagé avec moi pendant deux ans son
expérience très enrichissante de la vie au cours de son séjour à Québec dans le cadre
d'une maîtrise en santé communautaire.
Le Dr Zoundi Lagi et sa famille à Québec pour leur soutien multiforme.
Mes amis du département de Génie Civil: Philippe Chang, François Nzokou et famille,
Martin Richard, Santatianiana Denise Ravalomanana, Etienne Lévesque, Marie-Amélie
Boucher, Peggy Macaine, Charles Therrien, Simon Nolin, Juan Alberto Velazquez
Zapata, Emmanuelle Vigne.
Mes compatriotes étudiants à Québec
Et ma petite famille à Québec : Honorine et Malicka
m
A ma Mère et à la mémoire de mon Père, je
vous dois tout, tout simplement.
Harouna
Table des matières
Résumé i
Abstract i
Avant-Propos ii
Table des matières v
Liste des tableaux vii
Liste des figures 1
Liste des Annexes 1
Annexe 2 : Résultats de simulation suivant différents horizons de prévision 1
Annexe 3: Article sous presse 1
1. Introduction : Modèle hydrologique, contexte et objectifs de l'étude 1
1.1 Modèle hydrologique 2
1.2 Classification des modèles (ou quelques qualificatifs de modèles hydrologiques) 3
1.2.1 Global, distribué ou semi-distribué 4
1.2.2 Les modèles empiriques, conceptuels ou théoriques 8
1.2.3 Modèle hybride 12
1.3 Contexte et objectifs 17
1.3.1 Contexte 17
1.3.2 Objectifs 17
2. Les modèles hydrologiques utilisés 20
2.1 Les réseaux de neurones 21
2.1.1 Formulation mathématique d'un réseau de neurones 22
2.1.2 Architecture des réseaux de neurones 23
2.1.3 Apprentissage des réseaux de neurones 25
2.1.4 Les perceptrons multicouches (PMC) 26
2.1.5 Les cartes auto-organisatrices de Kohonen 35
2.2 Le modèle HYDROTEL 38
2.2.1 Le bilan vertical : BV3C 42
2.3 Conclusion 46
3. Méthodologie 47
3.1 Introduction 48
3.2 Nouvelle structure d'HYDROTEL 49
3.3 Les limites des réseaux de neurones et recherche d'une base de données
appropriée 49
3.4 Méthodologie « offline » 52
3.4.1 Le réseau des teneurs en eau 53
3.4.2 Le réseau de Qi 55
3.4.3 Le réseau de Q2 56
3.4.4 Données et hypothèses 57
3.4.5 Mise en œuvre des réseaux de neurones 61
3.5 Méthodologie "online" 62
3.5.1 Le bassin versant de Gatineau 63
3.6 Conclusion 65
4. Résultats 66
4.1 Résultats de la classification de Kohonen 67
4.2 Mise en œuvre des réseaux 71
4.2.1 Le réseau des teneurs en eau (9i, O2, ©3) 71
4.2.2 Le réseau de neurones de l'écoulement de base (Q2) 73
4.2.3 Le réseau de neurones du ruissellement (Qi) 75
4.2.4 Le modèle de l'écoulement retardé (Q3) 77
4.3 Performance des réseaux pour 1 ' ensemble de la base de données 79
4.4 Performance des réseaux utilisés en boucle 90
4.4.1 Analyse des résultats selon différents horizons de prévision 90
4.4.2 Analyse des résultats selon les types de sols 93
4.5 Résultats du Bassin de Gatineau et mesure du temps de calcul 99
4.5.1 Les résultats globaux 99
4.5.2 Le temps de calcul 106
Conclusion 107
Conclusion générale 110
Bibliographie 114
vi
Liste des tableaux
Tableau 2.1: Exemples de fonction de transfert des réseaux de neurones 24
Tableau 2.2: Valeur de Fx(à) pour N et FH(a) donnés 35
Tableau 2.3 Structuration du modèle HYDROTEL (Source : Fortin et al., 1995) 39
Tableau 3.1 : Nouvelle structure du modèle HYDROTEL 49
Tableau 3.2 : Caractéristiques statistiques des précipitations et ETP utilisées 59
Tableau 4.1 : Répartition des données par classe 69
Tableau 4.2 : Kavi, caractéristiques des précipitations par classe 70
Tableau 4.3 : Variables des différents modèles 73
Tableau 4.4 : Caractéristiques des différents modèles 78
Tableau 4.5 Répartition du critère d'efficacité suivant le signe 81
Tableau 4.6 Répartition du critère de bilan suivant le signe 81
Tableau 4.7 : Efficacités calculées aux différents tronçons selon les deux versions
d'HYDROTEL sur différents horizons de prédiction 105
Liste des figures
Figure 1.1 : Modèle GR4J (Perrin, 2000) 11
Figure 2.1: Un neurone 22
Figure 2.2: Réseau ouvert 23
Figure 2.3: Réseau bouclé 25
Figure 2.4: Perceptron multicouche 3-3-2-1 27
Figure 2.5 : Graphique des différentes fonctions de transfert 28
Figure 2.6 : Cartes de Kohonen 36
Figure 2.7 : Bilan vertical selon BV3C 43
Figure 3.1 : Schéma du réseau RN1 54
Figure 4.1 : Représentation graphique des données de Sanjuan par classe 69
Figure 4.2 : variation de l'erreur en fonction du nombre de variables pour le réseau des
teneurs en eau 9i, 02, et 93 72
Figure 4.3 : Variation de l'erreur en fonction du nombre de variables pour le réseau de Q2
74
Figure 4.4 : Variation de l'erreur en fonction du nombre de variables, Qi 77
Figure 4.5 : Efficacité des différents modèles 84
Figure 4.6 : Critère de bilan des différents modèles 85
Figure 4.7 Efficacité du modèle de teneur en eau sur les UHRHs du bassin versant de
Serein, sol 1) 86
Figure 4.8 Exemple de simulation 03 sur une UHRH du bassin versant de Serein pour le sol
1 86
Figure 4.9 Exemple de simulation de Qi sur une UHRH 87
Figure 4.10 Exemple de simulation deQ2 sur une UHRH 87
Figure 4.11 Fréquence cumulée de l'efficacité pour les modèles de simulation des six
variables 89
Figure 4.12 Fréquence cumulée de l'efficacité pour les variations des six variables 89
Figure 4.13 Fréquence cumulée des erreurs (MAEs) selon l'horizon de prévision 93
Figure 4.14 : boîte à moustaches 96
Figure 4.15 : Distribution des MAEs par type de sol, horizon de 14 jours 97
Figure 4.16 : Distribution des MAEs par type de sol, horizon de 14 jours 98
Figure 4.17 Schéma de simulation séquentielle 99
Figure 4.18 : Bassin versant de Gatineau et stations de contrôle 102
Figure 4.19 : Efficacité des réseaux de neurones sur le bassin de Gatineau 103
Figure 4.20 : Horizon 3, tronçon 1 105
Figure 4.21 : Comparaison du temps d'exécution 107
Liste des Annexes
Annexe 1 : Caractéristiques des sols utilisés dans BV3C 126
Annexe 2 : Résultats de simulation suivant différents horizons de prévision 127
Annexe 3 : Article sous presse 141
1. Introduction : Modèle hydrologique, contexte et
objectifs de l'étude
1.1 Modèle hydrologique
L'hydrologie est définie par Penman (1961) comme la science qui cherche à répondre à la
question « Qu'arrive-t-il aux précipitations? ». Question simple en apparence mais sur
laquelle les nombreux chercheurs qui s'y sont penchés n'ont pas trouvé une réponse
entièrement satisfaisante. Cela s'explique par le fait que les éléments qui font l'objet
d'études en hydrologie sont eux-mêmes sujets à de nombreuses incertitudes tant dans la
connaissance théorique des chercheurs que dans leurs mesures en nature. Cette complexité
a donné lieu à plusieurs branches de l'hydrologie : hydrologie maritime, côtière, des bassins
versants.
Pour ce qui nous concerne, nous nous intéressons à l'hydrologie des bassins versants qui
peut être définie comme l'étude des processus intervenant dans le cycle de l'eau à l'échelle
des bassins versants. Le bassin versant en une section droite d'un cours d'eau, est lui défini
comme la totalité de la surface topographique drainée par ce cours d'eau et ses affluents à
l'amont de cette section. Les processus qui s'y déroulent sont essentiellement les
précipitations, l'infiltration, le ruissellement et l'évapotranspiration. Ces processus sont
régis par le climat, la végétation, la topographie, le sol, la géologie et l'utilisation et la taille
du bassin versant (Singh et Woolhiser, 2002). La taille du bassin varie de quelques
fractions de mètre carré comme, par exemple, le bassin d'un ruisseau en amont d'une
rivière, à quelques milliers de kilomètres carrés (plus de trois millions de kilomètres carrés
pour le bassin du Nil); ce qui explique sa non uniformité et donc la complexité de l'étude
des processus hydrologiques qui s'y opèrent.
La question de Penman trouve toute son importance dans la mesure où sa réponse permettra
non seulement de planifier et de gérer les ressources en eau dont nous disposons
notamment pour l'irrigation, l'approvisionnement en eau potable, la production
d'hydroélectricité, mais aussi de nous protéger contre les catastrophes naturelles telles les
sécheresses et les inondations, sinon d'atténuer leurs effets. La réponse à la question de
Penman permettra aussi d'éviter les conflits d'intérêt entre les différents utilisateurs de
l'eau à l'échelle locale, nationale ou internationale, d'où tout son intérêt. Les modèles
hydrologiques sont donc apparus pour répondre à cette question cruciale. Mais qu'est-ce
qu'un modèle?
2
Le modèle se définit en fonction du champ d'étude. Ainsi a-t-on des modèles linguistiques,
sociaux, réduits, symboliques, économiques, mathématiques, physiques etc., chacun défini
dans un cadre bien précis.
Dans le cadre de notre étude, nous retenons pour modèles les outils mathématiques qui sont
constitués d'équations algébriques et différentielles qui relient des causes (appelées
« variables ») [...] à des effets (appelés « grandeurs à modéliser »),[...] toutes ces quantités
étant de nature numérique (Dreyfus et al., 2002). Le modèle hydrologique répond donc à
cette définition avec, pour variables, les précipitations, le ruissellement, l'infiltration,
l'évapotranspiration et la variable à modéliser, le débit à la sortie du bassin. Autrement on
entend par modélisation hydrologique, l'application d'expressions mathématiques et
logiques qui définissent les relations quantitatives entre les caractéristiques d'un
écoulement (sortie) et les facteurs influant sur ses valeurs (entrées), et parce que les pluies
constituent les variables prépondérantes des modèles hydrologiques ceux-ci sont souvent
tout simplement désignés par modèle « pluie-débit ». Mais il s'agit là d'une définition très
générale qui englobe un large éventail d'approches. Les modèles sont conçus pour répondre
à la question de Penman mais à des niveaux de détails dépendant des problèmes que l'on
veut résoudre. Ces problèmes allant de la gestion des bassins versants à la conception des
ouvrages hydrauliques en ingénierie (Singh, 1995). Le niveau de détail voulu a donc donné
naissance à une multitude de modèles et de types de modèles. Mais parce qu'une grande
complexité caractérise les processus impliqués dans le cycle de l'eau, les hydrologues
conviennent de leur connaissance partielle sur le sujet. Les représentations des systèmes
hydrologiques sont donc nécessairement simplificatrices, réductrices de la complexité
naturelle et donc grossières et inexactes. Des choix personnels s'imposent pour ces
représentations où ne sont retenus que les aspects conduisant à la meilleure solution
inexacte possible.
6
1975). En hydrologie, ses outils sont, entre autres, les statistiques mais elle peut avoir
recours à de nouveaux algorithmes tels les réseaux de neurones, les algorithmes génétiques
et plus généralement aux algorithmes d'optimisation.
Mais l'intérêt de l'approche systémique passe par sa démystification. Car l'un des plus
graves dangers qui menace cette approche, c'est la tentation de la « théorie unitaire», du
modèle englobant ayant réponse à tout, capable de tout prévoir. De Rosnay (1975) prône
donc l'approche systémique opérationnelle comme une des voies permettant d'éviter les
dangereux écueils du réductionnisme paralysant et du systémisme englobant. Celle-ci
débouchant sur la transmission de la connaissance, l'action et la création :
Sur la transmission parce que l'approche systémique offre un cadre [...] qui aide à
organiser les connaissances au fur et à mesure de leur acquisition, renforce leur
mémorisation et facilite leur transmission;
Sur l'action parce que l'approche systémique permet de dégager des règles pour
affronter la complexité;
- Enfin sur la création, parce que l'approche systémique catalyse l'imagination, la
créativité, l'invention. Elle est le support de la pensée inventive tandis que l'approche
analytique est le support de la pensée connaissante. Tolérante et pragmatique, la pensée
systémique s'ouvre à l'analogie, à la métaphore, au modèle. Pour l'approche
systémique, tout ce qui décloisonne la connaissance et débloque l'imagination est bien
venu : elle se veut ouverte, à l'image des systèmes qu'elle étudie.
Présentée de cette manière l'approche systémique trouve donc toute sa place en hydrologie
aussi bien en modélisation conceptuelle qu'empirique. Les modèles GR4J (Perrin, 2000),
TANK (Sugawara, 1979), MODGLO de Servat (1986), GRHUM de Loumagne et al.
(1996) en sont quelques exemples.
7
1.2.2 Les modèles empiriques, conceptuels ou théoriques
1.2.2.1 Le modèle empirique
Lorsqu'on parle d'approche empirique, il s'agit d'établir des relations entre la grandeur à
modéliser et les facteurs qui la déterminent mais on n'est jamais sûr que les facteurs retenus
expliquent à eux seuls la grandeur à modéliser. En plus, les facteurs qui déterminent la
grandeur à modéliser ne sont pas toujours mesurés ni même souvent tous mesurables : on
reste donc dans un cadre statistique (Dreyfus et al., 2002). C'est pourquoi on parle souvent
de modèles probabilistes. En hydrologie, ces modèles sont pour la plupart globaux. Le
modèle empirique ou « boîte noire » est une description paramétrée du processus dont tous
les paramètres doivent être déterminés à partir des mesures effectuées. Ils ne tiennent
aucunement compte des connaissances expertes et objectives disponibles. Dans l'approche
empirique, la perception du modélisateur du monde réel est pratiquement absente. Il y a de
ce fait, pour les modèles empiriques, une interaction relativement faible avec
l'expérimentation et ce, d'autant plus que leur développement repose essentiellement sur
des séries hydrologiques nombreuses (Perrin, 2000). Bâtie essentiellement à partir de
l'analyse des données, cette approche fonctionne très bien en interpolation mais est moins
appropriée en extrapolation. Ils sont souvent jugés peu propices à l'augmentation des
connaissances sur les processus détaillés. En revanche, ils sont des outils pertinents
d'analyse comportementale des bassins. L'absence d'idée préconçue dans leur construction
leur permet une évolution plus rapide vers des réponses efficaces à des problématiques
données. Leur développement reste cependant très dépendant de la disponibilité des
données. Deux exemples de ces types de modèle sont les ARIMA (pour autoregressive
integrated moving average), modèle autorégressif à moyennes mobiles intégrées et les
RNA (réseaux de neurones artificiels). Nous reviendrons plus en détails sur les RNA.
Les ARIMA ont été développés par Box et Jenkins (1970) à partir des travaux antérieurs de
Yule (1926) et de Wold (1938). Ils ont été bâtis en supposant que la prévision au temps / de
la variable expliquée est une combinaison linéaire de ses valeurs antérieures. Pour rendre
les processus stationnaires, la forme ARMA (autoregressive moving average) ou modèle
8
autorégressif et moyenne mobile des ARIMA est souvent utilisée. Sous forme d'équation le
modèle ARMA s'écrit (Zhang, 2003) :
du modèle. L'équation ci-dessus regroupe une grande famille de modèles ARMA. Pour
p=0, le modèle se ramène à un modèle à moyenne mobile d'ordre q et pour q=0, le modèle
est autorégressif d'ordre p. Ils trouvent leur limite dans le fait que leur linéarité n'est pas
adaptée pour représenter la transformation pluie-débit non linéaire. Les ARMA peuvent
être utilisés seuls (Toth et al., 2000) ou en combinaison avec des opérateurs non linéaires
(Weeks et B oughton, 1987; Zhang, 2003),. Malgré leurs limites, les études de Toth et al.
(2000) montrent des résultats satisfaisants dans la modélisation hydrologique.
dû _ _d_ ( f A ...W
dt ' dz
k\l-?* dz
[1.2]
v
Avec 0r_\ la teneur en eau; y/, \ le potentiel matriciel et k(m/s) la perméabilité du sol.
Les équations des modèles théoriques peuvent cependant être de résolution compliquée et
difficile à mettre en œuvre de façon pratique. Les solutions n'existant souvent que pour des
9
cas simples. Pour le reste, cela peut conduire à des hypothèses simplificatrices sur les
paramètres et aboutir à des précisions médiocres ou à des solutions instables. Par exemple,
la plupart des discrétisations proposées pour la résolution numérique de l'équation de
Richards conduisent à des systèmes non linéaires difficiles à résoudre ou à des schémas
itératifs longs en temps de calcul. Les modèles théoriques sont pour la plupart distribués et
les paramètres au niveau de chaque parcelle ont une signification physique mesurable sur le
terrain.
10
0 0
Si P > E . Pn = P - E . En = 0 . s i P < E En = E - P . Pn=0
Pn 1-
A'4 -.ffi-î-l
1+ 1+
- ( -1
Ps = £5 =
interception
1+
En X4 JST4/
Pn X4\ X4J
Es Ps Pn-Ps
Perc=S-\ S +
(HT S = S - Perc
0<y<X3. S//l(y) = ( ^ j j 2
Y4
; > X3. SW10') = 1
Perc
0.9 û1
s
SHl(X3_\ SH2(Xi]
09 j>2.X3, SH2(j) = l
XI
.F(XD-
Qd -- max(0 0 + F )
Q> Qà R = max(f, i? + Q9 + F )
_| i
Qr--R-{R^ +X2^) * R = R-Çr
Q = Q r + Qd
11
d. calage du modèle mathématique à l'aide d'une partie des données collectées et
e. validation du modèle avec le reste des données.
C'est cette démarche très classique qui a souvent connu une évolution pour aboutir à des
modèles empiriques. En effet, en raison de l'accessibilité de certains types de données
(topographie, types de sols, végétation), de bonnes connaissances théoriques de certains
processus hydrologiques et de l'accroissement de la capacité de calcul des ordinateurs, les
étapes (a) et (b) ont souvent été ignorées pour passer directement à la modélisation
mathématique (Sivapalan et al., 2003). Il s'agit alors de relier des variables dont on connaît
a priori l'existence de relations empiriques entre elles (exemple : relation pluie - débit).
Nous allons emprunter cette dernière démarche pour mettre au point ce que nous
appellerons dans la suite de ce travail un modèle hybride.
12
pour la prévision météorologique. Et déjà Clemen (1989) citait plus de 200 publications où
la combinaison de plusieurs concepts était utilisée pour la prévision dans des domaines
aussi variés que la gestion, les statistiques, la météorologie etc.
Très peu de modèles hybrides allient les réseaux aux modèles conceptuels. Et les cas que
l'on rencontre dans la littérature n'ont pas toujours trait à la modélisation hydrologique. De
plus dans la littérature le terme «hybride » est assez imprécis. Beaucoup d'auteurs
l'utilisent sans prendre le soin de le définir, ce qui ne facilite pas une recherche
bibliographique sur le sujet. Étant donné que ce terme constitue le mot clé de notre travail,
apportons-lui plus de précision. Comme souligné plus haut, le but du modèle hybride est de
tirer les avantages à la fois du modèle déterministe (ou conceptuel) et celui « boîte noire »
(réseaux de neurones dans ce cas). Dans ce cas, plusieurs combinaisons sont possibles.
La combinaison réseau de neurones - algorithmes génétiques est étudiée par Hung et Adeli
(1994) puis par Fish et al. (2004). Mais les raisons évoquées par les deux groupes d'auteurs
sont différentes. Pour les premiers il s'agit d'utiliser l'algorithme génétique pour accélérer
le processus d'apprentissage par un choix optimal des poids initiaux du réseau tandis que
pour les seconds, trois raisons ont guidé leur choix : (1) éviter que le réseau ne converge
vers un optimum local lorsqu'il est entraîné par backpropagation, (2) éviter que pour un
entraînement par backpropagation, ne se développe une instabilité temporelle (tendance du
réseau à oublier tout ce qu'il a appris auparavant) due au fait que le réseau dans ce cas n'a
pas de mémoire et (3) pouvoir utiliser n'importe quelle fonction d'activation dans le réseau.
14
c) La combinaison en parallèle
Avec une seule sortie, ce type de modèle est également une mise à jour. Les deux modèles
ne fourniraient qu'une fraction de la sortie modélisée. Dans ce cas le réseau intégrerait
d'une manière ou d'une autre l'erreur du modèle conceptuel.
Ce type de modèle est étudié par Hussain et ses collaborateurs (Hussain et Ho, 2004), (Ng
et Hussain, 2004), qui l'ont utilisé pour l'étude de réactions chimiques. Ces réactions
suivent en général des lois chimiques assez complexes. Elles sont donc simplifiées pour la
prévision souhaitée et deviennent alors imprécises. Ce qui arrive très souvent dans la réalité
lorsque l'équation n'est qu'une approximation de la description du système étudié. La loi
chimique ne modéliserait donc qu'une fraction des résultats attendus. On ignore tout du
reste du système. Un réseau de neurones en parallèle est donc utilisé pour la modélisation
de cette fraction. Ces études montrent une amélioration des prévisions et une bonne
stabilité à la perturbation. Une telle combinaison est aussi étudiée par Linker et Seginer
(2004) pour la prévision de la température d'une serre. Le même type de combinaison est
utilisé par Cote et al. (1995) pour le traitement des eaux usées. Là aussi les auteurs
montrent une amélioration des résultats de l'ensemble du système.
16
1.3 Contexte et objectifs
1.3.1 Contexte
La gestion de la production hydroélectrique requiert des systèmes de prévision
hydrologiques performants, surtout au sein d'un marché d'énergie déréglementé. La
production doit être modulée avec les fluctuations instantanées du prix de vente. En outre,
le respect de l'environnement, la sécurité de la population et des ouvrages et l'augmentation
anticipée des événements violents (suite aux changements climatiques) nécessitent une
gestion optimale des niveaux d'eau des réservoirs.
Les compagnies responsables de grands ensembles de production hydroélectrique, telles
que Hydro-Québec, ont depuis longtemps mis en place des systèmes de prévisions
d'apports en eau aux réservoirs qui reposent sur un réseau d'observations
hydrométéorologiques accessibles en temps réel, sur des outils sophistiqués de
modélisation hydrologique et sur l'expertise d'une équipe de prévisionnistes. En outre, ces
compagnies veulent se positionner à l'avant-garde scientifique et technologique en
hydrologie pour la prévision d'apports, car il s'agit d'un domaine critique pour
l'implémentation de solutions optimales satisfaisant aux enjeux économiques et
sécuritaires. Ce travail s'inscrit dans ce contexte avec pour objectif d'exploiter les réseaux
de neurones en support à la prévision hydrologique. C'est cette approche qui constituera
l'essentiel de notre travail.
1.3.2 Objectifs
Actuellement, le modèle météo-apport HSAMI (Fortin, 2000) est utilisé par l'unité
« Prévisions et qualité des données hydroélectriques et ressources hydriques » d'Hydro-
Québec. Le modèle HSAMI est un modèle conceptuel global pluie-débit spatialement
agrégé qui transforme les données météorologiques du bassin versant en écoulements
naturels. Ce modèle utilise deux réservoirs, une vingtaine de variables hydrologiques et
nécessite l'ajustement d'une trentaine de paramètres lors de la calibration. Il est utilisé de
manière quotidienne à un pas de temps journalier mais il a également été adapté pour des
pas de temps plus petits.
17
Un modèle distribué HYDROTEL (Fortin et al., 2001b) est aussi implanté à Hydro-
Québec. Il a été conçu pour bénéficier des données fournies par la télédétection et les
systèmes d'information géographiques. Il comprend six modules plus ou moins
indépendants, ce qui lui donne une certaine souplesse et permet la modification et
l'addition de modules. Notre objectif porte sur le remplacement du module Bilan Vertical
d'HYDROTEL par un réseau de neurones, pour en faire un modèle hybride.
L'objectif essentiel de cette substitution est de faire bénéficier à HYDROTEL d'un gain de
temps dans son exécution. En effet, on estime qu'environ le tiers du temps d'exécution de
ce modèle est consacré à l'exécution de ce module. Cela s'explique par le fait que BV3C
utilise actuellement une méthode de résolution à pas adaptatif, méthode itérative source de
consommation de temps de calcul. L'importance du gain de temps peut paraître négligeable
lorsque l'on exécute le modèle sur une seule UHRH (unité hydrologique relativement
homogène) mais elle devient capitale lorsque le modèle est tourné sur un bassin comptant
quelques centaines d'unités ou dans le cas de prévision d'ensemble où plusieurs répétitions
sont nécessaires. Il s'agit de remplacer BV3C, tel qu'il fonctionne présentement, par un
ensemble de réseaux de neurones avec pour hypothèse que les fonctions neuronales qui
résultent essentiellement d'une succession de multiplications matricielles feront une
économie en temps de calculs. Avec un gain de temps par UHRH, on pourra augmenter
leur nombre par bassin versant. En outre il faut souligner que quel que soit le pas de temps
de simulation, BV3C dans sa forme originale le subdivise en sous pas de temps
intermédiaires dont le nombre variable dépend de la précision rencontrée au cours de
l'exécution. Ce qui rend variable le temps de simulation d'un pas de temps à un autre et
donc difficile l'estimation du temps de calcul par avance.
Cependant le simple fait de gains de temps de calculs ne suffit pas pour faire des réseaux de
neurones des substituts appropriés. Les réseaux de neurones devront permettre à l'ensemble
du modèle HYDROTEL de conserver le même ordre d'erreur. En outre la substitution ne
doit pas nécessiter la collecte d'informations supplémentaires à celles utilisées par BV3C,
ceci pour ne pas modifier l'ensemble de la structure de mise en œuvre d'HYDROTEL
actuellement existante. Enfin l'étude permettra de mettre en évidence la pertinence ou non
de l'ensemble des variables actuellement utilisées par BV3C. A terme, il s'agit aussi de
18
voir si le concept ne peut pas s'étendre à des modèles intégrant des structures plus
complexes.
Pour l'essentiel notre travail s'organisera comme suit :
- au chapitre 2 nous présenterons les modèles hydrologiques qui seront utilisés;
- au chapitre 3 sera présentée la méthodologie à mettre en œuvre pour la réalisation du
projet;
au chapitre 4 seront présentés les résultats.
19
2. Les modèles hydrologiques utilisés
20
2.1 Les réseaux de neurones
Les réseaux de neurones font partie de la catégorie des modèles « boîtes noires ». Ils ont
été bâtis en s'inspirant de systèmes nerveux biologiques mais c'est en s'éloignant de cette
inspiration biologique pour prendre une tournure purement mathématique que les réseaux
de neurones ont connu un essor.
Anderson et Rosenfeld (1988) ont effectué une compilation de 43 articles permettant de
suivre l'évolution des réseaux de neurones de 1890 jusqu'à 1987. Ainsi, si l'on exclut le
livre de James (1890) qui ne contient aucune formulation mathématique, on retiendra que
les réseaux de neurones sont nés de la publication de l'article de McCulloch et Pitts
(1943). Pour la première fois, cet article qui ne compte que trois références
bibliographiques formulait mathématiquement le fonctionnement des réseaux de
neurones biologiques sur la base des connaissances contemporaines des auteurs en
biologie. Leurs travaux ont montré qu'avec de tels réseaux, on pouvait en principe,
calculer n'importe quelle fonction arithmétique ou logique. En 1949, Hebb propose une
théorie fondamentale pour l'apprentissage alors que la proposition du réseau de neurones
dit perceptron par Frank Rosenblatt (1958) permettait des applications concrètes.
Pratiquement au même moment, Widrow et Off (1960) proposaient un nouvel algorithme
d'apprentissage pour entraîner un réseau adaptatif de neurones linéaires, avec des
capacités similaires au perceptron. Mais l'enthousiasme suscité par ces théories se trouve
fortement contrarié par un livre publié par Minsky et Papert (1969). Les deux auteurs
démontraient ainsi les limitations des réseaux développés par Rosenblatt et par Windrow
et Off. L'identification de ces limitations en partie dues à la capacité de calcul faible des
machines de l'époque, et surtout mal interprétées, a entraîné le ralentissement de la
recherche dans le domaine. Malgré cela, Kohonen (1972) et Anderson (Anderson, 1972)
publiaient indépendamment de nouvelles architectures semblables. Les cartes auto-
organisatrices publiées par Kohonen (1990) constituent une suite de celles de 1972. Dans
la décennie 1970, Grossberg (1976) proposait également d'autres réseaux auto-organisés.
Dans les années 1980, l'apparition de l'algorithme rétro-propagation relançait fortement
l'activité sur les réseaux de neurones. La mise au point de cet algorithme est
21
généralement attribuée à Rumelhart (1986) qui l'a rendu populaire, mais il a été étudié au
même moment par Parker (1985) et LeCun (1985) alors que Werbos le décrivait déjà
dans sa thèse en 1974. Depuis ce temps, le domaine des réseaux de neurones foisonne de
nombreuses théories. Il ne s'agit pas, dans la présente thèse, d'étudier ces théories en
détail mais de comprendre les mécanismes internes de celles qui seront utilisées à savoir
les cartes auto-organisatrices et les perceptrons.
R entrées Nœud
a = 0\w T p + b)
22
Couche de
sortie
23
Tableau 2.1: Exemples de fonction de transfert des réseaux de neurones
De l'interconnexion entre les neurones dépend la manière dont l'information circule dans
le réseau et dont se fera l'apprentissage. L'interconnexion permet de distinguer les
réseaux ouverts et les réseaux bouclés. Le réseau est ouvert (feedforward neural network)
lorsqu'il n'y a pas un retour de l'information vers l'arrière. L'information circule de
façon unidirectionnelle, allant des entrées vers la sortie du réseau (figure 2.2).
Lorsqu'on assiste à un retour de l'information vers l'arrière, d'une manière ou d'une
autre, on parle de réseau bouclé (recurrent neural network). Le réseau peut être
entièrement bouclé, dans ce cas chaque neurone échange des informations avec tous les
autres neurones du réseau et avec lui-même, ou partiellement bouclé, et alors l'échange
d'information se fait entre quelques neurones du réseau (figure 2.3). Les réseaux bouclés
sont utilisés pour introduire des délais temporels dans le modèle et nécessite pour cela
une série continue sur un site bien déterminé. Dans le cadre de ce travail, seuls les
réseaux ouverts sont utilisés en raison de la relative simplicité de leur mise en œuvre et de
la possibilité qu'offre ce type de réseaux d'être utilisés sur des sites différents en raison
de l'absence de délais temporels, ce qui n'est pas le cas de réseaux bouclés.
24
Couche
cachée
Couche de sortie
Retour
25
bouclé, le batch training n'est pas utilisable car la mise à jour des poids en un pas de
temps donné se fait à partir des erreurs des pas de temps antérieurs. Dans les deux cas,
une époque correspond à une présentation de l'ensemble des entrées-sorties disponibles.
Il existe de nombreux algorithmes d'apprentissage, qui dépendent en partie de
l'architecture du réseau, ce qui amène à définir ceux qui seront utilisés. Dans le présent
travail, essentiellement deux types de réseaux de neurones seront utilisés à savoir les
perceptrons multicouches et les cartes auto-organisatrices de Kohonen.
26
Figure 2.4: Perceptron multicouche 3-3-2-1
Si en théorie un PMC peut avoir plusieurs couches, dans la pratique une seule couche
cachée suffit (Hornik, 1991). Mettre en place un PMC revient à choisir les fonctions de
transfert, à déterminer les entrées pertinentes, le nombre de neurones dans la couche
cachée, choisir l'algorithme puis optimiser et tester le réseau.
0(n) = — - — [2.1]
l + e~"
Mais parce qu'elle est bornée entre 0 et 1, la fonction bipolaire (équation 2.2) qui est une
transformée linéaire de la première et bornée entre -1 et 1 lui a souvent été préférée.
27
La fonction de transfert tangente hyperbolique (tanh) dont la représentation graphique est
similaire à celle bipolaire (eq. 2.3) est aussi souvent utilisée :
0(n) = -1 [2.3]
1 + e-2n
Enfin la fonction Elliot (1993), encore moins complexe que les précédentes car n'utilisant
pas d'exponentielle et de dérivation simple peut aussi être utilisée mais n'est pas utilisée
dans la modélisation hydrologique à notre connaissance
u
0(n) [2.4]
l + \u\
m w m* m
A A A A A-
-8 -6 -4 13
 M M M MM
—^-Qliol —^Tanh -^Un&iire -*— Bipolaire -A-LoRsif?
Parmi ces fonctions celle que nous utilisons dans le cadre de ce projet est surtout la
fonction tangente hyperbolique (tanh), la plus utilisée en modélisation hydrologique après
28
la logique sigmoïde et qui se trouve également à être bornée entre -1 et 1. Cependant dans
le cadre d'un article, une étude comparative des trois dernières fonctions a été faite. Les
résultats de cette étude sont présentés en annexe 3.
29
obtenir une performance spécifiée du modèle compte tenu des données disponibles. Or,
un excès de neurones cachés aboutit à une spécialisation qui ne saurait mener à une
bonne généralisation. En outre, augmenter le nombre de neurones cachés, c'est
augmenter le nombre de paramètres et diminuer la parcimonie qui fait des réseaux les
meilleurs approximateurs. En réalité, il n'existe pas de méthode objective (automatique)
pour déterminer le nombre de neurones à priori dans la couche cachée. La méthode la
plus simple qui sera ici utilisée est celle dite essais et erreurs et consiste à : (1) fixer le
nombre de neurones, (2) faire l'apprentissage du réseau, (3) tester le modèle, (4) estimer
l'erreur et faire varier le nombre de neurones si l'erreur est au-delà des attentes. Nous
partirons de deux neurones et procéderons par addition successive d'un neurone à la fois
jusqu'à obtention du nombre de neurones optimum.
2.1.4.4 Optimisation
L'optimisation (ou apprentissage ou encore entraînement) des PMC consiste en la
n ( *\2
minimisation de la fonction coût ^ Qj - Qt qui est la somme des carrés des erreurs
i=l V
qui sont les écarts entres les valeurs observées et les sorties du réseau de neurones.
Le principal algorithme utilisé pour l'entraînement des PMC est la retropropagation
(backpropagation, BP). Il s'agit d'un entraînement supervisé où l'erreur mesurée à la
sortie du réseau est propagée vers l'entrée. On parle aussi souvent de méthode des
gradients descendants. Cet algorithme a été décrit par Werbos (1974), LeCun (1985) et
Parker (1985) et rendu populaire par Rumelhart et al., (1986). En raison de la lenteur de
convergence de la backpropagation originale, plusieurs variantes ont vu le jour. Parmi
celles-ci, la Levendberg Marquardt backpropagation (LMBP) sera utilisée dans le cadre
de ce travail. La LMBP est une méthode d'optimisation de l'erreur quadratique. Elle est
reconnue pour ses propriétés de convergence rapide et de robustesse et s'appuie sur des
techniques de moindres carrés non linéaires et de l'algorithme de Gauss-Newton à
voisinage restreint. La principale motivation du choix de cet algorithme repose sur la
faible taille de la matrice Hessien, du coût moindre des calculs et de la garantie de la
30
convergence rapide vers un minimum. La LMBP sera utilisée en combinaison avec la
régulation par modération des poids.
Les méthodes de régulation par modération des poids ne cherchent pas à limiter la
complexité du réseau mais contrôlent plutôt la valeur des poids pendant l'apprentissage.
Pour ce qui concerne ce travail, la régulation bayesienne sera utilisée. La régulation
bayesienne décrite par MacKay (1992), présume que les poids et biais sont des variables
aléatoires qui suivent des distributions spécifiques (Monté Carlo ou approximation
gaussienne), ce qui permet d'introduire des contraintes sur ces paramètres en appliquant
des pénalités aux fortes valeurs empêchant ainsi le surapprentissage. La régulation
bayesienne présente quatre (4) avantages d'après MacKay (1992) : (1) elle ne nécessite
pas une série de validation pendant l'apprentissage, ce qui est essentiel lorsque les
données existent en quantité limitée ; (2) l'optimisation peut se faire en ligne ; (3) la
fonction objective de la régulation bayesienne n'est pas bruité et (4) le contrôle exercé sur
les poids permet l'utilisation d'un grand nombre de poids avec un effet de
surapprentissage très limité. En hydrologie, Anctil et Lauzon (2004) montrent que cette
combinaison offre une stabilité aux performances du réseau.
Plusieurs critères permettent l'arrêt de l'entraînement du réseau. Une première méthode
consiste à fixer un nombre maximum de périodes et à arrêter l'entraînement avant la
convergence de l'algorithme (early stopping). Un deuxième critère consiste à arrêter
l'entraînement lorsque l'erreur minimale recherchée est atteinte. Mais ces deux méthodes
ne garantissent pas une convergence de l'algorithme encore moins une bonne
généralisation du réseau. Pour cela, on utilise souvent la validation croisée (cross -
validation). Cette méthode consiste à disposer de deux ensembles indépendants de
données pour entraîner le réseau : un pour l'entraînement et l'autre pour la validation.
L'erreur résultant de l'entraînement diminue de façon continue, ce qui n'est pas le cas de
la validation. On arrête alors l'entraînement dès lors que l'erreur de validation commence
à croître.
Dans le cadre de ce travail, le early stopping est utilisé en combinaison avec la régulation
bayesienne car elle permet le contrôle du temps d'apprentissage.
31
2.1.4.5 Mesure des performances d'un réseau
Après apprentissage, il faut tester le réseau sur une série qui n'a servi ni à l'apprentissage,
ni à la validation. Un bon réseau fournira une erreur faible aussi bien en apprentissage
qu'en test tandis qu'un réseau spécialisé fournira une erreur nettement plus importante
dans le second cas. Cette erreur peut se mesurer de plusieurs manières. Dans le domaine
de l'hydrologie, plusieurs critères sont utilisés pour mesurer la qualité d'un même modèle
en général. Les mêmes seront retenus pour l'appréciation des performances de nos
modèles neuronaux et ce sont :
i "( A
V
- la moyenne de carrés des écarts : MSE = — J ] \ Q i - Q i \ [2.5]
«£r\ J
Où Q.z.Q, sont respectivement les variables observées et calculées au pas de temps i
L'avantage de cette erreur par rapport à la MSE est qu'elle n'accorde pas un poids
proportionnellement plus important aux fortes erreurs, cependant on retiendra que la
fonction coût n'est pas optimisée par rapport à cette erreur.
Ces deux scores ne permettent pas une comparaison des performances d'un modèle
ou d'un réseau de neurones sur des séries différentes. Pour faire une telle
comparaison, il est convenu d'utiliser en hydrologie des scores normalisés dont :
32
proposent de comparer la valeur de la MSE du modèle à la MSE d'un modèle
élémentaire de référence qui donnerait comme prévision la moyenne des débits
C'est aussi un critère normalisé mais le modèle élémentaire de référence n'est plus
celui donnant comme prévision la moyenne des observations mais plutôt un
modèle « naïf » qui donnerait pour prévision au pas de temps i la variable observée au
pas de temps précédent (i-1). Tout comme le critère de Nash, la persistance varie dans
l'intervalle [-°o,l]. Dans le cadre de la prévision hydrologique, la persistance exprime
mieux la qualité d'un modèle par rapport au critère de Nash. En effet en raison de la
lente variation du débit, principale variable en hydrologie, le modèle « naïf» est déjà
d'une qualité nettement supérieure à celle du modèle élémentaire du critère de Nash.
Pour cela la persistance présente des valeurs en général inférieures à celle du critère
de Nash.
MAE peut aussi être norme par rapport au modèle élémentaire du critère de Nash, ou
au modèle élémentaire du critère de persistance pour permettre de faire des
comparaisons de performance du modèle d'un bassin à l'autre ou d'une période à
l'autre.
33
« A n
-.Q. IG
Le critère de bilan (Perrin et al., 2001): 5 = 7 - i=l^i \i=l [2.9]
W' m
n A
qui est également un critère norme qui mesure l'habilité d'un modèle à reproduire
correctement le volume sur une période donnée.
À ces différents critères s'ajoute la représentation graphique qui demeure une bonne
méthode d'appréciation visuelle.
Au cours de ce travail, seront essentiellement utilisés les critères de Nash, de bilan et des
MAE.
Cette relation a été établie à partir de l'étude des auteurs qui révèlent que, pour une série
donnée, lorsque l'on initialise N fois les poids et entraîne le réseau, la somme des carrés
des erreurs (variable aléatoire x) suit une loi de distribution a priori inconnue dont la
fonction de répartition est Fx- Pour une valeur a de x donnée, la probabilité que x < a est
Fx(a) et la probabilité que x>a s'écrit 1-Fx(a). La probabilité que tous les TV éléments x
soient supérieurs à a s'écrira [l-Fx(a)] N et la probabilité qu'au moins une valeur de x
(désigné par w, le meilleur des x en fait) soit inférieur à a s'écrira Fw(a)=l-[l-Fx(a)] N .
Ainsi Fw définit une nouvelle fonction de répartition qu'on cherchera à maximiser. De la
dernière relation, on obtient :
34
ln(l-F„(a))
7V = [2.11]
ln(l-F x (a))
Pour augmenter les chances d'avoir w<a, on doit avoir une grande valeur de Fw(a) tandis
que pour avoir des erreurs x faibles, Fx(a) doit rester aussi faible que possible.
Autrement, N répétitions assurent que la meilleure performance (plus petite erreur) sera
probablement (à un niveau de confiance Fw(a)) parmi les Fx(a) meilleures performances
possibles. La relation reliant les éléments Fw(a), Fx(a) et N permet de déterminer un
d'entre eux en fixant les deux autres. Dans le cas présent l'on fixera Fw(a), Fx(a) et l'on
déterminera N. Le tableau 2.2 montre qu'avec un niveau de confiance de 95%, pour 50
répétitions, le minimum global se trouve parmi les 5.8% des meilleurs des résultats.
N
répétitions Fw(a)=0.95 Fw(a)=0.99
5 0.451 0.602
10 0.259 0.369
20 0.139 0.206
30 0.095 0.142
40 0.072 0.109
50 0.058 0.088
60 0.049 0.074
35
effet, chaque classe contenant des éléments de caractéristiques semblables, plutôt que de
prendre tous les éléments de la classe, on peut en retenir un échantillon. L'assemblage de
ces fractions de classe constituera une nouvelle base de données de taille inférieure à
celle initiale.
Les cartes auto-organisatrices de Kohonen font partie de la catégorie des réseaux de
neurones à apprentissage compétitif, non supervisé. Ils consistent en une répartition
régulière des nœuds dans un espace plan (2 dimensions (m, l)) - la répartition peut se
faire aussi sur une droite - et chacune des variables est reliée à l'ensemble des neurones
de la carte. Dans un plan, la répartition peut être rectangulaire ou hexagonale (figure 2.6).
a) répartition rectangulaire des nœuds; b) répartition hexagonale des nœuds; au centre des
cercles en pointillés les nœuds gagnants Nc.
L'algorithme des cartes auto-organisatrices simple et itératif permet par des mises à jour
successives d'obtenir à la fin des nœuds associés à des entrées de caractéristiques
semblables. Cet algorithme se définit à chaque itération par rapport à un nœud vainqueur
défini comme suit :
36
Si à l'itération / pour tout vecteur d'entrée X présenté, Wc désigne le vecteur poids du
nœud gagnant Nc, pour tout autre nœud Ni de vecteur poids Wi, on a :
K(x) i u n e fonction de la distance entre le nœud gagnant et le nœud de poids Wù elle peut
Dans la première fonction, ô est un paramètre qui définit le rayon du cercle ayant pour
centre le neurone gagnant à l'intérieur duquel s'effectue la mise à jour des poids des
autres neurones et est décroissante en fonction du temps. Dans la seconde fonction, a(t)
est un facteur d'apprentissage tel que 0 < a < 1 et est une fonction décroissante monotone
en fonction du temps d'apprentissage. Il peut prendre la forme d'une fonction de la forme
D'après cet algorithme, les neurones voisins voient leur poids augmenter
proportionnellement à la distance par rapport au neurone vainqueur. Dans le réseau se
37
créent alors des zones de neurones sensibles à des formes « ressemblantes » formant une
carte topologique. Les poids sont initialises de façon aléatoire et après plusieurs époques
d'apprentissage, chaque neurone devient gagnant d'un certain nombre d'éléments de la
série d'entraînement. Ces éléments constituent une classe et on aura autant de classes que
de nœuds sur la carte. Kohonen (1988) montre que 10 à 100 époques sont nécessaires
pour une convergence de la carte pour des valeurs faibles de a(t).
38
Tableau 2.3 Structuration du modèle HYDROTEL (Source : Fortin et al, 1995)
Sous-modèles Options
1.1. Polygones de Thiessen
1. Interpolation des précipitations 1.2. Moyenne pondérée des trois stations
les plus rapprochées
2. Evolution et fonte du couvert nival 2.1. Méthode des dégrés-jours
3. Évapotranspiration potentielle 3.1. Thornthwaite
3.2. Linacre
3.3. Penman-Monteith
3.4. Priestley-Taylor
3.5. Hydro-Québec
4. Bilan vertical 4.1.BV3C
5. Ecoulement latéral de maille à maille 5.1. Onde cinématique
6. Ecoulement en rivière 6.1. Onde cinématique
6.2. Onde diffusante
39
entre une station et ce point. Lorsque les précipitations radar existent, celles-ci sont
préférées aux précipitations mesurées aux stations. C'est aussi à l'intérieur de ce module
d'interpolation que se fait la répartition des précipitations en pluie et en neige.
Le module « évolution et fonte du couvert nival » simule l'accumulation et la fonte des
précipitations solides sur chacune des UHRHs. Ce module n'a qu'une seule option qui
fait appel à une méthode mixte (degrés-jours) - (bilan énergétique) pour décrire le
passage de la neige aux précipitations liquides.
L'évaluation du bilan hydrologique vertical (module 4) à chaque pas de temps nécessite
l'estimation de l'évapotranspiration réelle pour chaque type de couvert végétal à la
surface du sol et de l'êvaporation du sol nu. Ce qui passe donc par la détermination de
l'évapotranspiration potentielle (ETP) dans le module 3. Pour le calcul de l'ETP, cinq
sous modules sont disponibles allant de l'équation de Thornthwaite (1948) au modèle
d'Hydro-Québec qui utilise uniquement les températures maximales et minimales. Les
autres équations sont celles de Linacre (1977), de Penmann-Monteith (1965) et de
Priestley-Taylor(1972).
Le module 4, est le module où se fait l'analyse de l'écoulement de l'eau au sein de la
zone non saturée. C'est ce module qui nous intéresse particulièrement dans le cadre de ce
travail et nous y reviendrons plus en détail.
L'écoulement latéral maille à maille concerne l'écoulement sur la partie terrestre. Cet
écoulement intègre le ruissellement à travers la végétation et autre obstacles, les
écoulements à l'intérieur des canaux, naturels ou artificiels, de dimensions insuffisantes
pour qu'ils soient considérés comme faisant partie du cours d'eau et les écoulements
s'effectuant dans le sol. L'algorithme utilisé pour effectuer cet écoulement est celui de
l'onde cinématique, où les équations régissant l'écoulement sont une approximation
unidirectionnelle du système complet des équations de Saint-Venant donnant lieu à deux
équations :
dR dh .
— +— =/ [2.16]
dx dt
L'équation cinématique de type Manning :
40
d
h = \ — ^ \ R [2.17]
[l.49y[sj
Avec R , l'écoulement latéral de maille en maille (mV 1 ) ; h , l'épaisseur de la lame
écoulée (m) ; i , l'écoulement en provenance du bilan vertical (ms"1) ; n, le coefficient de
Manning ; So , la pente de la maille ; x , la distance (m) ; t, le temps (s)
La résolution de ce couple d'équations fait appel à des considérations simplificatrices qui
aboutissent au calcul de l'écoulement sur la partie terrestre en deux étapes : (1) le calcul
d'un hydrogramme géomorphologique de référence pour chaque UHRH et (2) le calcul
de la quantité d'eau qui quitte l'UHRH à chaque pas de temps.
SQ SA ---„
— +— = q [2.18]
dx dt
dh _
— Sn ~ Sy
ôx
[2.19]
Avec :
Q , le débit (m s" ) ; A, la surface mouillée (m ); q, le débit latéral en provenance des
mailles ou des UHRH (mV 1 ); x , la position (m); t , le temps(s); h , la profondeur de
l'écoulement (m) ; So, la pente du lit (m/m) ; r, b, k , des coefficients.
La résolution de ce système s'effectue en assumant des relations entre la surface
mouillée, le débit et la pente de la surface libre d'une part et d'autre part entre le débit et
le niveau d'eau.
L'onde diffusante est une approche qui permet de suivre l'évolution de l'onde de crue
dans les zones de faibles pentes. Elle se traduit par l'équation de la forme (Moussa, 1987;
Moussa, 1991) :
41
SQ = c dQ { S d 2 Q ^ 2S2 d^Q
St " dx c 2 dt 2 C 3 dxdt2 [2 20j
42
A Pluie et fonte de neige (P)
Évapotranspiration (E+Tr)
►Ruissellement de surface (R)
- A
qi.2
72 ■+• Ecoulement retardé (Q2)
Teneur en eau couche 2 (92)
Sol subdivisé .
en 3 couches ^
sur la verticale q2.3
Z3 Écoulement de base (Q3)
Teneur en eau couche 3 (93)
zy — - = p i - q i 2 - E - T r j (couche 1)
dt
dff
( z 2 ~ z l )~é~ = a
l 2 ~ <l2,3 ~ Tr2 ~ Q2 (couche 2) [2.21]
dt
( z 3 ~ z 2 ) - £ ■ = a2,3 ~ Tr 3 ~ Q 2 (couche 3)
dt
43
Oxxpi(m), E(m), T(m)r, t(h), zi(m), zi(m), zs(m) représentent respectivement l'infiltration,
l'êvaporation de surface, la transpiration, le temps et les profondeurs des premières,
deuxième et troisième couches. Dans les couches 2 et 3, l'êvaporation est négligeable de
sorte qu'on a uniquement la transpiration.
Pour l'estimation des flux entre couches (qi^, q2,3), la perméabilité K(0j) de chaque
couche est estimée comme étant une fonction de la perméabilité à saturation Ks, de la
teneur en eau à saturation 9S et de la distribution des tailles des pores. La conductivité
hydraulique entre deux couches successives Kj, j+i est alors prise comme la plus grande
des deux conductivités hydrauliques Kj et Kj+i. Introduisant le potentiel matriciel (v|/), lui
aussi fonction de la teneur en eau actuelle, du potentiel matriciel à saturation et de la
distribution des pores d'après la relation de Clapp et Hornberger (1978), on peut écrire
les équations des flux inter couches suivantes :
9.a = K 1.2 +1
z]+(z2-z])
[2.22]
f
2 ¥(O,)-¥(02) ^
<72,3 = K 2.3
(z2-z,) + (z,-z2)
Avec qi,2 (m) le transfert de flux de la première à la deuxième couche; q2,3(m), le transfert
de flux de la deuxième à la troisième couche; Ki,2 (m/h), la conductivité hydraulique entre
les couches 1 et 2; K2,3(m/h), la conductivité hydraulique entre les couches 2 et 3.
Finalement les débits sortant des deuxième et troisième couches sont respectivement
estimés par Fortin et al.,(2001a):
Q2 = K . ( 9 2 ) . S n . ( z 2 - z l )
[2.23]
[Q3 = K r . ( z 3 - z 2 ) . e 3
44
Si au final, il s'agit de calculer R, Q2 et Qs, l'on voit que ceci n'est possible qu'après le
calcul des teneurs en eau de chaque couche, des conductivités hydrauliques, des flux
inter-couches et des infiltrations. C'est ce que fait actuellement BV3C en résolvant
numériquement les équations différentielles ci-dessus. Deux méthodes sont utilisées pour
la résolution de ces équations. Initialement résolues par la méthode d'Euler, elles ont été
par la suite reprogrammées par Fortin et al. (2005) en utilisant la méthode de résolution à
pas adaptatif de Fehlberg (algorithme de Cash-Karp), qui est une méthode de Runge-
Kutta de cinquième ordre. BV3C utilise en entrées les précipitations, les
évapotranspirations de chacune des couches, les paramètres de chaque sol (voir tableau 1
en annexe), le coefficient de récession de la troisième couche (Kr), la pente de la
deuxième couche et les épaisseurs des trois couches. La résolution itérative commence
par les conditions initiales sur les teneurs en eau et donne en sortie les teneurs (6/, 62, 9s),
R, Q2 et Qs, aux pas de temps suivants. Toutes les données sont donc recueillies à
l'échelle de l'UHRH (assimilée à un point) et concernent :
- Les précipitations : à partir des valeurs recueillies par les pluviomètres situés sur le
bassin dont les valeurs sont calculées à l'échelle de l'UHRH par le sous-modèle 1
(tableau 1);
- Les évapotranspirations potentielles : à partir des mesures de température, de
l'albédo, de l'humidité de l'air et de la vitesse du vent recueillies sur chaque
UHRH, elles sont calculées par le sous-module 3. Elles sont ensuite converties en
évapotranspiration réelle et repartie sur la colonne de sol en fonction de
l'occupation du sol d'après des formules intégrées dans BV3C ;
- le type de sol au niveau de chaque UHRH : le sol est caractérisé par les paramètres
contenus dans le tableau 1 en annexe;
- Le coefficient de récession (Kr) de la troisième couche (obtenu à partir des débits
observés);
- Les épaisseurs des trois couches obtenues à partir des données de terrain;
- L'occupation de l'UHRH (données obtenues par télédétection); et
- La pente S1,, qui correspond à la pente à la surface de l'UHRH estimée par les
modèles numériques de terrain.
45
Bien que tout nouveau sol puisse être intégré avec ses caractéristiques propres, BV3C
dispose des caractéristiques de 11 types de sol tels que définis par Rawls et Brakensiek
(1982) (tableau 1 de l'annexe 1). Les caractéristiques verticales des sols sont supposées
constantes pendant la durée de la simulation.
C'est l'agrégation des débits des différentes UHRH effectuée par les sous modules 5 et 6
qui donne le débit total du bassin. Les teneurs en eau (6), 62, 9s) obtenues permettent
aussi d'avoir une répartition spatiale de la teneur en eau du sol à travers l'ensemble du
bassin visualisable sur ordinateur.
2.3 Conclusion
Dans ce chapitre une description des outils qui seront utilisés par la suite a été faite. Le
modèle HYDROTEL constitue le sujet central auquel l'on veut apporter une modification
par remplacement d'un de ses modules par un groupe de perceptrons multicouches. Les
réseaux de Kohonen seront utilisés pour la mise en place d'une base de données
nécessaire à la mise en œuvre de ces perceptrons multicouches. L'insertion des réseaux
de neurones dans le modèle HYDROTEL donnera naissance à un modèle hybride où
coexisteront des modules conceptuels et des «boîtes noires».
46
3. Méthodologie
47
3.1 Introduction
Malgré l'accroissement de la vitesse de calcul des processeurs actuels, la résolution de
certains problèmes d'ingénierie demande des temps de calcul toujours plus importants.
En hydrologie et plus généralement dans le domaine hydro-environnemental, des
simulations de plusieurs heures ne sont pas rares. C'est notamment le cas de certains
modèles d'écoulement biphasique ou triphasique en hydraulique, ou des modèles de
diffusion des polluants. En hydrologie, le modèle SWAT par exemple requiert souvent
plusieurs centaines voire des milliers de simulations pour obtenir les paramètres
optimaux. Même lorsque le temps de simulation est acceptable, il est souvent requis
d'effectuer un grand nombre de simulations. En outre, de nouveaux concepts tels les
prévisions d'ensemble (Breiman, 1996; Buizza et Palmer, 1998; Hansen et Salamon,
1990) nécessaires à l'estimation des incertitudes autour des prévisions demandent des
prévisions répétitives nécessitant des temps de calcul plus longs. Face à ce besoin
toujours plus grand du temps de calcul, s'est développé le concept de méta-modèles (Jin,
2005) qui consiste à remplacer l'ensemble ou une partie d'un modèle par un autre pour le
rendre plus rapide, ou moins complexe, permettant dans certaines situations d'urgence
d'avoir des résultats même moins précis pour des prises de décision rapides. En hydro-
environnement, ce concept est utilisé dans des modèles de qualité des eaux (Bouzaher et
al., 1993; Deksissa et al., 2004; Meirlaen et al., 2001), dans des modèles de réseaux de
distribution d'eau (Broad et al., 2004; Broad et al., 2005a; Broad et al., 2005b), en
géophysique (Calderon-Macias et al., 2000) et en hydrologie (Khu et al., 2004 ).
S'inspirant de ces travaux, on cherche ici à remplacer une partie du modèle HYDROTEL
par un réseau de neurones.
Les réseaux de neurones ont fait l'objet de nombreuses recherches en hydrologie :Anctil
et Lauzon (2004), Birikundavyi et al. (2002), Coulibaly (2000), Fahlman et Lebiere
(2001), Gaume et Gosset (2003), Imrie et al. (2000), Jayawardena et Fernando (1998) ,
Jayawardena et Fernando (1998), Karunanitthi et al. (1994), Maier et Dandy (2000),
Markus et al. (1995), Mason et al. (1996), Minns et Hall (1996), Muttiah et al. (1997),
Shamseldin et al. (1997) et bien d'autres. Mais ceux-ci les ont pour la plupart du temps
48
utilisés de façon unitaire c'est-à-dire pas en interaction avec d'autres modèles ou parties
de modèles.
49
sont moins par rapport à la plupart des modèles conceptuels existant. Coulibaly
(2000) montre en effet que le nombre de paramètres des réseaux de neurones peut
atteindre la centaine quand certains modèles conceptuels n'en comptent que trois à
dix (Perrin et al., 2001).
Les réseaux sont également reprochés d'être moins efficaces dans la prévision de la
montée de crue, source de catastrophes de même que dans l'estimation des débits
d'étiage lorsqu'il s'agit du suivi de la qualité des eaux (Gaume et Gosset, 2003).
- Enfin on trouve que les réseaux de neurones ne contribuent pas grandement au
développement de connaissances des processus hydrologiques.
Ces faiblesses des réseaux de neurones sont soulignées par de nombreux auteurs. Ainsi,
Dawson et Wilby (1998) soulignaient l'incapacité des réseaux de neurones à simuler les
pointes de crue qui excèdent le maximum contenu dans la série d'entraînement.
Karunanitthi et al. (1994) firent le même constat lorsqu'ils utilisèrent les réseaux de
neurones pour la modélisation des débits de fleuve Huron à Michigan tout comme See et
al. (1997) . De leur coté, Hsu et al. (1995) constatent que les réseaux de neurones
surestimaient les plus faibles débits d'étiage. Tout ceci traduit l'incapacité des réseaux de
neurones à faire des extrapolations. Certains de ces auteurs ont émis des suggestions pour
améliorer cette faiblesse. Karunanitthi et al. (1994) suggèrent d'inclure dans les données
d'entraînement les plus grandes pointes possibles. Hsu et al. (1995) proposent de prendre
pour la modélisation le logarithme des débits mesurés pour réduire l'écart entre les fortes
et les faibles valeurs. See et al. (1997) proposent une pré-classification des données
d'entrée avant modélisation, tandis que Minns et Hall (1996) proposent de s'assurer que
les données d'entraînement contiennent suffisamment d'événements exceptionnels pour
d'améliorer la capacité d'extrapolation. Hettiarachchi et al. (2005) proposent eux des
méthodes d'estimation des événements maximaux à inclure dans la série d'entraînement.
Pour Anctil et Tape (2004), une décomposition des séries temporelles en ondelettes en
trois sous-séries décrivant les processus pluie-débit de courtes, moyennes et longues
périodes donnerait de meilleurs résultats, tandis que Imrie et al. (2000) proposent de
nouvelles fonctions d'activation. De nouvelles fonctions d'activation sont également
proposées par Shrestha et al. (2005).
50
L'effet de la longueur de la série sur la précision des réseaux, rarement mis en évidence,
est aussi étudié par Anctil et al. (2004). Cette étude montre que, pour une série journalière
d'environ une année, les réseaux sont moins efficaces qu'un modèle à 4 paramètres tel
GR4J (Perrin, 2000). Lorsque la longueur de la série atteint 3 à 5 ans, les deux modèles
ont une efficacité semblable. Pour des séries plus longues, les réseaux continuent
d'améliorer leur efficacité, ce qui n'est pas le cas du modèle à 4 paramètres. Tout modèle
aussi parcimonieux que le GR4J pourrait avoir le même comportement. Toth et Brath
(2007) parviennent pratiquement à des résultats similaires en comparant les réseaux de
neurones au modèle ADM à onze (11) paramètres. Cela s'explique par le fait qu'avec de
tels modèles, on arrive vite au point de saturation où l'augmentation de la taille n'a plus
d'impact sur les paramètres estimés, ce qui n'est pas le cas des réseaux de neurones qui
ont cette capacité d'augmenter le nombre de paramètres en fonction de la disponibilité
des données.
Toutes les suggestions qu'ont faites les différents auteurs ont rarement amélioré de façon
significative la capacité d'extrapolation des réseaux de neurones et certaines études
menées sur un seul site ne suffisent pas pour en faire des généralités. En réalité, ce qui est
considéré comme une insuffisance des réseaux de neurones dérive de la nature
intrinsèque de ce type d'approche. En effet, comme l'ont souligné le Task Committee on
Application of Artificial Neural Networks in Hydrology de ASCE (2000) sur la base
d'une importante compilation bibliographique, les réseaux de neurones sont efficaces
lorsqu'il s'agit de faire des prévisions dans l'espace des données qui ont servi à leur
optimisation, en dehors de cet espace, leur précision reste limitée. Pour cela, dans notre
étude une grande attention a été plutôt portée sur l'espace des données d'entraînement
que sur l'emphase d'extrapolation des réseaux de neurones. La présente étude ne se
rapporte pas à un bassin versant particulier, elle se veut et doit être fonctionnelle pour
n'importe quel bassin d'où la nécessité de trouver une base de données particulièrement
appropriée. On entend par base de données appropriée celle qui offrira une très grande
diversité en termes météo-climatiques.
Pour atteindre l'objectif une méthodologie divisée en deux parties a été mise en œuvre:
51
• une première partie dite « offline » où le module B V3C est extrait de l'ensemble
du modèle HYDROTEL et utilisé pour la mise en œuvre des réseaux de neurones.
• une deuxième partie dite « online », où les réseaux de neurones mis en œuvre sont
utilisés en continu.
R = P -■ z j — - + q i 2 + E + TrA (couchel)
V St J
se
Q2 = ~( z 2 ~ z l ) - r -2 +11,2 ~ a 2,3 ~ Tr 2 (couche 2) [3.1]
et
df)
Q3 = - ( z 3 - z 2 ) — ^ - + q 2 3 - T r 3 (couche 3)
dt
Avec E(m) l'êvaporation de surface, Tr(m) la transpiration, t(h) le temps, qi,2 (m) et
q2,3(m) les flux inter couches, Q2(m/h) et Q3(m/h) les débits sortant des couches 2 et 3
respectivement, z/(m), z^(m) et zj(m) les profondeurs des trois couches. Dans les couches
2 et 3 l'êvaporation est négligeable de sorte qu'on a uniquement la transpiration. En
utilisant la relation de flux inter-couches à savoir :
f y,(02)-¥(B1) \
91,2 = K
l,2 +1
z
?! +(Z2 ~ l )
[3.2]
(
yf(03)-yf(02) . j
12,3 = K 2 , 3
(z2-z]) + (z3-z2)
52
On a :
^
SOi „ [V,(02)-V,(0J)
R = P - z i — - + K} 2 + 7 + E + Tr,l
1 I J Zj+(Z2-Zj)
dt
( f \
S92 y,(6 2 )-y,(e 1 ) y,(e 3 )- ¥ (0 2 )
Q2 = - ( z 2 - z i ) ^ r + K u 2 | l
- K 2,3 |
-Tn
dt ZJ+(Z2-ZJ) (z2-zj) + (z3-z2)
dû (
¥(03)~¥(02) , /
Q3 = - ( z 3 - z 2 ) - l + K 2 J 2 Tr,
dt (z 2 -Z])+(z 3 -z 2 )
[3.3]
7?, 62 et ^ sont donc des fonctions des évapotranspirations aux niveaux des trois couches
et des teneurs en eau elles mêmes fonction de leurs valeurs au pas de temps antérieur, des
apports (précipitations), des caractéristiques du sol et des différentes épaisseurs tandis
que K est une fonction de 9. Selon le cas, E+Tr peut se ramener à l'êvaporation
uniquement E (cas de sol nu ou espace occupé par l'eau) ou à Tr (cas des couches
inférieures où l'êvaporation est négligeable devant la transpiration). Dans cette partie,
une famille de 3 perceptrons multicouches sera alors entraînée pour remplacer le plus
fidèlement possible le module déterministe BV3C pour estimer respectivement les
teneurs en eau dans les 3 couches, le ruissellement et le débit de la deuxième couche.
53
sols en onze types allant des sables aux limons fins. Les réseaux de neurones devront
également être optimisés sous différentes conditions météo-climatologiques pour obéir à
la flexibilité qu'offre HYDROTEL d'être utilisé sous des conditions climatiques variées.
Si l'on désigne par RN1 le réseau des teneurs en eau, on peut écrire :
[3.4]
avec $(-), la teneur en eau ; z(m)j, (z2-zi(m)), (zs-Z2)(m), les épaisseurs des couches 1 à 3
respectivement, Tr(m) les évapotranspirations réelles, v|/s(m), h,(-), 9S(-), Ks(m/h) sont les
schématiquement, se présente comme la figure 3.1. Cette configuration a été choisie avec
comme hypothèse que les trois variables Oi, 92, 93 dépendent des mêmes variables
d'entrée, en plus d'avoir une certaine relation entre elles d'après la relation de flux inter-
couches.
Couche cachée
Couche de sortie
Couche d'entrée Sortie
e2
e.,
Certaines variables comme les perméabilités inter-couche (K|,2 et K23), les flux inter-
couche (qi,2 et q2,3) et les potentiels matriciels (y) ne sont pas déterminées mais leur rôle
implicite est censé être intégré par la boîte noire qu'est le réseau de neurones. Les autres
54
variables d'entrée décrivent les caractéristiques physiques à travers les paramètres du sol
(0S, Ks, \j/s, A*), l'état antérieur de l'UHRH en termes d'humidité (9 (t "'\, g r > \ 9 (tl) 3 ), les
apports (P1), les pertes représentées par les évapotranspirations (Tr (t \, Tr(t)2, Tr(,)3) et les
profondeurs des différentes couches (z\, Z2, Z3). Les types de réseaux ici utilisés
(perceptrons multicouches) n'ont pas de "mémoire", ils ignorent l'état de l'UHRH dans
un passé plus ou moins lointain. Pour intégrer une certaine mémoire, les moyennes des
apports des 7, puis 15 et enfin 30 derniers jours ont été ajoutées comme variables
d'entrée. Notons que les variables d'entrées ici désignées ne sont pas définitives mais
celles qui sont vues comme pouvant avoir un impact significatif sur l'humidité du sol au
regard des équations qui régissent cette humidité. Elles n'ont certainement pas le même
poids et un test permettra de déterminer les plus pertinents que l'on retiendra. Le type de
test utilisé est celui dit "stratégie de construction" qui consiste, à partir d'un nombre
minimal de variables, à procéder par addition successive d'une nouvelle variable en
fonction de sa pertinence suivant un critère donné jusqu'à l'obtention des plus
pertinentes. Ainsi, les différentes variables peuvent être classées suivant leur pertinence
calculée en termes d'erreur qui en résulte.
3.4.2 Le réseau de Qi
Le débit de la première couche ou ruissellement, bien qu'il soit directement lié aux
précipitations, est un processus assez complexe. Il dépend de la capacité d'absorption du
sol, donc de sa perméabilité, mais est aussi fonction de l'humidité du sol sur ses couches
peu profondes. Ainsi on peut retenir que le ruissellement survient dans deux cas
essentiellement : (1) Le cas où l'intensité de pluie dépasse la capacité d'infiltration du
sol, et (2) lorsqu'une saturation est observée. Le ruissellement dépend donc des apports
mais également des caractéristiques physiques du sol. Le réseau de neurones suivant a été
mis en œuvre pour le calcul du ruissellement :
çf/>m.m2\p<t>,^>4t>4t>,^-1>
[3.5]
Avec Qi(m), le ruissellement, 9/, 92, 9s les teneurs en eau dans les trois couches Tri (m),
Tr2(m>, Trs(m)y les évapotranspirations réelles dans les trois couches. \|/s(m), AS(-), 9 S (-),
55
matriciel à saturation, l'indice des vides, la teneur en eau à saturation et la perméabilité à
saturation. Dans cette équation, les indices supérieurs désignent le pas de temps considéré
et les indices inférieurs se rapportent aux différentes couches.
3.4.3 Le réseau de Q2
Le réseau de calcul du débit Q2 sortant de la deuxième couche s'écrit :
[3.6]
Il s'agit ici d'un réseau à une seule sortie calculant le débit retardé. Ce débit dépend des
apports, mais la deuxième couche n'étant pas en contact direct avec les précipitations, il
dépend beaucoup plus des caractéristiques du sol, c'est-à-dire de sa capacité d'infiltration
et de sa force de rétention de l'eau infiltrée et est causé par la variation de l'humidité au
sein de cette couche. Le débit retardé dépend également de la pente de l'UHRH
favorisant ou non les écoulements latéraux et de l'épaisseur de la couche, paramètre
quantifiant l'eau qu'elle contient à tout moment. La forme de l'équation est retenue en
s'inspirant de la version originale dans BV3C, qui s'obtenait, après résolution des
systèmes d'équations différentielles, d'après la relation :
56
3.4.4 Données et hypothèses
Lorsque BV3C est utilisé dans sa version originale, l'essentiel des données sur le bassin
lui est fourni soit manuellement ou par l'entremise de PHYSITEL, un logiciel capable
d'exploiter des données fournies par la plupart des logiciels de systèmes d'informations
géographiques. Ainsi, pour chaque UHRH, sont fournies (1) les données
hydrométéorologiques telles l'état initial de l'UHRH (humidités du sol),
l'évapotranspiration potentielle et les précipitations (2) la morphologie représentée par la
pente, les profondeurs des différentes couches et l'occupation du sol en surface. C'est
avec ces données que BV3C calcule pour chaque UHRH les humidités aux pas de temps
suivants et les débits sortant de chaque couche.
Avec la substitution de BV3C par un ensemble de réseaux de neurones, ce principe reste
conservé. Pour des raisons de généralisation et compte tenu des limites des réseaux de
neurones examinées plus haut, une base de données convenablement choisie est
nécessaire pour la mise en œuvre de ces réseaux. Cette base devrait, pour surmonter les
limites des réseaux de neurones, avoir pour l'essentiel une plage qui éviterait autant que
possible aux réseaux de neurones de faire de l'extrapolation en conditions d'utilisation.
Elle devrait être suffisamment hétérogène pour intégrer des conditions
hydrométéorologiques diversifiées et des morphologies d'UHRH puisque c'est à cette
échelle que s'applique BV3C, ramenant ainsi tout le raisonnement de l'échelle du bassin
à celle-ci. L'idée de travailler avec beaucoup de bassins versants serait fastidieuse sans
pour autant garantir la diversité des UHRH souhaitée. Pour cela, l'option de données
synthétiques a été retenue. Cette option a l'avantage de partir d'un nombre de bassins
limité et de leur retenir un nombre synthétique d'UHRH différant d'une unité à l'autre
par tous ses autres paramètres (profondeurs, pentes) que l'on fera tout aussi varier
synthétiquement. À partir du nombre de bassins retenus, provenant d'origines climatiques
diverses, il devient alors possible de générer une infinité d'UHRH hétérogènes nécessaire
pour la mise en œuvre des réseaux. Cette option reste cependant limitée par
l'impossibilité de générer le débit global résultant de l'agrégation des débits sortant de
chaque UHRH car les UHRH n'ont pas forcement une correspondance réelle sur le
terrain. Cependant une fois les réseaux mis en œuvre, on pourra les tester sur un bassin
57
avec des UHRH et des conditions réelles qui devraient avoir été rencontrées par les
réseaux au cours de leur optimisation.
58
Tableau 3.2 : Caractéristiques statistiques des précipitations et ETP utilisées
3.4.4.2 Hypothèses
Une UHRH se caractérise par : (1) ses trois profondeurs, (2) le type de sol où elle se situe
que résume les paramètres physiques, et (3) sa pente. Le débit qui sort de chacune des
couches dépend des échanges (apports et pertes) qui s'effectuent au sein de l'UHRH. Le
meilleur réseau sera celui qui peut simuler au mieux le comportement de l'ensemble des
UHRHs que le modèle HYDROTEL est amené à rencontrer au cours de ses différentes
applications. Éviter que le réseau effectue des extrapolations revient à lui trouver une
plage de données d'entrées d'optimisation aussi large que possible. Autrement il faut lui
trouver des UHRH avec des paramètres physiques et des apports très diversifiés. La
recherche d'une telle base de données a emmené à faire des hypothèses qui, sans fournir
une base exhaustive, permet d'avoir un ensemble très diversifié de jeux d'entrée pour la
mise en œuvre des réseaux de neurones. Ces hypothèses sont :
• Sur chacun des 6 bassins retenus, 1100 UHRH ont été retenues, en supposant qu'il y a
100 UHRHs pour chacun des 11 types de sol.
• La répartition des précipitations et des évapotranspirations potentielles (ETP) est
supposée uniforme sur l'ensemble des UHRHs et égale à celle moyenne disponible.
Ainsi tous les UHRHs, pour chacun des bassins, auront la même hauteur de pluie et
59
d'évapotranspiration à chaque pas de temps. La conversion de l'ETP en ETR se fait
par multiplication de la première par un coefficient culturale pris entre 0.1 et 1.
L'ETR au niveau de chacune des trois couches est obtenue en supposant une
répartition linéaire décroissante de l'ETR obtenue sur la profondeur racinaire avec
une valeur maximale en surface et une valeur nulle au sommet de cette profondeur,
elle-même variant de 0 à 2 m. Cette méthode de calcul des ETR, bien que différente
de celle actuellement utilisée dans HYDROTEL, permet de couvrir plusieurs types de
végétations et d'utiliser les ETP disponibles sur les bassins considérés. Insérés dans
HYDROTEL, les réseaux de neurones pourront toutefois intégrer la méthode de
dérivation de l'ETR qui y est utilisée.
Les caractéristiques physiques des UHRHs ont été définies dans des domaines de
variation qui vont du minimum possible au maximum possible. Leurs valeurs sont prises
de façon aléatoire à l'intérieur de ces domaines assurant ainsi leur diversité. Les
minimums et maximums ont été retenus en tenant compte des plages de variation
possibles de chacun des paramètres physiques au sein d'HYDROTEL. Ainsi par
exemple :
Les pentes sont supposées varier de l%o à 20% et dans la procédure de sélection
des UHRHs, on retiendra pour chacune d'elles une pente comprise dans cet
intervalle et différente d'une unité à une autre.
Tout comme les pentes, l'épaisseur de chacune des trois couches des UHRH varie dans
un domaine donné fixé au regard de leur variation dans HYDROTEL. La première
couche est supposée varier entre 0.1 m et 0.2 m tandis que les deuxième et troisième
couches varient respectivement entre 0.4 m et 0.8 m, puis 0.5 m et 2 m. En retenant les
valeurs minimales, on peut avoir une épaisseur minimale de sol de 1 m tandis qu'en
retenant les valeurs maximales, on aura un sol d'épaisseur maximal de 3 m. Toutes les
UHRHs auront donc leur épaisseur de sol comprise entre 1 m et 3 m. La première couche
de sol est associée au ruissellement tandis que les deuxième et troisième couches sont
associées respectivement à l'écoulement retardé et à l'écoulement de base.
60
3.4.5 Mise en œuvre des réseaux de neurones
3.4.5.1 Classifications
Pour la mise en œuvre des réseaux de neurones, la boîte à outils de Matlab version 7.1,
« Neural Network Toolbox for Release 14 with Service Pack 3» a été utilisé. Malgré la
limitation à 3 ans de simulation par UHRH, la mise ensemble des sorties des six bassins
donne lieu à une série suffisamment longue pour rendre impossible son utilisation à l'état
brut avec cette boîte à outil. Les sorties par bassin ont, pour cela, été classées d'après la
méthode de Kohonen (1990) et un échantillon par classe a été retenu pour la mise en
œuvre des réseaux. Pour chaque bassin, la classification sur une carte de Kohonen de
dimensions 3x3, à répartition rectangulaire a été utilisée. Avec 9 classes par bassin
versant, on obtient au total 54 classes contenant chacune des éléments statistiquement
homogènes. On peut donc reconstituer une série suffisamment hétérogène et
représentative des 54 classes par un assemblage de 54 échantillons provenant d'un tirage
aléatoire, sans remise dans chacune des classes. La taille de l'échantillon de chaque
classe est proportionnelle à la taille de cette dernière. C'est d'une telle série que nous
nous servirons pour la mise en œuvre des réseaux de neurones.
61
variable la plus petite des 25 erreurs obtenues; 6) reprendre toutes les étapes précédentes
pour toutes les variables potentielles individuellement.
Pour toutes ces variables la plus pertinente sera celle qui présentera la plus petite erreur.
Pour avoir deux variables pertinentes, on ajoutera à la plus pertinente trouvée
précédemment tour à tour une des variables restantes et on évaluera l'erreur minimale
après au moins 25 initialisations. Une fois les deux meilleures variables déterminées, on
procédera de la même manière pour déterminer les 3, puis les 4 variables pertinentes et
ainsi de suite. Lorsque l'erreur estimée ne varie plus avec des variables supplémentaires,
on arrête l'opération.
Une fois les variables pertinentes et leur nombre déterminés, on fait varier le nombre de
nœuds dans la couche cachée afin de déterminer le nombre approprié, toujours en
procédant à 25 itérations au moins et en retenant la meilleure. Le nombre de nœuds
déterminé, le nombre d'initialisation est augmenté à 50. Ce qui d'après la relation de
Iyer et Rhinehart (1999) permet d'espérer à 95%, d'avoir le réseau qui donne le minimum
global parmi les 5,8% meilleurs. Des 50 initialisations qui donnent lieu à 50 réseaux de
neurones différents, on retiendra le meilleur c'est-à-dire celui qui fournira la plus petite
erreur. Pour le réseau retenu à cette étape, on fera varier le nombre d'époques
d'entraînements et on estimera l'erreur correspondante à chaque nombre d'époques. Le
nombre d'époque retenu sera celui offrant la plus petite erreur. Le réseau de neurones
final retenu sera celui précédemment retenu entraîné avec le nombre d'époques retenu et
la meilleure initialisation. Alors tous les paramètres de ce réseau sont enregistrés pour un
usage ultérieur.
62
terme des meilleures prévisions météorologiques. Des tests ont été effectués également
pour 30 et 45 jours.
Dans un cadre opérationnel, l'utilisation successive des réseaux de neurones au-delà du
deuxième pas de temps consiste à utiliser en entrées les prévisions antérieures pour
effectuer les prévisions aux pas de temps suivants. Quel que soit le modèle, une telle
utilisation suppose un modèle suffisamment précis car la prévision à chaque pas de temps
occasionne des erreurs qui, en s'accumulant, peuvent provoquer à terme une divergence
entre les valeurs calculées et observées. Ce problème peut facilement s'observer avec les
perceptrons multicouches ouverts où il n'existe pas une mise à jour des poids des
réseaux. Lorsqu'ils ne sont pas intégrés dans le modèle HYDROTEL, le test en continu
peut s'effectuer sur les six bassins qui ont servi pour leur mise en œuvre. Par contre, pour
les réseaux intégrés dans le modèle HYDROTEL la méthode a besoin d'être appliquée
sur un bassin où les UHRHs seront définies avec des paramètres de terrains pour
permettre une comparaison des débits calculés avec ceux observés. Pour cela le bassin
versant de Gatineau, où le modèle HYDROTEL a déjà été utilisé, servira pour le test.
63
entre 3 et 5 degrés Celsius. Les tests y sont effectués pour respectivement 3, 7, 14, 30 et
45 jours.
64
3.6 Conclusion
Dans ce chapitre, la méthodologie qui sera mise en œuvre pour la réalisation du projet a
été exposée. Les limites des réseaux de neurones sont décrites. Ces limites amènent à
rechercher une base de données diversifiées pour leur mise en œuvre. Pour cela en plus
d'utiliser des bassins issus de zones climatologiques différentes, des cartes auto-
organisatrices seront utilisées pour classer les résultats de simulation de BV3C. Les
différents réseaux de neurones seront mis en œuvre à partir d'échantillons provenant des
différentes classes. La mise en œuvre se fera en deux phases. Une première phase où les
réseaux seront optimisés et testés à un pas de temps de prévision et une deuxième phase
où ils seront utilisés en boucle.
65
4. Résultats
66
Ce chapitre regroupe l'ensemble des résultats obtenus en appliquant la méthodologie
développée dans les précédents chapitres. Pour faciliter la lisibilité, les résultats sont
présentés en quatre parties. La première partie porte sur les résultats de la classification
selon les cartes auto-organisatrices de Kohonen, dont l'objectif est de réduire la taille des
séries d'apprentissage, tout en conservant l'essentiel de leurs qualités intrinsèques. La
performance des différents réseaux mis en œuvre pour simuler le module BV3C
d'HYDROTEL est décrite au sein de la deuxième partie. Ces réseaux, tout comme BV3C,
combinent l'information pédologique au climat au cours du plus récent pas de temps, pour
calculer les nouveaux états de la teneur en eau et de l'écoulement latéral à trois
profondeurs au sein de colonne de sol ciblée. Cette première analyse permet d'évaluer
l'ampleur des écarts entre BV3C et son clone. Toutefois, les modèles hydrologiques de
l'envergure d'HYDROTEL sont généralement exploités en continu, c'est-à-dire sur une
longue série de pas de temps. Il est donc essentiel que l'analyse de la qualité du module-
clone comporte également une évaluation pour laquelle les deux modules sont exploités
pour des séquences climatiques de longueurs variées. C'est l'objet de la troisième partie
de ce chapitre. Pour terminer l'analyse, le module-clone est substitué au module BV3C au
sein d'HYDROTEL afin d'évaluer l'influence des écarts des deux modèles-frères à
simuler des débits : l'objet principal du modèle hydrologique HYDROTEL. L'application
présentée en quatrième partie de ce chapitre porte sur le bassin versant de la rivière
Gatineau, pour lequel la calibration des paramètres a été préalablement effectuée par
Hydro-Québec. Cette dernière évaluation porte à la fois sur la qualité de la simulation des
débits et sur le temps de calcul requis par les deux modèles-frères.
67
taille restreinte mais aux propriétés statistiques semblables, en assemblant des
échantillons provenant d'un prélèvement dans chaque classe. On veillera cependant à ce
que la série qui en résulte ait la taille nécessaire pour la mise en œuvre de réseaux de
neurones. Selon Anctil et al. (2004), la performance des réseaux de neurones peut être
limitée lorsque la base de données hydrologique manque à couvrir l'étendue des
événements possibles. Par exemple, entre 3 et 5 ans de données journalières sont
nécessaires à l'obtention de bons résultats.
La base de données cumulée des six bassins versants retenus couvre une série longue de 1
204 000 valeurs résultant de la simulation de BV3C sur les 6600 UHRHs pour chacun de
28 paramètres à l'étude. Pour chaque bassin, le tableau 4.1 présente le pourcentage
d'occurrence des groupes tirés de la classification de Kohonen. Une illustration est
également présentée à la figure 4.1 pour le bassin versant de la rivière San Juan.
68
Tableau 4.1 : Répartition des données par classe
Classes San Juan (%) Serein(%) Saltfork(%) Volpajola(%) Leaf(%) Kavi(%)
1 26.32 10.57 4.11 6.17 3.84 6.39
2 31.37 8.51 36.42 3.74 4.57 4.20
3 7.32 52.28 16.39 5.84 7.96 3.01
4 3.54 5.92 3.12 3.21 3.84 2.55
5 9.48 5.70 6.16 5.80 5.85 7.03
6 3.91 5.60 19.38 6.53 7.11 2.88
7 7.02 2.19 5.20 18.69 1.70 8.39
8 4.47 6.20 3.19 18.87 23.49 6.79
9 6.57 3.03 6.02 31.17 41.65 58.76
Total 100 100 100 100 100 100
En retenant une variable parmi les 28, par exemple la précipitation journalière, on peut
s'apercevoir de l'homogénéité de chacune des classes (voir tableau 4.2 qui montre les
résultats de Kavi). Cette homogénéité se traduit par un écart type plus faible que celui de
69
la série pris dans son ensemble (colonne 5). Une telle homogénéité s'observe pour
chacune des 28 variables et pour chacun des six bassins.
Classe Max (mm) Min (mm) Moyenne (mm) Ecart type (mm)
1 64.00 23.50 33.15 8.04
2 23.10 16.50 19.35 1.74
3 12.80 9.90 11.02 0.91
4 16.10 12.90 14.27 1.05
5 9.60 6.80 8.18 0.81
6 1.40 0.80 1.00 0.16
7 6.40 3.40 4.94 0.88
8 3.30 1.40 2.32 0.53
9 0.60 0.00 0.02 0.09
Kavi 64.00 0.00 4.81 9.12
Pour chaque bassin, ce sont 9000 éléments tirés proportionnellement à la taille de chaque
classe qui ont été retenus pour la mise en œuvre des réseaux de neurones. Ces 9000
éléments correspondent à un peu plus de 24 ans de données journalières. Rapportés à
l'ensemble de la série par bassin, ces données correspondent à 7.47 %o, ce qui est un
rapport très faible. Un réseau capable de généraliser sur le reste des données devrait
pouvoir l'être au delà des bassins qui ont servi à l'étude. En mettant ensemble les
échantillons des six bassins, on obtient une série de 54 000 éléments, ce qui correspond à
près de 148 années de données journalières intégrant des caractéristiques
hydrométéorologiques de 6 différents bassins et c'est à partir de cette série que sont
dimensionnés les différents réseaux de neurones. L'optimisation se fera sur les deux tiers
de la série et le test sur le tiers restant.
70
4.2 Mise en œuvre des réseaux
4.2.1 Le réseau des teneurs en eau (0,, 02, 03)
Le réseau des teneurs en eau, comme décrit au chapitre 3, possède 3 sorties, soit une
valeur pour chacune des trois couches de sol. Les variables qui ont servi à la mise en
œuvre de ce réseau sont : les précipitations au pas de temps considéré (Pt), les teneurs en
eau au pas de temps précédent (Of**, 92t_1, 93 t] ), les caractéristiques de sol (le coefficient
de ruissellement à saturation Ks, le potentiel matriciel à saturation i|/s, la teneur en eau à
saturation 9S, l'indice des vides X), l'évapotranspiration de chacune des trois couches (etri,
etT2, etr3), et l'épaisseur de chacune des trois couches (ei, e2, e3). Ces variables ont été
retenues pour les tests en raison de l'importance qu'elles peuvent avoir sur les teneurs en
eau et de leur présence dans les équations différentielles résolues par BV3C. En utilisant
la méthode constructive pour la sélection des variables, la figure 4.2 montre la variation
de la somme des trois erreurs en fonction du nombre de variables. C'est en effet la somme
de ces trois erreurs que l'on cherche à minimiser dans l'optimisation du réseau de
neurones.
71
16
14
12
10
8
LU
CT)
W 6
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Nombre de variables
Figure 4.2 : variation de l'erreur en fonction du nombre de variables pour le réseau des
teneurs en eau 9i, 92, et 93
Ce graphique permet de retenir les dix premières variables pour la modélisation des
teneurs en eau. Il faut noter que ce choix se veut surtout prudent et subjectif. La liste des
variables considérées et retenues est compilée au tableau 4.3. D'après ce tableau, les
teneurs en eau au pas de temps précédent ont une influence plus importante que toutes les
autres variables sur la sortie de ce réseau de neurones. Ce constat confirme que les
réseaux de neurones sont de bons modèles de mise à jour où les valeurs antérieures de la
variable modélisée sont les meilleures variables d'entrée. Les précipitations, d'où
proviennent les apports en eau, constituent aussi une des variables essentielles. De ce
tableau, il ressort également que les paramètres physiques du sol ont une influence plus
importante que les épaisseurs de sol des UHRHs. Ainsi les variables telles la teneur en
eau à saturation, le coefficient de perméabilité à saturation, le potentiel matriciel à
saturation constituent des variables qui viennent bien avant les évapotranspirations des
72
différentes couches et les épaisseurs des couches. L'évapotranspiration des première et
deuxième couches se révèlent aussi être des variables importantes du modèle. En général,
l'épaisseur de la deuxième couche est plus importante que la première justifiant une
évapotranspiration plus importante dans cette couche que dans la première. Quant à la
troisième couche bien qu'elle ait une épaisseur en général plus importante que les deux
autres, située à plus grande profondeur, son évapotranspiration est en général plus faible
et ne contribue pas pour beaucoup dans les variations des teneurs en eau des différentes
couches. Quant aux épaisseurs des différentes couches, le graphique montre qu'il est
possible de s'en passer dans la modélisation des teneurs en eau, de même que l'indice des
vides car leur ajout n'apporte pas une amélioration notable des résultats.
\Rang
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Réseaux^.
91„ 92„ 93, 02,., ei,., 93,., P, K, e$ Vs etrl, etr2, A ^2 etr3, e. e3
Ql, Pt Vs 82,., es 93, 92, 03,, ei,., 61, Ql,-, etr2, etrl, etr3, e. e2 e3 Ks S X
73
bien que ce choix soit un peu subjectif. La valeur de ce débit au pas de temps précédent
constitue la première variable de choix pour ce modèle. Le débit de la deuxième couche
est également influencé par les teneurs en eau actuelle et au pas de temps antérieur qui
s'explique par le fait que l'état d'humidité de cette couche dépend de la quantité d'eau qui
en est sortie. Le potentiel matriciel à saturation, la teneur en eau à saturation et la
perméabilité à saturation constituent également les paramètres physiques ayant une
influence sur ce modèle de débit. La pente S, qui détermine la direction d'écoulement et la
quantité d'eau écoulée intervient aussi comme variable importante dans ce modèle. La
teneur en eau actuelle dans la première couche influe aussi sur la quantité d'eau qui sort
de la deuxième couche comme le montre sa présence dans ce modèle.
0.8
0.7
0.6
iCT 05
b
E
LU 0.4
a.
en 0.3
0.2
0.1
Nombre de variables
Figure 4.3 : Variation de l'erreur en fonction du nombre de variables pour le réseau de Q2
74
4.2.3 Le réseau de neurones du ruissellement (Qi)
Les variables qui ont servi à la mise en œuvre du réseau de ruissellement sont les
précipitations au pas de temps t, les teneurs en eaux des trois couches au pas de temps
précédent (91t-i, 92t.i, 93,.i), les teneurs en eau au pas de temps t (9/, 021, 93l),
l'évapotranspiration de chacune des trois couche (etri, etr2, etT3), la pente (S) et les
paramètres de sol (Ks, i|/s, 9S). La liste de ces paramètres a été retenue au regard des
entrées utilisées dans BV3C.
75
explique toute la difficulté de modélisation d'une telle variable par les réseaux de
neurones qui sont beaucoup plus performants dans la mise à jour. Le ruissellement est
également influencé par l'état de l'humidité de chacune des trois couches dans la mesure
où la capacité d'absorption du sol dépend du niveau de saturation sur une certaine
profondeur. Les paramètres physiques du sol tels le potentiel matriciel à saturation et la
teneur en eau à saturation sont également des variables à retenir pour ce modèle. À ces
variables s'ajoutent l'évapotranspiration de la deuxième couche qui en général est la plus
importante de celles des trois couches. Ainsi, avec un peu de subjectivité, onze variables
ont été retenues pour la modélisation du ruissellement.
76
8 ir
7 ■
LU
DU
0 8 10 12 14 16 18 20
Nombre de variables
Une fois les variables d e chacun d es 3 réseaux connues, la méthod e essai et erreur est
utilisée pour la détermination d u nombre de nœuds dans la couche cachée. Le tableau 4.3
récapitule les variables qui ont été utilisées pour la mise en œuvre de chaque réseau. Les
variables y sont classées par ord re d e pertinence et les cellules grises contiennent celles
retenues pour chaque réseau.
Q 3 =Kr.03.e 3 [4.1]
77
Avec Kr (h"')le coefficient de récession, 93 la teneur en eau de la troisième couche et e3(m)
l'épaisseur de la troisième couche. Cette relation peut-être évaluée dès que 03 ait été
calculé par le premier réseau de neurones.
Le tableau 4.4 résume les caractéristiques et les résultats en terme d'efficacité des
différents réseaux sur le tiers restant de l'échantillon qui a servi à la validation. Ce tiers
représente une série longue de 18 000 valeurs journalières. Ce tableau fait ressortir les
bonnes performances des réseaux de neurones avec, pour chacun des quatre modèles, une
efficacité proche de l'unité. L'efficacité du réseau de neurones des teneurs en eau est
légèrement supérieure à celle des modèles de ruissellement et de l'écoulement de base.
Cela peut s'expliquer par le fait que les deux derniers modèles utilisent comme entrées les
résultats du premier modèle. Avec ses dix variables, ses vingt nœuds et trois sorties, le
réseau de neurones des teneurs en eau est également le plus complexe. Pour une variable
de sortie, le réseau de neurones du ruissellement est aussi complexe avec onze variables et
dix-huit nœuds témoignant de la difficulté de modélisation de cette variable tandis que
celui de l'écoulement de base est le moins complexe avec ses huit nœuds et neuf
variables. Le modèle de l'écoulement retardé a pratiquement les mêmes performances que
celui des teneurs en raison de la relation dont elle résulte. La série utilisée pour le test ne
constitue qu'une toute petite partie de la base de données disponible d'où la nécessité
d'étendre les tests sur le reste de la base afin de valider l'ensemble des modèles mis en
œuvre.
78
4.3 Performance des réseaux pour l'ensemble de la base
de données
Dans cette section, les réseaux de neurones précédemment mis en œuvre sont testés sur
l'ensemble des UHRHs des six bassins versants. Sur chaque UHRH, les tests portent sur
les éléments de la série qui n'ont servi ni à l'optimisation ni au test de ces réseaux. Au
total, les tests portent sur les 100 UHRHs par chacun des 11 types de sol par bassin
versant.
Pour rappel, les 11 types de sol sont ceux de la classification de Clapp et Hornberger
(1978). Ces sols sont principalement le sable (sand), l'argile (clay), le limon (silt), le loam
(loam) et une combinaison de ceux-ci. Numérotés de 1 à 11 allant du plus grossier (sable)
au plus fin (argile), ces sols sont respectivement, en reprenant les mêmes termes que les
auteurs : (1) sand, (2) loamy sand, (3) sandy loam, (4) loam, (5) silty loam, (6) sandy clay
loam, (7) clay loam, (8) silty clay loam,, (9) sandy clay, (10) silty clay, (11) clay. Les
caractéristiques physiques de ces sols sont dans l'annexe 1 et vont ainsi du plus perméable
au moins perméable.
Pour l'ensemble des six, bassins ce sont donc au total 6600 UHRHs sur lesquelles se sont
fait les tests et les critères retenus à ce stade pour l'appréciation sont celui de l'efficacité
de Nash et Sutcliffe (1970) et du bilan. Ces critères peuvent être calculés par UHRH pour
chaque variable modélisée ou par ensemble de types de sol ou par bassin. Il faut noter
qu'en recourant à toutes les données, on mettra inévitablement les réseaux de neurones en
extrapolation à quelques reprises. À ce stade de l'étude, les écoulements latéraux des
UHRHs ne peuvent pas être combinés entre eux pour produire le débit d'un cours d'eau,
car la modélisation du routage n'est pas incluse dans BV3C - elle est plutôt effectuée par
des modules subséquents au sein d'HYDROTEL. En revanche, un test de ce genre a été
effectué, tel que discuté dans une autre section de ce chapitre.
Les résultats de performance pour chacun de 6600 UHRS sont compilés aux tableaux 4.5
et 4.6, selon les onze types de sol. Ces critères peuvent être positifs, négatifs, ou encore
impossibles à calculer lorsque les valeurs simulées sont toutes nulles ou très faibles
(division par zéro). Les teneurs en eau n'y figurent pas car, pour ces variables, les deux
critères sont tous positifs. Ces tableaux montrent que, sur certains types de sol, le
ruissellement (Qi) est quasi-inexistant. C'est le cas des sols 1, 2, 3, 4 et 5 qui sont
79
caractérisés par des valeurs élevées de coefficients de perméabilité (Ks), d'indice de
distribution de pores (k) et de faibles potentiels matriciels (\|/s) à saturation. Ces trois
caractéristiques physiques confèrent à ces sols de grandes capacités d'infiltration et, de ce
fait, expliquent pourquoi le ruissellement s'y produit rarement. Ainsi, sur les 600 UHRHs
du sol 1, des événements de ruissellement sont notés pour seulement une dizaine
d'UHRHs, alors que pour le sol 2, une soixantaine d'UHRHs ont généré du ruissellement.
Cette rareté se répercute directement sur le nombre d'exemples disponibles pour la mise
en œuvre des réseaux de neurones. Les événements de débit de la deuxième couche et de
la troisième couche surviennent en contrepartie plus souvent, de sorte que les deux
critères peuvent y être calculés pour l'ensemble des UHRHs. Tel que compilé aux
tableaux 4.5 et 4.6, le critère d'efficacité (E) présente quelques valeurs négatives, tandis
que le critère de bilan (B) ne présente de valeurs négatives que pour Qi et Q2. Dans
l'ensemble, on notera que les valeurs négatives des deux critères représentent moins de
10% du total des critères calculés.
80
Tableau 4.5 Répartition du critère d'efficacité suivant le signe
Sol 1 2 3 4 5 6 7 8 9 10 II
Impossible 591 536 421 309 296 170 150 64 0 0 0
Q. Négatif 2 20 40 49 14 21 5 1 0 0 0
Positif 7 44 139 242 290 409 445 535 600 600 600
Impossible 0 0 0 0 0 0 0 0 0 0 0
0: Négatif 1 2 3 12 18 24 45 17 23 50 36
Positif 599 598 597 588 582 576 555 583 577 550 564
Impossible 0 0 0 0 0 0 0 0 0 0 0
Qa Négatif 11 14 9 1 1 2 3 0 0 0 0
Positif 589 586 591 599 599 598 597 600 600 600 600
Les figures 4.5 et 4.6 présentent les cinq caractéristiques statistiques principales de
chacun des deux critères positifs, à savoir le minimum, le percentile 25%, la moyenne, le
percentile 75% et le maximum pour l'ensemble des six variables modélisées : les trois
teneurs en eau et les trois débits. Ces trois caractéristiques ont été calculées à partir des
critères positifs dont le nombre par type de sol est indiqué aux tableaux 4.5 et 4.6. Pour
les trois teneurs en eau, la tendance générale montre des valeurs d'efficacité (E) moyennes
proches de l'unité. Cette moyenne se trouve presque confondue avec les trois autres
valeurs statistiques extrêmes que sont le percentile 25%, le percentile 75% et le maximum
et ce, pour les onze types de sol, témoignant des bonnes performances générales des
réseaux de neurones dans la prévision de ces variables à un pas de temps. Pour la teneur
en eau de la seconde couche, la valeur minimale de l'efficacité (E) est même au dessus de
81
0.8 tandis que pour la teneur en eau 1, cette valeur est au dessus de 0.8 sauf pour les sols 1
et 2. L'efficacité minimale positive pour la teneur en eau 3 connaît bien des fluctuations
allant de presque zéro au sol 1 à des valeurs au dessus de 0.80 pour les sols 5, 8 et 11.
La figure 4.7 montre l'efficacité des teneurs en eau de la première couche du bassin
versant Serein. C'est sur ce bassin que l'efficacité de la teneur en eau 3 a enregistré la plus
faible valeur positive 0.03. Cette figure montre cependant une bonne répartition de
l'efficacité sur les 100 UHRHs du sol 1, la valeur minimale isolé, constituant un cas
particulier. Une visualisation des prévisions des teneurs en eau de la troisième couche sur
l'UHRH qui a enregistré la plus faible efficacité positive (0.03) donne la figure 4.8. La
mise à l'échelle montre que la variation de cette teneur est peu importante, de 0.412 à
0.417. La faible valeur de l'efficacité ne traduit donc pas une mauvaise qualité des
prévisions sur cette UHRH mais plutôt la difficulté des réseaux de neurones à faire des
prévisions dans un intervalle de variation de la teneur en eau très réduit. Cette explication
est confirmée par le deuxième critère de bilan (figure 4.6 c), dont les valeurs approchent 1
pour la teneur en eau de la troisième couche de sol. Pour rappel, ce critère de bilan
compare la somme des prévisions à la somme des observations et une valeur proche de 1
témoigne d'un bon bilan. Dans l'ensemble, on peut conclure que les réseaux de neurones
reproduisent bien les teneurs en eau dans chacune des trois couches de sol.
L'efficacité de Qi présente une certaine dispersion avec une valeur moyenne inférieure à
0.70 pour les deux premiers sols et inférieure à 0.80 pour les deux sols suivants. Les
hautes valeurs moyennes sont enregistrées du sol 5 au sol 11. Les valeurs de percentile
25% et de percentile 75% suivent la même tendance que la valeur moyenne. On peut
facilement établir une relation entre le tableau 4.5 et la figure 4.5 et constater que les
faibles valeurs d'efficacité affectent les sols pour lesquels les événements de ruissellement
sont rares. Cela peut s'expliquer par le fait que ces sols proposent peu d'exemples pour de
la mise en œuvre des réseaux de neurones, ce qui limite leur capacité de généralisation.
En plus, le débit Qi est difficile à modéliser en raison de ses fluctuations importantes sur
ces sols notamment sableux où, avec de fortes capacités d'absorption, le ruissellement s'y
déroule souvent sur de courtes périodes de temps. Lors de la simulation de BV3C, il n'est
pas rare de voir le ruissellement passer de zéro à des valeurs élevées (figure 4.9). Ces
fluctuations créent des discontinuités importantes dans la série de ruissellement que les
82
réseaux de neurones ont des difficultés à simuler. Aussi sur certaines UHRHs, le
ruissellement n'est survenu que quelques rares fois (figure 4.9) au cours de la période de
simulation, ce qui statistiquement rend plus incertaines les valeurs d'efficacité et de bilan
calculées et explique en grande partie leurs faibles valeurs. Pour la modélisation de Qi, on
retiendra donc que les réseaux de neurones simulent particulièrement bien les sorties de
BV3Csurlessols5àll.
Les réseaux sont plus performants à simuler le débit Q2 sur l'ensemble des 11 sols,
comme le montre la figure 4.5e où le percentile 25%, la moyenne, le percentile 75% et le
maximum des deux critères sont presque confondus et proches de l'unité. Cela s'explique
en partie par le fait que le débit Q2 fluctue lentement, ce qui favorise une modélisation
exploitant l'autocorrélation (la valeur au pas de temps précédent comme variable
d'entrée). Il existe cependant des cas où les critères d'efficacité et de bilan enregistrent de
faibles valeurs comme le montre les valeurs minimales tracées sur les figures 4.5 et 4.6;
d'autres valeurs sont même négatives (tableau 4.5 et tableau 4.6). Sur les figures 4.5 et 4.6
une attention particulière doit être portée aux échelles des ordonnées qui diffèrent d'une
variable à l'autre. L'analyse détaillée de ces valeurs faibles ou négatives montre qu'elles
surviennent dans des circonstances similaires. La figure 4.10 montre un cas d'UHRH à
efficacité négative alors que l'on a de bons résultats de simulation. Cela s'expliquerait par
les faibles valeurs simulées (inférieures à 0.1 mm) qui rendent très sensibles les formules
d'efficacité et de bilan utilisées. En effet, de trop faibles valeurs des dénominateurs
entraînent ces critères vers des valeurs faibles voire négatives. Le modèle enregistre
également de faibles valeurs d'efficacité et de bilan lorsque, sur une UHRH, le domaine
de variation de Q2 est étroit (figure 4.10).
La modélisation de Q3 présente les meilleures performances basées sur les deux critères
sélectionnés. Rappelons que Q3 n'est pas le résultat d'un modèle neuronal mais résulte
d'une équation déterministe. La qualité de ses prévisions dépend plus de celle de 03 et, tel
que déjà noté précédemment, les réseaux de neurones sont très performants dans la
prévision de ©3. Ainsi, pour Q3 si l'efficacité présente des valeurs minimales faibles, le
critère de bilan présente des valeurs minimales proches de 1. Tout comme précédemment,
c'est essentiellement sur les UHRHs pour lesquels la variation de Q3 est petite que l'on
observe ces plus faibles valeurs d'efficacité.
83
a) b)
_ U 0.90
1 2 3 4 5 6 7 8 9 10 11
Sol
c) d)
83 VI
■min —■—perc25 —*—moy —x—perc75 —*—max •perc25 —é—moy —X—perc75 —*—max
t.
9 10 11
e) 0
Q: Q3
-min —■—perc25 —*—moy —*—perc75 —*—max ■min —■—perc25 k— moy ■perc75 —«—max
fad -
84
-min ■ perc25 —*—moy —*—perc75 —•—max
s * - ~ ^ ^ f e '_T__^tIL ■ j
0.80 3 i r -*— - ^
0.60 i
'» *^^ ^
0.00 - T 1 ■ 1 , , 1
0.97
4 5 6 7 9 10 II
2 3 4 5 6 7 8 9 10 11
Sol Sol
e) 0
-min —■—perc25 —A—moy —*—perc75 —"*—max -min —■—perc25 —*—moy —X—perc75 —if—max
1.01
1.00 j j R M. X * ^ = *
0.80 1.00
0.60
60 0.99
0.40
0.98
0.20
85
i i i i i i
'
1
0.9
0.8
0.7
0.6
JC
M
z 0.5 ■ : - ■ ■
0.4
0.3-
—V
0.2 —V
e
0.1 — 3
' i i i i i i
10 20 30 40 50 60 70 80 90 100
UHRH
Figure 4.7 Efficacité du modèle de teneur en eau sur les UHRHs du bassin versant de
Serein, sol 1)
i i i i i i i i i
~^H *N ■ « 1 ^ ~*
0.416
0.414
0.412
0.41
«,(RN)
0.408 «, (BV3Q
0.406
0.404
0.402
n , 1 i
0 100 200 300 400 500 600 700 800 900 1000 1100
Jours
Figure 4.8 Exemple de simulation 03 sur une UHRH du bassin versant de Serein pour le
soil
86
12 T 1 1 r I I IE
O^RN)
01 (BV3Q
10
j......k
■ ' I l
0 100 200 300 400 500 600 700 800 900 1000 1100
Jours
0.6
0.4
I i[ | ; ; .mi — j j t—j |
E
J. 4.2 -. 1 r 1 T i ---T -r -"i T 1
-0.4 , r , T 1 7 J. , f (
-0.6 - - - " ^ - - r - - t - - - - - - T - - - - - - r - - - - - , r -, m- m - , -
-1
0 100 200 300 400 500 600 700 800 900 1000 1100
Jours
87
Il est intéressant d'étudier la distribution statistique des valeurs du critère d'efficacité
calculées sur toutes les UHRHs et sur tous les bassins en test. La figure 4.11 présente les
fréquences cumulatives de l'efficacité pour chacune des six variables. On peut
s'apercevoir que la probabilité d'obtenir une efficacité inférieure à 0.80 est faible
(inférieure à 0.1) pour chacune des six variables confirmant les bonnes performances des
réseaux de neurones dans la simulation de BV3C au pas de temps unitaire. Cette figure
confirme également les meilleures performances des réseaux de neurones dans la
simulation des teneurs en eau par rapport aux débits. Ce qui se comprend quand on sait
que les teneurs en eau sont des variables d'entrée pour les modèles de débit qui intègrent
nécessairement les erreurs faites dans l'estimation de celles-ci. À cela il faut ajouter le fait
que dans la réalité les variations de débit dans le temps sont plus importantes et reliées à
celles des teneurs en eau rendant les débits plus difficiles à modéliser par les réseaux de
neurones que les teneurs en eau. En comparant les efficacités calculées sur la variation
temporelle des différentes variables (pointillé sur la figure 4.12), on se rend compte que
cette efficacité est du même ordre de grandeur pour les variables dQ3 et d03 tandis que
dQl et dQ2 présentent des valeurs d'efficacité légèrement meilleures que celles de d0i et
d02. Ce qui confirme le fait que les difficultés dans la modélisation des différents débits
sont dues en grande partie à leur forte fluctuation dans le temps.
88
■
! I ! I I i
0.9
Q2 " ■; p y \ ;
Q3
0.8 Q1
«1
0.7
e2 1— — r - - —t - ! _ _ _ _ - , _ _ - _ ! .f —
«s
t 0.6
E
_l
_
_
0.4
0.3
—,
0.2
0.1
! : : î : ! ,T>^J J r " '-^mrr-Zm-m-m-Ï-^ ^
__ , ,_ -.Ca
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Critère E
Figure 4.11 Fréquence cumulée de l'efficacité pour les modèles de simulation des six
variables.
0.9
M,
m-fjL-i
0.8
• i
yh
de 2
0.7
7?
dQ,
| 0.6
a
E /y
m
r .<
3
0.5 /-
§
f 0.4
S
\-f- r
0.3
J&*
<? y
0.2 y ^ :r
* . A m . * — - ^
.y
_ _ w ±--'-'_"'- \ — j-_r_f^m__._\-_m
0.1
**r
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Critère E
Figure 4.12 Fréquence cumulée de l'efficacité pour les variations des six variables.
89
4.4 Performance des réseaux utilisés en boucle
L'objet d'une modélisation hydrologique se limite rarement à une simulation sur une
durée réelle d'une heure ou d'une journée. Que la modélisation soit dite événementielle
ou continue, la série des débits simulés s'étire en fait sur plusieurs heures, jours ou même
à l'infini dans le cas théorique de la modélisation continue. Les modèles au pas de temps
journalier tels que BV3C et le jeu de réseaux de neurones développés dans le cadre de
cette thèse sont alors opérés en boucle, c'est-à-dire que les sorties d'une simulation
horaire servent de conditions aux entrées à la simulation suivante. Malgré la qualité
démontrée des réseaux de neurones développés, l'objectif de cette section est d'évaluer si
les faibles écarts entre BV3C et le jeu de réseaux de neurones développés vont amener les
deux modèles à diverger lorsqu'exploités en boucle.
90
modélisée et pour des horizons de 3 jours, 7 jours, 14 jours, 30 jours et 45 jours. De cette
figure on peut tirer les constatations suivantes :
- Plus l'horizon de prévision est grand, plus les erreurs faites sur les prévisions sont
grandes, ce à quoi on pouvait s'attendre car les prévisions étant faites à partir des
prévisions antérieures, les erreurs vont s'accumulant et on devrait théoriquement
s'attendre à ce que les deux modèles divergent sur le long terme.
- L'analyse des erreurs de teneur en eau montre qu'elles sont inférieures à 0.005
notamment pour l'horizon de 3 jours avec une fréquence cumulée supérieure à
0.90 pour les trois teneurs en eau. Cette erreur, en terme relatif, vaut entre 1% et
15% si on la rapporte respectivement aux teneurs en eau maximales possibles
(teneurs en eau à saturation dont la valeur maximale est de 0.417) et minimales
possibles (teneur en eau au point de flétrissement dans le sable qui est de 0.033).
- En retenant 0.005 comme erreur acceptable des teneurs en eau, on se rend vite
compte que la fréquence cumulée décroît rapidement avec l'horizon de prévision
pour chacune des trois teneurs en eau. La fréquence passe de plus de 0.9 pour
l'horizon de 3 jours à moins de 0.5 pour l'horizon de 45 jours. La variation de
l'erreur en fonction de la fréquence cumulée n'est pas la même sur les teneurs en
eau pour les différents horizons de prévision. Si jusqu'à un horizon de 14 jours (2
semaines), la fréquence cumulée pour une erreur de 0.005 avoisine 0.70, elle
décroît vite pour atteindre 0.50 dès lors que l'horizon de prévision atteint 30 jours
et passe sous la barre de 0.50 pour un horizon de prévision de 45 jours.
- En retenant pour acceptable une erreur de 0.005 et une fréquence cumulée de 0.70,
on s'aperçoit qu'il faudrait limiter l'horizon de prévision à 14 jours (2 semaines);
au-delà, la fréquence prend de faibles valeurs (inférieures à 0.50) pour le même
niveau d'erreur.
- Les teneurs en eau étant des variables d'entrée des différents débits, le même
horizon de prévision est retenu pour ces derniers. Avec 14 jours comme horizon
de prévision, les différents débits présentent également de faibles erreurs. Pour une
fréquence cumulée de 0.80, l'erreur reste inférieure à 0.2 mm1 pour chacun des 3
débits (Qi, Q2, et Q3). Les erreurs calculées sur Qi sont beaucoup plus faibles
91
(inférieure à 0.1 mm) mais l'on se rappellera que cette variable présente plus de
valeurs nulles pour des raisons déjà évoquées. Le débit Q2, qui a des valeurs plus
élevées, présente également des erreurs faibles. Pour l'horizon de prévision de
deux semaines, la fréquence cumulée est de l'ordre de 0.80 pour une erreur
d'environ 0.1 mm. Quant au débit Q3 dont les valeurs en général sont plus faibles
que celles de Q2, les erreurs sont encore plus faibles (inférieures à 0.1 mm même
pour un horizon de prévision de 45 jours pour lequel la fréquence cumulée atteint
0.90). Cela témoigne des bonnes performances des réseaux de neurones mis en
place même s'il faut garder en mémoire le caractère probabiliste d'une telle
analyse. Une variation brusque d'une des variables d'entrée peut entraîner une
divergence prématurée des différents modèles neuronaux mis en place.
92
le Yp^\ | j \ ►
3 ion»
7 jouis
14 j o u r .
ï
ut — — 30 j o u i *
' i ? \ i -, 45 j o u r .
11
OJ
0.2
0.1
tf I i i ! ! i i
0.005 0.01 0.015 0.02 0.025 0.03 0.035 i.04 0.045 0.05
~ 3 jours
- 7 jours
-14 jours
- 3 0 jours
l 0 4 - 45 jours
T
0.2 —
0.1 —
0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 0.05 0.2 0.4 0.0 0J, 1 1.2 1.4 1.C U
MAE MAE ni
ïï/fT
0.8
0.7
H ) I | j ; | [ |
: 3 jouis ■
ï 0.6 7 jouis
ï 0.5 f i f | j j |™ 14 jouis
S 30 jouis
= 04 45 jouis
T
-f :
i i i i i i ! ! !
0J 1 1.2 0.2 0.4 0.6 0J 1 1.2 14 1.C U
HAEIIIIIIII MAEliiiiul
Figure 4.13 Fréquence cumulée des erreurs (MAEs) selon l'horizon de prévision
Les résultats en prévision continue peuvent également être analysés selon les types de sol.
Sur chaque type de sol, pour l'horizon de prévision retenu, les différentes MAEs calculées
sur l'ensemble des bassins sont représentées sous forme de boîte à moustaches. La boîte à
93
moustaches (voir figure 4.14) est un outil d'analyse de données qui, d'après Benjamini
(1988), possède cinq propriétés lui conférant toute son utilité : (1) elle fait ressortir les
caractéristiques essentielles d'une base de données que sont la distribution, la symétrie et
les valeurs extrêmes; (2) la boîte à moustaches reste un bon compromis entre une
description détaillée et celle montrant les caractéristiques sommaires d'une série, ce qui
convient bien pour le cas présent en raison de la grande taille des données; (3) plusieurs
séries peuvent être comparées par simples tracés côte â côte de leur boîte à moustaches;
(4) la boîte à moustaches est très facile à illustrer, et (5) elle est d'une explication plus
simple aux utilisateurs des statistiques. Une boîte à moustaches se caractérise par sa base
définie par le premier quartile de la série et sa hauteur limitée par le troisième quartile.
Deux traits en pointillés relient la base et le sommet de la boîte respectivement aux
valeurs extrêmes supérieure, correspondant respectivement au sommet de la boîte plus 1.5
fois l'intervalle inter quantile et inférieure, correspondant à la base de la boîte moins 1.50
fois l'intervalle inter quantile. Les valeurs au-delà de ces deux traits horizontaux sont
représentés par des symboles "+". Les MAEs calculées sur l'ensemble des six bassins
sont regroupées par type de sol et représentées sous forme de boîtes à moustaches,
donnant lieu à 11 boîtes par variable correspondant aux 11 types de sol. Cela permet
d'observer la distribution des MAEs sur les 11 types de sol selon le terme de prévision
retenu. Pour de meilleures prévisions, la hauteur de la boîte doit être la plus petite possible
et proche de zéro, origine des ordonnées. Les figures 4.15 et 4.16 montrent les boîtes à
moustaches pour les teneurs en eau et les trois débits (Qi, Q2, et Q3) pour un terme de 14
jours, résultant des tests sur l'ensemble des bassins avec des réseaux de neurones non
intégrés dans le modèle HYDROTEL. Une attention particulière doit être portée aux
échelles des ordonnées qui diffèrent d'une variable à l'autre pour plus de lisibilité. Seuls
les résultats pour l'horizon de 14 jours sont représentés car, tel qu' observé plus haut, à
cet horizon les erreurs demeurent faibles pour les teneurs en eau. L'analyse des boîtes à
moustaches fait ressortir ce qui suit :
• Par rapport aux teneurs en eau, dans la première couche de sol, les réseaux de
neurones ont une précision semblable pour les onze types de sol avec des MAEs
en dessous de 0,01. Ces erreurs présentent cependant plus de valeurs extrêmes
pour les sols 1 à 4. Cela s'expliquerait par le fait que la teneur en eau dans la
94
première couche connaît de fortes fluctuations dues aux fortes capacités
d'infiltration de ces sols qui ont les caractéristiques physiques du sable ou proches
de celles du sable. Cela expliquerait également les nombreuses valeurs extrêmes
observées pour les teneurs en eaux dans la deuxième couche au niveau des mêmes
sols.
Par contre, la teneur au niveau de la troisième couche présente de faibles valeurs
d'erreurs quel que soit le type de sol. Cela pourrait s'expliquer par le fait qu'au
niveau de cette couche plus profonde, la variation de la teneur en eau est en
général plus faible et plus lente, une situation dans laquelle les réseaux de
neurones sont plus performants.
Au niveau d'une couche, les réseaux de neurones ont un comportement similaire
dans la simulation des teneurs en eau que dans la simulation du débit. Pour le
premier débit, les faibles MAEs au niveau des 4 premiers sols traduisent en grande
partie la rareté du ruissellement au niveau de ces sols. Sur les autres sols où le
ruissellement s'observe plus souvent, les erreurs demeurent en dessous de 0.5 mm.
Les boîtes à moustaches du débit de la deuxième couche révèlent des erreurs
décroissantes allant du sol 1 au sol 11. Cela pourrait s'expliquer par le fait que Q2
utilise comme variable d'entrée la teneur en eau de la première couche 0j et Ks.
Les fortes fluctuations de 0i peuvent être source de difficultés pour le réseau de
Q2. Quant à la perméabilité Ks à saturation, les erreurs de Q2 semblent lui être
proportionnelles. Ces erreurs vont en décroissant du sol 1 au sol 11 tout comme le
coefficient de perméabilité à saturation.
Les erreurs du débit Q3 ne semblent pas être reliées au type de sol comme le
montrent ses boîtes à moustaches qui traduisent un niveau de précision à peu près
égal sur les onze sols. Cela s'expliquerait par le fait que la simulation de la teneur
en eau au niveau de cette couche présente une erreur de même ordre de grandeur
sur les onze types de sols (figure 4.15).
95
3èmcquantile+1.5x
intervalle inter auantile
r 3,ème
eme
quartile
Médiane
1er quartile
96
0.06 I 1 1 T" 1 1 1 1 -
t 1 1
L-
0.05
0.04
LU 0.03 I r "T T -t.- -
< I I ,
■ 1 ,
.. j
0.02 ___l
I
I_
J
I
J
L
l
T-
}
l---
1 -j-
I I l T
•r 1
0.01 . . . [ L J i J J... ---► —
*
0 "■i r i r i T--- - - -r - -— ,--- — r - - - - - . —
10 11
0.06 1 1 1 1 1 —l 1 1 1 1 1
0.05
0.04 T
— 1 - - - -- T " "
CM
1
0.03 1
1
1
1
0.02 1 . . -T. . .
1
1 --Y -- •~f~
0.01
1 1
1 T
-1er --I-- — i — .. .^—.p 1 ^ .
0 X
- -Xî - - • ---r--
*
X
------- --r--
<#
■ - - - , - - -
.
^
4» " " *" T
... . . . . . .
* r "*■ 4-
i r-
10 11
x10
20 1 1 1 1 1 —1 1 1 1 1 1
15 —-■
.? 10 l-I-l-I-
i r î r
1
•Pi
1
— r
T
1
1 —
5-
■
X X
J
i
X -
i
1
-
è J. !
X
1
m 0 T
$
X
1
1
X L
1 1 1 1 1 1 1 1 1 1 1
6 10 11
X -1- X
sol
Figure 4.15 : Distribution des MAEs par type de sol, horizon de 14 jours
97
1.5
+
+
Ê 1
S
-r I
0.5 I ■ -I---
I I
;
i...i..ô...t5..0.â...û..â_ J L
1 2 3 4 5 6 7 8 9 10 11
1
->
T
E
cr * ""i r { r
LU I l 1 T
I l I I
< I
---1
l
1- { I-
I I
1 -
2
1
0 fl..à.à-i.ii..i.A.A..i..i..*. 10 11
0.1 t r i r
0.08 j
I 0.06 L !..
0.02
0
f -ô â è -firàrf-énfrà
_i i_
.X.....4-.
J L.
X J
J
L.
I
2 3 4 5 6 7 8 9 10 11
sol
Figure 4.16 : Distribution des MAEs par type de sol, horizon de 14 jours
98
4.5 Résultats du Bassin de Gatineau et mesure du temps
de calcul
Le modèle HYDROTEL a été appliqué sur le bassin de Gatineau en 2003 par les services
d'Hydro-Québec. C'est ce projet qui sert ici de cas réel pour comparer la nouvelle version
HYDROTEL intégrant les réseaux de neurones à l'ancienne version. Afin de pouvoir
mesurer l'efficacité, la simulation a été faite selon le schéma de la figure suivante. D'après
ce schéma, la fin de chaque séquence de simulation constitue le début d'une autre séquence.
Ainsi au début de chaque simulation, la valeur de départ est lue dans un fichier contenant
les résultats d'HYDROTEL tourné dans sa version originale. Par exemple, lorsque la
simulation est effectuée pour des séquences de temps de 7 jours, au huitième jour les
variables au pas de temps antérieur (correspondant au pas de temps 7) sont lues comme
conditions initiales (figure 4.17). Cette technique permet d'avoir à la fin une série de
simulation longue et relativement continue permettant un calcul de l'efficacité. Les
simulations sont ainsi faites pour des horizons de 3, 7, 14, 30 et 45 jours comme
précédemment.
1 2 3 4 5 6 7
L 8 9 10 11 12 13 14
k 16 17 18 19 20 21
99
réservoirs importants gérés par Hydro-Québec et sept tronçons qui servent de points de
contrôle (figure 4.18). Ici les variables simulées sont analysées aux différents tronçons de
contrôle et concernent la teneur en eau moyenne sur une profondeur de sol couvrant les
trois couches, la lame d'eau simulée, les débits simulés, la production et la hauteur d'eau
simulée. Le paramètre de qualité utilisé est l'efficacité de Nash comparant les résultats de
simulation de HYDROTEL dans sa version originale à ceux de la nouvelle version
intégrant les réseaux de neurones. La figure 4.19 montre l'efficacité calculée sur ces
différentes variables au niveau des différents tronçons de contrôle dont les numéros sont
indiqués sur les différents graphiques.
La teneur en eau représente celle moyenne sur toutes les trois épaisseurs de l'ensemble des
UHRHs situées en amont du tronçon de contrôle. L'efficacité présentée en fonction de
l'horizon de prévision laisse voir une efficacité égale ou supérieure à 80% jusqu'à un
horizon de 14 jours au niveau des cinq tronçons de contrôle. À 30 jours, cette efficacité
passe en dessous de 70%. Ces performances plus globales des réseaux de neurones dans la
simulation des teneurs en eau se rapprochent de celles obtenues au niveau des six bassins
qui ont servi à leur mise en œuvre et confirment les difficultés des réseaux au-delà de 14
jours.
La lame d'eau simulée cumule les volumes d'eau mensuels en m3 au niveau de chacun des
tronçons de contrôle et la période de simulation correspond à environ 16 mois. Mais pour
cette variable, l'efficacité calculée n'a pas le même comportement au niveau des 6 tronçons
de contrôle dû probablement à la nature du sous bassin drainé en amont. Aux horizons 3 et
7, l'efficacité dans la simulation de cette lame avoisine 1 au niveau des 6 tronçons de
contrôle (figure 4.19b). À l'horizon 14 jours, l'efficacité reste autour de 70% mais décroit
par la suite différemment d'un tronçon à l'autre. Au niveau des tronçons 1, 39 et 121,
l'efficacité décroît très lentement et reste même au dessus de 70% à l'horizon de 45 jours.
Au niveau des tronçons 262 et 364 par contre, l'efficacité passe en dessous de 70% aux
horizons 30 jours et 45 jours. Cela pourrait s'expliquer par le fait que pour les trois
premiers tronçons, les résultats sont plus globaux (voir leur position sur la carte) et
intègrent plus d'UHRHs. Ce qui n'est pas le cas des trois autres tronçons situés plus en
amont.
100
La production représente l'écoulement journalier moyen pour les UHRHs drainés en
amont. Dans le cas du bassin de Gatineau la production journalière est relativement faible.
La moyenne de cette production au niveau de chacun des 6 tronçons de contrôle est en effet
inférieure à 1 mm. Dans ces conditions, comme on a pu le constater au paragraphe
précédent, les réseaux de neurones performent moins bien. Néanmoins, sur un horizon de 3
jours, l'efficacité calculée pour la production à l'exception du point 364, atteint ou dépasse
80% (figure 4.19 d). Mais cette efficacité se dégrade rapidement de sorte qu'à partir de
l'horizon 7 jours, elle est inférieure ou égale à 60%.
Les débits simulés représentent les débits (en m /s) mesurés en une station située sur
chacun des tronçons de contrôle à chaque pas de temps. À l'horizon 3 jours, l'efficacité
calculée en ces points sur les 6 tronçons dépasse 80%. Par la suite probablement pour les
mêmes raisons que précédemment, l'efficacité varie différemment sur les 6 tronçons. Mais
au tronçon 1 où aboutit le débit total du bassin, l'efficacité avoisine toujours 80% à
l'horizon 14 jours.
101
Stations : Tronçons
0S000913 :364
0B00009 :262
0B00077 : 121
0B00078 :39
0B00056 :1
H:0B000S6
102
Lame simulée
•39 -4—121 — * - 262 —»-364
7 14 30 45
Horizon (jours)
b)
Production
-39 —*—121 —x-262 -«—364
7 14 30 45
Horizon (jours)
d)
Figure 4.19 : Efficacité des réseaux de neurones sur le bassin de Gatineau
103
montre les efficacités calculées aux différents tronçons avec les deux versions
d'HYDROTEL selon différents horizons. Le calage a été fait sur la version originale
(BV3C). L'efficacité de la version originale ne change pas d'un horizon à l'autre
contrairement à la version intégrant les réseaux dont l'efficacité va décroissante lorsque
l'horizon devient plus lointain en raison de l'accumulation des erreurs déjà évoquée. Pour
l'ensemble des cinq points de calage, l'efficacité de la version originale est supérieure ou
proche de 0.70. L'efficacité de la version modifiée décroît mais pas de la même manière sur
les cinq points de calage. Sur les points 1, 39 et 121, les décroissances sont plus lentes que
sur les deux autres points de calage 262 et 364. Ces deux derniers ont aussi été les points où
le calage a été le plus difficile. Cela s'explique, peut être, par le fait que ces points situés en
bordure du lac sont influencés par les fluctuations du niveau dû aux vents. Ce qui a pour
conséquences possibles d'induire des erreurs sur les débits mesurés. Cela rend aussi très
sensibles les résultats de calage sur ces deux points et explique une dégradation de leur
efficacité déjà à l'horizon 1 jour. Au niveau des points de prévisions (1, 39 et 121) à
l'horizon 14 jours l'efficacité conserve toujours plus de 70% de sa valeur initiale et
demeure proche de 0.70 pour les points de prévision 39 et 121. Au point de prévision 1,
l'efficacité tombe à 0.46 (69 % de sa valeur initiale) à l'horizon 14 jours mais sa valeur
initial était déjà relativement faible (inférieure à 0.70). Au-delà de 14 jours d'horizon de
prévisions, les résultats deviennent moins bons pour tous les points de prévisions. La
figure 4.20 montre une comparaison graphique des résultats de simulation des deux
versions aux observations pour le tronçon 1 et pour un horizon de 3 jours. On s'aperçoit de
la bonne superposition des résultats des deux versions. Cette superposition se détériore avec
l'horizon de prévision comme le montrent les différentes figures en annexe 2.
104
100 i i i |
:
90
Observé
KNA
80
70
^ 60
M
H + -t - 1 - +- -
40
I
30
20 J i_ L. i l ~. J
10 _ _ __
I ! I [ i
Tableau 4.7 : Efficacités calculées aux différents tronçons selon les deux versions
d'HYDROTEL sur différents horizons de prédiction.
^tronçons
1 39 121 262 364
H o rizo n s(j o u r s ) ^ ^ . . ^
BV3C-
Observé 0.67 0.74 0.92 0.80 0.68
1 RN-Observé 0.66 0.71 0.89 0.64 0.52
3 RN-Observé 0.66 0.69 0.88 0.52 0.40
7 RN-Observé 0.60 0.67 0.79 0.38 0.24
14 RN-Observé 0.46 0.63 0.68 0.10 -0.04
30 RN-Observé 0.23 0.46 0.38 -0.18 -0.21
45 RN-Observé 0.23 0.41 0.27 -0.49 -0.52
105
4.5.2 Le temps de calcul
La comparaison du temps de calcul constitue un des volets justificatifs de notre projetDe
nos hypothèses de départ, plusieurs raisons pourraient expliquer une amélioration sensible
du temps de calcul. Les réseaux de neurones sont d'exécution très simple car il s'agit en fait
dans le cas présent d'une succession de calculs matriciels dont la durée d'exécution ne varie
pas d'un pas de temps à l'autre, ceci contrairement à la méthode de résolution itérative
(Runge Kutta du cinquième ordre) de BV3C qui subdivise le pas de temps en pas de temps
internes plus petits. Le nombre et la taille des subdivisions internes n'étant pas connus à
l'avance, à l'intérieur d'un pas de temps et d'un pas de temps à l'autre, il demeure toujours
difficile de quantifier la durée totale de l'exécution de BV3C à l'avance qui dépend des
conditions de convergence rencontrées au cours de l'exécution et d'autres facteurs. Il faut
en effet tenir compte du temps d'exécution d'instructions du système nécessaires à
l'exécution du programme. Ce dernier temps dépend de la charge du système due
notamment aux autres programmes en cours d'exécution.
Pour comparer le temps d'HYDROTEL intégrant BV3C au même modèle intégrant les
réseaux de neurones, la possibilité est donnée au modèle d'appeler alternativement les
réseaux de neurones ou BV3C. Les temps d'exécution sont alors mesurés dans les deux cas
et dans les mêmes conditions d'exécution, c'est-à-dire entre l'entrée et la sortie de ces
fonctions, et ce, en fonction du nombre de pas de temps de simulation. La figure 4.21
montre une comparaison des temps de calcul entre le modèle intégrant les réseaux de
neurones et sa version originale avec, en abscisses le nombre de pas de temps de
simulation. On s'aperçoit que la durée de simulation, dans le cas de substitution de BV3C
par un ensemble de réseaux de neurones, est reliée au nombre de pas de temps par une
relation de linéarité presque parfaite (coefficient de corrélation proche de 1). Dans sa
version originale, cette relation est un peu plus complexe et est plutôt proche du polynomial
d'ordre 2 (coefficient de corrélation 1). Aussi le gain de temps de la substitution est évident
sur la figure où l'on aperçoit clairement que le rapport (représenté par la courbe
BV3C/RNA dont les valeurs sont lues sur l'axe secondaire des ordonnées à droite) peut
atteindre ou même dépasser 2. Il faut néanmoins relativiser ce gain de temps qui reste dans
l'ordre de secondes. Mais derrière ce modeste gain, il y a toute la philosophie qui a sous-
106
tendu la réflexion sur notre projet à savoir une possibilité de remplacer des modules de
modèles plus complexes par des réseaux de neurones. Enfin, il faut souligner que même si
le module remplacé avait nécessité plus de temps de calcul, le temps consommé par les
réseaux de neurones auraient été sensiblement le même qu'ici, rendant la démarche plus
intéressante pour d'autres modules.
Linéaire (RNA)
Conclusion
Dans ce chapitre ont été présentés les résultats de l'ensemble des travaux de recherche.
Pour l'essentiel trois réseaux de neurones ont été mis en œuvre : un premier avec trois
sorties modélise les teneurs en eau, deux autres avec une sortie chacun modélise
respectivement le ruissellement et l'écoulement de la deuxième couche. S'ensuit une
présentation des performances de ces réseaux au pas de temps unitaire sur les bassins
versants qui ont servi à leur mise en œuvre selon deux critères de qualité : l'efficacité et le
bilan. Ces critères font ressortir dans l'ensemble de bonnes performances des réseaux de
107
neurones. Ces performances sont bien meilleures dans la modélisation des teneurs en eau,
où l'efficacité se trouve proche de 1 dans une très grande proportion quel que soit le type de
sol. L'efficacité des trois débits est assez reliée aux types de sol. Si dans les sols peu
perméables, très peu d'efficacités sont inférieures à 0.90, dans les sols sableux ou proches
du sable, des efficacités en dessous de 0.50 sont rencontrées. Les faibles efficacités sont
surtout rencontrées pour le ruissellement dont les fortes fluctuations sur du sable sont
difficiles à modéliser par les réseaux de neurones.
Comme dans un cadre opérationnel la prévision peut s'effectuer en continue sur une longue
période de temps, les réseaux de neurones sont ensuite testés de cette manière. La période
de simulation qui s'étend sur trois (3) ans est alors subdivisée en différents horizons de
simulation (3, 7, 14, 30 et 45 jours). Les résultats montrent de bonnes performances des
réseaux de neurones jusqu'à un horizon de prévision de 14 jours avec des probabilités
d'erreur faible proches de 1 pour des horizons allant jusqu'à 14 jours. Au-delà les erreurs
enregistrées recommandent la prudence dans l'utilisation des réseaux de neurones.
Enfin, une application plus réelle a été faite sur le bassin versant de Gatineau avec cinq
points de contrôles dont cinq disposaient de données observées pour le calage. Cette
application a permis de tester davantage la nouvelle structure mise en place dans un cadre
réel, et aussi d'apprécier le gain de temps de calcul engendré à la suite des modifications.
Ce test a permis également d'apprécier les résultats globaux à l'échelle du bassin versant.
Dans l'ensemble ces résultats globaux présentent une bonne efficacité du modèle modifié
par rapport au modèle original jusqu'à horizon de 14 jours notamment pour les teneurs en
eau, la lame d'eau ruisselée et le débit total. Par contre, la qualité de prévision de la
production, qui est une variable, plus sensible se dégrade plus vite avec l'horizon de
prévision. Après calage la nouvelle structure présente de bons résultats sur trois des cinq
points de calages avec une efficacité qui conserve plus de 70% de sa valeur initiale pour un
horizon de 14 jours. Les résultats des deux autres points proches du lac, sont très sensibles
et se dégradent plus vite.
De l'estimation du temps de calcul, il ressort que la nouvelle structure est deux fois plus
rapide même si l'on reste dans l'ordre des secondes.
108
109
Conclusion générale
Le présent travail avait pour but essentiellement de remplacer le module d'un modèle
hydrologique existant (le modèle HYDROTEL) par un ensemble de réseaux de neurones.
Le module à remplacer, en l'occurrence le bilan vertical 3 couches (BV3C), analyse
l'écoulement de l'eau au sein de la zone non saturée du sol. Cet écoulement est défini par
les caractéristiques physiques du sol (perméabilité à saturation, indice des vides, potentiel
matriciel à saturation, teneur en eau à saturation), les apports en eau (précipitations) et les
pertes (évapotranspirations réelles).
Pour des besoins de bonne généralisation des réseaux de neurones, l'on s'est attaché à
constituer une base de données diversifiée intégrant des sols de textures différentes (onze
types de sol) et de bassins versants issus de zones climatologiques variées. Ces bassins au
nombre de six vont de très pluvieux au relativement sec. Chaque bassin a été divisé en unité
hydrologique relativement homogène (UHRH), champ d'application de BV3C. Les réseaux
de neurones ont été mis en œuvre à partir des résultats de simulations de BV3C sur ces
UHRHs divisées chacune en trois couches.
Trois réseaux de neurones ont été mis en œuvre :
- Un premier décrivant le comportement de l'humidité dans les trois couches
superficielles de sol ;
- Un deuxième qui quantifie le débit sortant de la première couche correspondant au
ruissellement; et
- Un troisième quantifiant le débit dans la deuxième couche.
Les différents réseaux de neurones mis en œuvre ont été par la suite testés sur les différents
types de sols. Trois critères ont été utilisés pour mesurer la qualité de ces réseaux de
neurones. Le critère de Nash (Nash et Sutcliffe, 1970), le critère de bilan (Perrin et al.,
2001) et l'erreur moyenne absolue. Les résultats sont analysés par type de sol dans un
premier cas, puis selon l'horizon de prévision.
De façon générale, l'étude a ainsi permis de mettre en évidence la possibilité de remplacer
un module de modèle déterministe par un ensemble de réseaux de neurones. Les réseaux de
neurones mis en œuvre ne se comportent cependant pas de la même manière sur les 11
types de sol. Ceci s'explique par la complexité du phénomène d'écoulement dans ces
différents sols. Sur les sols sableux ou proches du sable, l'écoulement s'effectue plus
rapidement entraînant des variations rapides des paramètres tels l'humidité et les débits
sortant des différentes couches, ce qui diminue considérablement l'efficacité des réseaux de
neurones. Par contre sur les sols de textures plus fines où les paramètres présentent des
variations plus lentes, les réseaux de neurones sont plus efficaces.
Pour une prévision au pas de temps unitaire, les modèles neuronaux des teneurs en eau sont
très proches du module BV3C en termes de précision. Les critères d'efficacité et de bilan
sont proches de 1 sur les onze types de sols. Les faibles valeurs d'efficacité enregistrées sur
la teneur en eau de la troisième couche (©3) se rencontrent sur les UHRHs où il n'y a
pratiquement pas de variation de ce paramètre. Dans ces conditions, les réseaux de
neurones tentent de faire des interpolations dans un domaine où la variable estimée est
constante au cours du temps. Les erreurs, sans être importantes, influencent fortement vers
la baisse les valeurs du critère d'efficacité et de bilan. Le modèle de ruissellement présente
de faibles valeurs d'efficacité et de bilan notamment sur les sols à texture grossière (sable
ou proche du sable). Ceci s'explique par le fait que dans ces textures de sol, le
ruissellement est rare avec des fluctuations brusques en raison de la grande capacité
d'absorption des apports en eau. Ce qui d'une part ne permet pas de disposer d'exemple de
ce type en grand nombre pour la mise en œuvre des réseaux de neurones, et d'autre part,
rend difficile la technique d'interpolation utilisée par les réseaux de neurones. Le modèle de
débit de la deuxième couche présente des résultats assez uniformes sur les onze types de sol
avec une efficacité moyenne proche de l'unité. Les faibles valeurs d'efficacité constituent
des exceptions pour lesquelles les valeurs simulées sont soit très faibles, soit varient peu.
Le modèle de débit de la troisième couche directement relié à la teneur en eau de cette
couche par une équation déterministe présente également des résultats semblables sur les
onze types de sol. La précision de ce modèle bénéficie également de celle très bonne de la
teneur en eau dans cette couche.
Pour une prévision sur plusieurs pas de temps, l'erreur moyenne absolue a été analysée sur
plusieurs horizons de 3, 7, 14, 30 et 45 jours. Les résultats obtenus permettent de conclure
avec optimisme que l'on peut effectuer une prévision continue sur 14 jours avec des erreurs
moyennes de l'ordre de 0.005 pour les teneurs en eau. Pour cet horizon, les erreurs
commises sur les autres variables que sont les débits sortants des première, deuxième et
111
troisième couches restent dans l'ordre de 0.2 mm et peuvent être considérés comme
acceptables. Au-delà de 14 jours l'efficacité des réseaux de neurones devient limitée avec
possibilité d'erreurs plus importantes.
Les tests sur le bassin versant de Gatineau permettent une comparaison des résultats
globaux issus du même modèle HYDROTEL avec respectivement BV3C et les réseaux de
neurones dans des conditions hydrologiques locales et réelles. Ici les résultats sont analysés
à l'échelle de tout le bassin versant. Les résultats obtenus confirment les bonnes
performances des réseaux de neurones observées précédemment sur les autres bassins.
La mesure du temps de calcul dans le cas du bassin versant de Gatineau permet également
d'apprécier la nouvelle structure mise en œuvre. Ainsi, il a été montré que le rapport de
temps de calcul entre la version originale de BV3C et la version BV3C avec réseaux de
neurones atteint ou dépasse 2. Ce qui est appréciable même si l'on reste dans une échelle de
durée en secondes. Mais le fait le plus important à relever dans cette étude est que quelle
que soient la complexité et le temps qu'aurait eu besoin BV3C dans sa version originale, le
temps nécessaire aux réseaux de neurones aurait été sensiblement le même car il s'agit
d'une succession de calculs matriciels dont la durée de calcul varie peu. D'où l'importance
que peut révéler de telles structures neuronales pour des modules plus complexes. La mise
en œuvre des réseaux peut être plus fastidieuse, comme dans le cadre de ce projet, mais une
fois réalisée ils peuvent rendre plus simple n'importe quel autre module.
L'étude présente toutefois quelques limites qu'il convient de souligner. Une des limites
assez générale pourrait être une légère détérioration de la précision, mais les structures plus
rapides peuvent servir en première appréciation afin de juger de la nécessité ou pas
d'effectuer des simulations de longues durées. Dans de telles conditions, on pourrait
volontiers accepter pareils compromis.
L'autre limite propre à cette étude est le fait que l'on ait testé les réseaux mis en œuvre sur
un seul bassin versant dans des conditions réelles. Bien qu'ils donnent dans l'ensemble de
bons résultats, il conviendrait de les tester sur bien plus de bassins versants pour apprécier
davantage leur comportement. Mais il ne faudrait pas s'attendre à une détérioration
importante des résultats obtenus si l'on se base sur la méthodologie utilisée dans la mise en
œuvre.
112
Dans ce projet, il a été montré que les réseaux de neurones pouvaient remplacer des
structures plus complexes. Mais comme il a été donné de s'apercevoir, plus la variable
modélisée est continue, varie lentement dans le temps, plus les réseaux de neurones se
montreront efficaces et précis dans la substitution. Ainsi, toute structure présentant de telles
caractéristiques pourraient bénéficier des impressionnantes capacités des réseaux de
neurones. Au-delà du gain de temps, les réseaux de neurones convertissent toute structure
quelle que soit sa complexité en un simple calcul matriciel facile à programmer et à utiliser
sur n'importe quel support informatique capable d'effectuer de calculs très simples. Dans
ce cadre, au-delà des modèles hydrologiques, de telles approches peuvent être appliquées
dans n'importe quel domaine des sciences appliquées. Dans le domaine hydrologique, pour
les prévisions d'ensemble qui nécessitent plusieurs prévisions et donc beaucoup plus de
calcul, on pourra également faire des, gains importants de temps en remplaçant les blocs
complexes de certains modèles par des réseaux de neurones.
113
Bibliographie
Abbott, M.B., Bathurst, J.C, Cunge, J.A., O'Connell, P.E. et Rasmussen, J., 1986. "An
Introduction to the European Hydrological System - Système Hydrologique
Européen, She .2. Structure of a Physically-Based, Distributed Modeling System".
J. Hydro!, 87(1-2): 61-77.
Aburto, L. et Weber, R., 2007. "Improved supply chain management based on hybrid
demand forecasts". Applied Soft Computing, 7(1): 136-144.
Aguiar, H.C. et Maciel, R., 2001. "Neural network and hybrid model: a discussion about
different modeling techniques to predict pulping degree with industrial data". Chem.
EngngSci., 56(2): 565-570.
Ambroise, B., 1998. "La dynamique du cycle de l'eau dans un bassin versant - Processus,
Facteurs, Modèles." Bucarest, 200 pp.
Anctil, F. et Lauzon, N., 2004. "Generalisation for neural networks through data sampling
and training procedures, with applications to streamflow predictions". Hydrol. Earth
Syst. Sci., 8(5): 940-958.
Anctil, F., Perrin, C. et Andreassian, V., 2004. "Impact of the length of observed records on
the performance of ANN and of conceptual parsimonious rainfall-runoff forecasting
models". Envir. Model. Softw., 19(4): 357-368.
Anctil, F. et Tape, D.G., 2004. "An exploration of artificial neural network rainfall-runoff
forecasting combined with wavelet decomposition". Journal of Environmental
Engineering and Science, 3: 121-128.
Anderson, J.A., 1972. "A simple neural network generating an interactive memory". Math.
Biosci., 14: 197-220.
Anderson, JA. et Rosenfeld, E., 1988. "Neurocomputing : fondation of research". The MIT
Press, 729 pp.
Andreassian, V., 2005. "Trois énigmes de modélisation hydrologique". Habilitation à
Diriger les Recherches Thesis, Université Pierre et Marie Curie.
ASCE, 1996. "Handbook of hydrology", New York.
ASCE, 2000. "Artificial Neural Networks in Hydrology. I: Preliminary Concepts". J.
Hydrol. Engng, 5(2): 115-123.
Aslanargun, A., Mammadov, M., Yazici, B. et Yolacan, S., 2007. "Comparison of ARIMA,
neural networks and hybrid models in time series: tourist arrival forecasting".
Taylor & Francis, pp. 29-53.
Barron, A.R., 1993. "Universal Approximation Bounds for Superpositions of a Sigmoidal
Function". leee Transactions on Information Theory, 39(3): 930-945.
Bates, J.M. et Granger, C.W.J., 1969. "The combination of forecasts". Oper. Res. Q., 20:
451-468.
Baudez, J.C. et al., 1999. "Modélisation hydrologique et hétérogénéité spatiale des bassins".
Étude et Gestion des sols, 6(4): 165-184.
Becker, A. et Braun, P., 1999. "Disaggregation, aggregation and spatial scaling in
hydrological modelling". J. Hydro!, 217(3-4): 239-252.
Becker, A. et Pfutzner, B., 1987. "EGMO - System Approach and Subroutines for River
Basin Modeling". Acta hydrophys., Berlin.
Benjamini, Y., 1988. "Opening the Box of a Boxplot". Am. Statist., 42(4): 257-262.
Bertalanffy, L.V., 1973. "Théorie générale des systèmes", Paris, 308 pp.
Beven, K., 1989. "Changing ideas in hydrology — The case of physically-based models". J.
Hydrol., 105(1-2): 157-172.
Beven, K., 2001. "How far can we go in distributed hydrological modelling?" Hydrol.
Earth Syst. Sci., 5(1): 1-12.
Birikundavyi, S., Labib, R., Trung, H.T. et Rousselle, J., 2002. "Performance of neural
networks in daily streamfiow forecasting". J. Hydrol. Engng, 7(5): 392-398.
Blôschl, G. et Sivapalan, M., 1995. "Scale issues in hydrological modelling: a review".
Hydrol. Processes, 9: 251-290.
Bouzaher, A. et al., 1993. "Metamodels and Nonpoint Pollution Policy in Agriculture".
Wat. Resour. Res., 29(6): 1579-1587.
Box, G.P. et Jenkins, G.M., 1970. "Time Series Analysis, Forecasting and Control",
Holden-Day, San Francisco, 553 pp.
Breiman, L., 1996. "Bagging predictors". Machine Learning, 24(2): 123-140.
115
Broad, D.R., Dandy, G.C. et Maier, H.R., 2004. "A Metamodeling Approach to Water
Distribution System Optimization". In: S. Gerald, F.H. Donald et K.S. David
(Editors). ASCE, pp. 453.
Broad, D.R., Dandy, G.C. et Maier, H.R., 2005a. "Water Distribution System Optimization
Using Metamodels". Journal of Water Resources Planning and Management,
131(3): 172-180.
Broad, D.R., Maier, H.R., Dandy, G.C. et Nixon, J.B., 2005b. "Estimating Risk Measures
for Water Distribution Systems Using Metamodels". In: W. Raymond (Editor).
ASCE, pp. 17.
Buizza, R. et Palmer, T.N., 1998. "Impact of ensemble size on ensemble prediction".
Monthly Weather Review, 126(9): 2503-2518.
Calderon-Macias, C , Sen, M.K. et Stoffa, P.L., 2000. "Artificial neural networks for
parameter estimation in geophysics". Geophysical Prospecting, 48(1): 21-47.
Chen, K.-Y. et Wang, C.-H, 2007. "A hybrid SARIMA and support vector machines in
forecasting the production values of the machinery industry in Taiwan". Expert
Systems with Applications, 32(1): 254-264.
Chua, L.H.C. et Holz, K.-P., 2005. "Hybrid Neural Network—Finite Element River Flow
Model". J. Hydraul. Engng, 131(1): 52-59.
Clapp, R.B. et Horaberger, G.M., 1978. "Empirical Equations for Some Soil Hydraulic-
Properties". Wat. Resour. Res., 14(4): 601-604.
Clarke, R.T., 1973. "A review of some mathematical models used in hydrology, with
observations on their calibration and use". J. Hydrol, 19(1): 1-20.
Clemen, R.T., 1989. "Combining forecasts: A review and annotated bibliography".
International Journal of Forecasting, 5(4): 559-583.
Cote, M., Grandjean, B.P.A., Lessard, P. et Thibault, J., 1995. "Dynamic modelling of the
activated sludge process: Improving prediction using neural networks". Wat. Res.,
29(4): 995-1004.
Coulibaly, P., 2000. "Artifcial neural networks for hydrological forecasting". PhD thesis
Thesis, Université Laval, Québec, 179 pp.
116
Dawson, CW. et Wilby, R., 1998. "An artificial neural network approach to rainfall-runoff
modelling". Hydrol. Sci. J , 43(1): 47-66.
Dawson, CW. et Wilby, R.L., 2001. "Hydrological modelling using artificial neural
networks". Prog. phys. Geogr., 25(1): 80-108.
De Rosnay, J., 1975. "Le macroscope : vers une vision globale", Paris, 295 pp.
Deksissa, T., Meirlaen, J., Ashton, P.J. et Vanrolleghem, PA., 2004. "Simplifying dynamic
river water quality modelling: A case study of inorganic nitrogen dynamics in the
Crocodile River (South Africa)". Wat. Air SoilPollut., 155(1-4): 303-320.
Descartes, R., 1637. "Discours de la méthode". Jean Maire, Leyde.
Diaz-Robles, LA. et al., 2008. "A hybrid ARIMA and artificial neural networks model to
forecast particulate matter in urban areas: The case of Temuco, Chile". Atmos.
Envir., 42(35): 8331-8340.
Dickinson, J.P., 1973. "Some Statistical Results in the Combination of Forecasts". Oper.
Res. Q., 24: 253-260.
Dickinson, J.P., 1975. "Some Comments on the Combination of Forecasts",". Oper. Res.
Q., 26: 205-210.
Dooge, J.C.I., 1973. " Linear theory of hydrologie systems". Technical Bulletin, 1468.
Dreyfus, G. et al., 2002. "Réseaux de neurones: Méthodologie et applications", 386 pp.
Elliott, D.L., 1993. "A Better Activation Function for Articial Neural Networks", Institute
for Systems Research, University of Maryland.
Ewen, J., Parkin, G. et O'Connell, P.E., 2000. "SHETRAN: Distributed River Basin Flow
and Transport Modeling System". J. Hydrol. Engng, 5(3): 250-258.
Fahlman, S.E. et Lebiere, C , 2001. "The Cascade-Correlation Learning Architecture".
Fish, K.E., Johnson, J.D., Dorsey, R.E. et Blodgett, J.G., 2004. "Using an artificial neural
network trained with a genetic algorithm to model brand share". Journal of Business
Research, 57(1): 79-85.
Fortin, J.-P. et Royer, A., 2004. "Le modèle hydrologique HYDROTEL. Bases théoriques".
Fortin, J.-P. et al., 2001a. "Distributed Watershed Model Compatible with Remote Sensing
and GIS Data. II: Application to Chaudi[e-grave]re Watershed". J. Hydrol. Engng,
6(2): 100-108.
117
Fortin, J.P., Moussa, R., Bocquillon, C. et Villeneuve, J.P., 1995. "Hydrotel, un modèle
hydrologique distribué pouvant bénéficier des données fournies par la télédétection
et les systèmes d'information géographique." Revue Sci. Eau, 8: 97-124.
Fortin, J.P. et al., 2001b. "Distributed watershed model compatible with remote sensing and
GIS data. I: Description of model". J. Hydrol. Engng, 6(2): 91-99.
Fortin, V., 2000. "Le modèle météo-apport HSAMFhistorique, thérie te application.
Rapport de recherche".
Fortin, V., Brabant, F. et Benedetti, B., 2005. "Analyse du sous-modèle d'écoulement
vertical BV3C du modèle hydrologique HYDROTEL : comparaison de deux
méthodes d'intégration des équations différentielles." Institut de Recherche d'Hydro-
Québec.
Gaume, E. et Gosset, R., 2003. "Over-parameterisation,a major obstacle to the use of
artificial neural networks in hydrology ?" Hydrol. Earth Syst. Sci., 7(5): 693-706.
Granger, C.W.J, et Newbold, P., 1974. "Spurious Regressions in Econometrics". Journal of
Econometrics, 2: 111-120.
Grossberg, S., 1976. "Adaptive pattern classification and universal recoding: I. Parallel
development and coding of neural feature detectors". Biol. Cybern., 23: 121-134.
Gutiérrez-Estrada, J.C, Silva, C , Yânez, E., Rodriguez, N. et Pulido-Calvo, I., 2007.
"Monthly catch forecasting of anchovy Engraulis ringens in the north area of Chile:
Non-linear univariate approach". Fish. Res., 86(2-3): 188-200.
Hansen, L.K. et Salamon, P., 1990. "Neural Network Ensembles". Ieee Transactions on
Pattern Analysis and Machine Intelligence, 12(10): 993-1001.
Hebb, D.O., 1949. "Introduction", The Organisation of Behavior. Wiley, New York, pp. xi-
xix.
Hettiarachchi, P., Hall, M.J. et Minns, A.W., 2005. "The extrapolation of artificial neural
networks for the modelling of rainfall-runoff relationships". Journal of
Hydroinformatics, 7(4): 291-296.
Hornik, K., 1991. "Approximation Capabilities of Multilayer Feedforward Networks".
Neural Netw, 4(2): 251-257.
118
Hornik, K., Stinchcombe, M. et White, H., 1989. "Multilayer Feedforward Networks Are
Universal Approximators". Neural Netw, 2(5): 359-366.
Hsu, K.L., Gupta, H.V. et Sorooshian, S., 1995. "Artificial Neural-Network Modeling of
the Rainfall-Runoff Process". Wat. Resour. Res., 31(10): 2517-2530.
Hung, S.L. et Adeli, H., 1994. "A Parallel Genetic/Neural Network Learning Algorithm for
Mimd Shared-Memory Machines". Ieee Transactions on Neural Networks, 5(6):
900-909.
Hussain, MA. et Ho, P.Y., 2004. "Adaptive sliding mode control with neural network
based hybrid models". J. Process Control, 14(2): 157-176.
Imrie, CE., Durucan, S. et Korre, A., 2000. "River flow prediction using artificial neural
networks: generalisation beyond the calibration range". J. Hydro!., 233(1-4): 138-
153.
Iyer, M.S. et Rhinehart, R.R., 1999. "A method to determine the required number of neural-
network training repetitions". Neural Networks, IEEE Transactions on, 10(2): 427-
432.
Jain, A. et Kumar, A.M., 2007. "Hybrid neural network models for hydrologie time series
forecasting". Applied Soft Computing, 7(2): 585-592.
James, W., 1890. "Association", Psychology (briefer course). Holt, New York, pp. 253-
279.
Jayawardena, A.W. et Fernando, D.A.K., 1998. "Use of radial basis function type artificial
neural networks for runoff simulation". Computer-Aided Civil and infrastructure
Engenering, 13: 91-99.
Jeong, K.-S., Kim, D.-K., Jung, J.-M., Kim, M.-C. et Joo, G.-J., 2008. "Non-linear
autoregressive modelling by Temporal Recurrent Neural Networks for the
prediction of freshwater phytoplankton dynamics". Ecol. Model, 211(3-4): 292-
300.
Jin, Y., 2005. "A comprehensive survey of fitness approximation in evolutionary
computation". Soft Computing, 9(1): 3-12.
Karunanitthi, N., Grenney, W.J., Whitley, D. et Bovee, K., 1994. "Neural netwoks for river
flow prediction". Journal of computer in civil engeneering, ASCE, 8(2): 201-220.
119
Khu, S.-T., Savica, D., Liua, Y. et Madsenb, H , 2004 "A fast Evolutionary-based Meta-
Modelling Approach for the Calibration of a Rainfall-Runoff Model", iEMSs 2004
International Conference. International Environmental Modelling and Software
Society, Osnabriick, Germany.
Kitanidis, P.K. et Bras, R.L., 1980. "Real-Time Forecasting with a Conceptual Hydrologie
Model .2. Applications and Results". Wat. Resour. Res., 16(6): 1034-1044.
Kite, G., 1995. "The SLURP model. In: Computer Models of Watershed Hydrology".
Water Resources Publications, Highlands Ranch, Colorado, 521-562 pp.
Kohonen, T., 1972. "Correlation matrix memories". Ieee Transactions on Computer C-21:
353-359.
Kohonen, T., 1988. "Self-organization and associative memory ", New York, 312 pp.
Kohonen, T., 1990. "The self-organizing map". Proc. IEEE, 78(9): 1464-1480.
Le Moigne, J.-L., 1994. "La théorie du système général, théorie de la modélisation".
Presses universitaires de France, Paris, 338 pp.
LeCun, Y., 1985. "Une procedure d'apprentissage pour reseau a seuil asymmetrique",
Proceedings of Cognitiva 85, Paris, pp. 599-604.
Linacre, E.T., 1977. "A simple formula for estimating evaporation rates in various climates,
using temperature data alone". Agric. Met., 18: 409-424.
Linker, R. et Seginer, I., 2004. "Greenhouse temperature modeling: a comparison between
sigmoid neural networks and hybrid models". Math. Comput. Simul, 65(1-2): 19-
29.
Loumagne, C , Chkir, N., Normand, M., Ottlé, C. et Vidal-Madjar, D., 1996. "Introduction
of the soil-vegetation-atmosphere continuum in a conceptual rainfall-runoff model".
Hydrological Sciences-Journal-des Sciences Hydrologiques,, 41(6): 889-902.
MacKay, D.J.C, 1992. "A practical Bayesian framework for backpropagation networks".
Neural Comput., 4(3): 448-472.
Maier, H.R. et Dandy, G.C, 2000. "Neural networks for the prediction and forecasting of
water resources variables: a review of modelling issues and applications". Envir.
Model. Softw., 15: 101-124.
120
Markus, M., Salas, J.D. et K., S.H., 1995. "Predicting streamflows based on neural
networks". Proc. 1st Int. Confon water Ressour. Engrg. ASCE, New York: 1641-
1646.
Mason, J.C, K.Price, R. et A Tem'me, 1996. "A neural network model of rainfall-runoff
using radial basis functions". J.Hydr. Res. Delft, The Netherlands, 34(4): 537-548.
McCulloch, W.S. et Pitts, W., 1943. "A logical calculus of the ideas immanent in nervous
activity". Bull. Math. Biophys., 5: 115-133.
Meirlaen, J., Huyghebaert, B., Sforzi, F., Benedetti, L. et Vanrolleghem, P., 2001. "Fast,
simultaneous simulation of the integrated urban wastewater system using
mechanistic surrogate models". Wat. Sci. Technol, 43(7): 301-309.
Minns, A.W. et Hall, M.J., 1996. "Artificial neural networks as rainfall-runoff models".
Hydrol. Sci. J , 41(3): 399-417.
Minsky, M. et Papert, S., 1969. "Introduction", Perceptrons. MIT Press, Cambridge, pp. 1-
20.
Monteith, J.L., 1965. "Evaporation and environment". Symp. Soc. Exp. Biol, 19: 205-234.
More-Seytoux, H.J. et Al Hassoun, S. (Editors), 1989. "The unsaturated component of
SWATCH: a multiprocess watershed model for runoff generation and routing".
Unsaturated flow in hydrological modelling- Theory Practice. NATO ASI Series C,
275. Kluwer Academic Publisher, 413 - 433 pp.
Moriasi, D.N. et al., 2007. "Model evaluation guidelines for systematic quantification of
accuracy in watershed simulations". Transactions oftheAsabe, 50(3): 885-900.
Moussa, R., 1987. "Schémas numériques de propagation de crues (Optimisation du choix
des pas de calcul)", Université des sciences et techniques du Languedoc,
Montpellier, 110 pp.
Moussa, R., 1991. "Variabilité spatio-temporelle et modélisation hydrologique", Université
des sciences et techniques du Languedoc, Montpellier, 258 pp.
Muttiah, R.S., Srinivasan, R. et Allen, P.M., 1997. "Prediction of two year peak stream
discharges using neural networks". J. Am. Water Ressour.Assoc, 33(3)(625-630).
Nash, J.E. et Sutcliffe, J.V., 1970. "River flow forecasting through conceptual models part I
~ A discussion of principles". J. Hydrol, 10(3): 282-290.
121
Ng, CW. et Hussain, M.A., 2004. "Hybrid neural network-prior knowledge model in
temperature control of a semi-batch polymerization process". Chem. Eng. Process.,
43(4): 559-570.
Parker, D.B., 1985. "Learning logic Casting the cortex of the human brain in silicon",
Center for Computational Research in Economics and Management Science,
Cambridge, MA, USA.
Penman, H.L., 1961. "Weather, plant and soil factors in hydrology." Weather, 16: 207-219.
Perrin, C , 2000. "Vers une amélioration d'un modèle global pluie-débit au travers d'une
approche comparative". PhD Thesis Thesis, Institut National Polytechnique de
Grenoble, Grenoble, France.
Perrin, C , Michel, C. et Andreassian, V., 2001. "Does a large number of parameters
enhance model performance? Comparative assessment of common catchment model
structures on 429 catchments". J. Hydrol, 242(3-4): 275-301.
Priestley, C.H.B. et Taylor, R.J., 1972. "On the assesment of surface heat flux and
evaporation using large scale parameters". Monthly Weather Review, 100: 81-92.
Pulido-Calvo, I. et Gutiérrez-Estrada, J.C, 2009. "Improved irrigation water demand
forecasting using a soft-computing hybrid model". Biosystems Engineering, 102(2):
202-218.
Rawls, W.J. et Brakensiek, D.L., 1982. "Estimating Soil-Water Retention from Soil
Properties"'. Journal of the Irrigation and Drainage Division-Asce, 108(2): 166-171.
Richards, L.A., 1931. "Capillary Conduction ofLiquids Through Porous Mediums". AIP,
pp. 318-333.
Rogers, C.C.M., Beven, K.J., Morris, E.M. et Anderson, M.G., 1985. "Sensitivity analysis,
calibration and predictive uncertainty of the Institute of Hydrology Distributed
Model". J. Hydrol, 81(1-2): 179-191.
Rosenblatt, F., 1958. "The perceptron: a probabilistic model for information storage and
organisation in the brain". PsychologR, 65: 386-408.
Rumelhart, D.E., Hinton, G.E. et Williams, R.J., 1986. "Learning Internal Representations
by Error Propagation: Parallel Distributed Processing: Explorations in the
Microstructures of Cognition". MIT Press, Cambridge, pp. 318-362.
122
See, L., Corne, S., Dougherty, M. et Openshaw, S., 1997. "Some Initial Experiments with
Neural Network Models of Flood Forecasting on the River Ouse", Second annual
conference of GeoComputation '97 & SIRC '97„ Otago, New Zealand.
Servat, E., 1986. "Présentation de Trois Modèles Globaux Conceptuels Déterministes :
CREC5, MODGLO et MODIBI." Rapport ORS1DM, Dépt F, UR 604.
Shamseldin, A.Y., O'Connor, K.M. et Liang, G.C, 1997. "Methods for combining the
outputs of different rainfall-runoff models". J. Hydrol, 197(1-4): 203-229.
Shrestha, R.R., Theobald, S. et Nestmann, F., 2005. "Simulation of flood flow in a river
system using artificial neural networks". Hydrol. Earth Syst. Sci., 9(4): 313-321.
Singh, V.P., 1995. "omputer models of watershed hydrology". Water Resources
Publications, Littleton.
Singh, V.P. et Woolhiser, DA., 2002. "Mathematical Modeling of Watershed Hydrology".
J. Hydrol. Engng, 7(4): 270-292.
Sivapalan, M., Bloschl, G, Zhang, L. et Vertessy, R., 2003. "Downward approach to
hydrological prediction". Hydrol. Processes, 17(11): 2101-2111.
Sugawara, M., 1979. "Automatic calibration of the tank model". Hydrol. Sci. J., 24(3): 375-
388.
Thornthwaite, C.W., 1948. "An approach taward a rational classification of climate".
Geographical Review, 38: 55-94.
Todini, E., 1995. "The Role of Water and the Hydrological Cycle in Global Change".
Series I, 31. Oliver HR.
Toth, E. et Brath, A., 2007. "Multistep ahead streamflow forecasting: Role of calibration
data in conceptual and neural network modeling". Wat. Resour. Res., 43(11).
Toth, E., Brath, A. et Montanari, A., 2000. "Comparison of short-term rainfall prediction
models for real-time flood forecasting". J. Hydrol, 239(1-4): 132-147.
Turcotte, R., Lacombe, P., Dimnik, C. et Villeneuve, J.P., 2004. "Prévision hydrologique
distribuée pour la gestion des barrages publics du Québec". Can. J. Civ. Engng,
31(2): 308-320.
123
Vojinovic, Z., Kecman, V. et Babovic, V., 2003. "Hybrid approach for modeling wet
weather response in wastewater systems". J. Wat. Resour. Plann. Mgmt ASCE,
129(6): 511-521.
Weeks, W.D. et Boughton, W.C, 1987. "Tests of ARMA model forms for rainfall-runoff
modelling". J. Hydrol, 91(1-2): 29-47.
Werbos, P.J., 1974. "Beyond Regression: New Tools for Prediction and Analysis in the
Behavioral Sciences." PhD thesis Thesis, Harvard University, Cambridge, MA,
USA.
Widrow, B. et Hoff, M.E., 1960. "Adaptive switching circuits", WESCON Convention
Record. IRE, New York, pp. 96 -104.
Wigmosta, M.S., Vail, L. et Lettenmaier, D.P., 1994. "A distributed hydrology-vegetation
model for complex terrain". Wat. Resour. Res., 30: 1665-1679.
Wold, H., 1938. "A Study in the Analysis of Stationary Time Series". Almqvist and
Wiksell, Uppsala.
Wurbs, R.A., 1998. "Dissemination of generalized water resources models in the United
States". Wat. Int., 23(3): 190-198.
Yu, Z., 1996. "Development of a physically-based distributed-parameter watershed -basin-
scale hydrologie model! and its application to Big Darby Creek watershed". PhD
dissertation Thesis, State University of Columbus, Ohio.
Yule, G., 1926. "Why do we sometimes get nonsense-correlations between time-series? - A
study in sampling and the nature of time-series." Journal of the Royal Statistical
Society, 89.
Zhang, G.P., 2003. "Time series forecasting using a hybrid ARIMA and neural network
model". Neurocomputing, 50: 159-175.
124
Annexes
125
Annexe 1 : Caractéristiques des sols utilisés dans BV3C
126
Annexe 2 : Résultats de simulation suivant différents horizons
de prévision
127
100
BV3C
90
Observe
80
:
70
-. 60
«~
a so
Z
Q 40
;1
30
1 I
20
10
* i i i i i ^ ^ ^ . i
Horizon 3, tronçon 1
200 ____. , { _ ! I !
; ; ; BV3C
180
Observé
160
140
~ 120
1
§ ioo
S 80
60
40 I \l-\ h
20 L lILÂv iV H
0 i ■
50 100 150 200 250 300 350 400 450
Temps(Jours)
Horizon 3, tronçon 39
128
250
700
; ;
^uaeivo
600
i
1
fl
500
Il i i
« 400
«o
E
LH"
1J l
jSj 3 0 0 +H-V - - i i i l M 1 W ~* ~
200
K_v l \
1
ïw
Ylvi I
100 V U I* _
i i i
129
400 i i
3V3C
350 Dbservé
RNA
l
_.__'__■-_
300 - 1 1"
250 - -4 - t - II]
§■ 200
„
Xi
S 1
150
100 A T ~ n
+ ■ _B|_
50 +- 1 —
i i
100
90
Observé
80
70
~m 60 1—' -
(O
1 J L 4 -
50
1
SS"
2 40
30
20 II
10 JV
i i i i i^^ ^ r 1
Horizon 7, tronçon 1
130
200 1 1 I I
180
Observé
— KNA
160
140
rm- 1 2 0
M
J. 100
_>
S 80
60 1 l A I M
■ n i r/
40
mjl\ JUL__AJ_.M
20
*--f I [ 1 1 1 1
Horizon 7, tronçon 39
250
131
700 ! t I 1 1
BV3C
Observé
T
600
RNA
500
I l !
I 1 1
« 400
E
v
!
S 300
1 1
i
200 J. .
1 1 1 1 1
132
100 i i
DV J U
r _
[
90
Observé
: : ;
RNA
80
70
i i i
I
mm. 60 "" "
1
M
S 50 - -I —
i
-3
40 J
Ii J -
30
20 111
10 J\M\r\, I —
[ [ I I ^ F ^ I
200 1 !
180 ; ; : 1 1 1...-
160
140
_-_. 120 —1 -
i
I- 100 1- -1 —
n
3 _
Q 80
u^y
60
40 T ~
20 -t- - W- —1 -
1 1
133
250 1 !
„.-~
uvou
200 RNA
1
~ 150 11
w
E
S 100
50 1 f T ^ j 1
i
i
t
1 i
700
134
50 100 150 200 250 300 350 400 450
Temps(Jours)
100
90
Observe
80 I
70
i I l
I
60 1 -
w
E 50
-
mT
Q 40 11
30
20
10 tt*
ï-!-
^ r ^
135
200 i i i
-
_
180
I—
I
Observé
KNA
160
140
i
_ 120
M ~
<ô~
1
J-
_!
100
S 80
60
y _é
40 ,
20 »>x/ —i —
i i i i i
250 '
200
l
^ 150
M
E I 1
1
*r
Q 100
50
136
700
137
100
,„,-
90
Ub serve
— KNA
80
70 I
m--. 60 —I -
M
S 50 - -1 -
40 . . . : A J _
30 i
J\
20
10
0 i i i . i i ^ ' ^ i
138
250
700 i
-
Db serve
600
RNA
500 \—
L ( |
M 400 I r ~* —
CO
E
5=- 1 l+L. L V — i i m -i
j» 300 |T
200' 1 lx _
100 i -l _ -Ml j
139
400
140
Annexe 3: Article sous presse
Revue: Journal of Hydrologie Engineering
Manuscript Number: HEENG-306R1
141
Comparing Sigmoid Transfer Functions for Neural Network
Multistep ahead Stream flow Forecasting
Abstract
One of the main problems of neural networks is the lack of consensus on how to best
implement them. This work targets the question of the transfer function selection - a vital
part of neural network providing nonlinear mapping potential. Three nonlinear transfer
functions bounded by -1 and 1 are selected for testing, based on a literature review: the
Elliott sigmoid, the bipolar sigmoid, and the tangent sigmoid. They are used to design
multilayer perceptron neural networks for multistep ahead streamflow forecasting over five
diverse watersheds and lead-times from one to five days. All multilayer perceptrons have
shown good performance on the account of the four selected criteria, which confirms that
the selected multilayer perceptron implementation procedure was adequate, namely the
dataset length, the Kohonen network clustering method to create the training and testing
sets, and the Levenberg-Marquardt backpropagation training procedure with Bayesian
regularization. Specifically, results endorsed the tangent sigmoid as the most pertinent
1
transfer function for streamflow forecasting, over the bipolar (logistic) and Elliott sigmoids,
but the latter requires less computing time and as such may be a valuable option for
operational hydrology. Also, results averaged over five lead-times confirmed the Universal
Approximation Theorem that a linear transfer function is suitable for the output layer - a
nonlinear transfer function in the output layer failed to improve performance values.
Keywords
Introduction
2
neural networks. But the debate about their usefulness is still going on despite the claims
made for their versatility and generality (Shamseldin et al. 2002). Furthermore, for
operational purposes, the reliability of streamflow forecasts based on neural networks need
to be assessed over different lead-times (Toth and Brath 2007) and for a group of
watersheds that encompass a large array of hydrologie behaviours (Anctil and Lauzon
2004), so as to ensure that drawn conclusions are as general as possible.
One of the main unresolved problems of neural network is the lack of consensus on
how to best implement them. This work targets the question of transfer function selection -
a vital part of neural networks, providing them nonlinear mapping potential. Indeed, all
other elements of a neural network are strictly linear while nonlinearity is generally sought
for the modeling of natural phenomena. However, the problem with transfer functions is
that there is no theoretical background for their selection. Previous experimental
comparisons for streamflow forecasting, such as those of Shamseldin et al. (2002) and
Shrestha et al. (2005), indicated that transfer functions are pretty much interchangeable as
long as they are of sigmoid shape. Imrie et al. (2000) suggested that activation functions
with higher limiting amplitude produce better results.
In this paper, we compare different neural networks regarding the transfer function in
their hidden and output layer in order to seek better multistep ahead streamflow forecasting
performance. Three nonlinear transfer functions, bounded by -1 and 1, are selected for
testing, based on a literature review, namely Elliott (1993), Shamseldin et al. (2002), and
Shrestha et al. (2005). They are the bipolar sigmoid, the tangent sigmoid and the Elliott
sigmoid. The first two have already been confronted before, but not in a multistep ahead
forecasting application for a group of diverse watersheds. As for the third nonlinear transfer
function (Elliott 1993), we believe that this is its first hydrological application. The study
will also experimentally test the Universal Approximation Theorem (Hornik et al. 1989)
which states that multilayer perceptron neural networks (defined later) - with one input
layer, one hidden layer with a nonlinear transfer function, and one output layer with a linear
transfer function - are able to approximate any function with a finite number of
discontinuities. This is achieved by comparing multi-criteria performance of networks
using the linear transfer function or a nonlinear transfer function in their output layer.
Finally, the computing time requirement of the tested network architectures will be
compared in simulation.
Neural network modelling is introduced in the next section. Even if the selection of
an appropriate nonlinear transfer functions is the major objective of this work, issues
related specifically to the development of models based on multilayer perceptron neural
networks must be addressed at the same time. Such issues affect modelling performance
and consequently influence results appreciation. The construction of calibration and
validation data sets based on Kohonen network clustering, the choice of employing
Levenberg-Marquardt with Bayesian regularization as calibration procedure and the use of
the stacking multimodel approach are proposed as a way to build a rigorous model
development process that highlights the multilayer perceptron potential. The subsequent
section presents the methodology, the experimental protocol, and the modelling
performance criteria. Results are described next, with an emphasis comparing performance
values for multistep ahead streamflow forecasts. Conclusions on the relevant findings of
this work are provided in the last section.
In hydrology, neural networks has been used as models since the 1990 decade as
reported by Bonafe et al. (1994), Hsu et al. (1995), Jayawarena and Fernando (1996), Smith
and Eli (1995), Carrière (1996), Minns and Hall (1996), Shamseldin (1997), Tokar and
Johnson (2000), and so on.
Neurons form the basic units of a neural network. The basic elements of neurons are
(1) a set of input nodes, indexed by, say, 1, 2, ... I, that receives a vector of model input
signals, say x = (x\, X2, ... x\); (2) a set of synaptic connections whose strengths are
represented by a set of weights here denoted by w = (w\, W2, ... w{) and biases b = (b\, bi,
...b\); and (3) an activation function 0 that relates the total synaptic input to the output
(activation) of the neuron. The total synaptic input, u, to the neuron is given by the inner
product of the input and weight vectors:
where it is assumed that the threshold of the activation is incorporated in the weight
vectors. The output activation, y, is given by: y = O(w), where <I> denotes the activation
function of the neuron. The total synaptic input is thus transformed to the output via the
nonlinear activation function. Many neurons form a layer and many layers interconnected
to each another form a neural network (NN). A NN is thus defined according to its model
inputs, and its architecture: the number of layers, the number of nodes in each layer, the
activation function in each layer and the manner in which the layers are interconnected.
Once selected, inputs are usually normalised because most training algorithms are
sensitive to the scale of the data. In general, in hydrology, data are rescaled to the intervals
[-1, 1], [0, 1], [0, 1] or rescaled to a Gaussian function with a mean of 0 and unit standard
deviation (Dawson and Wilby 2001).
Neural network training is the process of adjusting the weights and biases in order for
the network to produce the desired output in response to every input pattern in a
predetermined set of training patterns. Training can be supervised or unsupervised and in
the first case, for every input pattern, there is an externally specified "correct" output which
acts as target for the network to map. There is no target in unsupervised training and the
system adapts itself to regularities in the system according to rules implicit in its design.
The nature of regularities found by the system depends on details of its design.
SSE = X ( S - à ) 2 (2)
Q=<!>2[Yjw®.(YjWx + b) + b] (3)
is its computed counterpart, where the subscript 1 and 2 identify the transfer function used
in the hidden and outer layers, respectively. Minimising SSE by backpropagation involves
the computation of O and of its derivative. For that, even if any differentiable function can
theoretically be used (Hornik et al. 1989), functions for which the derivative is easy to
compute are generally used. Although backpropagation has been used successfully on a
wide range of problem, one of the common complaints is that it is slow. Much work
therefore has been done in search of faster methods. Reed and Marks (1998) cited about ten
variations of backpropagation. Here, the Levenberg-Marquardt algorithm is chosen as the
optimization tool because of its proven computing efficiency and good performance, as
demonstrated in Tan and Van Cauwenberghe (1999). The weight update procedure of the
Levenberg-Marquardt backpropagation training algorithm uses an approximate Hessian
matrix for the second derivatives of the cost function (Coulibaly et al. 2000).
Nonlinear transferfunctions
0(u) = u (4)
where u is the total synaptic input defined by Eq. (1), that is regularly used in the output
layer, the main interest of MLPs resides in their non-linear sigmoid function principally
used in their hidden layer. In this study, three sigmoid transfer functions bounded between -
1 and +1 have been selected: the bipolar sigmoid, the tangent sigmoid, and the Elliott
sigmoid. Sigmoid functions all share a similar S shape that is essentially linear in their
center and non-linear toward their bounds that are approached asymptotically (Fig. 1). For
use in finding optimal neural weights by backpropagation algorithms, based on a least-
8
squared approach such as SSE, it is required that the transfer function be easily
differentiable, thus permitting the evaluation of increments of weights via the chain rule for
partial derivatives (Elliott 1993).
0(«) = — — (5)
which is easily differentiable, is the most frequently non-linear transfer function used for
hydrologie applications. However, because it is bounded between 0 and 1, we used instead
its linearly transformed version known as the bipolar transfer function
<D(«) = — 1
l+e
(6)
which is bounded between -1 and +1. The tangent transfer function, also known as the
hyperbolic tangent function
/ x 2
<p(w) = tanh(«)= —1
K ) 2
1+e" " (7)
is very similar in form and shares many mathematical properties with the bipolar transfer
function. It is also frequently used in hydrology. Finally, the Elliott (1993) transfer function
u
<D(„) =
1+H (8)
which is also differentiable everywhere and bounded from -1 to 1, is no more complex than
exponential-based transfer functions, allows for a simple backpropagation algorithm
implementation, and asks for less computing time. To our knowledge, this is the first
hydrologie application of this transfer function.
•Elliot ■Tansig ■Linear Bipolar
Methodology
This secti on addresses several techni cal i ssues related to the development of neural
network models. It starts with the selection of the streamflow ti me series which is driven by
the necessity to encompass a large array of hydrologie behavi ours so as to ensure that the
results from the transfer functi on tested here are as general as possi ble. The fi ve ri vers
listed i n Table 1 come from different hydro-cli mati c regi ons, which respecti vely generate
different hydrologi e behaviours in terms of streamflow, but all share concentration times of
the order of three to four days (Fi g. 2). In the present study, we follow the path of Ancti l
and Lauzon (2004) who exploi ted the same database before. At the hi gh extreme i s the
catchment of the San Juan Ri ver whi ch i s very humi d, has a very obvious seasonal cycle,
and possesses the hi ghest dai ly streamflow mean and standard devi ati on of all the
catchments under study. Located on the Canadi an Paci fi c Coast, thi s catchment i s fed by
sustained heavy preci pi tati ons, parti cularly between November and Apri l. In terms of
10
hydrological conditions, the others four catchments are less humid. A seasonal cycle is less
pronounced for Leaf and Volpajola. The high flow period Kavi in summer and it is usually
very dry in winter. Winter is the period of high flow for Leaf, Serein, and Volpajola, while
summer is relatively dry. The common feature of all five catchments is the entire absence
of snow. Daily streamflow and rainfall observations are available for periods ranging from
18 to 43 years.
11
(a) (d)
g
c s
C
a
-, S
•J
b
J-.
(b) (e)
70
s
a
60
50 1 Min
Max
s 40 Mean
o
s:
30 1 / i
11
M
20 JIJJ
\V ir U i J
JZ-^Il^W w\M>\ ^^^W \y**y
10
0
01/01 01/03 30/04 29/06 28/08 27/10 26/12 01/01 01/03 30/04 29/06 28/08 27/10 26/12
Day Day
(C)
o
e
£
Figure 2 : Daily mean, maximum and minimum streamflows for the (a) Kavi, (b)
Leaf, (c) Volpajola, (d) San Juan, and (e) Serein rivers.
12
This follows with a clear departure of the common practice in the development of
models to choose calibration and validation data sets continuous in time. In common
practice, one has to be careful in the selection of time periods to ensure that both the
calibration and validation data sets contain events that represent all possible conditions of
flux production (Klemes 1986). This practice is needed for process driven models, since the
update of their state variables requires continuous data sequences in time. Neural networks
differ in that they only need to be fed some observations over the last few days (as
determined by an input selection procedure) to be operational; they do not need continuous
streams of data. Consequently, calibration and validation data sets can be built only on the
condition of having in each of them enough input vectors representing all likely conditions
of streamflow production. Self organizing feature maps (SOFMs), which are based on the
neural network structure established by Kohonen (1990) was applied for the subdivision of
the time series into a training subset and a testing subset with similar statistical properties.
SOFMs are a descriptive tool equivalent to clustering techniques that discriminate input
vectors with respect to patterns present in them. This network is made of an input layer that
receives the data and an output layer composed of several neurons often structured as a flat
plane. The weights associated to a given output neuron is similar to a mass center, which
can be compared against input vectors. The weights define the data patterns, and an output
neuron, among all the others, is said to be activated if its weight vector most closely
matches the input vector fed to the network. The calibration process, which determines the
values of the weights of the network, ensures that the output layer is spread over the entire
data domain and defines the range of patterns in the data in some meaningful coordinate
system, which is why the Kohonen network is called a self-organizing map. In the present
study, we have used the SOFM clustering performed by Anctil and Lauzon (2004) on the
data set described in Table 1 (2/3 for training and 1/3 for testing). To ensure that all types
of inputs fed to the network are on the same scale, a linear standardisation was also
performed in order to bind the time series between -1 and 1.
13
The successful development of MLPs depends largely on the availability of pertinent
model input parameters. Here also we follow the recommendation of Anctil and Lauzon
(2004) who previously identified 4-5-1 MLP models, based on the last observed streamflow
(Qo) and the last three observed rainfall observations (Po, P-\ and P.2). Such inputs are
relatively standard for neural network streamflow models and for the sizes of the
catchments herein. Consideration of other inputs such as the potential évapotranspiration
generally provides no or small performance improvements to the model (Anctil et al. 2004).
In the present context, these MLPs will be trained to forecast one- to five-day-ahead
streamflow (Q\ to Qs). Note that tests made by Anctil and Lauzon (2004) revealed that
number of neurons of the hidden layer, incidently set to 5, have only small effect on the
modelling performance.
Furthermore, the stacking method (Wolpert 1992) is performed here. In the context of
this application, it is a method by which several networks are calibrated, and the simulation
is obtained by calculating the mean of the responses of all these networks.
14
Experimental protocol
Six different 4-5-1 MLPs are experimented using a variety of transfer functions in
their hidden and output layer (Table 2). The tangent sigmoid, bipolar and Elliott transfer
functions are first tested in the hidden layer along a linear function in the output layer, as
suggested by the Universal Approximation Theorem (Hornik et al. 1989). The usage of a
nonlinear transfer function in the output layer is tested next.
Table 2: Transfer function combinations tested in the hidden and output layers
These 4-5-1 MLPs are trained and tested for streamflow forecast lead times ranging
from one day to five days. In all instances, 50 MLPs are calibrated and the global
streamflow estimate of the model is the mean of the estimates from all 50 networks - a
method known as stacking (Wolpert 1992). Only then the model performance is calculated.
There is no theoretical guidance for the number of MLPs that would provide a stable
estimate after stacking, probably because it is problem dependant. The number 50 used here
is deemed large enough, based on our experience.
The computing time needed by the various 50 MLPs to simulate a 20-year testing set
is also reported.
15
Evaluation of performance
The evaluation of the performance is based on a linear scoring rule and on a quadratic
scoring rule. The MAE describes the average magnitude of the errors, without considering
their sign (it is a linear score because all errors are equally weighted):
MAE = - f \ Q L - Q L , (9)
n M
where Q is the forecast of the observed streamflow Q, n is the number of observations, and
L is the lead-time (L equals 1 for one-day-ahead forecast, and so on).
Both scores are scale dependant, which forbids comparisons of the performance of
forecasts for basins of different sizes or with different streamflow regimes. This drawback
is overcome by using a skill score, which is a simple standardization of the score made by
comparing the performance of the forecast with the performance of a reference forecast.
The Nash and Sutcliffe (1970) efficiency index CRi is without a doubt the most known
skill score in use in hydrology:
16
M S E
™ 1
CR^l-— ~ (ID
v ;
n tr
1S m e
where f2 average observed streamflow. CRi is tailored as a statistical coefficient of
determination, except that it ranges from -oo to 1. It reaches 1 for a perfect fit between
predicted and observed values, and 0 when the hydrological model is no better than a one-
parameter 'no-knowledge' model that gives the mean of the observations as prediction for
all time steps. CRi also preserves the intrinsic quality of the RMSE, which is to heavily
penalise large errors. Note also that the MLP cost function is SSE (see Eq. 2), which is
equivalent in using CRi.
Three more performance criteria, tailored as CRi, are used to judge the model
efficiency. CR2 is the Nash-Sutcliffe efficiency index calculated on square root transformed
streamflows, in order to put a lesser emphasis on larger errors:
,2
ÈIVOT-A/QT)
CR;=1-^ —V- (12)
L(VQT-JQ)
i=l
CR3 is a criterion of absolute error that puts identical weights on all errors — it is
particularly useful in a forecasting context where the simulations must be as close as
possible to the observed values at every time step (Ye et al. 1997):
^_--2-y*-- (13)
.Pi-*
And CR4 is a water balance criterion that measures the ability of the model to correctly
reproduce streamflow volumes (Perrin et al. 2001):
17
là le.
II
;=1
(14)
Ww
CR4=1- /=i
where SS is a skill score, I denotes a reference MLP, and II denotes a MLP using a different
transfer function. Negative values of the r2 signify that the modification has negative effects
on the MLP performance. Senbeta et al. (1999) suggest that r2 values greater than 10 %
may be considered as an indication of the significance of the model improvement. But
Perrin et al. (2003) suggest that a mean value of 7% is significant enough to justify a model
modification.
Results
Table 3 compiles the average value of all four performance criterion, for training and
testing, for all six MLPs, and for lead-time of 1 to 5 days. For 1-day lead-times, CRi values
above 0.9 confirm that all MLPs adequately mimic the rainfall-runoff process. In most
instances, the CR2 values are slightly better than the CRi ones, stating that the MLPs
behave well in low flow conditions. The CR3 values are lower than the other three, but they
remain good. Finally, the CR4 values are in most instances close to 1, revealing that the
MLPs very closely respect the water balance. It should be stressed that all performance
18
values are almost identical for the training data set and for the testing data set. All MLPs
are thus exempt of generalisation problems. It also confirms that the selected MLP
implementation procedure was adequate, namely the dataset length, the Kohonen network
clustering method to create the training and testing sets, and the Levenberg-Marquardt
backpropagation training procedure with Bayesian regularization. Finally, the use of the
Elliott transfer function in both the hidden and output layers (the EE MLP) lead to lower
performance when compared to the other 5 MLPs.
As expected for watersheds with concentration times of the order of three days, the
forecasting performance decreases as the lead-time increases. In all cases, the criterion
values stay positive. All models are thus superior to the 'no-knowledge' model, for all lead-
time. Only CR4 shows almost no signs of performance deterioration with increasing
forecast lead-time which means that the loss of performance with increasing lead-time
occurs mostly for the higher streamflows.
19
Table 3: Mean performance of the six networks
Tt
EL 0.483 0.603 0.438 0.998 0.480 0.598 0.424 0.959
TT 0.489 0.598 0.436 0.989 0.451 0.584 0.414 0.952
BB 0.488 0.591 0.427 0.981 0.455 0.577 0.406 0.937
EE 0.484 0.541 0.389 0.940 0.445 0.524 0.367 0.896
TL 0.404 0.534 0.375 0.999 0.392 0.522 0.361 0.958
BL 0.398 0.515 0.365 0.997 0.389 0.506 0.353 0.957
IT.
EL 0.397 0.512 0.364 0.998 0.390 0.503 0.352 0.959
TT 0.405 0.517 0.368 0.986 0.382 0.500 0.349 0.943
BB 0.404 0.510 0.359 0.980 0.384 0.494 0.340 0.940
EE 0.398 0.462 0.323 0.944 0.363 0.441 0.302 0.903
20
Table 4 compares Nash and Sutcliffe (1970) r2 criterion, for all skill scores,
combining all five lead-times and using the TL MLP performance results as reference to the
other five tested MLP architectures. Globally, most r2 values are negative, which means
that the selected MLPs are in general less accurate than the TL MLP - note that since the
CR4 results are close to 1, small modifications to the performance may results in large r2
values. In no instances, neither in training nor in testing, the BL MLP provides better
performance than the TL MLP, which is also the case for the EE MLP. The EL MLP
provides only a marginal performance gain for CRi and CR» in testing, while both the TT
and BB MLPs improve only performance for CRi in training. Only one of the rare
performance gains are larger than 0.4% which is far from the 7 or 10 % proposed in the
literature to justify the implementation of the new model. These results alone confirm the
Universal Approximation Theorem that a linear transfer function is suitable for the output
layer and endorse the tangent sigmoid as a pertinent transfer function for streamflow
forecasting. Those results (TL, testing subset), taken from Table 3, are drawn in Figure 3.
Table 4: Gain of performance computation (%) using the performance of the TL MLPs as
reference and combining all lead-times
Training Testing
MLP
r, 2 r22 r32 r42 r,2 r22 r32 r42
BL -1.1 -2.3 -0.9 -86.9 -0.3 -1.8 -0.7 -0.7
EL -0.1 -1.5 -0.4 -6.6 0.3 -1.2 -0.3 1.5
TT 0.2 -8.3 -3.1 -1100 -2.7 -9.5 -3.9 -63.5
BB 0.4 -10.4 -4.8 -1361 -2.3 -11.7 -5.6 -85.9
EE -2.9 -45.4 -17.5 -4579 -7.1 -46.2 -18.3 -298
21
1 2 3 4 5 6
Results can also be analysed as an average value per watersheds. Table 5 presents
average value of the six models for testing data and for lead-times of 1 to 5 days with aim
to appreciate the evolution of CRi with lead-times from a watershed to another. For lead-
times of 1 day, mean value of CRi is above the acceptable value of 0.7 on all watersheds
showing good performance on NNs for this lead-time.CRi deteriorates differently with
lead-times from one watershed to the other. For San Juan and lead-time increasing from 1
to 2, CRi decreases from more than 0.7 to less than 0.5. On the other hand, for Serein and a
lead-time of 4 days, mean value of CRi is still more than 0.7.
22
Table 5: Mean CRi performance per watershed
23
Table 6: Computing time recorded for the stacked simulation of a 20-year testing set
MLP Time (s)
TL 3.84
BL 3.83
EL 3.32
TT 7.54
BB 7.48
EE 7.09
Conclusion
Overall, six MLP architectures based on three different nonlinear transfer functions
used in the hidden layer, and either the same nonlinear transfer function or the linear
24
transfer function used in the output layers have been confronted on five watersheds.
Results, averaged over the five lead-times, first confirmed the Universal Approximation
Theorem that a linear transfer function is suitable for the output layer - usage of a nonlinear
transfer function in the output layer failed improving performance values. The same results
also endorsed the tangent sigmoid as the most pertinent transfer function for streamflow
forecasting, over the bipolar (logistic) and Elliott sigmoids. In no instances, neither in
training nor in testing, did the bipolar MLPs provide a better averaged performance than the
tangent MLPs. As for the Elliott transfer function, its usage, combined with a linear transfer
function, provided averaged performance values that more closely matched the hyperbolic
tangent ones. Considering that the Elliott transfer function needs less computing time to
execute that the tangent transfer function, it may be an excellent option for operational
hydrology, when a short decision time limits the number of scenarios that may be tested.
All conclusions stand for lead-times from one to five days and for five diverse
watersheds that have residence times of about three days.
Acknowledgements
Financial support for the undertaking of this work has been provided by Hydro-
Québec and by the Natural Science and Engineering Research Council of Canada.
References
Anctil, F. and Lauzon, N., (2004). "Generalisation for neural networks through data
25
Anctil, F., Perrin, C. and Andreassian, V., (2004). "Impact of the length of observed records
auxiliary ANN input for stream flow forecasting." J. Hydrol, 286, 155-167.
ASCE, (2000). "Artificial Neural Networks in Hydrology. I: Preliminary Concepts." J.
neural networks: The state of the art." Can. J. Civ. Engng, 26(3), 293-304.
Coulibaly, P. Anctil, F. and Bobée, B., (2000). "Daily reservoir inflow forecasting using
artificial neural networks with stopped training approach." J. Hydrol, 230, 244-257.
Dawson, C. W. and Wilby, R., (1998). "An artificial neural network approach to rainfall-
runoff modelling." Hydrol. Sci. J , 43(1), 47-66.
Dawson, C. W. and Wilby, R. L., (2001). "Hydrological modelling using artificial neural
26
Fahlman, S. E. and Lebiere, C , (1991). The Cascade-Correlation Learning Architecture.
School of Computer Science, Carnegie Mellon University, Pittsburgh, PA, USA
Foresse, F. D. and Hagan, M. T., (1997). Gauss-Newton approximation to Bayesian
regularization.
Franchini, M. and Pacciani, M., (1991). "Comparative-Analysis of Several Conceptual
and radial basis function networks as tools for flood forcasting, Anaheim, CA,
USA.
Jiang, N., Zhao, Z. and Ren, L., (2003). "Design of structural modular neural networks with
22(9), 177s-188s.
27
Kohonen, T., (1990). "The self-organizing map." Proc. IEEE, 78(9), 1464-1480.
LeCun, Y., (1985). Une procedure d'apprentissage pour reseau a seuil asymmetrique, Paris.
26(3), 281-289.
Nash, J. E. and Sutcliffe, J. V., (1970). "River flow forecasting through conceptual models
28
Perrin, C , Michel, C. and Andreassian, V., (2003). "Improvement of a parsimonious model
Feedforward Artificial Neural Networks". MIT Press, Cambridge, MA, USA, 346
pp.
Rumelhart, D. E., Hinton, G. E. and Williams, R. J., (1986). "Learning Internal
149-168.
Shamseldin, A. Y., Nasr, A. E. and O'Connor, K. M., (2002). "Comparison of different
forms of the Multi-Layer Feed-Forward Neural Network method used for river flow
forecasting." Hydrol. Earth Syst. Sci., 6(4), 671-684.
Shamseldin, A. Y., O'Connor, K. M. and Liang, G. C , (1997). "Methods for combining the
system using artificial neural networks." Hydrol. Earth Syst. Sci., 9(4), 313-321.
Smith, J. and Eli, R. N., (1995). "Neural-Network Models of Rainfall-Runoff Process." J.
predictors for nonlinear systems with time delay." Engng Applic. Artif Intell, 12(1),
21-35.
29
Tokar, A. S. and Markus, M., (2000). "Precipitation-Runoff Modeling Using Artificial
calibration data in conceptual and neural network modeling." Wat. Resour. Res.,
43(11).
Werbos, P. J., 1974. Beyond Regression: New Tools for Prediction and Analysis in the
Geneva, Switzerland.
Wolpert, D. H., (1992). "Stacked generalization." Neural Netw, 5(2), 241-259.
Ye, W., Bates, B. C , Viney, N. R., Sivapalan, M. and Jakeman, A. J., (1997). "Performance
30