TC Qqla 26583

HAROUNA YONABA
MODELISATION HYDROLOGIQUE HYBRIDE

RÉSEAU DE NEURONES - MODÈLE
CONCEPTUEL
Thèse présentée
à la Faculté des études supérieures de l'Université Laval
dans le cadre du programme de doctorat en génie civil
pour l'obtention du grade de Philosophiae Doctor (Ph.D)
DEPARTEMENT DE GENIE CIVIL

FACULTÉ DES SCIENCES ET GÉNIE
UNIVERSITÉ LAVAL
QUÉBEC
2009
© Harouna Yonaba, 2009

Résumé
En hydrologie, la simulation de la transformation de la pluie en débit dans les rivières
constitue un axe de recherche dynamique. À la mise en œuvre des nouveaux modèles, il faut
ajouter les tentatives d'améliorer ceux existant grâce à la possibilité qu'offrent des nouveaux
outils d'acquisition de données et à la puissance de calcul des ordinateurs toujours croissante.
La puissance de calcul des nouveaux ordinateurs rend utilisable des algorithmes autrefois
difficiles à mettre en œuvre comme les réseaux de neurones (RN). Les réseaux de neurones
ont connu un essor dans la modélisation hydrologique dans les années 1990 où ils ont été
essentiellement utilisés dans la mise en œuvre de modèles pluie-débit.
Dans cette thèse l'on cherche à remplacer le module BV3C (bilan vertical 3 couches) du
modèle distribué HYDROTEL par un ensemble de réseaux de neurones. BV3C divise le sol en
trois couches où il simule les teneurs en eau et les débits sortant de chacune des couches. Cette
démarche a pour but d'explorer l'opportunité de remplacer des modules de modèles
complexes par des réseaux de neurones qui, une fois optimisés, constituent des outils de
calculs très simples, rapides et transportables sur des supports informatiques simples. Le défi
d'une telle démarche est de trouver une base de données représentative susceptible d'être
utilisée par le module substitué. Dans le cas présent, des données provenant de zones hydro-
climatologiques différentes ont été utilisées. Ces données sont utilisées comme entrées du
module original extrait de l'ensemble du modèle HYDROTEL. Les résultats de simulation
sont classés avant d'être utilisés en partie pour l'optimisation et le test des réseaux de
neurones. Les réseaux mis en œuvre sont testés sur une autre partie des données et dans un
cadre opérationnel où les réseaux de neurones sont réintégrés dans le modèle.
Les résultats des différents tests montrent tout d'abord que la substitution donne des résultats
satisfaisants sur l'ensemble des données qui n'ont servi ni à l'optimisation, ni aux tests des
réseaux de neurones. En plus, on enregistre un léger gain de temps. Les résultats sur les
teneurs en eau sont nettement meilleurs. Cela s'explique par le fait que celles-ci connaissent
de faibles variations dans le temps. Les variations plus importantes des débits des différentes
couches rendent plus difficile leur modélisation mais les résultats obtenus rendent la
substitution envisageable aussi bien dans le présent cas que dans des modules plus complexes.
Abstract
In hydrology the simulation of the transformation of the rainfall into runoff is still a
dynamic area of research. Upon implementation of new models, we also attempt to improve
existing ones with the opportunity afforded by new tools for data acquisition and growth of
computer power. The computing power of new computers makes possible the use of
algorithms previously difficult to implement. Neural networks (NN) are part of these
algorithms and have experienced strong growth in hydrological modeling in the 1990s
when they were used mainly in the implementation of rainfall-runoff models.
In this thesis we attempt to replace a module namely BV3C (3 vertical layers balance) of
HYDROTEL, a distributed model, by a group of neural networks. BV3C divides soil into
three layers where it simulates the moisture and flows from each layer. This approach aims
to explore the opportunity to replace the modules of complex models by neural networks
that, once optimized, can be very simple calculations tools, fast and portable on single
media. The challenge of this approach is to find a representative data basic to be used by
the replaced module. In this case, data from different hydro-climatic zones are used. These
data are used as inputs of the module extract from HYDROTEL model and simulation
results sorted before being used in part for optimization and testing neural networks. The
implemented networks are tested on another part of the data and in operational framework
in which neural networks are integrated into the model.
The results of different tests show first that the substitution gives satisfactory results on all
data that have not been used for optimization or testing the neural networks. In addition
there is a slight gain in computing time. The results on moisture estimation are much better
because of low temporal variability, they are aware of small changes over time. The larger
variations of the flows of different layers make modeling more difficult but the results
suggest that the substitution in this case as well as for more complex modules should be
possible.
Avant-Propos
La présente thèse a pu se réaliser grâce à de multiples soutiens institutionnels et individuels
que je tiens à remercier. Ainsi je remercie l'Agence Universitaire de la Francophonie
(AUF) qui m'a offert l'opportunité de faire un stage à l'Université Laval à travers une
bourse. Mon admission au programme de doctorat s'inscrit à la suite de ce stage. Il me plait
également de remercier l'Université Laval à travers le département de génie civil qui m'a
accepté en son sein d'abord comme étudiant stagiaire puis comme étudiant au doctorat.
Merci également à Hydro-Québec dont j'ai bénéficié des subventions de recherche à travers
mon directeur de thèse M. François Anctil.
Comme individus, je tiens à remercier particulièrement :
- Le Professeur François Anctil, mon directeur de thèse; cette thèse est certes le résultat
de son encadrement mais bien plus; c'est aussi le résultat de son soutien financier, de sa
disponibilité constante (même pendant son année sabbatique), ses encouragements et
surtout son optimisme inébranlable, autant de catalyseurs qui m'ont permis de mener à
bout ce travail. Je lui suis très reconnaissant.
Le Dr Vincent Fortin, prévisionniste à Environnement Canada, co-directeur de la
présente thèse. Malgré ses nombreuses contraintes, il a toujours pu être disponible pour
moi et j'ai été surtout impressionné par sa capacité à créer rapidement une ambiance de
travail très décontractée.
Le Professeur Paul Lessard, directeur de programmes de deuxième et troisième cycles
pour sa disponibilité pour toutes les questions administratives et pour le partage de son
expérience au cours des réunions hebdomadaires du VLAP.
- Les Professeurs Brian Morse et Jean-Loup Robert pour avoir participé au comité
d'évaluation de ma thèse.
- Les Professeur(e)s Geneviève Pelletier et Peter Vanrolleghem pour avoir participé au
comité d'évaluation de ma thèse et pour avoir partagé avec nous leurs expériences à
travers les réunions hebdomadaires du VLAP.
- Denyse Marcotte, agente de gestion des études pour sa disponibilité.
- Annie-Claude Parent, professionnelle de recherche pour son soutien technique et sa
bonne humeur permanente.
Le Professeur Salif Yonaba de l'Université de Ouagadougou, qui durant tout mon cycle
ne s'est pas ménagé pour me donner presqu'au jour le jour les nouvelles de ma famille
au Burkina Faso. Cela a été une source de grand réconfort.
Le Dr Saidou Yonaba (Médecin) pour avoir partagé avec moi pendant deux ans son
expérience très enrichissante de la vie au cours de son séjour à Québec dans le cadre
d'une maîtrise en santé communautaire.
Le Dr Zoundi Lagi et sa famille à Québec pour leur soutien multiforme.
Mes amis du département de Génie Civil: Philippe Chang, François Nzokou et famille,
Martin Richard, Santatianiana Denise Ravalomanana, Etienne Lévesque, Marie-Amélie
Boucher, Peggy Macaine, Charles Therrien, Simon Nolin, Juan Alberto Velazquez
Zapata, Emmanuelle Vigne.
Mes compatriotes étudiants à Québec
Et ma petite famille à Québec : Honorine et Malicka
m
A ma Mère et à la mémoire de mon Père, je
vous dois tout, tout simplement.
Harouna
Table des matières
Résumé i
Abstract i
Avant-Propos ii
Table des matières v
Liste des tableaux vii
Liste des figures 1
Liste des Annexes 1
Annexe 2 : Résultats de simulation suivant différents horizons de prévision 1
Annexe 3: Article sous presse 1
1. Introduction : Modèle hydrologique, contexte et objectifs de l'étude 1
1.1 Modèle hydrologique 2
1.2 Classification des modèles (ou quelques qualificatifs de modèles hydrologiques) 3
1.2.1 Global, distribué ou semi-distribué 4
1.2.2 Les modèles empiriques, conceptuels ou théoriques 8
1.2.3 Modèle hybride 12
1.3 Contexte et objectifs 17
1.3.1 Contexte 17
1.3.2 Objectifs 17
2. Les modèles hydrologiques utilisés 20
2.1 Les réseaux de neurones 21
2.1.1 Formulation mathématique d'un réseau de neurones 22
2.1.2 Architecture des réseaux de neurones 23
2.1.3 Apprentissage des réseaux de neurones 25
2.1.4 Les perceptrons multicouches (PMC) 26
2.1.5 Les cartes auto-organisatrices de Kohonen 35
2.2 Le modèle HYDROTEL 38
2.2.1 Le bilan vertical : BV3C 42
2.3 Conclusion 46
3. Méthodologie 47
3.1 Introduction 48
3.2 Nouvelle structure d'HYDROTEL 49
3.3 Les limites des réseaux de neurones et recherche d'une base de données
appropriée 49
3.4 Méthodologie « offline » 52
3.4.1 Le réseau des teneurs en eau 53
3.4.2 Le réseau de Qi 55
3.4.3 Le réseau de Q2 56
3.4.4 Données et hypothèses 57
3.4.5 Mise en œuvre des réseaux de neurones 61
3.5 Méthodologie "online" 62
3.5.1 Le bassin versant de Gatineau 63
3.6 Conclusion 65
4. Résultats 66
4.1 Résultats de la classification de Kohonen 67
4.2 Mise en œuvre des réseaux 71
4.2.1 Le réseau des teneurs en eau (9i, O2, ©3) 71
4.2.2 Le réseau de neurones de l'écoulement de base (Q2) 73
4.2.3 Le réseau de neurones du ruissellement (Qi) 75
4.2.4 Le modèle de l'écoulement retardé (Q3) 77
4.3 Performance des réseaux pour 1 ' ensemble de la base de données 79
4.4 Performance des réseaux utilisés en boucle 90
4.4.1 Analyse des résultats selon différents horizons de prévision 90
4.4.2 Analyse des résultats selon les types de sols 93
4.5 Résultats du Bassin de Gatineau et mesure du temps de calcul 99
4.5.1 Les résultats globaux 99
4.5.2 Le temps de calcul 106
Conclusion 107
Conclusion générale 110
Bibliographie 114
vi
Liste des tableaux
Tableau 2.1: Exemples de fonction de transfert des réseaux de neurones 24
Tableau 2.2: Valeur de Fx(à) pour N et FH(a) donnés 35
Tableau 2.3 Structuration du modèle HYDROTEL (Source : Fortin et al., 1995) 39
Tableau 3.1 : Nouvelle structure du modèle HYDROTEL 49
Tableau 3.2 : Caractéristiques statistiques des précipitations et ETP utilisées 59
Tableau 4.1 : Répartition des données par classe 69
Tableau 4.2 : Kavi, caractéristiques des précipitations par classe 70
Tableau 4.3 : Variables des différents modèles 73
Tableau 4.4 : Caractéristiques des différents modèles 78
Tableau 4.5 Répartition du critère d'efficacité suivant le signe 81
Tableau 4.6 Répartition du critère de bilan suivant le signe 81
Tableau 4.7 : Efficacités calculées aux différents tronçons selon les deux versions
d'HYDROTEL sur différents horizons de prédiction 105
Liste des figures
Figure 1.1 : Modèle GR4J (Perrin, 2000) 11
Figure 2.1: Un neurone 22
Figure 2.2: Réseau ouvert 23
Figure 2.3: Réseau bouclé 25
Figure 2.4: Perceptron multicouche 3-3-2-1 27
Figure 2.5 : Graphique des différentes fonctions de transfert 28
Figure 2.6 : Cartes de Kohonen 36
Figure 2.7 : Bilan vertical selon BV3C 43
Figure 3.1 : Schéma du réseau RN1 54
Figure 4.1 : Représentation graphique des données de Sanjuan par classe 69
Figure 4.2 : variation de l'erreur en fonction du nombre de variables pour le réseau des
teneurs en eau 9i, 02, et 93 72
Figure 4.3 : Variation de l'erreur en fonction du nombre de variables pour le réseau de Q2
74
Figure 4.4 : Variation de l'erreur en fonction du nombre de variables, Qi 77
Figure 4.5 : Efficacité des différents modèles 84
Figure 4.6 : Critère de bilan des différents modèles 85
Figure 4.7 Efficacité du modèle de teneur en eau sur les UHRHs du bassin versant de
Serein, sol 1) 86
Figure 4.8 Exemple de simulation 03 sur une UHRH du bassin versant de Serein pour le sol
1 86
Figure 4.9 Exemple de simulation de Qi sur une UHRH 87
Figure 4.10 Exemple de simulation deQ2 sur une UHRH 87
Figure 4.11 Fréquence cumulée de l'efficacité pour les modèles de simulation des six
variables 89
Figure 4.12 Fréquence cumulée de l'efficacité pour les variations des six variables 89
Figure 4.13 Fréquence cumulée des erreurs (MAEs) selon l'horizon de prévision 93
Figure 4.14 : boîte à moustaches 96
Figure 4.15 : Distribution des MAEs par type de sol, horizon de 14 jours 97
Figure 4.16 : Distribution des MAEs par type de sol, horizon de 14 jours 98
Figure 4.17 Schéma de simulation séquentielle 99
Figure 4.18 : Bassin versant de Gatineau et stations de contrôle 102
Figure 4.19 : Efficacité des réseaux de neurones sur le bassin de Gatineau 103
Figure 4.20 : Horizon 3, tronçon 1 105
Figure 4.21 : Comparaison du temps d'exécution 107
Liste des Annexes
Annexe 1 : Caractéristiques des sols utilisés dans BV3C 126
Annexe 2 : Résultats de simulation suivant différents horizons de prévision 127
Annexe 3 : Article sous presse 141
1. Introduction : Modèle hydrologique, contexte et
objectifs de l'étude
1.1 Modèle hydrologique
L'hydrologie est définie par Penman (1961) comme la science qui cherche à répondre à la
question « Qu'arrive-t-il aux précipitations? ». Question simple en apparence mais sur
laquelle les nombreux chercheurs qui s'y sont penchés n'ont pas trouvé une réponse
entièrement satisfaisante. Cela s'explique par le fait que les éléments qui font l'objet
d'études en hydrologie sont eux-mêmes sujets à de nombreuses incertitudes tant dans la
connaissance théorique des chercheurs que dans leurs mesures en nature. Cette complexité
a donné lieu à plusieurs branches de l'hydrologie : hydrologie maritime, côtière, des bassins
versants.
Pour ce qui nous concerne, nous nous intéressons à l'hydrologie des bassins versants qui
peut être définie comme l'étude des processus intervenant dans le cycle de l'eau à l'échelle
des bassins versants. Le bassin versant en une section droite d'un cours d'eau, est lui défini
comme la totalité de la surface topographique drainée par ce cours d'eau et ses affluents à
l'amont de cette section. Les processus qui s'y déroulent sont essentiellement les
précipitations, l'infiltration, le ruissellement et l'évapotranspiration. Ces processus sont
régis par le climat, la végétation, la topographie, le sol, la géologie et l'utilisation et la taille
du bassin versant (Singh et Woolhiser, 2002). La taille du bassin varie de quelques
fractions de mètre carré comme, par exemple, le bassin d'un ruisseau en amont d'une
rivière, à quelques milliers de kilomètres carrés (plus de trois millions de kilomètres carrés
pour le bassin du Nil); ce qui explique sa non uniformité et donc la complexité de l'étude
des processus hydrologiques qui s'y opèrent.
La question de Penman trouve toute son importance dans la mesure où sa réponse permettra
non seulement de planifier et de gérer les ressources en eau dont nous disposons
notamment pour l'irrigation, l'approvisionnement en eau potable, la production
d'hydroélectricité, mais aussi de nous protéger contre les catastrophes naturelles telles les
sécheresses et les inondations, sinon d'atténuer leurs effets. La réponse à la question de
Penman permettra aussi d'éviter les conflits d'intérêt entre les différents utilisateurs de
l'eau à l'échelle locale, nationale ou internationale, d'où tout son intérêt. Les modèles
hydrologiques sont donc apparus pour répondre à cette question cruciale. Mais qu'est-ce
qu'un modèle?
2
Le modèle se définit en fonction du champ d'étude. Ainsi a-t-on des modèles linguistiques,
sociaux, réduits, symboliques, économiques, mathématiques, physiques etc., chacun défini
dans un cadre bien précis.
Dans le cadre de notre étude, nous retenons pour modèles les outils mathématiques qui sont
constitués d'équations algébriques et différentielles qui relient des causes (appelées
« variables ») [...] à des effets (appelés « grandeurs à modéliser »),[...] toutes ces quantités
étant de nature numérique (Dreyfus et al., 2002). Le modèle hydrologique répond donc à
cette définition avec, pour variables, les précipitations, le ruissellement, l'infiltration,
l'évapotranspiration et la variable à modéliser, le débit à la sortie du bassin. Autrement on
entend par modélisation hydrologique, l'application d'expressions mathématiques et
logiques qui définissent les relations quantitatives entre les caractéristiques d'un
écoulement (sortie) et les facteurs influant sur ses valeurs (entrées), et parce que les pluies
constituent les variables prépondérantes des modèles hydrologiques ceux-ci sont souvent
tout simplement désignés par modèle « pluie-débit ». Mais il s'agit là d'une définition très
générale qui englobe un large éventail d'approches. Les modèles sont conçus pour répondre
à la question de Penman mais à des niveaux de détails dépendant des problèmes que l'on
veut résoudre. Ces problèmes allant de la gestion des bassins versants à la conception des
ouvrages hydrauliques en ingénierie (Singh, 1995). Le niveau de détail voulu a donc donné
naissance à une multitude de modèles et de types de modèles. Mais parce qu'une grande
complexité caractérise les processus impliqués dans le cycle de l'eau, les hydrologues
conviennent de leur connaissance partielle sur le sujet. Les représentations des systèmes
hydrologiques sont donc nécessairement simplificatrices, réductrices de la complexité
naturelle et donc grossières et inexactes. Des choix personnels s'imposent pour ces
représentations où ne sont retenus que les aspects conduisant à la meilleure solution
inexacte possible.
1.2 Classification des modèles (ou quelques qualificatifs de

modèles hydrologiques)
Il serait hasardeux de vouloir reprendre ici une classification des types de modèles
hydrologiques tant il y a presque autant de classifications que d'auteurs qui ont abordé le
3
sujet. Rappelons à titre d'exemples les références suivantes : Singh (1995), Singh et
Woolhiser (2002), Clarke (1973), Beven (1989), ASCE (1996), Wurbs (1998), Ambroise
(1998) pour ne citer qu'eux. Nous allons néanmoins rappeler quelques termes récurrents
pour justifier notre démarche. Si l'on devait n'utiliser qu'un seul terme pour caractériser un
modèle hydrologique, il serait :
déterministe ou stochastique, en fonction des variables enjeu (Clarke, 1973). Ainsi
si les variables sont aléatoires, le modèle est stochastique. Il est déterministe dans le
cas contraire.
Global, distribué ou semi-distribué, suivant l'échelle à laquelle s'effectue
l'approche de la modélisation. Le modèle serait global si l'approche se fait
directement à l'échelle du bassin, semi-distribué si l'approche se fait à l'échelle de
quelques sous-bassins constitutifs du bassin versant et distribué si l'on considère le
basin versant comme constitué d'une multitude de parcelles assimilables à des
points de caractéristiques homogènes.
Empirique, conceptuel, ou théorique (fondé sur la physique), suivant les relations
utilisées pour modéliser la transformation de la pluie en débit.
Dans la suite, les deux derniers groupes sont analysés plus en détail en raison de la
difficulté que l'on a souvent à opter pour l'un ou l'autre.
1.2.1 Global, distribué ou semi-distribué

1.2.1.1 Le modèle distribué
L'approche distribuée ou approche upward ou approche analytique dérive probablement du
second précepte de Descartes énoncé dans son célèbre discours de la méthode. Il s'agit
«...de diviser chacune des difficultés que j'examinais en autant de parcelles qu'il se
pourrait et qu'il serait requis pour mieux les résoudre » (Descartes, 1637). Les données sont
donc recueillies et traitées sur des unités parcellaires (ou mailles) à petites échelles.
L'avantage d'une telle approche est qu'elle permet une description détaillée à petite
échelle. S'ensuit une agrégation des informations obtenues sur chaque unité pour avoir la
réponse de l'ensemble du bassin. L'approche analytique cherche à ramener le bassin à ses
éléments constitutifs les plus simples afin de les étudier en détail et de comprendre les types
d'interactions qui existent entre eux. Puis, en modifiant « une variable à la fois », d'en
4
déduire des lois générales permettant de prédire les propriétés dans des conditions très
différentes (De Rosnay, 1975).
On peut citer en exemple des modèles tels SHE (système hydrologique européen) d'Abbott
et al.,(1986), HYDROTEL de Fortin et al., (2001b), IHDM (Institute of Hydrology
Distributed Model) (Rogers et al., 1985), SWATCH de More-Seytoux et Al Hassoun
(1989), Simple Lumped Reservoir Parametric (SLURP) Model de Kite (1995),
Topographic Kinematic Approximation and Integration (TOPKAPI) Model de Todini
(1995), Hydrologie Model System (HMS) de Yu (1996), Hydrological Modeling System
(ARC/EGMO) de Becker et Pfutzner (1987), Distributed Hydrology Soil Vegetation Model
(DHSVM) de Wigmosta (1994) et Système Hydrologique Européen Transport
(SHETRAN) de Ewen et al (2000).
Ces modèles se sont beaucoup développés avec les nouveaux outils de calcul toujours plus
puissants, les nouvelles techniques d'acquisition de données de plus en plus sophistiquées
et surtout pour répondre à des besoins pratiques (Beven, 2001) : prévision de l'évolution
des terres utilisées, circonscription de sources de pollution, risques et impacts d'érosion,
évolution du couvert végétal, etc., tous ces besoins étant exigeants en précision.
L'utilisation d'une valeur de paramètre hydrologique par maille semble à priori d'autant
plus légitime que la maille est petite, car les processus s'y opérants sont moins divers
(Baudez et al., 1999). Cette nécessité de traiter des mailles à l'intérieur desquelles les
processus hydrologiques sont homogènes est mise en évidence par Becker et Braun (1999)
à travers leur exemple d'oasis au milieu du désert. Cependant, quelle que soit la taille, on
est amené à faire des approximations sur les paramètres hydrologiques utilisés. Alors
comme Beven (2001), on peut se poser la question de savoir jusqu'à quel détail pourrons-
nous aller avec les modèles distribués ? Et quel genre de données collecter à un coût
acceptable? La première question est d'autant plus légitime que, plus la taille des mailles
est petite, plus on introduit un besoin de modélisation supplémentaire et complexe qui est le
modèle d'agrégation des flux en sortie des mailles consécutives (Baudez et al., 1999). Ce
qui avait d'ailleurs fait dire à Leibniz que « cette règle de Descartes est de peu d'utilité tant
que l'art de diviser reste inexpliqué. En divisant le problème en parties inappropriées, on
peut en accroître la difficulté » (Leibniz dans Le Moigne 1994). Et le bassin versant, en tant
que système naturel, est d'une telle complexité qu'il est difficile de décrire avec précision
5
les processus qui s'y opèrent par le précepte de Descartes. Nous sommes ici confrontés à ce
que De Rosnay (1975) appelle «l'infiniment complexe». La complexité du maillage rend en
plus les mesures nécessaires au modèle très difficiles à mettre en œuvre sans que cela
n'améliore nécessairement les modèles qui en résultent. D'où l'inquiétude qu'exprimait
Andréassian (2005) en ces termes «.. .cet engouement n'a pas eu que des effets positifs, il a
aussi ouvert la voie à des supercheries technologiques (les avions renifleurs en sont un
exemple), et a repoussé au second plan le questionnement scientifique sur les justifications
d'une spatialisation en modélisation hydrologique » et Bertalanffy (1973) d'ajouter qu'on
oublie souvent « qu'une simple accumulation de données, aussi bien rangées soient-elles ne
fait pas une science ». Cette approche est très sensible aux changements intervenant dans le
bassin. Changement continue que De Rosnay (1975) exprimait en ces termes : « Faut-il
s'en tenir à la « méthode analytique », qui isole les éléments et les variables afin de les
envisager un par un? Mais pendant que les experts isolent, analysent et discutent, les
bouleversements [...] imposent [...] de nouvelles adaptations. »
1.2.1.2 Le modèle global

Les quelques limites de la modélisation distribuée justifient certainement qu'on continue
d'utiliser l'approche globale ou downward. Cette approche se veut globale, systémique.
Elle essaie de décrire le comportement du bassin dans son ensemble à partir des
observations faites sur le terrain. Cette approche grandeur nature permet une certaine
souplesse en ce sens qu'elle permet de tester différentes hypothèses à partir des données
obtenues directement à l'échelle du bassin. On ne cherche pas à aller dans le détail des lois
qui régissent le système, mais plutôt à trouver des relations entre les différentes variables
du système (Dooge, 1973) dans Sivapalan et al. (2003). Le paradigme systémique refuse
donc de réduire le monde naturel à l'assemblage de matériaux de construction hétéroclites
(Bertalanffy, 1973), mais le voit plutôt comme un système, une grosse boîte noire dont on
ne peut ouvrir les fermoirs. Tout ce que l'on peut indiquer le concernant est ce qui en sort et
ce qui entre dedans.
L'approche systémique se veut macroscopique, instrument symbolique, fait d'un ensemble
de méthodes et de techniques empruntées à des disciplines très différentes (De Rosnay,
6
1975). En hydrologie, ses outils sont, entre autres, les statistiques mais elle peut avoir
recours à de nouveaux algorithmes tels les réseaux de neurones, les algorithmes génétiques
et plus généralement aux algorithmes d'optimisation.
Mais l'intérêt de l'approche systémique passe par sa démystification. Car l'un des plus
graves dangers qui menace cette approche, c'est la tentation de la « théorie unitaire», du
modèle englobant ayant réponse à tout, capable de tout prévoir. De Rosnay (1975) prône
donc l'approche systémique opérationnelle comme une des voies permettant d'éviter les
dangereux écueils du réductionnisme paralysant et du systémisme englobant. Celle-ci
débouchant sur la transmission de la connaissance, l'action et la création :
Sur la transmission parce que l'approche systémique offre un cadre [...] qui aide à
organiser les connaissances au fur et à mesure de leur acquisition, renforce leur
mémorisation et facilite leur transmission;
Sur l'action parce que l'approche systémique permet de dégager des règles pour
affronter la complexité;
- Enfin sur la création, parce que l'approche systémique catalyse l'imagination, la
créativité, l'invention. Elle est le support de la pensée inventive tandis que l'approche
analytique est le support de la pensée connaissante. Tolérante et pragmatique, la pensée
systémique s'ouvre à l'analogie, à la métaphore, au modèle. Pour l'approche
systémique, tout ce qui décloisonne la connaissance et débloque l'imagination est bien
venu : elle se veut ouverte, à l'image des systèmes qu'elle étudie.
Présentée de cette manière l'approche systémique trouve donc toute sa place en hydrologie
aussi bien en modélisation conceptuelle qu'empirique. Les modèles GR4J (Perrin, 2000),
TANK (Sugawara, 1979), MODGLO de Servat (1986), GRHUM de Loumagne et al.
(1996) en sont quelques exemples.
1.2.1.3 Le modèle semi - distribué

Le modèle semi-distribué est intermédiaire entre les deux précédents. Le bassin est
généralement divisé en deux, trois ou quatre sous-bassins analysés individuellement à
l'aide d'un modèle global. Les caractéristiques hydrologiques des sous-bassins sont
relativement plus homogènes que le bassin pris dans son entier.
7
1.2.2 Les modèles empiriques, conceptuels ou théoriques
1.2.2.1 Le modèle empirique
Lorsqu'on parle d'approche empirique, il s'agit d'établir des relations entre la grandeur à
modéliser et les facteurs qui la déterminent mais on n'est jamais sûr que les facteurs retenus
expliquent à eux seuls la grandeur à modéliser. En plus, les facteurs qui déterminent la
grandeur à modéliser ne sont pas toujours mesurés ni même souvent tous mesurables : on
reste donc dans un cadre statistique (Dreyfus et al., 2002). C'est pourquoi on parle souvent
de modèles probabilistes. En hydrologie, ces modèles sont pour la plupart globaux. Le
modèle empirique ou « boîte noire » est une description paramétrée du processus dont tous
les paramètres doivent être déterminés à partir des mesures effectuées. Ils ne tiennent
aucunement compte des connaissances expertes et objectives disponibles. Dans l'approche
empirique, la perception du modélisateur du monde réel est pratiquement absente. Il y a de
ce fait, pour les modèles empiriques, une interaction relativement faible avec
l'expérimentation et ce, d'autant plus que leur développement repose essentiellement sur
des séries hydrologiques nombreuses (Perrin, 2000). Bâtie essentiellement à partir de
l'analyse des données, cette approche fonctionne très bien en interpolation mais est moins
appropriée en extrapolation. Ils sont souvent jugés peu propices à l'augmentation des
connaissances sur les processus détaillés. En revanche, ils sont des outils pertinents
d'analyse comportementale des bassins. L'absence d'idée préconçue dans leur construction
leur permet une évolution plus rapide vers des réponses efficaces à des problématiques
données. Leur développement reste cependant très dépendant de la disponibilité des
données. Deux exemples de ces types de modèle sont les ARIMA (pour autoregressive
integrated moving average), modèle autorégressif à moyennes mobiles intégrées et les
RNA (réseaux de neurones artificiels). Nous reviendrons plus en détails sur les RNA.
Les ARIMA ont été développés par Box et Jenkins (1970) à partir des travaux antérieurs de
Yule (1926) et de Wold (1938). Ils ont été bâtis en supposant que la prévision au temps / de
la variable expliquée est une combinaison linéaire de ses valeurs antérieures. Pour rendre
les processus stationnaires, la forme ARMA (autoregressive moving average) ou modèle
8
autorégressif et moyenne mobile des ARIMA est souvent utilisée. Sous forme d'équation le
modèle ARMA s'écrit (Zhang, 2003) :
y, =0O +<f\y,-. +&y,-2 +-+<PPy,-P + £ , - 0 , £ ,-. - ^ , - 2 -••■-*,-, [î.i]

Avec y. et e. respectivement la valeur actuelle de la variable expliquée et le bruit au temps
t. $(/ = l,2,.../?) et 0Xj = 0,1,2,..^)sont les paramètres du modèle, p et q désigne l'ordre
du modèle. L'équation ci-dessus regroupe une grande famille de modèles ARMA. Pour
p=0, le modèle se ramène à un modèle à moyenne mobile d'ordre q et pour q=0, le modèle
est autorégressif d'ordre p. Ils trouvent leur limite dans le fait que leur linéarité n'est pas
adaptée pour représenter la transformation pluie-débit non linéaire. Les ARMA peuvent
être utilisés seuls (Toth et al., 2000) ou en combinaison avec des opérateurs non linéaires
(Weeks et B oughton, 1987; Zhang, 2003),. Malgré leurs limites, les études de Toth et al.
(2000) montrent des résultats satisfaisants dans la modélisation hydrologique.
1.2.2.2 Les modèles théoriques

Les modèles théoriques sont régis par des équations mathématiques paramétrées bien
connues. Encore appelés modèles de connaissance ou modèles physiques, ils sont issus de
l'analyse physique, chimique ou biologique des facteurs dont résulte la grandeur à
modéliser. Celle-ci est mise en équation à l'aide des connaissances théoriques disponibles
au moment de l'élaboration du modèle. Ce dernier a donc une valeur prédictive, explicative
et exacte : c'est pourquoi ces modèles sont souvent qualifiés de déterministes.
Un exemple de modèle théorique en hydrologie est la solution de l'équation de Richards
(1931) décrivant le mouvement de l'eau dans la couche superficielle du sol. La forme
différentielle de cette équation s'écrit:
dû _ _d_ ( f A ...W
dt ' dz
k\l-?* dz
[1.2]
v
Avec 0r_\ la teneur en eau; y/, \ le potentiel matriciel et k(m/s) la perméabilité du sol.
Les équations des modèles théoriques peuvent cependant être de résolution compliquée et
difficile à mettre en œuvre de façon pratique. Les solutions n'existant souvent que pour des
9
cas simples. Pour le reste, cela peut conduire à des hypothèses simplificatrices sur les
paramètres et aboutir à des précisions médiocres ou à des solutions instables. Par exemple,
la plupart des discrétisations proposées pour la résolution numérique de l'équation de
Richards conduisent à des systèmes non linéaires difficiles à résoudre ou à des schémas
itératifs longs en temps de calcul. Les modèles théoriques sont pour la plupart distribués et
les paramètres au niveau de chaque parcelle ont une signification physique mesurable sur le
terrain.
1.2.2.3 Les modèles conceptuels

Les modèles conceptuels sont des représentations logiques d'éléments simples, par exemple
des réservoirs et des canaux linéaires ou non linéaires, qui simulent les processus en jeu
dans un bassin. On représente alors dans le modèle de façon simplifiée les processus jugés
pertinents pour la modélisation. Le concepteur introduit des idées généralement fondées sur
les connaissances physiques et l'observation du bassin. À la différence des modèles
théoriques, les modèles conceptuels se caractérisent par un subjectivisme lié à la perception
de leur concepteur des processus en jeu dans le bassin. Le concepteur convient avec Le
Moigne (1994) que toute représentation est partisane, non pas par oubli du modélisateur,
mais délibérément. Il cherche en conséquence quelques recettes susceptibles de guider la
sélection d'agrégats tenus pour pertinents et exclure l'illusoire objectivité d'un recensement
exhaustif des éléments à considérer. GR4J est un exemple de modèle conceptuel, fruit d'un
investissement de recherche réalisé au CEMAGREF depuis le milieu des années 1980 avec
pour objectif de mettre au point un modèle pluie-débit robuste et fiable en vue d'utilisation
pour des applications en ingénierie (dimensionnement d'ouvrage, prévision des crues et des
étiages, gestion de réservoirs) sur des bassins jaugés et non jaugés. La version actuelle est
de Perrin (2000). Le modèle conceptualise le parcours de l'eau depuis les précipitations
brutes jusqu'aux écoulements en rivière. Les principales composantes du modèle sont les
réservoirs de production (S) et de routage (R). Les différents échanges sont schématisés sur
la figure 1.1. Les quatre paramètres à optimiser sont XI, X2, X3 et X4 et l'optimisation se
fait pas à pas. Les données nécessaires sont des séries de précipitations et d'ETP et une
chronique des débits nécessaire au calage des paramètres du modèle.
10
0 0
Si P > E . Pn = P - E . En = 0 . s i P < E En = E - P . Pn=0
Pn 1-
A'4 -.ffi-î-l
1+ 1+
- ( -1
Ps = £5 =
interception
1+
En X4 JST4/
Pn X4\ X4J
Es Ps Pn-Ps
Perc=S-\ S +
(HT S = S - Perc
0<y<X3. S//l(y) = ( ^ j j 2
Y4
; > X3. SW10') = 1
Perc
0.9 û1
s
SHl(X3_\ SH2(Xi]
09 j>2.X3, SH2(j) = l
XI
.F(XD-
Qd -- max(0 0 + F )
Q> Qà R = max(f, i? + Q9 + F )
_| i
Qr--R-{R^ +X2^) * R = R-Çr
Q = Q r + Qd
Figure 1.1: Modèle GR4J (Perrin, 2000)
La difficulté de classification des modèles provient des combinaisons possibles des

qualificatifs susmentionnés et à la distinction que font les auteurs entre les différents
qualificatifs.
D'après Blôschl et Sivapalan (1995) repris par Sivapalan et al. (2003), la mise au point
d'un modèle hydrologique suit une démarche en 5 étapes :
a. collecte et analyse des données
b. développement d'un modèle conceptuel (ou théorique) qui selon le concepteur
décrit le mieux les caractéristiques du bassin
c. transcription du modèle conceptuel en modèle mathématique à l'aide des lois de la
physique
11
d. calage du modèle mathématique à l'aide d'une partie des données collectées et
e. validation du modèle avec le reste des données.
C'est cette démarche très classique qui a souvent connu une évolution pour aboutir à des
modèles empiriques. En effet, en raison de l'accessibilité de certains types de données
(topographie, types de sols, végétation), de bonnes connaissances théoriques de certains
processus hydrologiques et de l'accroissement de la capacité de calcul des ordinateurs, les
étapes (a) et (b) ont souvent été ignorées pour passer directement à la modélisation
mathématique (Sivapalan et al., 2003). Il s'agit alors de relier des variables dont on connaît
a priori l'existence de relations empiriques entre elles (exemple : relation pluie - débit).
Nous allons emprunter cette dernière démarche pour mettre au point ce que nous
appellerons dans la suite de ce travail un modèle hybride.
1.2.3 Modèle hybride

Malgré les limites des modèles conceptuels et théoriques énumérés ci-dessus, ceux-ci ont
l'avantage de mettre en évidence les variables pertinentes du modèle hydrologique. À
l'inverse, les modèles empiriques ou « boîte noire » sont une description paramétrée du
processus dont tous les paramètres doivent être déterminés à partir des mesures effectuées.
Bien que l'apport des modèles empiriques aux connaissances des processus hydrologiques
soit limité, une fois optimisés, ceux-ci par leur simplicité peuvent constituer des outils plus
rapides que les premiers ou être utilisés en support aux premiers.
Dans la suite de notre document, nous entendrons par modèles hybrides, les modèles qui
allient au moins deux modèles dont l'un est empirique et l'autre conceptuel (ou théorique).
Cette combinaison présente un double avantage. D'une part, la nouvelle approche profitera
de la rapidité offerte par la modélisation empirique contrairement aux équations
déterministes de résolution compliquée et longue en temps de calcul. D'autre part, le coté
conceptuel du modèle demeurera.
1.2.3.1 Les modèles hybrides (modèle conceptuel - réseau de neurones)

Le concept de combiner plusieurs modèles ou méthodes pour en faire un modèle plus précis
est déjà avancé par Bates et Granger (1969), Dickinson (1973), Dickinson (1975), Granger
et Newbold (1974) et bien d'autres. Mais c'est en 1977 que Thompson utilise ce concept
12
pour la prévision météorologique. Et déjà Clemen (1989) citait plus de 200 publications où
la combinaison de plusieurs concepts était utilisée pour la prévision dans des domaines
aussi variés que la gestion, les statistiques, la météorologie etc.
Très peu de modèles hybrides allient les réseaux aux modèles conceptuels. Et les cas que
l'on rencontre dans la littérature n'ont pas toujours trait à la modélisation hydrologique. De
plus dans la littérature le terme «hybride » est assez imprécis. Beaucoup d'auteurs
l'utilisent sans prendre le soin de le définir, ce qui ne facilite pas une recherche
bibliographique sur le sujet. Étant donné que ce terme constitue le mot clé de notre travail,
apportons-lui plus de précision. Comme souligné plus haut, le but du modèle hybride est de
tirer les avantages à la fois du modèle déterministe (ou conceptuel) et celui « boîte noire »
(réseaux de neurones dans ce cas). Dans ce cas, plusieurs combinaisons sont possibles.
a) La combinaison linéaire ou en série

La combinaison linéaire ou en série est la combinaison la plus couramment rencontrée dans
la littérature. Également appelée mise à jour (updating), elle consiste à utiliser un premier
modèle moins précis dont le résultat à la sortie est utilisé dans un second modèle pour
apporter plus de précision. Pour peu que l'un des modèles soit conceptuel (ou déterministe)
et l'autre, un réseau de neurones, il est appelé modèle hybride.
Une telle combinaison est étudiée par Zhang (2003) qui combine réseaux de neurones et
ARIMA (pour autoregressive integrated moving average), modèle autorégressif à
moyennes mobiles intégrées. La réponse du modèle global est meilleure à celles des deux
prises individuellement. Aguiar et Maciel (2001) utilisent le même type de combinaison
modèle déterministe - réseau de neurones pour la détermination du nombre Kappa dans la
chaîne de fabrication de la pulpe de bois. Comparée au réseau de neurones pur, la
combinaison permet une réduction du temps de calcul de près de 50% et une amélioration
du résultat. Diaz-Robles et al. (2008) combinent également ARIMA et réseaux de neurones
pour modéliser la qualité de l'air en milieu urbain à Temuco au Chili. Le même type de
combinaison est utilisé dans d'autres domaines comme la prévision de l'arrivée de touristes
(Aslanargun et al., 2007), la gestion de chaîne d'approvisionnement (Aburto et Weber,
2007), la dynamique de phytoplancton en eau douce (Jeong et al., 2008), les prises de
poissons (Gutiérrez-Estrada et al., 2007), la production dans l'industrie des machines (Chen
13
et Wang, 2007). En irrigation Pulido-Calvo et Gutiérrez-Estrada (2009) combinent réseaux
de neurones et logique floue pour l'estimation des besoins en eau des plantes. En
hydrologie cette combinaison est utilisée par Jain et Kumar (2007) pour étudier le débit de
la rivière Colorado River à Lees Ferry . Vojinovic et al. (2003) ont, quant à eux, allié le
modèle conceptuel MOUSE aux réseaux de neurones. Ceci en vue du dimensionnement du
réseau de conduites d'écoulement d'eau en ville. L'étude révèle une amélioration du
modèle MOUSE par la combinaison MOUSE - réseau de neurones de l'ordre de 15 à 26%.
Ce type de combinaison est en réalité la plus courante en littérature.
b) L'optimisation des réseaux de neurones

Dans la littérature très souvent, la terminologie hybride est aussi utilisée pour désigner la
méthode d'optimisation utilisée pour la conception de l'architecture d'un réseau de
neurones. C'est alors que l'on rencontre des « hybrides : réseau de neurones - algorithmes
génétiques » pour indiquer que le réseau a été optimisé par la méthode d'algorithme
génétique ou encore des «hybrides : réseau de neurones- bootstrap.
La combinaison réseau de neurones - algorithmes génétiques est étudiée par Hung et Adeli
(1994) puis par Fish et al. (2004). Mais les raisons évoquées par les deux groupes d'auteurs
sont différentes. Pour les premiers il s'agit d'utiliser l'algorithme génétique pour accélérer
le processus d'apprentissage par un choix optimal des poids initiaux du réseau tandis que
pour les seconds, trois raisons ont guidé leur choix : (1) éviter que le réseau ne converge
vers un optimum local lorsqu'il est entraîné par backpropagation, (2) éviter que pour un
entraînement par backpropagation, ne se développe une instabilité temporelle (tendance du
réseau à oublier tout ce qu'il a appris auparavant) due au fait que le réseau dans ce cas n'a
pas de mémoire et (3) pouvoir utiliser n'importe quelle fonction d'activation dans le réseau.
14
c) La combinaison en parallèle
Avec une seule sortie, ce type de modèle est également une mise à jour. Les deux modèles
ne fourniraient qu'une fraction de la sortie modélisée. Dans ce cas le réseau intégrerait
d'une manière ou d'une autre l'erreur du modèle conceptuel.
Ce type de modèle est étudié par Hussain et ses collaborateurs (Hussain et Ho, 2004), (Ng
et Hussain, 2004), qui l'ont utilisé pour l'étude de réactions chimiques. Ces réactions
suivent en général des lois chimiques assez complexes. Elles sont donc simplifiées pour la
prévision souhaitée et deviennent alors imprécises. Ce qui arrive très souvent dans la réalité
lorsque l'équation n'est qu'une approximation de la description du système étudié. La loi
chimique ne modéliserait donc qu'une fraction des résultats attendus. On ignore tout du
reste du système. Un réseau de neurones en parallèle est donc utilisé pour la modélisation
de cette fraction. Ces études montrent une amélioration des prévisions et une bonne
stabilité à la perturbation. Une telle combinaison est aussi étudiée par Linker et Seginer
(2004) pour la prévision de la température d'une serre. Le même type de combinaison est
utilisé par Cote et al. (1995) pour le traitement des eaux usées. Là aussi les auteurs
montrent une amélioration des résultats de l'ensemble du système.
Definition de l'hybride au sens de notre projet

L'hybride au sens de notre projet, en série ou en parallèle, comprend deux ou plusieurs
étapes, chaque étape étant constituée d'un modèle (conceptuel ou neuronal) avec sortie de
nature différente. La particularité de ce type d'hybride est qu'en dehors des sorties de la
dernière étape celles des autres étapes sont des variables et paramètres nécessaires pour la
suite du modèle. Dans ce cas le réseau peut être optimisé séparément ou en même temps
que l'ensemble du modèle.
Le réseau peut aussi être le remplaçant d'un autre module conceptuel. Alors le réseau bien
qu'empirique par nature, jouera un rôle conceptuel et permettra de mieux comprendre le
module remplacé. Les modules conceptuels qui sont la plupart du temps d'implementation
itérative peuvent aussi devenir plus rapides car remplacés par une simple fonction : le
réseau de neurones.
Une telle méthode est utilisée par Chua et Holz (2005) pour la modélisation de
l'écoulement en rivière. Dans leur étude ces auteurs allient les réseaux de neurones à la
15
méthode de résolution de l'équation de conservation de l'énergie par éléments finis. Les
réseaux sont surtout utilisés pour déterminer les conditions aux limites nécessaires à la
méthode des éléments finis. Les résultats de cette étude font ressortir un gain de temps
d'environ 25% et une amélioration sensible des résultats. Ng et Hussain (2004) cités plus
haut examinent également dans leur étude de tels réseaux.
Ces hybrides sont rares dans la littérature et dans le domaine de l'hydrologie, ce qui nous
amène à en faire un des champs d'investigation principale pour notre thèse.
16
1.3 Contexte et objectifs
1.3.1 Contexte
La gestion de la production hydroélectrique requiert des systèmes de prévision
hydrologiques performants, surtout au sein d'un marché d'énergie déréglementé. La
production doit être modulée avec les fluctuations instantanées du prix de vente. En outre,
le respect de l'environnement, la sécurité de la population et des ouvrages et l'augmentation
anticipée des événements violents (suite aux changements climatiques) nécessitent une
gestion optimale des niveaux d'eau des réservoirs.
Les compagnies responsables de grands ensembles de production hydroélectrique, telles
que Hydro-Québec, ont depuis longtemps mis en place des systèmes de prévisions
d'apports en eau aux réservoirs qui reposent sur un réseau d'observations
hydrométéorologiques accessibles en temps réel, sur des outils sophistiqués de
modélisation hydrologique et sur l'expertise d'une équipe de prévisionnistes. En outre, ces
compagnies veulent se positionner à l'avant-garde scientifique et technologique en
hydrologie pour la prévision d'apports, car il s'agit d'un domaine critique pour
l'implémentation de solutions optimales satisfaisant aux enjeux économiques et
sécuritaires. Ce travail s'inscrit dans ce contexte avec pour objectif d'exploiter les réseaux
de neurones en support à la prévision hydrologique. C'est cette approche qui constituera
l'essentiel de notre travail.
1.3.2 Objectifs
Actuellement, le modèle météo-apport HSAMI (Fortin, 2000) est utilisé par l'unité
« Prévisions et qualité des données hydroélectriques et ressources hydriques » d'Hydro-
Québec. Le modèle HSAMI est un modèle conceptuel global pluie-débit spatialement
agrégé qui transforme les données météorologiques du bassin versant en écoulements
naturels. Ce modèle utilise deux réservoirs, une vingtaine de variables hydrologiques et
nécessite l'ajustement d'une trentaine de paramètres lors de la calibration. Il est utilisé de
manière quotidienne à un pas de temps journalier mais il a également été adapté pour des
pas de temps plus petits.
17
Un modèle distribué HYDROTEL (Fortin et al., 2001b) est aussi implanté à Hydro-
Québec. Il a été conçu pour bénéficier des données fournies par la télédétection et les
systèmes d'information géographiques. Il comprend six modules plus ou moins
indépendants, ce qui lui donne une certaine souplesse et permet la modification et
l'addition de modules. Notre objectif porte sur le remplacement du module Bilan Vertical
d'HYDROTEL par un réseau de neurones, pour en faire un modèle hybride.
L'objectif essentiel de cette substitution est de faire bénéficier à HYDROTEL d'un gain de
temps dans son exécution. En effet, on estime qu'environ le tiers du temps d'exécution de
ce modèle est consacré à l'exécution de ce module. Cela s'explique par le fait que BV3C
utilise actuellement une méthode de résolution à pas adaptatif, méthode itérative source de
consommation de temps de calcul. L'importance du gain de temps peut paraître négligeable
lorsque l'on exécute le modèle sur une seule UHRH (unité hydrologique relativement
homogène) mais elle devient capitale lorsque le modèle est tourné sur un bassin comptant
quelques centaines d'unités ou dans le cas de prévision d'ensemble où plusieurs répétitions
sont nécessaires. Il s'agit de remplacer BV3C, tel qu'il fonctionne présentement, par un
ensemble de réseaux de neurones avec pour hypothèse que les fonctions neuronales qui
résultent essentiellement d'une succession de multiplications matricielles feront une
économie en temps de calculs. Avec un gain de temps par UHRH, on pourra augmenter
leur nombre par bassin versant. En outre il faut souligner que quel que soit le pas de temps
de simulation, BV3C dans sa forme originale le subdivise en sous pas de temps
intermédiaires dont le nombre variable dépend de la précision rencontrée au cours de
l'exécution. Ce qui rend variable le temps de simulation d'un pas de temps à un autre et
donc difficile l'estimation du temps de calcul par avance.
Cependant le simple fait de gains de temps de calculs ne suffit pas pour faire des réseaux de
neurones des substituts appropriés. Les réseaux de neurones devront permettre à l'ensemble
du modèle HYDROTEL de conserver le même ordre d'erreur. En outre la substitution ne
doit pas nécessiter la collecte d'informations supplémentaires à celles utilisées par BV3C,
ceci pour ne pas modifier l'ensemble de la structure de mise en œuvre d'HYDROTEL
actuellement existante. Enfin l'étude permettra de mettre en évidence la pertinence ou non
de l'ensemble des variables actuellement utilisées par BV3C. A terme, il s'agit aussi de
18
voir si le concept ne peut pas s'étendre à des modèles intégrant des structures plus
complexes.
Pour l'essentiel notre travail s'organisera comme suit :
- au chapitre 2 nous présenterons les modèles hydrologiques qui seront utilisés;
- au chapitre 3 sera présentée la méthodologie à mettre en œuvre pour la réalisation du
projet;
au chapitre 4 seront présentés les résultats.
19
2. Les modèles hydrologiques utilisés
20
2.1 Les réseaux de neurones
Les réseaux de neurones font partie de la catégorie des modèles « boîtes noires ». Ils ont
été bâtis en s'inspirant de systèmes nerveux biologiques mais c'est en s'éloignant de cette
inspiration biologique pour prendre une tournure purement mathématique que les réseaux
de neurones ont connu un essor.
Anderson et Rosenfeld (1988) ont effectué une compilation de 43 articles permettant de
suivre l'évolution des réseaux de neurones de 1890 jusqu'à 1987. Ainsi, si l'on exclut le
livre de James (1890) qui ne contient aucune formulation mathématique, on retiendra que
les réseaux de neurones sont nés de la publication de l'article de McCulloch et Pitts
(1943). Pour la première fois, cet article qui ne compte que trois références
bibliographiques formulait mathématiquement le fonctionnement des réseaux de
neurones biologiques sur la base des connaissances contemporaines des auteurs en
biologie. Leurs travaux ont montré qu'avec de tels réseaux, on pouvait en principe,
calculer n'importe quelle fonction arithmétique ou logique. En 1949, Hebb propose une
théorie fondamentale pour l'apprentissage alors que la proposition du réseau de neurones
dit perceptron par Frank Rosenblatt (1958) permettait des applications concrètes.
Pratiquement au même moment, Widrow et Off (1960) proposaient un nouvel algorithme
d'apprentissage pour entraîner un réseau adaptatif de neurones linéaires, avec des
capacités similaires au perceptron. Mais l'enthousiasme suscité par ces théories se trouve
fortement contrarié par un livre publié par Minsky et Papert (1969). Les deux auteurs
démontraient ainsi les limitations des réseaux développés par Rosenblatt et par Windrow
et Off. L'identification de ces limitations en partie dues à la capacité de calcul faible des
machines de l'époque, et surtout mal interprétées, a entraîné le ralentissement de la
recherche dans le domaine. Malgré cela, Kohonen (1972) et Anderson (Anderson, 1972)
publiaient indépendamment de nouvelles architectures semblables. Les cartes auto-
organisatrices publiées par Kohonen (1990) constituent une suite de celles de 1972. Dans
la décennie 1970, Grossberg (1976) proposait également d'autres réseaux auto-organisés.
Dans les années 1980, l'apparition de l'algorithme rétro-propagation relançait fortement
l'activité sur les réseaux de neurones. La mise au point de cet algorithme est
21
généralement attribuée à Rumelhart (1986) qui l'a rendu populaire, mais il a été étudié au
même moment par Parker (1985) et LeCun (1985) alors que Werbos le décrivait déjà
dans sa thèse en 1974. Depuis ce temps, le domaine des réseaux de neurones foisonne de
nombreuses théories. Il ne s'agit pas, dans la présente thèse, d'étudier ces théories en
détail mais de comprendre les mécanismes internes de celles qui seront utilisées à savoir
les cartes auto-organisatrices et les perceptrons.
2.1.1 Formulation mathématique d'un réseau de neurones

Un neurone (ou synapse) est constitué essentiellement d'un intégrateur (IJ) qui effectue
la somme pondérée de ses entrées (p = (pi, p2,...p3)). Le résultat n de cette somme est
ensuite transformé par une fonction de transfert 0 qui produit la sortie du neurone a. Les
coefficients de pondération (ou coefficients synaptiques) (w = (w/j, W]j,..W],n) ) sont
appelés poids du neurone alors que b est le biais. Les poids et le biais constituent les
paramètres du neurone (figure 2.1). Un neurone est donc une fonction algébrique
paramétrée. On peut avoir un ou plusieurs neurones pour constituer une couche et les
couches peuvent s'associer pour constituer un réseau, (figure 2.2).
R entrées Nœud
a = 0\w T p + b)
Figure 2.1 : Un neurone
22
Couche de
sortie
Figure 2.2: Réseau ouvert
2.1.2 A r c h i t e c t u r e des réseaux d e n e u r o n e s

Il existe une multitude de réseaux de neurones définis par leur architecture caractérisée
par :
- la fonction de transfert; et
la façon dont l'interconnexion se fait entre les neurones
Il existe plusieurs fonctions de transfert dont le choix se fait selon le problème à résoudre.
Elles sont aussi retenues en raison de leur facilité d'exécution et de celle de leur dérivée
qui intervient dans les algorithmes d'optimisation. La plupart des fonctions utilisées
appartiennent à quatre (4) groupes essentiels :
• Les fonctions seuils largement utilisées dans la classification des données;
• Les fonctions linéaires utilisées dans l'approximation des fonctions mais aussi
dans la classification des données;
• Les fonctions non-linéaires dominées par les sigmoïdes et rencontrées également
dans l'approximation des fonctions; et enfin
• Les fonctions résultant d'une combinaison des trois précédentes.
Le tableau 2.1 donne des exemples de fonction provenant de chacun de ces groupes. Les
fonctions qui seront utilisées dans le cadre de ce travail seront précisées lorsque les
architectures des réseaux seront définies.
23
Tableau 2.1: Exemples de fonction de transfert des réseaux de neurones
Groupe de fonctions Exemple

a = 0sin<0
Seuil
a= 1 si n >0
Linéaire a= n
1
Non-linéaire
1+e""
1
Combinaison
I + e-"
De l'interconnexion entre les neurones dépend la manière dont l'information circule dans
le réseau et dont se fera l'apprentissage. L'interconnexion permet de distinguer les
réseaux ouverts et les réseaux bouclés. Le réseau est ouvert (feedforward neural network)
lorsqu'il n'y a pas un retour de l'information vers l'arrière. L'information circule de
façon unidirectionnelle, allant des entrées vers la sortie du réseau (figure 2.2).
Lorsqu'on assiste à un retour de l'information vers l'arrière, d'une manière ou d'une
autre, on parle de réseau bouclé (recurrent neural network). Le réseau peut être
entièrement bouclé, dans ce cas chaque neurone échange des informations avec tous les
autres neurones du réseau et avec lui-même, ou partiellement bouclé, et alors l'échange
d'information se fait entre quelques neurones du réseau (figure 2.3). Les réseaux bouclés
sont utilisés pour introduire des délais temporels dans le modèle et nécessite pour cela
une série continue sur un site bien déterminé. Dans le cadre de ce travail, seuls les
réseaux ouverts sont utilisés en raison de la relative simplicité de leur mise en œuvre et de
la possibilité qu'offre ce type de réseaux d'être utilisés sur des sites différents en raison
de l'absence de délais temporels, ce qui n'est pas le cas de réseaux bouclés.
24
Couche
cachée
Couche de sortie
Retour
Figure 2.3: Réseau bouclé
2.1.3 Apprentissage des réseaux de neurones

On appelle apprentissage du réseau de neurones, la procédure qui consiste à estimer les
paramètres afin que celui-ci remplisse au mieux la tâche qui lui est assignée une fois son
architecture connue. Cette procédure dépend d'une part de l'interconnexion entre les
neurones au sein du réseau et d'autre part de l'usage que l'on veut en faire.
L'apprentissage est dit supervisé lorsque l'on dispose d'une série d'exemples constitués
de paires de valeurs d'entrée et de valeurs de sortie désirées (ou cibles). Il consiste à
modifier les paramètres afin que la sortie du réseau se rapproche de la cible pour chaque
entrée donnée.
L'apprentissage peut aussi être non supervisé, et dans ce cas, seules les valeurs d'entrée
sont disponibles. Les poids et biais sont ajustés en réponse aux entrées uniquement. Dans
ce cas les exemples présentés à l'entrée provoquent une auto-adaptation du réseau afin de
produire des valeurs de sortie qui soient proches en réponse pour des valeurs d'entrée
similaires. Il s'agit de séparer les entrées en un certain nombre de classes.
La modification des paramètres peut se faire après présentation de chaque entrée-sortie
(on parle d'apprentissage séquentiel ou incremental training), ou après présentation de
l'ensemble des entrées-sorties disponibles (on parle d'apprentissage par paquet ou batch
training). L'apprentissage par paquet ne peut s'utiliser que dans le cas d'un réseau ouvert
où les poids sont mis à jour après calcul des erreurs de toute la série. Pour un réseau
25
bouclé, le batch training n'est pas utilisable car la mise à jour des poids en un pas de
temps donné se fait à partir des erreurs des pas de temps antérieurs. Dans les deux cas,
une époque correspond à une présentation de l'ensemble des entrées-sorties disponibles.
Il existe de nombreux algorithmes d'apprentissage, qui dépendent en partie de
l'architecture du réseau, ce qui amène à définir ceux qui seront utilisés. Dans le présent
travail, essentiellement deux types de réseaux de neurones seront utilisés à savoir les
perceptrons multicouches et les cartes auto-organisatrices de Kohonen.
2.1.4 Les perceptrons multicouches (PMC)

Les PMC seront utilisés lorsqu'il s'agira de faire des régressions et comme dit Hornik
(1991) : toute fonction suffisamment bornée et régulière peut être approchée
uniformément, avec une précision arbitraire, dans un domaine fini de l'espace de ses
variables, par un réseau de neurones comportant une couche de neurones cachés en
nombre fini, possédant tous la même fonction de transfert et un neurone de sortie linéaire.
Un tel réseau est de type PMC (Hornik, 1991; Hornik et al., 1989). Cette conclusion de
Hornik permettait de contourner les limitations du perceptron simple qu'exposaient
Minsky et Papert (1969) et de faire des PMC des approximateurs universels.
Un PMC est un réseau comportant plusieurs couches de neurones, chaque neurone (sauf
les neurones de sortie) étant connecté à tous les neurones de la couche suivante et il n'y a
pas de connexion entre les neurones de la même couche. Aussi les neurones sont
connectés de sorte qu'il n'y ait pas un retour de l'information d'une manière ou d'une
autre vers l'arrière. Un PMC est défini par le nombre de ses entrées, le nombre de ses
couches et le nombre de nœuds pour chacune de ses couches. La figure 2.4 montre un
PMC 3-3-2-1, indiquant qu'il a trois entrées, et trois couches avec respectivement trois,
deux et un nœud.
26
Figure 2.4: Perceptron multicouche 3-3-2-1
Si en théorie un PMC peut avoir plusieurs couches, dans la pratique une seule couche
cachée suffit (Hornik, 1991). Mettre en place un PMC revient à choisir les fonctions de
transfert, à déterminer les entrées pertinentes, le nombre de neurones dans la couche
cachée, choisir l'algorithme puis optimiser et tester le réseau.
2.1.4.1 Les fonctions de transfert

Les réseaux de neurones utilisés pour l'approximation sont des modèles non linéaires. La
non-linéarité est introduite par les fonctions de transfert surtout utilisées aux nœuds de la
couche cachée, la fonction de transfert de la couche de sortie étant linéaire. Si, en théorie,
toute fonction non linéaire peut être utilisée, celles retenues sont en général celles faciles
à calculer et à dériver. En hydrologie, d'après Dawson et Wilby (2001), la fonction de
transfert logique sigmoïde (logsig) est la plus utilisée et est définie par :
0(n) = — - — [2.1]
l + e~"
Mais parce qu'elle est bornée entre 0 et 1, la fonction bipolaire (équation 2.2) qui est une
transformée linéaire de la première et bornée entre -1 et 1 lui a souvent été préférée.
0(n) = —?—-l [2.2]

1 + e'"
27
La fonction de transfert tangente hyperbolique (tanh) dont la représentation graphique est
similaire à celle bipolaire (eq. 2.3) est aussi souvent utilisée :
0(n) = -1 [2.3]
1 + e-2n
Enfin la fonction Elliot (1993), encore moins complexe que les précédentes car n'utilisant
pas d'exponentielle et de dérivation simple peut aussi être utilisée mais n'est pas utilisée
dans la modélisation hydrologique à notre connaissance
u
0(n) [2.4]
l + \u\
La figure 2.5 montre les graphes des ces différentes

fonctions.
m w m* m
A A A A A-
-8 -6 -4 13
Â M M M MM
—^-Qliol —^Tanh -Ûn&iire -*— Bipolaire -A-LoRsif?
Figure 2.5 : Graphique des différentes fonctions de transfert
Parmi ces fonctions celle que nous utilisons dans le cadre de ce projet est surtout la
fonction tangente hyperbolique (tanh), la plus utilisée en modélisation hydrologique après
28
la logique sigmoïde et qui se trouve également à être bornée entre -1 et 1. Cependant dans
le cadre d'un article, une étude comparative des trois dernières fonctions a été faite. Les
résultats de cette étude sont présentés en annexe 3.
2.1.4.2 Détermination des entrées

Le problème de la détermination des entrées pertinentes ne se pose pas de la même
manière suivant les modèles. Lorsqu'on modélise un processus physique ou chimique
suivant une loi bien connue, on détermine, par une analyse préalable du problème, les
variables qui ont une influence sur le phénomène étudié : dans ce cas une étape de
sélection systématique des entrées n'est pas nécessaire (Dreyfus et al., 2002). Par contre,
le problème se pose autrement lorsqu'il s'agit d'une modélisation non déterministe. Dans
ce cas toutes les variables disponibles n'ont pas le même poids explicatif pour la sortie.
On procède alors par sélection des variables ou entrées pertinentes. Deux stratégies pas
très optimales (car fastidieuses lorsque le nombre de variables devient élevé) mais faciles
à programmer sont souvent utilisées:
la stratégie d'élimination (stepwise backward regression) consiste à partir de
toutes les variables potentiellement pertinentes et à procéder par élimination
successive d'une d'entre elles en fonction de leur pertinence suivant un critère
donné jusqu'à obtention des plus pertinentes.
la stratégie de construction (stepwise fordward regression) consiste, à partir d'un
nombre minimal de variables, à procéder par addition successive d'une nouvelle
en fonction de sa pertinence suivant un critère donné jusqu'à l'obtention des plus
pertinentes.
Dans le cas présent, la deuxième stratégie sera utilisée. En effet cette dernière est
légèrement plus rapide car moins il y a d'entrées, plus l'optimisation se fait rapidement
du fait que la matrice des poids est réduite; ce qui facilite la mise à jour de ces poids.
2.1.4.3 Nombre de nœuds cachés

D'après Barron (1993), l'écart d'approximation réalisé par un réseau de neurones et la
fonction à approximer est inversement proportionnel au nombre de neurones cachés.
Mais ce résultat très théorique n'est pas constructif dans la pratique, en ce sens qu'il ne
peut que donner des estimations larges du nombre de neurones cachés nécessaires pour
29
obtenir une performance spécifiée du modèle compte tenu des données disponibles. Or,
un excès de neurones cachés aboutit à une spécialisation qui ne saurait mener à une
bonne généralisation. En outre, augmenter le nombre de neurones cachés, c'est
augmenter le nombre de paramètres et diminuer la parcimonie qui fait des réseaux les
meilleurs approximateurs. En réalité, il n'existe pas de méthode objective (automatique)
pour déterminer le nombre de neurones à priori dans la couche cachée. La méthode la
plus simple qui sera ici utilisée est celle dite essais et erreurs et consiste à : (1) fixer le
nombre de neurones, (2) faire l'apprentissage du réseau, (3) tester le modèle, (4) estimer
l'erreur et faire varier le nombre de neurones si l'erreur est au-delà des attentes. Nous
partirons de deux neurones et procéderons par addition successive d'un neurone à la fois
jusqu'à obtention du nombre de neurones optimum.
2.1.4.4 Optimisation
L'optimisation (ou apprentissage ou encore entraînement) des PMC consiste en la
n ( *\2
minimisation de la fonction coût ^ Qj - Qt qui est la somme des carrés des erreurs
i=l V
qui sont les écarts entres les valeurs observées et les sorties du réseau de neurones.
Le principal algorithme utilisé pour l'entraînement des PMC est la retropropagation
(backpropagation, BP). Il s'agit d'un entraînement supervisé où l'erreur mesurée à la
sortie du réseau est propagée vers l'entrée. On parle aussi souvent de méthode des
gradients descendants. Cet algorithme a été décrit par Werbos (1974), LeCun (1985) et
Parker (1985) et rendu populaire par Rumelhart et al., (1986). En raison de la lenteur de
convergence de la backpropagation originale, plusieurs variantes ont vu le jour. Parmi
celles-ci, la Levendberg Marquardt backpropagation (LMBP) sera utilisée dans le cadre
de ce travail. La LMBP est une méthode d'optimisation de l'erreur quadratique. Elle est
reconnue pour ses propriétés de convergence rapide et de robustesse et s'appuie sur des
techniques de moindres carrés non linéaires et de l'algorithme de Gauss-Newton à
voisinage restreint. La principale motivation du choix de cet algorithme repose sur la
faible taille de la matrice Hessien, du coût moindre des calculs et de la garantie de la
30
convergence rapide vers un minimum. La LMBP sera utilisée en combinaison avec la
régulation par modération des poids.
Les méthodes de régulation par modération des poids ne cherchent pas à limiter la
complexité du réseau mais contrôlent plutôt la valeur des poids pendant l'apprentissage.
Pour ce qui concerne ce travail, la régulation bayesienne sera utilisée. La régulation
bayesienne décrite par MacKay (1992), présume que les poids et biais sont des variables
aléatoires qui suivent des distributions spécifiques (Monté Carlo ou approximation
gaussienne), ce qui permet d'introduire des contraintes sur ces paramètres en appliquant
des pénalités aux fortes valeurs empêchant ainsi le surapprentissage. La régulation
bayesienne présente quatre (4) avantages d'après MacKay (1992) : (1) elle ne nécessite
pas une série de validation pendant l'apprentissage, ce qui est essentiel lorsque les
données existent en quantité limitée ; (2) l'optimisation peut se faire en ligne ; (3) la
fonction objective de la régulation bayesienne n'est pas bruité et (4) le contrôle exercé sur
les poids permet l'utilisation d'un grand nombre de poids avec un effet de
surapprentissage très limité. En hydrologie, Anctil et Lauzon (2004) montrent que cette
combinaison offre une stabilité aux performances du réseau.
Plusieurs critères permettent l'arrêt de l'entraînement du réseau. Une première méthode
consiste à fixer un nombre maximum de périodes et à arrêter l'entraînement avant la
convergence de l'algorithme (early stopping). Un deuxième critère consiste à arrêter
l'entraînement lorsque l'erreur minimale recherchée est atteinte. Mais ces deux méthodes
ne garantissent pas une convergence de l'algorithme encore moins une bonne
généralisation du réseau. Pour cela, on utilise souvent la validation croisée (cross -
validation). Cette méthode consiste à disposer de deux ensembles indépendants de
données pour entraîner le réseau : un pour l'entraînement et l'autre pour la validation.
L'erreur résultant de l'entraînement diminue de façon continue, ce qui n'est pas le cas de
la validation. On arrête alors l'entraînement dès lors que l'erreur de validation commence
à croître.
Dans le cadre de ce travail, le early stopping est utilisé en combinaison avec la régulation
bayesienne car elle permet le contrôle du temps d'apprentissage.
31
2.1.4.5 Mesure des performances d'un réseau
Après apprentissage, il faut tester le réseau sur une série qui n'a servi ni à l'apprentissage,
ni à la validation. Un bon réseau fournira une erreur faible aussi bien en apprentissage
qu'en test tandis qu'un réseau spécialisé fournira une erreur nettement plus importante
dans le second cas. Cette erreur peut se mesurer de plusieurs manières. Dans le domaine
de l'hydrologie, plusieurs critères sont utilisés pour mesurer la qualité d'un même modèle
en général. Les mêmes seront retenus pour l'appréciation des performances de nos
modèles neuronaux et ce sont :
i "( A
V
- la moyenne de carrés des écarts : MSE = — J ] \ Q i - Q i \ [2.5]
«£r\ J
Où Q.z.Q, sont respectivement les variables observées et calculées au pas de temps i
et n la taille de la série. MSE est analogue à la variance résiduelle et représente la

valeur moyenne de la fonction coût optimisée. Elle présente l'inconvénient de mettre
une emphase sur les fortes erreurs comprises dans la série.
L ' erreur moyenne absolue MAE = — V Q r - Q l [2.6]

n
L'avantage de cette erreur par rapport à la MSE est qu'elle n'accorde pas un poids
proportionnellement plus important aux fortes erreurs, cependant on retiendra que la
fonction coût n'est pas optimisée par rapport à cette erreur.
Ces deux scores ne permettent pas une comparaison des performances d'un modèle
ou d'un réseau de neurones sur des séries différentes. Pour faire une telle
comparaison, il est convenu d'utiliser en hydrologie des scores normalisés dont :
- l'efficacité Nash et Sutcliffe (1970) : E = 1 — [2.7]

2
f -^
Qi-Q
V J
Où Qest la moyenne des variables observées. C'est au vu de la difficulté d'utiliser le

critère MSE pour comparer les performances d'un modèle d'une période à l'autre ou
d'un bassin à l'autre que Nash et Sutcliffe ont proposé de normaliser MSE. Ils
32
proposent de comparer la valeur de la MSE du modèle à la MSE d'un modèle
élémentaire de référence qui donnerait comme prévision la moyenne des débits
observés Q. Ce critère d'efficacité largement utilisé en hydrologie varie dans

l'intervalle [-œ,l] et estime en quelque sorte l'amélioration qu'apporte tout modèle au
modèle élémentaire de référence. Une valeur de E égale à 1 traduirait un modèle
parfait (erreur nulle) tandis qu'une valeur de E négative traduit un modèle moins
précis que le modèle de référence. Enfin une valeur de E comprise entre 0 et 1 traduit
un modèle de précision intermédiaire entre le modèle élémentaire et le modèle parfait.
Pour une valeur de E égale à 0, le modèle a la même précision que le modèle
élémentaire de référence. En hydrologie, on estime une efficacité de 0.7 acceptable
(Moriasi et al., 2007).
- la persistance (Kitanidis et Bras, 1980) : Pers = 1 [2.8]

L
±{Qi-Qi-iY
n ■ -,
1=2
C'est aussi un critère normalisé mais le modèle élémentaire de référence n'est plus
celui donnant comme prévision la moyenne des observations mais plutôt un
modèle « naïf » qui donnerait pour prévision au pas de temps i la variable observée au
pas de temps précédent (i-1). Tout comme le critère de Nash, la persistance varie dans
l'intervalle [-°o,l]. Dans le cadre de la prévision hydrologique, la persistance exprime
mieux la qualité d'un modèle par rapport au critère de Nash. En effet en raison de la
lente variation du débit, principale variable en hydrologie, le modèle « naïf» est déjà
d'une qualité nettement supérieure à celle du modèle élémentaire du critère de Nash.
Pour cela la persistance présente des valeurs en général inférieures à celle du critère
de Nash.
MAE peut aussi être norme par rapport au modèle élémentaire du critère de Nash, ou
au modèle élémentaire du critère de persistance pour permettre de faire des
comparaisons de performance du modèle d'un bassin à l'autre ou d'une période à
l'autre.
33
« A n
-.Q. IG
Le critère de bilan (Perrin et al., 2001): 5 = 7 - i=lî \i=l [2.9]
W' m
n A
qui est également un critère norme qui mesure l'habilité d'un modèle à reproduire
correctement le volume sur une période donnée.
À ces différents critères s'ajoute la représentation graphique qui demeure une bonne
méthode d'appréciation visuelle.
Au cours de ce travail, seront essentiellement utilisés les critères de Nash, de bilan et des
MAE.
2.1.4.6 Nombre requis de répétitions de l'apprentissage

Lors de la mise en œuvre des réseaux de neurones, les poids sont initialises de façon
aléatoire. Ces valeurs de départ ont cependant une certaine influence sur le résultat final.
Dans certains cas, elles peuvent mener à des minimums locaux. Cette limite peut être
minimisée en mettant en œuvre plusieurs réseaux différant par leurs poids initiaux et d'en
retenir le meilleur que l'on estime être tombé sur le minimum global. Iyer et Rhinehart
(1999) donnent le nombre N de fois qu'il est nécessaire d'initialiser le réseau pour
minimiser le risque de tomber sur le minimum local d'après la formule
ln(l-iv(a))
suivante : N = [2.10]
ln(\-F x (a))
Cette relation a été établie à partir de l'étude des auteurs qui révèlent que, pour une série
donnée, lorsque l'on initialise N fois les poids et entraîne le réseau, la somme des carrés
des erreurs (variable aléatoire x) suit une loi de distribution a priori inconnue dont la
fonction de répartition est Fx- Pour une valeur a de x donnée, la probabilité que x < a est
Fx(a) et la probabilité que x>a s'écrit 1-Fx(a). La probabilité que tous les TV éléments x
soient supérieurs à a s'écrira [l-Fx(a)] N et la probabilité qu'au moins une valeur de x
(désigné par w, le meilleur des x en fait) soit inférieur à a s'écrira Fw(a)=l-[l-Fx(a)] N .
Ainsi Fw définit une nouvelle fonction de répartition qu'on cherchera à maximiser. De la
dernière relation, on obtient :
34
ln(l-F„(a))
7V = [2.11]
ln(l-F x (a))
Pour augmenter les chances d'avoir w<a, on doit avoir une grande valeur de Fw(a) tandis
que pour avoir des erreurs x faibles, Fx(a) doit rester aussi faible que possible.
Autrement, N répétitions assurent que la meilleure performance (plus petite erreur) sera
probablement (à un niveau de confiance Fw(a)) parmi les Fx(a) meilleures performances
possibles. La relation reliant les éléments Fw(a), Fx(a) et N permet de déterminer un
d'entre eux en fixant les deux autres. Dans le cas présent l'on fixera Fw(a), Fx(a) et l'on
déterminera N. Le tableau 2.2 montre qu'avec un niveau de confiance de 95%, pour 50
répétitions, le minimum global se trouve parmi les 5.8% des meilleurs des résultats.
Tableau 2.2: Valeur de Fx(a) pour N et Fw(a) donnés
N
répétitions Fw(a)=0.95 Fw(a)=0.99
5 0.451 0.602
10 0.259 0.369
20 0.139 0.206
30 0.095 0.142
40 0.072 0.109
50 0.058 0.088
60 0.049 0.074
2.1.5 Les cartes auto-organisatrices de Kohonen

La carte auto-organisatrice de Kohonen ou self organizing map (SOM) est un réseau de
neurones qui permet de répartir une série de données en classes contenant des éléments
de caractéristiques semblables. Lorsque cela sera nécessaire dans le présent projet, on
l'utilisera pour réduire la taille des bases de données utilisées pour les régressions. En
35
effet, chaque classe contenant des éléments de caractéristiques semblables, plutôt que de
prendre tous les éléments de la classe, on peut en retenir un échantillon. L'assemblage de
ces fractions de classe constituera une nouvelle base de données de taille inférieure à
celle initiale.
Les cartes auto-organisatrices de Kohonen font partie de la catégorie des réseaux de
neurones à apprentissage compétitif, non supervisé. Ils consistent en une répartition
régulière des nœuds dans un espace plan (2 dimensions (m, l)) - la répartition peut se
faire aussi sur une droite - et chacune des variables est reliée à l'ensemble des neurones
de la carte. Dans un plan, la répartition peut être rectangulaire ou hexagonale (figure 2.6).
Figure 2.6 : Cartes de Kohonen
a) répartition rectangulaire des nœuds; b) répartition hexagonale des nœuds; au centre des
cercles en pointillés les nœuds gagnants Nc.
L'algorithme des cartes auto-organisatrices simple et itératif permet par des mises à jour
successives d'obtenir à la fin des nœuds associés à des entrées de caractéristiques
semblables. Cet algorithme se définit à chaque itération par rapport à un nœud vainqueur
défini comme suit :
36
Si à l'itération / pour tout vecteur d'entrée X présenté, Wc désigne le vecteur poids du
nœud gagnant Nc, pour tout autre nœud Ni de vecteur poids Wi, on a :
Vi,[x{t)-W c {t)]<[x{t)-W,{t)] [2.12]
La mise à jour des poids s'écrit alors (Kohonen, 1990) :
Wl(t + l) = Wl(t) + h cU)l [X(t)-W i (t)] [2.13]
Avec [X(t)-W.(t)] la distance euclidienne entre les vecteurs X et W à l'instant / et
K(x) i u n e fonction de la distance entre le nœud gagnant et le nœud de poids Wù elle peut
être une fonction logique de la forme :
Ki,A i : i { r ^ < s p.»]

[0 sinon
Ou une fonction de voisinage gaussienne (Kohonen, 1988) de la forme :

(n-rcr
[ M f )
Ku),=<x(t> ' [2-15]
Dans la première fonction, ô est un paramètre qui définit le rayon du cercle ayant pour
centre le neurone gagnant à l'intérieur duquel s'effectue la mise à jour des poids des
autres neurones et est décroissante en fonction du temps. Dans la seconde fonction, a(t)
est un facteur d'apprentissage tel que 0 < a < 1 et est une fonction décroissante monotone
en fonction du temps d'apprentissage. Il peut prendre la forme d'une fonction de la forme
a(t) = -, r ou A et B sont des constantes. Tout comme ô, a(t) définit le rayon du

{B + t)
cercle ayant pour centre le neurone gagnant à l'intérieur duquel s'effectue la mise à jour
des poids. o(t) est une fonction décroissante linéaire du temps. La valeur initiale de a(t)
est souvent prise égale à la plus grande dimension du plan. ||/; - r || est le carré de la
distance qui sépare les nœuds Nc et Ni sur le plan.
D'après cet algorithme, les neurones voisins voient leur poids augmenter
proportionnellement à la distance par rapport au neurone vainqueur. Dans le réseau se
37
créent alors des zones de neurones sensibles à des formes « ressemblantes » formant une
carte topologique. Les poids sont initialises de façon aléatoire et après plusieurs époques
d'apprentissage, chaque neurone devient gagnant d'un certain nombre d'éléments de la
série d'entraînement. Ces éléments constituent une classe et on aura autant de classes que
de nœuds sur la carte. Kohonen (1988) montre que 10 à 100 époques sont nécessaires
pour une convergence de la carte pour des valeurs faibles de a(t).
2.2 Le modèle HYDROTEL

Le modèle HYDROTEL est implanté à Hydro-Québec depuis qu'il a entrepris,
simultanément avec le CEHQ (Centre d'Expertise Hydrique du Québec) l'utilisation de
ce modèle pour ses propres bassins du sud du Québec (Turcotte et al., 2004).
Actuellement le CEHQ priorise également HYDROTEL pour l'implantation sur des
nouveaux bassins bien qu'il continue à utiliser opérationnellement le modèle CEQUEAU.
HYDROTEL est un modèle distribué conçu pour bénéficier des données fournies par la
télédétection et les systèmes d'information géographique. Le bassin versant est divisé en
parcelles ou UHRH (unité hydrologique relativement homogène) dont la taille dépend de
la précision voulue et de la disponibilité des données et assimilables à des points.
HYDROTEL compte six modules ou sous-modèles comme le montre le tableau 2.3. Le
détail théorique de chaque module se trouve dans le manuel d'utilisation d'HYDROTEL
(Fortin et Royer, 2004). Du module « interpolation des données » à « l'écoulement en
rivière », chaque module est indépendant, ce qui donne à l'ensemble de la structure
d'HYDROTEL une souplesse et permet la modification ou l'addition des modules et des
sous-modules.
38
Tableau 2.3 Structuration du modèle HYDROTEL (Source : Fortin et al, 1995)
Sous-modèles Options
1.1. Polygones de Thiessen
1. Interpolation des précipitations 1.2. Moyenne pondérée des trois stations
les plus rapprochées
2. Evolution et fonte du couvert nival 2.1. Méthode des dégrés-jours
3. Évapotranspiration potentielle 3.1. Thornthwaite
3.2. Linacre
3.3. Penman-Monteith
3.4. Priestley-Taylor
3.5. Hydro-Québec
4. Bilan vertical 4.1.BV3C
5. Ecoulement latéral de maille à maille 5.1. Onde cinématique
6. Ecoulement en rivière 6.1. Onde cinématique
6.2. Onde diffusante
Les données nécessaires à l'exécution d'HYDROTEL sont préalablement traitées et

mises au format compatible. Ce traitement peut se faire manuellement mais se fait surtout
à l'aide du logiciel PHYSITEL qui est compatible avec la majorité des systèmes
d'information géographique et permet ainsi de traiter facilement les données obtenues par
télédétection. L'interpolation des données météorologiques (précipitations, température
de l'air, humidité relative, vent) est le processus par lequel les données mesurées aux
stations météorologiques sont estimées sur chacune des unités de calcul. Le résultat de
cette interpolation est une distribution spatiale des données météorologiques au niveau
des UHRHs. Deux sous-modules sont utilisés pour l'interpolation : les polygones de
Thiessen et la moyenne pondérée des trois stations les plus près. Dans le cas des
polygones de Thiessen, on attribue à chaque point (centre de l'UHRH), les données
météorologiques mesurées à la station la plus rapprochée de ce point. Pour ce qui est de
la moyenne pondérée des trois stations les plus près, on attribue à chaque point les
données météorologiques mesurées aux trois stations les plus rapprochées de ce point
avec une pondération pour chacune de ces stations en fonction de l'inverse de la distance
39
entre une station et ce point. Lorsque les précipitations radar existent, celles-ci sont
préférées aux précipitations mesurées aux stations. C'est aussi à l'intérieur de ce module
d'interpolation que se fait la répartition des précipitations en pluie et en neige.
Le module « évolution et fonte du couvert nival » simule l'accumulation et la fonte des
précipitations solides sur chacune des UHRHs. Ce module n'a qu'une seule option qui
fait appel à une méthode mixte (degrés-jours) - (bilan énergétique) pour décrire le
passage de la neige aux précipitations liquides.
L'évaluation du bilan hydrologique vertical (module 4) à chaque pas de temps nécessite
l'estimation de l'évapotranspiration réelle pour chaque type de couvert végétal à la
surface du sol et de l'êvaporation du sol nu. Ce qui passe donc par la détermination de
l'évapotranspiration potentielle (ETP) dans le module 3. Pour le calcul de l'ETP, cinq
sous modules sont disponibles allant de l'équation de Thornthwaite (1948) au modèle
d'Hydro-Québec qui utilise uniquement les températures maximales et minimales. Les
autres équations sont celles de Linacre (1977), de Penmann-Monteith (1965) et de
Priestley-Taylor(1972).
Le module 4, est le module où se fait l'analyse de l'écoulement de l'eau au sein de la
zone non saturée. C'est ce module qui nous intéresse particulièrement dans le cadre de ce
travail et nous y reviendrons plus en détail.
L'écoulement latéral maille à maille concerne l'écoulement sur la partie terrestre. Cet
écoulement intègre le ruissellement à travers la végétation et autre obstacles, les
écoulements à l'intérieur des canaux, naturels ou artificiels, de dimensions insuffisantes
pour qu'ils soient considérés comme faisant partie du cours d'eau et les écoulements
s'effectuant dans le sol. L'algorithme utilisé pour effectuer cet écoulement est celui de
l'onde cinématique, où les équations régissant l'écoulement sont une approximation
unidirectionnelle du système complet des équations de Saint-Venant donnant lieu à deux
équations :
L'équation de continuité qui devient :
dR dh .
— +— =/ [2.16]
dx dt
L'équation cinématique de type Manning :
40
d
h = \ — ^ \ R [2.17]
[l.49y[sj
Avec R , l'écoulement latéral de maille en maille (mV 1 ) ; h , l'épaisseur de la lame
écoulée (m) ; i , l'écoulement en provenance du bilan vertical (ms"1) ; n, le coefficient de
Manning ; So , la pente de la maille ; x , la distance (m) ; t, le temps (s)
La résolution de ce couple d'équations fait appel à des considérations simplificatrices qui
aboutissent au calcul de l'écoulement sur la partie terrestre en deux étapes : (1) le calcul
d'un hydrogramme géomorphologique de référence pour chaque UHRH et (2) le calcul
de la quantité d'eau qui quitte l'UHRH à chaque pas de temps.
La simulation de l'écoulement naturel dans les tronçons de rivière s'effectue également

par des approximations du système complet des équations de Saint-Venant. Cette
simulation bénéficie de deux algorithmes dans le modèle : l'onde cinématique et l'onde
diffusante. L'algorithme de l'onde cinématique repose sur deux équations traduisant
respectivement la conservation de masse (équations de continuité) et la conservation de la
quantité de mouvement (équation dynamique) qui s'écrivent respectivement :
SQ SA ---„
— +— = q [2.18]
dx dt
dh _
— Sn ~ Sy
ôx
[2.19]
Avec :
Q , le débit (m s" ) ; A, la surface mouillée (m ); q, le débit latéral en provenance des
mailles ou des UHRH (mV 1 ); x , la position (m); t , le temps(s); h , la profondeur de
l'écoulement (m) ; So, la pente du lit (m/m) ; r, b, k , des coefficients.
La résolution de ce système s'effectue en assumant des relations entre la surface
mouillée, le débit et la pente de la surface libre d'une part et d'autre part entre le débit et
le niveau d'eau.
L'onde diffusante est une approche qui permet de suivre l'évolution de l'onde de crue
dans les zones de faibles pentes. Elle se traduit par l'équation de la forme (Moussa, 1987;
Moussa, 1991) :
41
SQ = c dQ { S d 2 Q ^ 2S2 d^Q
St " dx c 2 dt 2 C 3 dxdt2 [2 20j
Avec : Q, le débit (m3s*1) ; C, la célérité de l'onde de surface (ms"1) ; S, la diffusion (mV

') ; x, la position (m) ; t, le temps (s).
Les deux algorithmes sont résolus selon des schémas aux différences finies. Les
écoulements intègrent des options de résolution d'écoulement dans les lacs et à travers un
barrage.
Les données fournies par PHYSITEL concernent essentiellement la topographie (altitude
des points), les directions d'écoulement des eaux dans chaque UHRH, les limites du
bassin étudié et de celles des sous-bassins et le réseau hydrographique. L'occupation du
sol est subdivisée en classes selon des caractéristiques telles la hauteur des plantes, la
profondeur des racines, l'albédo et l'index de surface des feuilles.
Le choix des options d'HYDROTEL se fait en fonction des données disponibles et un
module comme l'évolution et la fonte du couvert de neige (sous-module 2) n'est utilisé
qu'en cas de nécessité. La simulation peut se faire au pas de temps de 1 heure à 24 heures
ou à des pas de temps multiples de 24 heures en fonction des objectifs et de la
disponibilité des données du bassin versant.
2.2.1 Le bilan vertical : BV3C

L'analyse de l'écoulement de l'eau au sein de la zone non saturée se fait au niveau du
bilan vertical. C'est dans ce module qu'est calculé le débit fourni par la couche
superficielle du sol au sein d'une UHRH. Seule une option est actuellement utilisée : le
bilan vertical 3 couches (BV3C).
BV3C est un module spécialement développé pour HYDROTEL. Les variables et les flux
ont été définis pour représenter approximativement les macro-processus physiques en jeu
lors de l'infiltration et de la redistribution verticale de l'eau à l'échelle d'une colonne de
sol correspondant à une UHRH (voir figure 2.7).
42
A Pluie et fonte de neige (P)
Évapotranspiration (E+Tr)
►Ruissellement de surface (R)
- A
zi Teneur en eau couche 1(91)
qi.2
72 ■+• Ecoulement retardé (Q2)
Teneur en eau couche 2 (92)
Sol subdivisé .
en 3 couches ^
sur la verticale q2.3
Z3 Écoulement de base (Q3)
Teneur en eau couche 3 (93)
Figure 2.7 : Bilan vertical selon BV3C
La variation de la teneur en eau au niveau de la première couche est provoquée par

l'évapotranspiration et l'infiltration; cette dernière étant contrôlée par les apports (pluie et
fonte de neige) et les caractéristiques hydrauliques de cette couche, le surplus constitue le
ruissellement. La teneur en eau (0) au niveau des autres couches est régulée par les flux
verticaux (qi,2; q2,3), l'évapotranspiration et le débit sortant au niveau de chaque couche
(Q2 et QS) de sorte que l'équation de continuité au niveau de chaque couche peut s'écrire:
zy — - = p i - q i 2 - E - T r j (couche 1)
dt
dff
( z 2 ~ z l )~é~ = a
l 2 ~ <l2,3 ~ Tr2 ~ Q2 (couche 2) [2.21]
dt
( z 3 ~ z 2 ) - £ ■ = a2,3 ~ Tr 3 ~ Q 2 (couche 3)
dt
43
Oxxpi(m), E(m), T(m)r, t(h), zi(m), zi(m), zs(m) représentent respectivement l'infiltration,
l'êvaporation de surface, la transpiration, le temps et les profondeurs des premières,
deuxième et troisième couches. Dans les couches 2 et 3, l'êvaporation est négligeable de
sorte qu'on a uniquement la transpiration.
Pour l'estimation des flux entre couches (qi^, q2,3), la perméabilité K(0j) de chaque
couche est estimée comme étant une fonction de la perméabilité à saturation Ks, de la
teneur en eau à saturation 9S et de la distribution des tailles des pores. La conductivité
hydraulique entre deux couches successives Kj, j+i est alors prise comme la plus grande
des deux conductivités hydrauliques Kj et Kj+i. Introduisant le potentiel matriciel (v|/), lui
aussi fonction de la teneur en eau actuelle, du potentiel matriciel à saturation et de la
distribution des pores d'après la relation de Clapp et Hornberger (1978), on peut écrire
les équations des flux inter couches suivantes :
9.a = K 1.2 +1
z]+(z2-z])
[2.22]
f
2 ¥(O,)-¥(02) ^
<72,3 = K 2.3
(z2-z,) + (z,-z2)
Avec qi,2 (m) le transfert de flux de la première à la deuxième couche; q2,3(m), le transfert
de flux de la deuxième à la troisième couche; Ki,2 (m/h), la conductivité hydraulique entre
les couches 1 et 2; K2,3(m/h), la conductivité hydraulique entre les couches 2 et 3.
Finalement les débits sortant des deuxième et troisième couches sont respectivement
estimés par Fortin et al.,(2001a):
Q2 = K . ( 9 2 ) . S n . ( z 2 - z l )
[2.23]
[Q3 = K r . ( z 3 - z 2 ) . e 3
Où Kr(/h) est le coefficient de récession de la troisième couche, K(m/h) le coefficient de

perméabilité de la deuxième couche et S„(-) la pente de l'UHRH considérée.
44
Si au final, il s'agit de calculer R, Q2 et Qs, l'on voit que ceci n'est possible qu'après le
calcul des teneurs en eau de chaque couche, des conductivités hydrauliques, des flux
inter-couches et des infiltrations. C'est ce que fait actuellement BV3C en résolvant
numériquement les équations différentielles ci-dessus. Deux méthodes sont utilisées pour
la résolution de ces équations. Initialement résolues par la méthode d'Euler, elles ont été
par la suite reprogrammées par Fortin et al. (2005) en utilisant la méthode de résolution à
pas adaptatif de Fehlberg (algorithme de Cash-Karp), qui est une méthode de Runge-
Kutta de cinquième ordre. BV3C utilise en entrées les précipitations, les
évapotranspirations de chacune des couches, les paramètres de chaque sol (voir tableau 1
en annexe), le coefficient de récession de la troisième couche (Kr), la pente de la
deuxième couche et les épaisseurs des trois couches. La résolution itérative commence
par les conditions initiales sur les teneurs en eau et donne en sortie les teneurs (6/, 62, 9s),
R, Q2 et Qs, aux pas de temps suivants. Toutes les données sont donc recueillies à
l'échelle de l'UHRH (assimilée à un point) et concernent :
- Les précipitations : à partir des valeurs recueillies par les pluviomètres situés sur le
bassin dont les valeurs sont calculées à l'échelle de l'UHRH par le sous-modèle 1
(tableau 1);
- Les évapotranspirations potentielles : à partir des mesures de température, de
l'albédo, de l'humidité de l'air et de la vitesse du vent recueillies sur chaque
UHRH, elles sont calculées par le sous-module 3. Elles sont ensuite converties en
évapotranspiration réelle et repartie sur la colonne de sol en fonction de
l'occupation du sol d'après des formules intégrées dans BV3C ;
- le type de sol au niveau de chaque UHRH : le sol est caractérisé par les paramètres
contenus dans le tableau 1 en annexe;
- Le coefficient de récession (Kr) de la troisième couche (obtenu à partir des débits
observés);
- Les épaisseurs des trois couches obtenues à partir des données de terrain;
- L'occupation de l'UHRH (données obtenues par télédétection); et
- La pente S1,, qui correspond à la pente à la surface de l'UHRH estimée par les
modèles numériques de terrain.
45
Bien que tout nouveau sol puisse être intégré avec ses caractéristiques propres, BV3C
dispose des caractéristiques de 11 types de sol tels que définis par Rawls et Brakensiek
(1982) (tableau 1 de l'annexe 1). Les caractéristiques verticales des sols sont supposées
constantes pendant la durée de la simulation.
C'est l'agrégation des débits des différentes UHRH effectuée par les sous modules 5 et 6
qui donne le débit total du bassin. Les teneurs en eau (6), 62, 9s) obtenues permettent
aussi d'avoir une répartition spatiale de la teneur en eau du sol à travers l'ensemble du
bassin visualisable sur ordinateur.
2.3 Conclusion
Dans ce chapitre une description des outils qui seront utilisés par la suite a été faite. Le
modèle HYDROTEL constitue le sujet central auquel l'on veut apporter une modification
par remplacement d'un de ses modules par un groupe de perceptrons multicouches. Les
réseaux de Kohonen seront utilisés pour la mise en place d'une base de données
nécessaire à la mise en œuvre de ces perceptrons multicouches. L'insertion des réseaux
de neurones dans le modèle HYDROTEL donnera naissance à un modèle hybride où
coexisteront des modules conceptuels et des «boîtes noires».
46
3. Méthodologie
47
3.1 Introduction
Malgré l'accroissement de la vitesse de calcul des processeurs actuels, la résolution de
certains problèmes d'ingénierie demande des temps de calcul toujours plus importants.
En hydrologie et plus généralement dans le domaine hydro-environnemental, des
simulations de plusieurs heures ne sont pas rares. C'est notamment le cas de certains
modèles d'écoulement biphasique ou triphasique en hydraulique, ou des modèles de
diffusion des polluants. En hydrologie, le modèle SWAT par exemple requiert souvent
plusieurs centaines voire des milliers de simulations pour obtenir les paramètres
optimaux. Même lorsque le temps de simulation est acceptable, il est souvent requis
d'effectuer un grand nombre de simulations. En outre, de nouveaux concepts tels les
prévisions d'ensemble (Breiman, 1996; Buizza et Palmer, 1998; Hansen et Salamon,
1990) nécessaires à l'estimation des incertitudes autour des prévisions demandent des
prévisions répétitives nécessitant des temps de calcul plus longs. Face à ce besoin
toujours plus grand du temps de calcul, s'est développé le concept de méta-modèles (Jin,
2005) qui consiste à remplacer l'ensemble ou une partie d'un modèle par un autre pour le
rendre plus rapide, ou moins complexe, permettant dans certaines situations d'urgence
d'avoir des résultats même moins précis pour des prises de décision rapides. En hydro-
environnement, ce concept est utilisé dans des modèles de qualité des eaux (Bouzaher et
al., 1993; Deksissa et al., 2004; Meirlaen et al., 2001), dans des modèles de réseaux de
distribution d'eau (Broad et al., 2004; Broad et al., 2005a; Broad et al., 2005b), en
géophysique (Calderon-Macias et al., 2000) et en hydrologie (Khu et al., 2004 ).
S'inspirant de ces travaux, on cherche ici à remplacer une partie du modèle HYDROTEL
par un réseau de neurones.
Les réseaux de neurones ont fait l'objet de nombreuses recherches en hydrologie :Anctil
et Lauzon (2004), Birikundavyi et al. (2002), Coulibaly (2000), Fahlman et Lebiere
(2001), Gaume et Gosset (2003), Imrie et al. (2000), Jayawardena et Fernando (1998) ,
Jayawardena et Fernando (1998), Karunanitthi et al. (1994), Maier et Dandy (2000),
Markus et al. (1995), Mason et al. (1996), Minns et Hall (1996), Muttiah et al. (1997),
Shamseldin et al. (1997) et bien d'autres. Mais ceux-ci les ont pour la plupart du temps
48
utilisés de façon unitaire c'est-à-dire pas en interaction avec d'autres modèles ou parties
de modèles.
3.2 Nouvelle structure d'HYDROTEL

Dans cette étude, l'on cherche à substituer le module BV3C par un réseau de neurones.
Ce qui donnera à HYDROTEL la structure suivante (tableau 3.1) où les réseaux de
neurones remplacent BV3C.
Tableau 3.1 : Nouvelle structure du modèle HYDROTEL

Sous-modèles Options
1.1. Polygones de Thiessen
1. Interpolation des précipitations 1.2. Moyenne pondérée des trois stations
les plus rapprochées
2. Evolution et fonte du couvert nival 2.1. Méthode des dégrés-jours
3. Évapotranspiration potentielle 3.1. Thornthwaite
3.2. Linacre
3.3. Penman-Monteith
3.4. Priestley-Taylor
3.5. Hydro-Québec
4. Bilan vertical 4.1 Réseau de neurones
5. Ecoulement latéral de maille à maille 5.1. Onde cinématique
6. Ecoulement en rivière 6.1. Onde cinématique
6.2. Onde diffusante
3.3 Les limites des réseaux de neurones et recherche

d'une base de données appropriée
Les réseaux de neurones ont fait l'objet de nombreuses publications, cependant leurs
applications industrielles en hydrologie restent limitées. Cela s'explique peut-être par
quelques insuffisances mises en évidence par la quasi-totalité des chercheurs :
Si les réseaux de neurones présentent une meilleure parcimonie par rapport à la
plupart des autres méthodes d'approximation linéaires ou non; en hydrologie, ils le
49
sont moins par rapport à la plupart des modèles conceptuels existant. Coulibaly
(2000) montre en effet que le nombre de paramètres des réseaux de neurones peut
atteindre la centaine quand certains modèles conceptuels n'en comptent que trois à
dix (Perrin et al., 2001).
Les réseaux sont également reprochés d'être moins efficaces dans la prévision de la
montée de crue, source de catastrophes de même que dans l'estimation des débits
d'étiage lorsqu'il s'agit du suivi de la qualité des eaux (Gaume et Gosset, 2003).
- Enfin on trouve que les réseaux de neurones ne contribuent pas grandement au
développement de connaissances des processus hydrologiques.
Ces faiblesses des réseaux de neurones sont soulignées par de nombreux auteurs. Ainsi,
Dawson et Wilby (1998) soulignaient l'incapacité des réseaux de neurones à simuler les
pointes de crue qui excèdent le maximum contenu dans la série d'entraînement.
Karunanitthi et al. (1994) firent le même constat lorsqu'ils utilisèrent les réseaux de
neurones pour la modélisation des débits de fleuve Huron à Michigan tout comme See et
al. (1997) . De leur coté, Hsu et al. (1995) constatent que les réseaux de neurones
surestimaient les plus faibles débits d'étiage. Tout ceci traduit l'incapacité des réseaux de
neurones à faire des extrapolations. Certains de ces auteurs ont émis des suggestions pour
améliorer cette faiblesse. Karunanitthi et al. (1994) suggèrent d'inclure dans les données
d'entraînement les plus grandes pointes possibles. Hsu et al. (1995) proposent de prendre
pour la modélisation le logarithme des débits mesurés pour réduire l'écart entre les fortes
et les faibles valeurs. See et al. (1997) proposent une pré-classification des données
d'entrée avant modélisation, tandis que Minns et Hall (1996) proposent de s'assurer que
les données d'entraînement contiennent suffisamment d'événements exceptionnels pour
d'améliorer la capacité d'extrapolation. Hettiarachchi et al. (2005) proposent eux des
méthodes d'estimation des événements maximaux à inclure dans la série d'entraînement.
Pour Anctil et Tape (2004), une décomposition des séries temporelles en ondelettes en
trois sous-séries décrivant les processus pluie-débit de courtes, moyennes et longues
périodes donnerait de meilleurs résultats, tandis que Imrie et al. (2000) proposent de
nouvelles fonctions d'activation. De nouvelles fonctions d'activation sont également
proposées par Shrestha et al. (2005).
50
L'effet de la longueur de la série sur la précision des réseaux, rarement mis en évidence,
est aussi étudié par Anctil et al. (2004). Cette étude montre que, pour une série journalière
d'environ une année, les réseaux sont moins efficaces qu'un modèle à 4 paramètres tel
GR4J (Perrin, 2000). Lorsque la longueur de la série atteint 3 à 5 ans, les deux modèles
ont une efficacité semblable. Pour des séries plus longues, les réseaux continuent
d'améliorer leur efficacité, ce qui n'est pas le cas du modèle à 4 paramètres. Tout modèle
aussi parcimonieux que le GR4J pourrait avoir le même comportement. Toth et Brath
(2007) parviennent pratiquement à des résultats similaires en comparant les réseaux de
neurones au modèle ADM à onze (11) paramètres. Cela s'explique par le fait qu'avec de
tels modèles, on arrive vite au point de saturation où l'augmentation de la taille n'a plus
d'impact sur les paramètres estimés, ce qui n'est pas le cas des réseaux de neurones qui
ont cette capacité d'augmenter le nombre de paramètres en fonction de la disponibilité
des données.
Toutes les suggestions qu'ont faites les différents auteurs ont rarement amélioré de façon
significative la capacité d'extrapolation des réseaux de neurones et certaines études
menées sur un seul site ne suffisent pas pour en faire des généralités. En réalité, ce qui est
considéré comme une insuffisance des réseaux de neurones dérive de la nature
intrinsèque de ce type d'approche. En effet, comme l'ont souligné le Task Committee on
Application of Artificial Neural Networks in Hydrology de ASCE (2000) sur la base
d'une importante compilation bibliographique, les réseaux de neurones sont efficaces
lorsqu'il s'agit de faire des prévisions dans l'espace des données qui ont servi à leur
optimisation, en dehors de cet espace, leur précision reste limitée. Pour cela, dans notre
étude une grande attention a été plutôt portée sur l'espace des données d'entraînement
que sur l'emphase d'extrapolation des réseaux de neurones. La présente étude ne se
rapporte pas à un bassin versant particulier, elle se veut et doit être fonctionnelle pour
n'importe quel bassin d'où la nécessité de trouver une base de données particulièrement
appropriée. On entend par base de données appropriée celle qui offrira une très grande
diversité en termes météo-climatiques.
Pour atteindre l'objectif une méthodologie divisée en deux parties a été mise en œuvre:
51
• une première partie dite « offline » où le module B V3C est extrait de l'ensemble
du modèle HYDROTEL et utilisé pour la mise en œuvre des réseaux de neurones.
• une deuxième partie dite « online », où les réseaux de neurones mis en œuvre sont
utilisés en continu.
3.4 Méthodologie « offline »

Dans cette partie on cible uniquement le module BV3C qui sera pour l'occasion isolé du
reste du modèle HYDROTEL. On cherche ici à obtenir les mêmes résultats que BV3C en
utilisant les réseaux de neurones. Reprenant les trois équations de continuité de B V3C
telles que présentées au chapitre 2 et remplaçant I = P-R, où R(m) est le ruissellement et
P(m) la précipitation, on peut écrire :
R = P -■ z j — - + q i 2 + E + TrA (couchel)
V St J
se
Q2 = ~( z 2 ~ z l ) - r -2 +11,2 ~ a 2,3 ~ Tr 2 (couche 2) [3.1]
et
df)
Q3 = - ( z 3 - z 2 ) — ^ - + q 2 3 - T r 3 (couche 3)
dt
Avec E(m) l'êvaporation de surface, Tr(m) la transpiration, t(h) le temps, qi,2 (m) et
q2,3(m) les flux inter couches, Q2(m/h) et Q3(m/h) les débits sortant des couches 2 et 3
respectivement, z/(m), z^(m) et zj(m) les profondeurs des trois couches. Dans les couches
2 et 3 l'êvaporation est négligeable de sorte qu'on a uniquement la transpiration. En
utilisant la relation de flux inter-couches à savoir :
f y,(02)-¥(B1) \
91,2 = K
l,2 +1
z
?! +(Z2 ~ l )
[3.2]
(
yf(03)-yf(02) . j
12,3 = K 2 , 3
(z2-z]) + (z3-z2)
52
On a :
^
SOi „ [V,(02)-V,(0J)
R = P - z i — - + K} 2 + 7 + E + Tr,l
1 I J Zj+(Z2-Zj)
dt
( f \
S92 y,(6 2 )-y,(e 1 ) y,(e 3 )- ¥ (0 2 )
Q2 = - ( z 2 - z i ) ^ r + K u 2 | l
- K 2,3 |
-Tn
dt ZJ+(Z2-ZJ) (z2-zj) + (z3-z2)
dû (
¥(03)~¥(02) , /
Q3 = - ( z 3 - z 2 ) - l + K 2 J 2 Tr,
dt (z 2 -Z])+(z 3 -z 2 )
[3.3]
7?, 62 et ^ sont donc des fonctions des évapotranspirations aux niveaux des trois couches
et des teneurs en eau elles mêmes fonction de leurs valeurs au pas de temps antérieur, des
apports (précipitations), des caractéristiques du sol et des différentes épaisseurs tandis
que K est une fonction de 9. Selon le cas, E+Tr peut se ramener à l'êvaporation
uniquement E (cas de sol nu ou espace occupé par l'eau) ou à Tr (cas des couches
inférieures où l'êvaporation est négligeable devant la transpiration). Dans cette partie,
une famille de 3 perceptrons multicouches sera alors entraînée pour remplacer le plus
fidèlement possible le module déterministe BV3C pour estimer respectivement les
teneurs en eau dans les 3 couches, le ruissellement et le débit de la deuxième couche.
3.4.1 Le réseau des teneurs en eau

BV3C s'exécute essentiellement à l'échelle de l'UHRH (unité hydrologique relativement
homogène), et pour cela, tout le raisonnement se rapport à cette échelle. Tous les débits
calculés par BV3C dépendent d'une manière ou d'une autre des teneurs en eau des
différentes couches. Cela s'explique physiquement par le fait que la quantité d'eau que
libère une couche de sol dépend grandement de celle dont elle regorge. Quant au débit
libéré, il dépend en plus des caractéristiques physiques de ce sol et de la morphologie du
l'UHRH. Ainsi les ruissellements s'observeront plus facilement sur les argiles que sur du
sable en raison de la forte capacité d'infiltration sur le second type de sol par rapport au
premier. Par contre, en période de pluie, l'humidité variera beaucoup plus rapidement
dans le deuxième type de sol. Une base de données appropriée devrait donc inclure une
bonne variété de type de sols. Ce qu'offre Clapp et Hornberger (1978) qui classent les
53
sols en onze types allant des sables aux limons fins. Les réseaux de neurones devront
également être optimisés sous différentes conditions météo-climatologiques pour obéir à
la flexibilité qu'offre HYDROTEL d'être utilisé sous des conditions climatiques variées.
Si l'on désigne par RN1 le réseau des teneurs en eau, on peut écrire :
[3.4]
avec $(-), la teneur en eau ; z(m)j, (z2-zi(m)), (zs-Z2)(m), les épaisseurs des couches 1 à 3
respectivement, Tr(m) les évapotranspirations réelles, v|/s(m), h,(-), 9S(-), Ks(m/h) sont les
P physiques du sol et représentent respectivement le potentiel matriciel à

saturation, l'indice des vides, la teneur en eau à saturation et la perméabilité à saturation.
Dans cette relation, les indices supérieurs se rapportent au pas de temps et les indices
' f" " îrs a différentes couches. Il s'agit d'un réseau à trois sorties qui,
schématiquement, se présente comme la figure 3.1. Cette configuration a été choisie avec
comme hypothèse que les trois variables Oi, 92, 93 dépendent des mêmes variables
d'entrée, en plus d'avoir une certaine relation entre elles d'après la relation de flux inter-
couches.
Couche cachée
Couche de sortie
Couche d'entrée Sortie
e2
e.,
Figure 3.1 : Schéma du réseau RN1
Certaines variables comme les perméabilités inter-couche (K|,2 et K23), les flux inter-
couche (qi,2 et q2,3) et les potentiels matriciels (y) ne sont pas déterminées mais leur rôle
implicite est censé être intégré par la boîte noire qu'est le réseau de neurones. Les autres
54
variables d'entrée décrivent les caractéristiques physiques à travers les paramètres du sol
(0S, Ks, \j/s, A*), l'état antérieur de l'UHRH en termes d'humidité (9 (t "'\, g r > \ 9 (tl) 3 ), les
apports (P1), les pertes représentées par les évapotranspirations (Tr (t \, Tr(t)2, Tr(,)3) et les
profondeurs des différentes couches (z\, Z2, Z3). Les types de réseaux ici utilisés
(perceptrons multicouches) n'ont pas de "mémoire", ils ignorent l'état de l'UHRH dans
un passé plus ou moins lointain. Pour intégrer une certaine mémoire, les moyennes des
apports des 7, puis 15 et enfin 30 derniers jours ont été ajoutées comme variables
d'entrée. Notons que les variables d'entrées ici désignées ne sont pas définitives mais
celles qui sont vues comme pouvant avoir un impact significatif sur l'humidité du sol au
regard des équations qui régissent cette humidité. Elles n'ont certainement pas le même
poids et un test permettra de déterminer les plus pertinents que l'on retiendra. Le type de
test utilisé est celui dit "stratégie de construction" qui consiste, à partir d'un nombre
minimal de variables, à procéder par addition successive d'une nouvelle variable en
fonction de sa pertinence suivant un critère donné jusqu'à l'obtention des plus
pertinentes. Ainsi, les différentes variables peuvent être classées suivant leur pertinence
calculée en termes d'erreur qui en résulte.
3.4.2 Le réseau de Qi
Le débit de la première couche ou ruissellement, bien qu'il soit directement lié aux
précipitations, est un processus assez complexe. Il dépend de la capacité d'absorption du
sol, donc de sa perméabilité, mais est aussi fonction de l'humidité du sol sur ses couches
peu profondes. Ainsi on peut retenir que le ruissellement survient dans deux cas
essentiellement : (1) Le cas où l'intensité de pluie dépasse la capacité d'infiltration du
sol, et (2) lorsqu'une saturation est observée. Le ruissellement dépend donc des apports
mais également des caractéristiques physiques du sol. Le réseau de neurones suivant a été
mis en œuvre pour le calcul du ruissellement :
çf/>m.m2\p<t>,^>4t>4t>,^-1>
[3.5]
Avec Qi(m), le ruissellement, 9/, 92, 9s les teneurs en eau dans les trois couches Tri (m),
Tr2(m>, Trs(m)y les évapotranspirations réelles dans les trois couches. \|/s(m), AS(-), 9 S (-),
Ks(m) sont les paramètres physiques du sol et représentent respectivement : le potentiel
55
matriciel à saturation, l'indice des vides, la teneur en eau à saturation et la perméabilité à
saturation. Dans cette équation, les indices supérieurs désignent le pas de temps considéré
et les indices inférieurs se rapportent aux différentes couches.
3.4.3 Le réseau de Q2
Le réseau de calcul du débit Q2 sortant de la deuxième couche s'écrit :
[3.6]
Il s'agit ici d'un réseau à une seule sortie calculant le débit retardé. Ce débit dépend des
apports, mais la deuxième couche n'étant pas en contact direct avec les précipitations, il
dépend beaucoup plus des caractéristiques du sol, c'est-à-dire de sa capacité d'infiltration
et de sa force de rétention de l'eau infiltrée et est causé par la variation de l'humidité au
sein de cette couche. Le débit retardé dépend également de la pente de l'UHRH
favorisant ou non les écoulements latéraux et de l'épaisseur de la couche, paramètre
quantifiant l'eau qu'elle contient à tout moment. La forme de l'équation est retenue en
s'inspirant de la version originale dans BV3C, qui s'obtenait, après résolution des
systèmes d'équations différentielles, d'après la relation :
Q2 = K(0 2 )sin [arctan( s„ ) \ z 2 -zj) [3.7]

Avec K ,(m/h) la perméabilité, une fonction des teneurs en eau ; 92(-), la teneur en eau
dans la deuxième couche ; S„,la pente de l'UHRH et (z2-z/)(m), l'épaisseur de la
deuxième couche.
Les variables qui ont été retenues sont donc les caractéristiques du sol (0S X,, v|/s, Ks), la
pente (Sn) qui décrit la morphologie de l'UHRH, les teneurs en eau aux pas de temps
antérieur et actuel de la couche concernée. Les teneurs actuelles et au pas de temps
antérieur des autres couches ont aussi été ajoutées comme variables de test tout comme le
débit au temps précédent perçu comme une variable importante dans la mise en œuvre
des réseaux en hydrologie (Anctil et Lauzon, 2004). Ici encore, des tests de sensibilités
sont faits d'après la "stratégie constructive".
56
3.4.4 Données et hypothèses
Lorsque BV3C est utilisé dans sa version originale, l'essentiel des données sur le bassin
lui est fourni soit manuellement ou par l'entremise de PHYSITEL, un logiciel capable
d'exploiter des données fournies par la plupart des logiciels de systèmes d'informations
géographiques. Ainsi, pour chaque UHRH, sont fournies (1) les données
hydrométéorologiques telles l'état initial de l'UHRH (humidités du sol),
l'évapotranspiration potentielle et les précipitations (2) la morphologie représentée par la
pente, les profondeurs des différentes couches et l'occupation du sol en surface. C'est
avec ces données que BV3C calcule pour chaque UHRH les humidités aux pas de temps
suivants et les débits sortant de chaque couche.
Avec la substitution de BV3C par un ensemble de réseaux de neurones, ce principe reste
conservé. Pour des raisons de généralisation et compte tenu des limites des réseaux de
neurones examinées plus haut, une base de données convenablement choisie est
nécessaire pour la mise en œuvre de ces réseaux. Cette base devrait, pour surmonter les
limites des réseaux de neurones, avoir pour l'essentiel une plage qui éviterait autant que
possible aux réseaux de neurones de faire de l'extrapolation en conditions d'utilisation.
Elle devrait être suffisamment hétérogène pour intégrer des conditions
hydrométéorologiques diversifiées et des morphologies d'UHRH puisque c'est à cette
échelle que s'applique BV3C, ramenant ainsi tout le raisonnement de l'échelle du bassin
à celle-ci. L'idée de travailler avec beaucoup de bassins versants serait fastidieuse sans
pour autant garantir la diversité des UHRH souhaitée. Pour cela, l'option de données
synthétiques a été retenue. Cette option a l'avantage de partir d'un nombre de bassins
limité et de leur retenir un nombre synthétique d'UHRH différant d'une unité à l'autre
par tous ses autres paramètres (profondeurs, pentes) que l'on fera tout aussi varier
synthétiquement. À partir du nombre de bassins retenus, provenant d'origines climatiques
diverses, il devient alors possible de générer une infinité d'UHRH hétérogènes nécessaire
pour la mise en œuvre des réseaux. Cette option reste cependant limitée par
l'impossibilité de générer le débit global résultant de l'agrégation des débits sortant de
chaque UHRH car les UHRH n'ont pas forcement une correspondance réelle sur le
terrain. Cependant une fois les réseaux mis en œuvre, on pourra les tester sur un bassin
57
avec des UHRH et des conditions réelles qui devraient avoir été rencontrées par les
réseaux au cours de leur optimisation.
3.4.4.1 Les bassins retenus

Les bassins versants ont été retenus en raison de leur situation géographique lointaine
l'une de l'autre assurant une diversité hydro-climatique allant de l'extrême sec à
l'extrême humide. Ils ont servi aux travaux de Anctil et Lauzon (2004) d'où provient
l'essentiel de la description ci-après. Il s'agit des bassins de Kavi, de Leaf, de Saltfork, de
Sanjuan , de Serein et de Volpajola. À l'extrême sec, se trouve le bassin de Saltfork, situé
dans une région aride du Midwest des États-Unis avec ses débits faibles et intermittents
par moment et un faible cycle saisonnier. Le sol rarement saturé n'entraîne pas de forts
débits même à l'occasion de fortes pluies. À l'autre extrémité, se trouve le bassin de
Sanjuan situé sur la côte pacifique canadienne. Avec une saisonnalité bien marquée, il est
soumis à de fortes précipitations notamment entre novembre et avril. Le sol constamment
saturé donne lieu à de forts débits observés au cours de cette période.
Les conditions hydrologiques des quatre autres bassins se situent entre ces deux
extrêmes. Kavi et Serein ont des saisonnalités bien marquées, ce qui n'est pas le cas des
deux autres bassins Leaf et Volpajola. Kavi enregistre ses plus forts débits en été
pluvieux tandis que l'hiver reste marqué par des étiages. Leaf, Serein et Volpajola
enregistrent des débits élevés en hiver et avec des étés relativement secs.
Dans le cadre de cette étude, les deux variables essentielles sont les précipitations et
l'évapotranspiration journalière intéressantes tant du point de vue de leur répartition tout
au long de l'année que pour leurs amplitudes. Ce sont en effet ces variables qui sont
retenues pour générer les séries nécessaires à l'optimisation des réseaux de neurones.
Pour chacun de ces bassins, trois années de pluie et d'évapotranspiration ont été utilisées.
Les caractéristiques statistiques des séries de ces variables sont contenues dans le tableau
3.2.
58
Tableau 3.2 : Caractéristiques statistiques des précipitations et ETP utilisées
Kavi Leaf Saltfork Sanjuan Serein Volpajola

Précipitations (mm)
Moyenne (mm) 4.81 4.39 1.80 3.63 2.39 2.69
Maximum (mm) 64.00 122.50 41.90 72.28 32.55 67.70
Minimum (mm) 0 0 0 0 0 0
Écart type (mm) 9.12 10.84 4.86 7.45 4.29 6.37
ETP (mm)
Moyenne (mm) 4.04 2.92 4.21 2.54 2.02 2.81
Maximum (mm) 5.71 8.14 7.42 7.41 4.46 6.49
Minimum (mm) 3.21 0.01 1.00 0.00 0.26 0.00
Écart type (mm) 0.51 1.97 2.27 1.82 1.40 1.71
3.4.4.2 Hypothèses
Une UHRH se caractérise par : (1) ses trois profondeurs, (2) le type de sol où elle se situe
que résume les paramètres physiques, et (3) sa pente. Le débit qui sort de chacune des
couches dépend des échanges (apports et pertes) qui s'effectuent au sein de l'UHRH. Le
meilleur réseau sera celui qui peut simuler au mieux le comportement de l'ensemble des
UHRHs que le modèle HYDROTEL est amené à rencontrer au cours de ses différentes
applications. Éviter que le réseau effectue des extrapolations revient à lui trouver une
plage de données d'entrées d'optimisation aussi large que possible. Autrement il faut lui
trouver des UHRH avec des paramètres physiques et des apports très diversifiés. La
recherche d'une telle base de données a emmené à faire des hypothèses qui, sans fournir
une base exhaustive, permet d'avoir un ensemble très diversifié de jeux d'entrée pour la
mise en œuvre des réseaux de neurones. Ces hypothèses sont :
• Sur chacun des 6 bassins retenus, 1100 UHRH ont été retenues, en supposant qu'il y a
100 UHRHs pour chacun des 11 types de sol.
• La répartition des précipitations et des évapotranspirations potentielles (ETP) est
supposée uniforme sur l'ensemble des UHRHs et égale à celle moyenne disponible.
Ainsi tous les UHRHs, pour chacun des bassins, auront la même hauteur de pluie et
59
d'évapotranspiration à chaque pas de temps. La conversion de l'ETP en ETR se fait
par multiplication de la première par un coefficient culturale pris entre 0.1 et 1.
L'ETR au niveau de chacune des trois couches est obtenue en supposant une
répartition linéaire décroissante de l'ETR obtenue sur la profondeur racinaire avec
une valeur maximale en surface et une valeur nulle au sommet de cette profondeur,
elle-même variant de 0 à 2 m. Cette méthode de calcul des ETR, bien que différente
de celle actuellement utilisée dans HYDROTEL, permet de couvrir plusieurs types de
végétations et d'utiliser les ETP disponibles sur les bassins considérés. Insérés dans
HYDROTEL, les réseaux de neurones pourront toutefois intégrer la méthode de
dérivation de l'ETR qui y est utilisée.
Les caractéristiques physiques des UHRHs ont été définies dans des domaines de
variation qui vont du minimum possible au maximum possible. Leurs valeurs sont prises
de façon aléatoire à l'intérieur de ces domaines assurant ainsi leur diversité. Les
minimums et maximums ont été retenus en tenant compte des plages de variation
possibles de chacun des paramètres physiques au sein d'HYDROTEL. Ainsi par
exemple :
Les pentes sont supposées varier de l%o à 20% et dans la procédure de sélection
des UHRHs, on retiendra pour chacune d'elles une pente comprise dans cet
intervalle et différente d'une unité à une autre.
Tout comme les pentes, l'épaisseur de chacune des trois couches des UHRH varie dans
un domaine donné fixé au regard de leur variation dans HYDROTEL. La première
couche est supposée varier entre 0.1 m et 0.2 m tandis que les deuxième et troisième
couches varient respectivement entre 0.4 m et 0.8 m, puis 0.5 m et 2 m. En retenant les
valeurs minimales, on peut avoir une épaisseur minimale de sol de 1 m tandis qu'en
retenant les valeurs maximales, on aura un sol d'épaisseur maximal de 3 m. Toutes les
UHRHs auront donc leur épaisseur de sol comprise entre 1 m et 3 m. La première couche
de sol est associée au ruissellement tandis que les deuxième et troisième couches sont
associées respectivement à l'écoulement retardé et à l'écoulement de base.
60
3.4.5 Mise en œuvre des réseaux de neurones
3.4.5.1 Classifications
Pour la mise en œuvre des réseaux de neurones, la boîte à outils de Matlab version 7.1,
« Neural Network Toolbox for Release 14 with Service Pack 3» a été utilisé. Malgré la
limitation à 3 ans de simulation par UHRH, la mise ensemble des sorties des six bassins
donne lieu à une série suffisamment longue pour rendre impossible son utilisation à l'état
brut avec cette boîte à outil. Les sorties par bassin ont, pour cela, été classées d'après la
méthode de Kohonen (1990) et un échantillon par classe a été retenu pour la mise en
œuvre des réseaux. Pour chaque bassin, la classification sur une carte de Kohonen de
dimensions 3x3, à répartition rectangulaire a été utilisée. Avec 9 classes par bassin
versant, on obtient au total 54 classes contenant chacune des éléments statistiquement
homogènes. On peut donc reconstituer une série suffisamment hétérogène et
représentative des 54 classes par un assemblage de 54 échantillons provenant d'un tirage
aléatoire, sans remise dans chacune des classes. La taille de l'échantillon de chaque
classe est proportionnelle à la taille de cette dernière. C'est d'une telle série que nous
nous servirons pour la mise en œuvre des réseaux de neurones.
3.4.5.2 Architecture des réseaux de neurones

Tous les réseaux de neurones que nous avons mis en place ont la même architecture en
termes de fonctions de transfert. Dans la couche cachée, nous avons retenu la fonction
tangente hyperbolique, tandis que dans la couche de sortie, nous avons des fonctions
linéaires. Les entrées du réseau sont choisies parmi les 27 variables utilisées pour la
classification, en tenant compte des équations de continuité.
Pour retenir les variables pertinentes parmi celles potentielles pour chacun des réseaux,
nous avons procédé par la méthode constructive qui peut être résumée comme suit : 1)
fixer le nombre de neurones dans la couche cachée et le nombre d'époques
d'entraînement, 2) utiliser comme variable d'entrée une seule variable parmi toutes celles
potentielles, entraîner le réseau ainsi obtenu avec 2 tiers des données disponibles, 3)
évaluer l'erreur avec le tiers restant, 4) reprendre les trois précédentes étapes au moins 25
fois avec des initialisations du réseau différentes; 5) retenir pour l'erreur relative à cette
61
variable la plus petite des 25 erreurs obtenues; 6) reprendre toutes les étapes précédentes
pour toutes les variables potentielles individuellement.
Pour toutes ces variables la plus pertinente sera celle qui présentera la plus petite erreur.
Pour avoir deux variables pertinentes, on ajoutera à la plus pertinente trouvée
précédemment tour à tour une des variables restantes et on évaluera l'erreur minimale
après au moins 25 initialisations. Une fois les deux meilleures variables déterminées, on
procédera de la même manière pour déterminer les 3, puis les 4 variables pertinentes et
ainsi de suite. Lorsque l'erreur estimée ne varie plus avec des variables supplémentaires,
on arrête l'opération.
Une fois les variables pertinentes et leur nombre déterminés, on fait varier le nombre de
nœuds dans la couche cachée afin de déterminer le nombre approprié, toujours en
procédant à 25 itérations au moins et en retenant la meilleure. Le nombre de nœuds
déterminé, le nombre d'initialisation est augmenté à 50. Ce qui d'après la relation de
Iyer et Rhinehart (1999) permet d'espérer à 95%, d'avoir le réseau qui donne le minimum
global parmi les 5,8% meilleurs. Des 50 initialisations qui donnent lieu à 50 réseaux de
neurones différents, on retiendra le meilleur c'est-à-dire celui qui fournira la plus petite
erreur. Pour le réseau retenu à cette étape, on fera varier le nombre d'époques
d'entraînements et on estimera l'erreur correspondante à chaque nombre d'époques. Le
nombre d'époque retenu sera celui offrant la plus petite erreur. Le réseau de neurones
final retenu sera celui précédemment retenu entraîné avec le nombre d'époques retenu et
la meilleure initialisation. Alors tous les paramètres de ce réseau sont enregistrés pour un
usage ultérieur.
3.5 Méthodologie "online"

La méthode online est une suite logique de la méthode offline et se traduit par une
utilisation des réseaux précédemment optimisés en mode opérationnel et intégrés ou non
dans l'ensemble du modèle HYDROTEL. Dans un cadre opérationnel, la prévision ne se
fait pas seulement au pas de temps unitaire mais en continu aussi pour le court, le moyen
et le long terme. Dans un cadre où la prévision hydrologique journalière est tributaire des
données de prévisions météorologiques, comme c'est ici le cas, il serait justifié de limiter
la prévision hydrologique en continu aux 14 jours car cela correspond également au
62
terme des meilleures prévisions météorologiques. Des tests ont été effectués également
pour 30 et 45 jours.
Dans un cadre opérationnel, l'utilisation successive des réseaux de neurones au-delà du
deuxième pas de temps consiste à utiliser en entrées les prévisions antérieures pour
effectuer les prévisions aux pas de temps suivants. Quel que soit le modèle, une telle
utilisation suppose un modèle suffisamment précis car la prévision à chaque pas de temps
occasionne des erreurs qui, en s'accumulant, peuvent provoquer à terme une divergence
entre les valeurs calculées et observées. Ce problème peut facilement s'observer avec les
perceptrons multicouches ouverts où il n'existe pas une mise à jour des poids des
réseaux. Lorsqu'ils ne sont pas intégrés dans le modèle HYDROTEL, le test en continu
peut s'effectuer sur les six bassins qui ont servi pour leur mise en œuvre. Par contre, pour
les réseaux intégrés dans le modèle HYDROTEL la méthode a besoin d'être appliquée
sur un bassin où les UHRHs seront définies avec des paramètres de terrains pour
permettre une comparaison des débits calculés avec ceux observés. Pour cela le bassin
versant de Gatineau, où le modèle HYDROTEL a déjà été utilisé, servira pour le test.
3.5.1 Le bassin versant de Gatineau

Situé dans la portion Sud-ouest du Québec, le bassin versant de Gatineau, quatrième en
importance dans cette partie de la province, après ceux des rivières des Outaouais,
Saguenay et Saint-Maurice, a une superficie de 23 724 kilomètres carrés. Cette superficie
ne comprend pas le bassin versant du réservoir Cabonga. Ce réservoir a deux exutoires et
l'eau est normalement rejetée vers le réservoir Dozois et et dans la Rivière des Outaouais.
Un débit réserve minime alimente la rivière des Gens de Terre, affluent du
réservoir Baskatong. Le bassin de Gatineau se loge dans la région hydrographique de
l'Outaouais et de Montréal, entre les bassins versants des rivières du Lièvre à l'est,
Coulonge à ouest et Saint-Maurice au nord (voir Carte 3.1) Comme tous les bassins
versants du Québec, celui de Gatineau enregistre aussi bien des précipitations liquides
(pluies au printemps, en été et en automne) que solides (neiges en hiver). La neige est
traitée par le module «évolution et fonte du couvert nival » et aboutit sous forme de
précipitations liquides dans le module BV3C. Le bassin enregistre annuellement entre
800 et 1000 mm d'eau et entre 200 et 250 cm de neige avec des températures moyennes
63
entre 3 et 5 degrés Celsius. Les tests y sont effectués pour respectivement 3, 7, 14, 30 et
45 jours.
Carte 3.1 Localisation du bassin de la rivière Gatineau (source : www.comsa.org)
64
3.6 Conclusion
Dans ce chapitre, la méthodologie qui sera mise en œuvre pour la réalisation du projet a
été exposée. Les limites des réseaux de neurones sont décrites. Ces limites amènent à
rechercher une base de données diversifiées pour leur mise en œuvre. Pour cela en plus
d'utiliser des bassins issus de zones climatologiques différentes, des cartes auto-
organisatrices seront utilisées pour classer les résultats de simulation de BV3C. Les
différents réseaux de neurones seront mis en œuvre à partir d'échantillons provenant des
différentes classes. La mise en œuvre se fera en deux phases. Une première phase où les
réseaux seront optimisés et testés à un pas de temps de prévision et une deuxième phase
où ils seront utilisés en boucle.
65
4. Résultats
66
Ce chapitre regroupe l'ensemble des résultats obtenus en appliquant la méthodologie
développée dans les précédents chapitres. Pour faciliter la lisibilité, les résultats sont
présentés en quatre parties. La première partie porte sur les résultats de la classification
selon les cartes auto-organisatrices de Kohonen, dont l'objectif est de réduire la taille des
séries d'apprentissage, tout en conservant l'essentiel de leurs qualités intrinsèques. La
performance des différents réseaux mis en œuvre pour simuler le module BV3C
d'HYDROTEL est décrite au sein de la deuxième partie. Ces réseaux, tout comme BV3C,
combinent l'information pédologique au climat au cours du plus récent pas de temps, pour
calculer les nouveaux états de la teneur en eau et de l'écoulement latéral à trois
profondeurs au sein de colonne de sol ciblée. Cette première analyse permet d'évaluer
l'ampleur des écarts entre BV3C et son clone. Toutefois, les modèles hydrologiques de
l'envergure d'HYDROTEL sont généralement exploités en continu, c'est-à-dire sur une
longue série de pas de temps. Il est donc essentiel que l'analyse de la qualité du module-
clone comporte également une évaluation pour laquelle les deux modules sont exploités
pour des séquences climatiques de longueurs variées. C'est l'objet de la troisième partie
de ce chapitre. Pour terminer l'analyse, le module-clone est substitué au module BV3C au
sein d'HYDROTEL afin d'évaluer l'influence des écarts des deux modèles-frères à
simuler des débits : l'objet principal du modèle hydrologique HYDROTEL. L'application
présentée en quatrième partie de ce chapitre porte sur le bassin versant de la rivière
Gatineau, pour lequel la calibration des paramètres a été préalablement effectuée par
Hydro-Québec. Cette dernière évaluation porte à la fois sur la qualité de la simulation des
débits et sur le temps de calcul requis par les deux modèles-frères.
4.1 Résultats de la classification de Kohonen

Comme décrit au chapitre 2, la classification de Kohonen permet de répartir un jeu de
données, pouvant inclure une ou plusieurs variables, en un nombre prédéterminé de
classes. Chaque classe contient alors des éléments statistiquement semblables, c'est-à-dire
ayant un écart-type plus faible que l'écart-type du jeu initial de données. La classification
de Kohonen permet par exemple de répartir la série en faibles, moyennes et fortes valeurs.
Dans le cas présent, où les meilleurs réseaux de neurones sont ceux conçus à partir d'une
vaste base de données, la classification permet de créer une nouvelle base de données, de
67
taille restreinte mais aux propriétés statistiques semblables, en assemblant des
échantillons provenant d'un prélèvement dans chaque classe. On veillera cependant à ce
que la série qui en résulte ait la taille nécessaire pour la mise en œuvre de réseaux de
neurones. Selon Anctil et al. (2004), la performance des réseaux de neurones peut être
limitée lorsque la base de données hydrologique manque à couvrir l'étendue des
événements possibles. Par exemple, entre 3 et 5 ans de données journalières sont
nécessaires à l'obtention de bons résultats.
La base de données cumulée des six bassins versants retenus couvre une série longue de 1
204 000 valeurs résultant de la simulation de BV3C sur les 6600 UHRHs pour chacun de
28 paramètres à l'étude. Pour chaque bassin, le tableau 4.1 présente le pourcentage
d'occurrence des groupes tirés de la classification de Kohonen. Une illustration est
également présentée à la figure 4.1 pour le bassin versant de la rivière San Juan.
68
Tableau 4.1 : Répartition des données par classe
Classes San Juan (%) Serein(%) Saltfork(%) Volpajola(%) Leaf(%) Kavi(%)
1 26.32 10.57 4.11 6.17 3.84 6.39
2 31.37 8.51 36.42 3.74 4.57 4.20
3 7.32 52.28 16.39 5.84 7.96 3.01
4 3.54 5.92 3.12 3.21 3.84 2.55
5 9.48 5.70 6.16 5.80 5.85 7.03
6 3.91 5.60 19.38 6.53 7.11 2.88
7 7.02 2.19 5.20 18.69 1.70 8.39
8 4.47 6.20 3.19 18.87 23.49 6.79
9 6.57 3.03 6.02 31.17 41.65 58.76
Total 100 100 100 100 100 100
Figure 4.1 : Représentation graphique des données de Sanjuan par classe
En retenant une variable parmi les 28, par exemple la précipitation journalière, on peut
s'apercevoir de l'homogénéité de chacune des classes (voir tableau 4.2 qui montre les
résultats de Kavi). Cette homogénéité se traduit par un écart type plus faible que celui de
69
la série pris dans son ensemble (colonne 5). Une telle homogénéité s'observe pour
chacune des 28 variables et pour chacun des six bassins.
Tableau 4.2 : Kavi, caractéristiques des précipitations par classe
Classe Max (mm) Min (mm) Moyenne (mm) Ecart type (mm)
1 64.00 23.50 33.15 8.04
2 23.10 16.50 19.35 1.74
3 12.80 9.90 11.02 0.91
4 16.10 12.90 14.27 1.05
5 9.60 6.80 8.18 0.81
6 1.40 0.80 1.00 0.16
7 6.40 3.40 4.94 0.88
8 3.30 1.40 2.32 0.53
9 0.60 0.00 0.02 0.09
Kavi 64.00 0.00 4.81 9.12
Pour chaque bassin, ce sont 9000 éléments tirés proportionnellement à la taille de chaque
classe qui ont été retenus pour la mise en œuvre des réseaux de neurones. Ces 9000
éléments correspondent à un peu plus de 24 ans de données journalières. Rapportés à
l'ensemble de la série par bassin, ces données correspondent à 7.47 %o, ce qui est un
rapport très faible. Un réseau capable de généraliser sur le reste des données devrait
pouvoir l'être au delà des bassins qui ont servi à l'étude. En mettant ensemble les
échantillons des six bassins, on obtient une série de 54 000 éléments, ce qui correspond à
près de 148 années de données journalières intégrant des caractéristiques
hydrométéorologiques de 6 différents bassins et c'est à partir de cette série que sont
dimensionnés les différents réseaux de neurones. L'optimisation se fera sur les deux tiers
de la série et le test sur le tiers restant.
70
4.2 Mise en œuvre des réseaux
4.2.1 Le réseau des teneurs en eau (0,, 02, 03)
Le réseau des teneurs en eau, comme décrit au chapitre 3, possède 3 sorties, soit une
valeur pour chacune des trois couches de sol. Les variables qui ont servi à la mise en
œuvre de ce réseau sont : les précipitations au pas de temps considéré (Pt), les teneurs en
eau au pas de temps précédent (Of**, 92t_1, 93 t] ), les caractéristiques de sol (le coefficient
de ruissellement à saturation Ks, le potentiel matriciel à saturation i|/s, la teneur en eau à
saturation 9S, l'indice des vides X), l'évapotranspiration de chacune des trois couches (etri,
etT2, etr3), et l'épaisseur de chacune des trois couches (ei, e2, e3). Ces variables ont été
retenues pour les tests en raison de l'importance qu'elles peuvent avoir sur les teneurs en
eau et de leur présence dans les équations différentielles résolues par BV3C. En utilisant
la méthode constructive pour la sélection des variables, la figure 4.2 montre la variation
de la somme des trois erreurs en fonction du nombre de variables. C'est en effet la somme
de ces trois erreurs que l'on cherche à minimiser dans l'optimisation du réseau de
neurones.
71
16
14
12
10
8
LU
CT)
W 6
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Nombre de variables
Figure 4.2 : variation de l'erreur en fonction du nombre de variables pour le réseau des
teneurs en eau 9i, 92, et 93
Ce graphique permet de retenir les dix premières variables pour la modélisation des
teneurs en eau. Il faut noter que ce choix se veut surtout prudent et subjectif. La liste des
variables considérées et retenues est compilée au tableau 4.3. D'après ce tableau, les
teneurs en eau au pas de temps précédent ont une influence plus importante que toutes les
autres variables sur la sortie de ce réseau de neurones. Ce constat confirme que les
réseaux de neurones sont de bons modèles de mise à jour où les valeurs antérieures de la
variable modélisée sont les meilleures variables d'entrée. Les précipitations, d'où
proviennent les apports en eau, constituent aussi une des variables essentielles. De ce
tableau, il ressort également que les paramètres physiques du sol ont une influence plus
importante que les épaisseurs de sol des UHRHs. Ainsi les variables telles la teneur en
eau à saturation, le coefficient de perméabilité à saturation, le potentiel matriciel à
saturation constituent des variables qui viennent bien avant les évapotranspirations des
72
différentes couches et les épaisseurs des couches. L'évapotranspiration des première et
deuxième couches se révèlent aussi être des variables importantes du modèle. En général,
l'épaisseur de la deuxième couche est plus importante que la première justifiant une
évapotranspiration plus importante dans cette couche que dans la première. Quant à la
troisième couche bien qu'elle ait une épaisseur en général plus importante que les deux
autres, située à plus grande profondeur, son évapotranspiration est en général plus faible
et ne contribue pas pour beaucoup dans les variations des teneurs en eau des différentes
couches. Quant aux épaisseurs des différentes couches, le graphique montre qu'il est
possible de s'en passer dans la modélisation des teneurs en eau, de même que l'indice des
vides car leur ajout n'apporte pas une amélioration notable des résultats.
Tableau 4.3 : Variables des différents modèles
\Rang
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Réseaux^.
91„ 92„ 93, 02,., ei,., 93,., P, K, e$ Vs etrl, etr2, A ^2 etr3, e. e3
Ql, Pt Vs 82,., es 93, 92, 03,, ei,., 61, Ql,-, etr2, etrl, etr3, e. e2 e3 Ks S X
Q2, Qu-i *2J 02J-1 Vs S e2 es ks e etr2

6M 3j
4.2.2 Le réseau de neurones de l'écoulement de base (Q2)

Comme pour les autres réseaux, les variables qui ont servi à la mise en œuvre du réseau
de Q2 dérivent de celles utilisées par BV3C. Elles intègrent aussi bien les paramètres du
sol que les caractéristiques de l'UHRH pouvant avoir une certaine influence sur ce débit.
Ce débit est également influencé par l'état d'humidité du sol de sorte que les variables qui
ont servi à la mise en œuvre de ce réseau sont le débit Q2 au pas de temps précédent, la
teneur en eau aux pas de temps actuel et antérieur (92t ,02t-i), le coefficient de
ruissellement à saturation Ks, la pente S, le potentiel matriciel à saturation, v|/s, l'épaisseur
de la deuxième couche e2, la teneur en eau à saturation 9S et l'évapotranspiration dans
cette couche etr2t. À ces paramètres nous avons ajouté les teneurs en eau actuelles dans
les première et troisième couches (91t, 93,) qui ont potentiellement une influence sur ce
débit. La figure 4.3 montre la variation de l'erreur en fonction du nombre de variables
pour ce débit où il est bien perceptible que neuf variables suffisent à modéliser ce débit
73
bien que ce choix soit un peu subjectif. La valeur de ce débit au pas de temps précédent
constitue la première variable de choix pour ce modèle. Le débit de la deuxième couche
est également influencé par les teneurs en eau actuelle et au pas de temps antérieur qui
s'explique par le fait que l'état d'humidité de cette couche dépend de la quantité d'eau qui
en est sortie. Le potentiel matriciel à saturation, la teneur en eau à saturation et la
perméabilité à saturation constituent également les paramètres physiques ayant une
influence sur ce modèle de débit. La pente S, qui détermine la direction d'écoulement et la
quantité d'eau écoulée intervient aussi comme variable importante dans ce modèle. La
teneur en eau actuelle dans la première couche influe aussi sur la quantité d'eau qui sort
de la deuxième couche comme le montre sa présence dans ce modèle.
0.8
0.7
0.6
iCT 05
b
E
LU 0.4
a.
en 0.3
0.2
0.1
Nombre de variables
Figure 4.3 : Variation de l'erreur en fonction du nombre de variables pour le réseau de Q2
74
4.2.3 Le réseau de neurones du ruissellement (Qi)
Les variables qui ont servi à la mise en œuvre du réseau de ruissellement sont les
précipitations au pas de temps t, les teneurs en eaux des trois couches au pas de temps
précédent (91t-i, 92t.i, 93,.i), les teneurs en eau au pas de temps t (9/, 021, 93l),
l'évapotranspiration de chacune des trois couche (etri, etr2, etT3), la pente (S) et les
paramètres de sol (Ks, i|/s, 9S). La liste de ces paramètres a été retenue au regard des
entrées utilisées dans BV3C.
La modélisation du ruissellement fut la plus difficile en raison du comportement de cette

variable. Sur certains bassins il est souvent nul et connaît par moment des variations
brusque passant de valeurs nulles à de fortes pointes. La série retenue à ce stade pour la
modélisation des teneurs en eau et du débit de la deuxième couche n'a donc pas convenu
pour le modèle du ruissellement. Les réseaux ont en effet des difficultés à mimer des
séries dominées par une valeur constante. L'analyse de la série résultant du tirage montre
que le ruissellement est nul dans 96% des cas. Les nombreuses tentatives d'utiliser cette
série pour l'optimisation des réseaux de ruissellement se sont ainsi avérées inefficaces. Il
fallait donc trouver une relation permettant d'extraire de la série un certain nombre de
ruissellements nuls. Cela a consisté à exclure de la série d'entraînement les entrées aux
pas de temps dont on connaît a priori le ruissellement nul qui en résulte. Ainsi il est trivial
que le ruissellement soit nul lorsque la précipitation l'est, tout comme il est impossible
d'observer du ruissellement sur un sol non saturé où l'intensité de pluie est inférieure à la
capacité d'absorption maximale du sol (coefficient de perméabilité à saturation). Une fois
ces cas exclus, seulement 4% de la série initiale subsistait, ce qui ne permettait plus la
mise en œuvre du réseau de neurones. Une nouvelle série a donc été reconstituée
spécifiquement pour le dimensionnement du réseau de neurones de ruissellement. La
figure 4.4 montre l'évolution de l'erreur en fonction du nombre de variables. Cette figure
couplée avec le tableau 4.3 permet de se rendre compte de la pertinence des variables qui
interviennent dans ce modèle. Les précipitations constituent de toute évidence la
principale variable dans la mesure où le ruissellement est la portion non infiltrée des
précipitations. Les précipitations arrivent avant même le ruissellement au pas de temps
précédent qui selon la classification est la dixième variable en termes de pertinence. Cela
indique la faiblesse de relation qui existe entre les ruissellements actuel et antérieur et
75
explique toute la difficulté de modélisation d'une telle variable par les réseaux de
neurones qui sont beaucoup plus performants dans la mise à jour. Le ruissellement est
également influencé par l'état de l'humidité de chacune des trois couches dans la mesure
où la capacité d'absorption du sol dépend du niveau de saturation sur une certaine
profondeur. Les paramètres physiques du sol tels le potentiel matriciel à saturation et la
teneur en eau à saturation sont également des variables à retenir pour ce modèle. À ces
variables s'ajoutent l'évapotranspiration de la deuxième couche qui en général est la plus
importante de celles des trois couches. Ainsi, avec un peu de subjectivité, onze variables
ont été retenues pour la modélisation du ruissellement.
76
8 ir
7 ■
LU
DU
0 8 10 12 14 16 18 20
Nombre de variables
Figure 4.4 : Variation de l'erreur en fonction d u nombre de variables, Qi
Une fois les variables d e chacun d es 3 réseaux connues, la méthod e essai et erreur est
utilisée pour la détermination d u nombre de nœuds dans la couche cachée. Le tableau 4.3
récapitule les variables qui ont été utilisées pour la mise en œuvre de chaque réseau. Les
variables y sont classées par ord re d e pertinence et les cellules grises contiennent celles
retenues pour chaque réseau.
4.2.4 Le modèle de l'écoulement retard é (Q 3 )

Tel que pour BV3C, le d ébit d e la troisième couche s'obtient d epuis la relation
déterministe suivante :
Q 3 =Kr.03.e 3 [4.1]
77
Avec Kr (h"')le coefficient de récession, 93 la teneur en eau de la troisième couche et e3(m)
l'épaisseur de la troisième couche. Cette relation peut-être évaluée dès que 03 ait été
calculé par le premier réseau de neurones.
Le tableau 4.4 résume les caractéristiques et les résultats en terme d'efficacité des
différents réseaux sur le tiers restant de l'échantillon qui a servi à la validation. Ce tiers
représente une série longue de 18 000 valeurs journalières. Ce tableau fait ressortir les
bonnes performances des réseaux de neurones avec, pour chacun des quatre modèles, une
efficacité proche de l'unité. L'efficacité du réseau de neurones des teneurs en eau est
légèrement supérieure à celle des modèles de ruissellement et de l'écoulement de base.
Cela peut s'expliquer par le fait que les deux derniers modèles utilisent comme entrées les
résultats du premier modèle. Avec ses dix variables, ses vingt nœuds et trois sorties, le
réseau de neurones des teneurs en eau est également le plus complexe. Pour une variable
de sortie, le réseau de neurones du ruissellement est aussi complexe avec onze variables et
dix-huit nœuds témoignant de la difficulté de modélisation de cette variable tandis que
celui de l'écoulement de base est le moins complexe avec ses huit nœuds et neuf
variables. Le modèle de l'écoulement retardé a pratiquement les mêmes performances que
celui des teneurs en raison de la relation dont elle résulte. La série utilisée pour le test ne
constitue qu'une toute petite partie de la base de données disponible d'où la nécessité
d'étendre les tests sur le reste de la base afin de valider l'ensemble des modèles mis en
œuvre.
Tableau 4.4 : Caractéristiques des différents modèles
Réseaux Nombre de variables Nombre de nœuds Efficacité

~9Ï Ô99
02 10 20 0.99
93 0.99
QÏ 11 18 Ô99
Q2 9 8 0.99
Q3 0.99
78
4.3 Performance des réseaux pour l'ensemble de la base
de données
Dans cette section, les réseaux de neurones précédemment mis en œuvre sont testés sur
l'ensemble des UHRHs des six bassins versants. Sur chaque UHRH, les tests portent sur
les éléments de la série qui n'ont servi ni à l'optimisation ni au test de ces réseaux. Au
total, les tests portent sur les 100 UHRHs par chacun des 11 types de sol par bassin
versant.
Pour rappel, les 11 types de sol sont ceux de la classification de Clapp et Hornberger
(1978). Ces sols sont principalement le sable (sand), l'argile (clay), le limon (silt), le loam
(loam) et une combinaison de ceux-ci. Numérotés de 1 à 11 allant du plus grossier (sable)
au plus fin (argile), ces sols sont respectivement, en reprenant les mêmes termes que les
auteurs : (1) sand, (2) loamy sand, (3) sandy loam, (4) loam, (5) silty loam, (6) sandy clay
loam, (7) clay loam, (8) silty clay loam,, (9) sandy clay, (10) silty clay, (11) clay. Les
caractéristiques physiques de ces sols sont dans l'annexe 1 et vont ainsi du plus perméable
au moins perméable.
Pour l'ensemble des six, bassins ce sont donc au total 6600 UHRHs sur lesquelles se sont
fait les tests et les critères retenus à ce stade pour l'appréciation sont celui de l'efficacité
de Nash et Sutcliffe (1970) et du bilan. Ces critères peuvent être calculés par UHRH pour
chaque variable modélisée ou par ensemble de types de sol ou par bassin. Il faut noter
qu'en recourant à toutes les données, on mettra inévitablement les réseaux de neurones en
extrapolation à quelques reprises. À ce stade de l'étude, les écoulements latéraux des
UHRHs ne peuvent pas être combinés entre eux pour produire le débit d'un cours d'eau,
car la modélisation du routage n'est pas incluse dans BV3C - elle est plutôt effectuée par
des modules subséquents au sein d'HYDROTEL. En revanche, un test de ce genre a été
effectué, tel que discuté dans une autre section de ce chapitre.
Les résultats de performance pour chacun de 6600 UHRS sont compilés aux tableaux 4.5
et 4.6, selon les onze types de sol. Ces critères peuvent être positifs, négatifs, ou encore
impossibles à calculer lorsque les valeurs simulées sont toutes nulles ou très faibles
(division par zéro). Les teneurs en eau n'y figurent pas car, pour ces variables, les deux
critères sont tous positifs. Ces tableaux montrent que, sur certains types de sol, le
ruissellement (Qi) est quasi-inexistant. C'est le cas des sols 1, 2, 3, 4 et 5 qui sont
79
caractérisés par des valeurs élevées de coefficients de perméabilité (Ks), d'indice de
distribution de pores (k) et de faibles potentiels matriciels (\|/s) à saturation. Ces trois
caractéristiques physiques confèrent à ces sols de grandes capacités d'infiltration et, de ce
fait, expliquent pourquoi le ruissellement s'y produit rarement. Ainsi, sur les 600 UHRHs
du sol 1, des événements de ruissellement sont notés pour seulement une dizaine
d'UHRHs, alors que pour le sol 2, une soixantaine d'UHRHs ont généré du ruissellement.
Cette rareté se répercute directement sur le nombre d'exemples disponibles pour la mise
en œuvre des réseaux de neurones. Les événements de débit de la deuxième couche et de
la troisième couche surviennent en contrepartie plus souvent, de sorte que les deux
critères peuvent y être calculés pour l'ensemble des UHRHs. Tel que compilé aux
tableaux 4.5 et 4.6, le critère d'efficacité (E) présente quelques valeurs négatives, tandis
que le critère de bilan (B) ne présente de valeurs négatives que pour Qi et Q2. Dans
l'ensemble, on notera que les valeurs négatives des deux critères représentent moins de
10% du total des critères calculés.
80
Tableau 4.5 Répartition du critère d'efficacité suivant le signe
Sol 1 2 3 4 5 6 7 8 9 10 II
Impossible 591 536 421 309 296 170 150 64 0 0 0
Q. Négatif 2 20 40 49 14 21 5 1 0 0 0
Positif 7 44 139 242 290 409 445 535 600 600 600
Impossible 0 0 0 0 0 0 0 0 0 0 0
0: Négatif 1 2 3 12 18 24 45 17 23 50 36
Positif 599 598 597 588 582 576 555 583 577 550 564
Impossible 0 0 0 0 0 0 0 0 0 0 0
Qa Négatif 11 14 9 1 1 2 3 0 0 0 0
Positif 589 586 591 599 599 598 597 600 600 600 600
Tableau 4.6 Répartition du critère de bilan suivant le signe

Sol 1 2 3 4 5 6 7 8 9 10 11
Impossible 591 537 421 311 296 171 150 64 0 0 0
Q, Négatif 3 29 47 70 12 21 7 1 0 0 0
Positif 6 34 132 219 292 408 443 535 600 600 600
Impossible 0 0 0 0 0 0 0 0 0 0 0
0: Négatif 2 1 6 12 14 13 55 22 31 33 27
Positif 598 599 594 588 586 587 545 578 569 567 573
Impossible 0 0 0 0 0 0 0 0 0 0 0
Q3 Négatif 0 0 0 0 0 0 0 0 0 0 0
Positif 600 600 600 600 600 600 600 600 600 600 600
Les figures 4.5 et 4.6 présentent les cinq caractéristiques statistiques principales de
chacun des deux critères positifs, à savoir le minimum, le percentile 25%, la moyenne, le
percentile 75% et le maximum pour l'ensemble des six variables modélisées : les trois
teneurs en eau et les trois débits. Ces trois caractéristiques ont été calculées à partir des
critères positifs dont le nombre par type de sol est indiqué aux tableaux 4.5 et 4.6. Pour
les trois teneurs en eau, la tendance générale montre des valeurs d'efficacité (E) moyennes
proches de l'unité. Cette moyenne se trouve presque confondue avec les trois autres
valeurs statistiques extrêmes que sont le percentile 25%, le percentile 75% et le maximum
et ce, pour les onze types de sol, témoignant des bonnes performances générales des
réseaux de neurones dans la prévision de ces variables à un pas de temps. Pour la teneur
en eau de la seconde couche, la valeur minimale de l'efficacité (E) est même au dessus de
81
0.8 tandis que pour la teneur en eau 1, cette valeur est au dessus de 0.8 sauf pour les sols 1
et 2. L'efficacité minimale positive pour la teneur en eau 3 connaît bien des fluctuations
allant de presque zéro au sol 1 à des valeurs au dessus de 0.80 pour les sols 5, 8 et 11.
La figure 4.7 montre l'efficacité des teneurs en eau de la première couche du bassin
versant Serein. C'est sur ce bassin que l'efficacité de la teneur en eau 3 a enregistré la plus
faible valeur positive 0.03. Cette figure montre cependant une bonne répartition de
l'efficacité sur les 100 UHRHs du sol 1, la valeur minimale isolé, constituant un cas
particulier. Une visualisation des prévisions des teneurs en eau de la troisième couche sur
l'UHRH qui a enregistré la plus faible efficacité positive (0.03) donne la figure 4.8. La
mise à l'échelle montre que la variation de cette teneur est peu importante, de 0.412 à
0.417. La faible valeur de l'efficacité ne traduit donc pas une mauvaise qualité des
prévisions sur cette UHRH mais plutôt la difficulté des réseaux de neurones à faire des
prévisions dans un intervalle de variation de la teneur en eau très réduit. Cette explication
est confirmée par le deuxième critère de bilan (figure 4.6 c), dont les valeurs approchent 1
pour la teneur en eau de la troisième couche de sol. Pour rappel, ce critère de bilan
compare la somme des prévisions à la somme des observations et une valeur proche de 1
témoigne d'un bon bilan. Dans l'ensemble, on peut conclure que les réseaux de neurones
reproduisent bien les teneurs en eau dans chacune des trois couches de sol.
L'efficacité de Qi présente une certaine dispersion avec une valeur moyenne inférieure à
0.70 pour les deux premiers sols et inférieure à 0.80 pour les deux sols suivants. Les
hautes valeurs moyennes sont enregistrées du sol 5 au sol 11. Les valeurs de percentile
25% et de percentile 75% suivent la même tendance que la valeur moyenne. On peut
facilement établir une relation entre le tableau 4.5 et la figure 4.5 et constater que les
faibles valeurs d'efficacité affectent les sols pour lesquels les événements de ruissellement
sont rares. Cela peut s'expliquer par le fait que ces sols proposent peu d'exemples pour de
la mise en œuvre des réseaux de neurones, ce qui limite leur capacité de généralisation.
En plus, le débit Qi est difficile à modéliser en raison de ses fluctuations importantes sur
ces sols notamment sableux où, avec de fortes capacités d'absorption, le ruissellement s'y
déroule souvent sur de courtes périodes de temps. Lors de la simulation de BV3C, il n'est
pas rare de voir le ruissellement passer de zéro à des valeurs élevées (figure 4.9). Ces
fluctuations créent des discontinuités importantes dans la série de ruissellement que les
82
réseaux de neurones ont des difficultés à simuler. Aussi sur certaines UHRHs, le
ruissellement n'est survenu que quelques rares fois (figure 4.9) au cours de la période de
simulation, ce qui statistiquement rend plus incertaines les valeurs d'efficacité et de bilan
calculées et explique en grande partie leurs faibles valeurs. Pour la modélisation de Qi, on
retiendra donc que les réseaux de neurones simulent particulièrement bien les sorties de
BV3Csurlessols5àll.
Les réseaux sont plus performants à simuler le débit Q2 sur l'ensemble des 11 sols,
comme le montre la figure 4.5e où le percentile 25%, la moyenne, le percentile 75% et le
maximum des deux critères sont presque confondus et proches de l'unité. Cela s'explique
en partie par le fait que le débit Q2 fluctue lentement, ce qui favorise une modélisation
exploitant l'autocorrélation (la valeur au pas de temps précédent comme variable
d'entrée). Il existe cependant des cas où les critères d'efficacité et de bilan enregistrent de
faibles valeurs comme le montre les valeurs minimales tracées sur les figures 4.5 et 4.6;
d'autres valeurs sont même négatives (tableau 4.5 et tableau 4.6). Sur les figures 4.5 et 4.6
une attention particulière doit être portée aux échelles des ordonnées qui diffèrent d'une
variable à l'autre. L'analyse détaillée de ces valeurs faibles ou négatives montre qu'elles
surviennent dans des circonstances similaires. La figure 4.10 montre un cas d'UHRH à
efficacité négative alors que l'on a de bons résultats de simulation. Cela s'expliquerait par
les faibles valeurs simulées (inférieures à 0.1 mm) qui rendent très sensibles les formules
d'efficacité et de bilan utilisées. En effet, de trop faibles valeurs des dénominateurs
entraînent ces critères vers des valeurs faibles voire négatives. Le modèle enregistre
également de faibles valeurs d'efficacité et de bilan lorsque, sur une UHRH, le domaine
de variation de Q2 est étroit (figure 4.10).
La modélisation de Q3 présente les meilleures performances basées sur les deux critères
sélectionnés. Rappelons que Q3 n'est pas le résultat d'un modèle neuronal mais résulte
d'une équation déterministe. La qualité de ses prévisions dépend plus de celle de 03 et, tel
que déjà noté précédemment, les réseaux de neurones sont très performants dans la
prévision de ©3. Ainsi, pour Q3 si l'efficacité présente des valeurs minimales faibles, le
critère de bilan présente des valeurs minimales proches de 1. Tout comme précédemment,
c'est essentiellement sur les UHRHs pour lesquels la variation de Q3 est petite que l'on
observe ces plus faibles valeurs d'efficacité.
83
a) b)
_ U 0.90
1 2 3 4 5 6 7 8 9 10 11
Sol
c) d)
83 VI
■min —■—perc25 —*—moy —x—perc75 —*—max •perc25 —é—moy —X—perc75 —*—max
t.
9 10 11
e) 0
Q: Q3
-min —■—perc25 —*—moy —*—perc75 —*—max ■min —■—perc25 k— moy ■perc75 —«—max
fad -
Figure 4.5 : Efficacité des différents modèles
84
-min ■ perc25 —*—moy —*—perc75 —•—max
-min —■—perc25 —A—moy —-*—perc75 —*—max
s * - ~ ^ ^ f e '_T__^tIL ■ j
0.80 3 i r -*— - ^
0.60 i
0.40 - y^~~~~^m— -J-

0.98
'» *^^ ^
0.00 - T 1 ■ 1 , , 1
0.97
4 5 6 7 9 10 II
2 3 4 5 6 7 8 9 10 11
Sol Sol
e) 0
-min —■—perc25 —A—moy —*—perc75 —"*—max -min —■—perc25 —*—moy —X—perc75 —if—max
1.01
1.00 j j R M. X * ^ = *
0.80 1.00
0.60
60 0.99
0.40
0.98
0.20
0.00 =• ♦«=♦ 0.97

2 3 4 5 6 7 8 9 10 11 6 9 10 II
Sol
Figure 4.6 : Critère de bilan des différents modèles
85
i i i i i i
'
1
0.9
0.8
0.7
0.6
JC
M
z 0.5 ■ : - ■ ■
0.4
0.3-
—V
0.2 —V
e
0.1 — 3
' i i i i i i
10 20 30 40 50 60 70 80 90 100
UHRH
Figure 4.7 Efficacité du modèle de teneur en eau sur les UHRHs du bassin versant de
Serein, sol 1)
i i i i i i i i i
~^H *N ■ « 1 ^ ~*
0.416
0.414
0.412
0.41
«,(RN)
0.408 «, (BV3Q
0.406
0.404
0.402
n , 1 i
0 100 200 300 400 500 600 700 800 900 1000 1100
Jours
Figure 4.8 Exemple de simulation 03 sur une UHRH du bassin versant de Serein pour le
soil
86
12 T 1 1 r I I IE
O^RN)
01 (BV3Q
10
j......k
■ ' I l
0 100 200 300 400 500 600 700 800 900 1000 1100
Jours
Figure 4.9 Exemple de simulation de Qi sur une UHRH
0.6
0.4
0.2 J __L...„__'_ _ _ _ _ _ ! I J L . . J.. 1 ■
I i[ | ; ; .mi — j j t—j |
E
J. 4.2 -. 1 r 1 T i ---T -r -"i T 1
-0.4 , r , T 1 7 J. , f (
-0.6 - - - " ^ - - r - - t - - - - - - T - - - - - - r - - - - - , r -, m- m - , -
-1
0 100 200 300 400 500 600 700 800 900 1000 1100
Jours
Figure 4.10 Exemple de simulation de Q2 sur une UHRH
87
Il est intéressant d'étudier la distribution statistique des valeurs du critère d'efficacité
calculées sur toutes les UHRHs et sur tous les bassins en test. La figure 4.11 présente les
fréquences cumulatives de l'efficacité pour chacune des six variables. On peut
s'apercevoir que la probabilité d'obtenir une efficacité inférieure à 0.80 est faible
(inférieure à 0.1) pour chacune des six variables confirmant les bonnes performances des
réseaux de neurones dans la simulation de BV3C au pas de temps unitaire. Cette figure
confirme également les meilleures performances des réseaux de neurones dans la
simulation des teneurs en eau par rapport aux débits. Ce qui se comprend quand on sait
que les teneurs en eau sont des variables d'entrée pour les modèles de débit qui intègrent
nécessairement les erreurs faites dans l'estimation de celles-ci. À cela il faut ajouter le fait
que dans la réalité les variations de débit dans le temps sont plus importantes et reliées à
celles des teneurs en eau rendant les débits plus difficiles à modéliser par les réseaux de
neurones que les teneurs en eau. En comparant les efficacités calculées sur la variation
temporelle des différentes variables (pointillé sur la figure 4.12), on se rend compte que
cette efficacité est du même ordre de grandeur pour les variables dQ3 et d03 tandis que
dQl et dQ2 présentent des valeurs d'efficacité légèrement meilleures que celles de d0i et
d02. Ce qui confirme le fait que les difficultés dans la modélisation des différents débits
sont dues en grande partie à leur forte fluctuation dans le temps.
88
■
! I ! I I i
0.9
Q2 " ■; p y \ ;
Q3
0.8 Q1
«1
0.7
e2 1— — r - - —t - ! _ _ _ _ - , _ _ - _ ! .f —
«s
t 0.6
E
_l
_
_
0.4
0.3
—,
0.2
0.1
! : : î : ! ,T>^J J r " '-^mrr-Zm-m-m-Ï-^ ^
__ , ,_ -.Ca
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Critère E
Figure 4.11 Fréquence cumulée de l'efficacité pour les modèles de simulation des six
variables.
0.9
M,
m-fjL-i
0.8
• i
yh
de 2
0.7
7?
dQ,
| 0.6
a
E /y
m
r .<
3
0.5 /-
§
f 0.4
S
\-f- r
0.3
J&*
<? y
0.2 y ^ :r
* . A m . * — - ^
.y
_ _ w ±--'-'_"'- \ — j-_r_f^m__._\-_m
0.1
**r
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Critère E
Figure 4.12 Fréquence cumulée de l'efficacité pour les variations des six variables.
89
4.4 Performance des réseaux utilisés en boucle
L'objet d'une modélisation hydrologique se limite rarement à une simulation sur une
durée réelle d'une heure ou d'une journée. Que la modélisation soit dite événementielle
ou continue, la série des débits simulés s'étire en fait sur plusieurs heures, jours ou même
à l'infini dans le cas théorique de la modélisation continue. Les modèles au pas de temps
journalier tels que BV3C et le jeu de réseaux de neurones développés dans le cadre de
cette thèse sont alors opérés en boucle, c'est-à-dire que les sorties d'une simulation
horaire servent de conditions aux entrées à la simulation suivante. Malgré la qualité
démontrée des réseaux de neurones développés, l'objectif de cette section est d'évaluer si
les faibles écarts entre BV3C et le jeu de réseaux de neurones développés vont amener les
deux modèles à diverger lorsqu'exploités en boucle.
4.4.1 Analyse des résultats selon différents horizons de

prévision
La simulation en boucle permet de faire des prévisions sur différents horizons. C'est de
cette manière que les réseaux mis en œuvre sont testés sur les six bassins versants. Pour
un tel test, on retient juste les premières valeurs observées ou connues (dans le cas présent
on retiendra les premières valeurs connues de BV3C) comme valeurs de départ des
prévisions. Dans le cas des perceptrons multicouches où les poids des réseaux ne sont pas
mis à jour pendant le test, une telle prévision peut conduire à terme à une divergence entre
les deux modèles. Pour cela, les tests sont faits sur des horizons de 3, 7, 14, 30 et 45 jours.
Pour chacun de ces horizons, les trois années de données sont divisées en séquences
successives sur lesquelles se font les prévisions. Mais l'appréciation de tels tests est
difficile en utilisant les mêmes critères que précédemment car, statistiquement, calculer
par exemple un critère d'efficacité sur une courte période de 3 ou 7 jours est peu
significatif. La moyenne des erreurs absolues (MAEs) sur chaque séquence a donc été
retenue comme critère d'appréciation. Pour chaque variable modélisée, les différents
MAEs calculées sur les différents bassins sont combinées pour l'ensemble des UHRHs.
La figure 4.13 montre la fréquence cumulée de ces MAEs pour chacune des variables
90
modélisée et pour des horizons de 3 jours, 7 jours, 14 jours, 30 jours et 45 jours. De cette
figure on peut tirer les constatations suivantes :
- Plus l'horizon de prévision est grand, plus les erreurs faites sur les prévisions sont
grandes, ce à quoi on pouvait s'attendre car les prévisions étant faites à partir des
prévisions antérieures, les erreurs vont s'accumulant et on devrait théoriquement
s'attendre à ce que les deux modèles divergent sur le long terme.
- L'analyse des erreurs de teneur en eau montre qu'elles sont inférieures à 0.005
notamment pour l'horizon de 3 jours avec une fréquence cumulée supérieure à
0.90 pour les trois teneurs en eau. Cette erreur, en terme relatif, vaut entre 1% et
15% si on la rapporte respectivement aux teneurs en eau maximales possibles
(teneurs en eau à saturation dont la valeur maximale est de 0.417) et minimales
possibles (teneur en eau au point de flétrissement dans le sable qui est de 0.033).
- En retenant 0.005 comme erreur acceptable des teneurs en eau, on se rend vite
compte que la fréquence cumulée décroît rapidement avec l'horizon de prévision
pour chacune des trois teneurs en eau. La fréquence passe de plus de 0.9 pour
l'horizon de 3 jours à moins de 0.5 pour l'horizon de 45 jours. La variation de
l'erreur en fonction de la fréquence cumulée n'est pas la même sur les teneurs en
eau pour les différents horizons de prévision. Si jusqu'à un horizon de 14 jours (2
semaines), la fréquence cumulée pour une erreur de 0.005 avoisine 0.70, elle
décroît vite pour atteindre 0.50 dès lors que l'horizon de prévision atteint 30 jours
et passe sous la barre de 0.50 pour un horizon de prévision de 45 jours.
- En retenant pour acceptable une erreur de 0.005 et une fréquence cumulée de 0.70,
on s'aperçoit qu'il faudrait limiter l'horizon de prévision à 14 jours (2 semaines);
au-delà, la fréquence prend de faibles valeurs (inférieures à 0.50) pour le même
niveau d'erreur.
- Les teneurs en eau étant des variables d'entrée des différents débits, le même
horizon de prévision est retenu pour ces derniers. Avec 14 jours comme horizon
de prévision, les différents débits présentent également de faibles erreurs. Pour une
fréquence cumulée de 0.80, l'erreur reste inférieure à 0.2 mm1 pour chacun des 3
débits (Qi, Q2, et Q3). Les erreurs calculées sur Qi sont beaucoup plus faibles
Il s'agit là de débit unitaire
91
(inférieure à 0.1 mm) mais l'on se rappellera que cette variable présente plus de
valeurs nulles pour des raisons déjà évoquées. Le débit Q2, qui a des valeurs plus
élevées, présente également des erreurs faibles. Pour l'horizon de prévision de
deux semaines, la fréquence cumulée est de l'ordre de 0.80 pour une erreur
d'environ 0.1 mm. Quant au débit Q3 dont les valeurs en général sont plus faibles
que celles de Q2, les erreurs sont encore plus faibles (inférieures à 0.1 mm même
pour un horizon de prévision de 45 jours pour lequel la fréquence cumulée atteint
0.90). Cela témoigne des bonnes performances des réseaux de neurones mis en
place même s'il faut garder en mémoire le caractère probabiliste d'une telle
analyse. Une variation brusque d'une des variables d'entrée peut entraîner une
divergence prématurée des différents modèles neuronaux mis en place.
92
le Yp^\ | j \ ►
3 ion»
7 jouis
14 j o u r .
ï
ut — — 30 j o u i *
' i ? \ i -, 45 j o u r .
11
OJ
0.2
0.1
tf I i i ! ! i i
0.005 0.01 0.015 0.02 0.025 0.03 0.035 i.04 0.045 0.05
~ 3 jours
- 7 jours
-14 jours
- 3 0 jours
l 0 4 - 45 jours
T
0.2 —
0.1 —
0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 0.05 0.2 0.4 0.0 0J, 1 1.2 1.4 1.C U
MAE MAE ni
ïï/fT
0.8
0.7
H ) I | j ; | [ |
: 3 jouis ■
ï 0.6 7 jouis
ï 0.5 f i f | j j |™ 14 jouis
S 30 jouis
= 04 45 jouis
T
-f :
i i i i i i ! ! !
0J 1 1.2 0.2 0.4 0.6 0J 1 1.2 14 1.C U
HAEIIIIIIII MAEliiiiul
Figure 4.13 Fréquence cumulée des erreurs (MAEs) selon l'horizon de prévision
4.4.2 Analyse des résultats selon les types de sols
Les résultats en prévision continue peuvent également être analysés selon les types de sol.
Sur chaque type de sol, pour l'horizon de prévision retenu, les différentes MAEs calculées
sur l'ensemble des bassins sont représentées sous forme de boîte à moustaches. La boîte à
93
moustaches (voir figure 4.14) est un outil d'analyse de données qui, d'après Benjamini
(1988), possède cinq propriétés lui conférant toute son utilité : (1) elle fait ressortir les
caractéristiques essentielles d'une base de données que sont la distribution, la symétrie et
les valeurs extrêmes; (2) la boîte à moustaches reste un bon compromis entre une
description détaillée et celle montrant les caractéristiques sommaires d'une série, ce qui
convient bien pour le cas présent en raison de la grande taille des données; (3) plusieurs
séries peuvent être comparées par simples tracés côte â côte de leur boîte à moustaches;
(4) la boîte à moustaches est très facile à illustrer, et (5) elle est d'une explication plus
simple aux utilisateurs des statistiques. Une boîte à moustaches se caractérise par sa base
définie par le premier quartile de la série et sa hauteur limitée par le troisième quartile.
Deux traits en pointillés relient la base et le sommet de la boîte respectivement aux
valeurs extrêmes supérieure, correspondant respectivement au sommet de la boîte plus 1.5
fois l'intervalle inter quantile et inférieure, correspondant à la base de la boîte moins 1.50
fois l'intervalle inter quantile. Les valeurs au-delà de ces deux traits horizontaux sont
représentés par des symboles "+". Les MAEs calculées sur l'ensemble des six bassins
sont regroupées par type de sol et représentées sous forme de boîtes à moustaches,
donnant lieu à 11 boîtes par variable correspondant aux 11 types de sol. Cela permet
d'observer la distribution des MAEs sur les 11 types de sol selon le terme de prévision
retenu. Pour de meilleures prévisions, la hauteur de la boîte doit être la plus petite possible
et proche de zéro, origine des ordonnées. Les figures 4.15 et 4.16 montrent les boîtes à
moustaches pour les teneurs en eau et les trois débits (Qi, Q2, et Q3) pour un terme de 14
jours, résultant des tests sur l'ensemble des bassins avec des réseaux de neurones non
intégrés dans le modèle HYDROTEL. Une attention particulière doit être portée aux
échelles des ordonnées qui diffèrent d'une variable à l'autre pour plus de lisibilité. Seuls
les résultats pour l'horizon de 14 jours sont représentés car, tel qu' observé plus haut, à
cet horizon les erreurs demeurent faibles pour les teneurs en eau. L'analyse des boîtes à
moustaches fait ressortir ce qui suit :
• Par rapport aux teneurs en eau, dans la première couche de sol, les réseaux de
neurones ont une précision semblable pour les onze types de sol avec des MAEs
en dessous de 0,01. Ces erreurs présentent cependant plus de valeurs extrêmes
pour les sols 1 à 4. Cela s'expliquerait par le fait que la teneur en eau dans la
94
première couche connaît de fortes fluctuations dues aux fortes capacités
d'infiltration de ces sols qui ont les caractéristiques physiques du sable ou proches
de celles du sable. Cela expliquerait également les nombreuses valeurs extrêmes
observées pour les teneurs en eaux dans la deuxième couche au niveau des mêmes
sols.
Par contre, la teneur au niveau de la troisième couche présente de faibles valeurs
d'erreurs quel que soit le type de sol. Cela pourrait s'expliquer par le fait qu'au
niveau de cette couche plus profonde, la variation de la teneur en eau est en
général plus faible et plus lente, une situation dans laquelle les réseaux de
neurones sont plus performants.
Au niveau d'une couche, les réseaux de neurones ont un comportement similaire
dans la simulation des teneurs en eau que dans la simulation du débit. Pour le
premier débit, les faibles MAEs au niveau des 4 premiers sols traduisent en grande
partie la rareté du ruissellement au niveau de ces sols. Sur les autres sols où le
ruissellement s'observe plus souvent, les erreurs demeurent en dessous de 0.5 mm.
Les boîtes à moustaches du débit de la deuxième couche révèlent des erreurs
décroissantes allant du sol 1 au sol 11. Cela pourrait s'expliquer par le fait que Q2
utilise comme variable d'entrée la teneur en eau de la première couche 0j et Ks.
Les fortes fluctuations de 0i peuvent être source de difficultés pour le réseau de
Q2. Quant à la perméabilité Ks à saturation, les erreurs de Q2 semblent lui être
proportionnelles. Ces erreurs vont en décroissant du sol 1 au sol 11 tout comme le
coefficient de perméabilité à saturation.
Les erreurs du débit Q3 ne semblent pas être reliées au type de sol comme le
montrent ses boîtes à moustaches qui traduisent un niveau de précision à peu près
égal sur les onze sols. Cela s'expliquerait par le fait que la simulation de la teneur
en eau au niveau de cette couche présente une erreur de même ordre de grandeur
sur les onze types de sols (figure 4.15).
95
3èmcquantile+1.5x
intervalle inter auantile
r 3,ème
eme
quartile
Médiane
1er quartile
Valeur V 1er quantile - 1.5x

extrême intervalle inter auantile
Figure 4.14 : boîte à moustaches
96
0.06 I 1 1 T" 1 1 1 1 -
t 1 1
L-
0.05
0.04
LU 0.03 I r "T T -t.- -
< I I ,
■ 1 ,
.. j
0.02 ___l
I
I_
J
I
J
L
l
T-
}
l---
1 -j-
I I l T
•r 1
0.01 . . . [ L J i J J... ---► —
*
0 "■i r i r i T--- - - -r - -— ,--- — r - - - - - . —
10 11
0.06 1 1 1 1 1 —l 1 1 1 1 1
0.05
0.04 T
— 1 - - - -- T " "
CM
1
0.03 1
1
1
1
0.02 1 . . -T. . .
1
1 --Y -- •~f~
0.01
1 1
1 T
-1er --I-- — i — .. .^—.p 1 ^ .
0 X
- -Xî - - • ---r--
*
X
------- --r--
<#
■ - - - , - - -
.
^
4» " " *" T
... . . . . . .
* r "*■ 4-
i r-
10 11
x10
20 1 1 1 1 1 —1 1 1 1 1 1
15 —-■
.? 10 l-I-l-I-
i r î r
1
•Pi
1
— r
T
1
1 —
5-
■
X X
J
i
X -
i
1
-
è J. !
X
1
m 0 T
$
X
1
1
X L
1 1 1 1 1 1 1 1 1 1 1
6 10 11
X -1- X
sol
Figure 4.15 : Distribution des MAEs par type de sol, horizon de 14 jours
97
1.5
+
+
Ê 1
S
-r I
0.5 I ■ -I---
I I
;
i...i..ô...t5..0.â...û..â_ J L
1 2 3 4 5 6 7 8 9 10 11
1
->
T
E
cr * ""i r { r
LU I l 1 T
I l I I
< I
---1
l
1- { I-
I I
1 -
2
1
0 fl..à.à-i.ii..i.A.A..i..i..*. 10 11
0.1 t r i r
0.08 j
I 0.06 L !..
___, 0.04 h i : 4 .T...
0.02
0
f -ô â è -firàrf-énfrà
_i i_
.X.....4-.
J L.
X J
J
L.
I
2 3 4 5 6 7 8 9 10 11
sol
Figure 4.16 : Distribution des MAEs par type de sol, horizon de 14 jours
98
4.5 Résultats du Bassin de Gatineau et mesure du temps
de calcul
Le modèle HYDROTEL a été appliqué sur le bassin de Gatineau en 2003 par les services
d'Hydro-Québec. C'est ce projet qui sert ici de cas réel pour comparer la nouvelle version
HYDROTEL intégrant les réseaux de neurones à l'ancienne version. Afin de pouvoir
mesurer l'efficacité, la simulation a été faite selon le schéma de la figure suivante. D'après
ce schéma, la fin de chaque séquence de simulation constitue le début d'une autre séquence.
Ainsi au début de chaque simulation, la valeur de départ est lue dans un fichier contenant
les résultats d'HYDROTEL tourné dans sa version originale. Par exemple, lorsque la
simulation est effectuée pour des séquences de temps de 7 jours, au huitième jour les
variables au pas de temps antérieur (correspondant au pas de temps 7) sont lues comme
conditions initiales (figure 4.17). Cette technique permet d'avoir à la fin une série de
simulation longue et relativement continue permettant un calcul de l'efficacité. Les
simulations sont ainsi faites pour des horizons de 3, 7, 14, 30 et 45 jours comme
précédemment.
1 2 3 4 5 6 7
L 8 9 10 11 12 13 14
k 16 17 18 19 20 21
Figure 4.17 Schéma de simulation séquentielle
4.5.1 Les résultats globaux

Sans faire une revue exhaustive de toutes les entrées du modèle, il est intéressant de
rappeler ici les principales. Ainsi la série hydrométéorologique qui a servi dans ce cadre va
du 1er octobre 2000 au 31 décembre 2001. Sur l'ensemble du basin versant on dénombre
643 unités hydrologiques relativement homogènes (UHRHs). Ces UHRHs incluent 12 de
type de sol 1, 58 de type de sol 2, 539 de type de sol 4. Le bassin comporte également deux
99
réservoirs importants gérés par Hydro-Québec et sept tronçons qui servent de points de
contrôle (figure 4.18). Ici les variables simulées sont analysées aux différents tronçons de
contrôle et concernent la teneur en eau moyenne sur une profondeur de sol couvrant les
trois couches, la lame d'eau simulée, les débits simulés, la production et la hauteur d'eau
simulée. Le paramètre de qualité utilisé est l'efficacité de Nash comparant les résultats de
simulation de HYDROTEL dans sa version originale à ceux de la nouvelle version
intégrant les réseaux de neurones. La figure 4.19 montre l'efficacité calculée sur ces
différentes variables au niveau des différents tronçons de contrôle dont les numéros sont
indiqués sur les différents graphiques.
La teneur en eau représente celle moyenne sur toutes les trois épaisseurs de l'ensemble des
UHRHs situées en amont du tronçon de contrôle. L'efficacité présentée en fonction de
l'horizon de prévision laisse voir une efficacité égale ou supérieure à 80% jusqu'à un
horizon de 14 jours au niveau des cinq tronçons de contrôle. À 30 jours, cette efficacité
passe en dessous de 70%. Ces performances plus globales des réseaux de neurones dans la
simulation des teneurs en eau se rapprochent de celles obtenues au niveau des six bassins
qui ont servi à leur mise en œuvre et confirment les difficultés des réseaux au-delà de 14
jours.
La lame d'eau simulée cumule les volumes d'eau mensuels en m3 au niveau de chacun des
tronçons de contrôle et la période de simulation correspond à environ 16 mois. Mais pour
cette variable, l'efficacité calculée n'a pas le même comportement au niveau des 6 tronçons
de contrôle dû probablement à la nature du sous bassin drainé en amont. Aux horizons 3 et
7, l'efficacité dans la simulation de cette lame avoisine 1 au niveau des 6 tronçons de
contrôle (figure 4.19b). À l'horizon 14 jours, l'efficacité reste autour de 70% mais décroit
par la suite différemment d'un tronçon à l'autre. Au niveau des tronçons 1, 39 et 121,
l'efficacité décroît très lentement et reste même au dessus de 70% à l'horizon de 45 jours.
Au niveau des tronçons 262 et 364 par contre, l'efficacité passe en dessous de 70% aux
horizons 30 jours et 45 jours. Cela pourrait s'expliquer par le fait que pour les trois
premiers tronçons, les résultats sont plus globaux (voir leur position sur la carte) et
intègrent plus d'UHRHs. Ce qui n'est pas le cas des trois autres tronçons situés plus en
amont.
100
La production représente l'écoulement journalier moyen pour les UHRHs drainés en
amont. Dans le cas du bassin de Gatineau la production journalière est relativement faible.
La moyenne de cette production au niveau de chacun des 6 tronçons de contrôle est en effet
inférieure à 1 mm. Dans ces conditions, comme on a pu le constater au paragraphe
précédent, les réseaux de neurones performent moins bien. Néanmoins, sur un horizon de 3
jours, l'efficacité calculée pour la production à l'exception du point 364, atteint ou dépasse
80% (figure 4.19 d). Mais cette efficacité se dégrade rapidement de sorte qu'à partir de
l'horizon 7 jours, elle est inférieure ou égale à 60%.
Les débits simulés représentent les débits (en m /s) mesurés en une station située sur
chacun des tronçons de contrôle à chaque pas de temps. À l'horizon 3 jours, l'efficacité
calculée en ces points sur les 6 tronçons dépasse 80%. Par la suite probablement pour les
mêmes raisons que précédemment, l'efficacité varie différemment sur les 6 tronçons. Mais
au tronçon 1 où aboutit le débit total du bassin, l'efficacité avoisine toujours 80% à
l'horizon 14 jours.
101
Stations : Tronçons
0S000913 :364
0B00009 :262
0B00077 : 121
0B00078 :39
0B00056 :1
H:0B000S6
Figure 4.18: Bassin versant de Gatineau et stations de contrôle
102
Lame simulée
•39 -4—121 — * - 262 —»-364
7 14 30 45
Horizon (jours)
b)
Production
-39 —*—121 —x-262 -«—364
7 14 30 45
Horizon (jours)
d)
Figure 4.19 : Efficacité des réseaux de neurones sur le bassin de Gatineau
Lafigure4.20 montre le débit simulé sur le bassin de Gatineau au tronçon 1, correspondant

au débit total du bassin et pour un horizon de 3 jours. Sur cette figure sont comparés le
débit observé, le débit simulé par HYDROTEL avec son module original BV3C et le débit
simulé par HYDROTEL avec les nouvelles structures de réseaux de neurones sur un
horizon de 3 jours. Les résultats pour les autres tronçons et horizons sont en annexe 2. La
figure 4.20 laisse apparaître une bonne performance des réseaux de neurones par rapport à
BV3C, ce qui est une traduction des bonnes efficacités de la figure 4.19 c). Le tableau 4.7
103
montre les efficacités calculées aux différents tronçons avec les deux versions
d'HYDROTEL selon différents horizons. Le calage a été fait sur la version originale
(BV3C). L'efficacité de la version originale ne change pas d'un horizon à l'autre
contrairement à la version intégrant les réseaux dont l'efficacité va décroissante lorsque
l'horizon devient plus lointain en raison de l'accumulation des erreurs déjà évoquée. Pour
l'ensemble des cinq points de calage, l'efficacité de la version originale est supérieure ou
proche de 0.70. L'efficacité de la version modifiée décroît mais pas de la même manière sur
les cinq points de calage. Sur les points 1, 39 et 121, les décroissances sont plus lentes que
sur les deux autres points de calage 262 et 364. Ces deux derniers ont aussi été les points où
le calage a été le plus difficile. Cela s'explique, peut être, par le fait que ces points situés en
bordure du lac sont influencés par les fluctuations du niveau dû aux vents. Ce qui a pour
conséquences possibles d'induire des erreurs sur les débits mesurés. Cela rend aussi très
sensibles les résultats de calage sur ces deux points et explique une dégradation de leur
efficacité déjà à l'horizon 1 jour. Au niveau des points de prévisions (1, 39 et 121) à
l'horizon 14 jours l'efficacité conserve toujours plus de 70% de sa valeur initiale et
demeure proche de 0.70 pour les points de prévision 39 et 121. Au point de prévision 1,
l'efficacité tombe à 0.46 (69 % de sa valeur initiale) à l'horizon 14 jours mais sa valeur
initial était déjà relativement faible (inférieure à 0.70). Au-delà de 14 jours d'horizon de
prévisions, les résultats deviennent moins bons pour tous les points de prévisions. La
figure 4.20 montre une comparaison graphique des résultats de simulation des deux
versions aux observations pour le tronçon 1 et pour un horizon de 3 jours. On s'aperçoit de
la bonne superposition des résultats des deux versions. Cette superposition se détériore avec
l'horizon de prévision comme le montrent les différentes figures en annexe 2.
104
100 i i i |
:
90
Observé
KNA
80
70
^ 60
M
H + -t - 1 - +- -
40
I
30
20 J i_ L. i l ~. J
10 _ _ __
I ! I [ i
50 100 150 200 250 300 350 400 450

TempsfJours)
Figure 4.20 : Horizon 3, tronçon 1
Tableau 4.7 : Efficacités calculées aux différents tronçons selon les deux versions
d'HYDROTEL sur différents horizons de prédiction.
^tronçons
1 39 121 262 364
H o rizo n s(j o u r s ) ^ ^ . . ^
BV3C-
Observé 0.67 0.74 0.92 0.80 0.68
1 RN-Observé 0.66 0.71 0.89 0.64 0.52
3 RN-Observé 0.66 0.69 0.88 0.52 0.40
7 RN-Observé 0.60 0.67 0.79 0.38 0.24
14 RN-Observé 0.46 0.63 0.68 0.10 -0.04
30 RN-Observé 0.23 0.46 0.38 -0.18 -0.21
45 RN-Observé 0.23 0.41 0.27 -0.49 -0.52
105
4.5.2 Le temps de calcul
La comparaison du temps de calcul constitue un des volets justificatifs de notre projetDe
nos hypothèses de départ, plusieurs raisons pourraient expliquer une amélioration sensible
du temps de calcul. Les réseaux de neurones sont d'exécution très simple car il s'agit en fait
dans le cas présent d'une succession de calculs matriciels dont la durée d'exécution ne varie
pas d'un pas de temps à l'autre, ceci contrairement à la méthode de résolution itérative
(Runge Kutta du cinquième ordre) de BV3C qui subdivise le pas de temps en pas de temps
internes plus petits. Le nombre et la taille des subdivisions internes n'étant pas connus à
l'avance, à l'intérieur d'un pas de temps et d'un pas de temps à l'autre, il demeure toujours
difficile de quantifier la durée totale de l'exécution de BV3C à l'avance qui dépend des
conditions de convergence rencontrées au cours de l'exécution et d'autres facteurs. Il faut
en effet tenir compte du temps d'exécution d'instructions du système nécessaires à
l'exécution du programme. Ce dernier temps dépend de la charge du système due
notamment aux autres programmes en cours d'exécution.
Pour comparer le temps d'HYDROTEL intégrant BV3C au même modèle intégrant les
réseaux de neurones, la possibilité est donnée au modèle d'appeler alternativement les
réseaux de neurones ou BV3C. Les temps d'exécution sont alors mesurés dans les deux cas
et dans les mêmes conditions d'exécution, c'est-à-dire entre l'entrée et la sortie de ces
fonctions, et ce, en fonction du nombre de pas de temps de simulation. La figure 4.21
montre une comparaison des temps de calcul entre le modèle intégrant les réseaux de
neurones et sa version originale avec, en abscisses le nombre de pas de temps de
simulation. On s'aperçoit que la durée de simulation, dans le cas de substitution de BV3C
par un ensemble de réseaux de neurones, est reliée au nombre de pas de temps par une
relation de linéarité presque parfaite (coefficient de corrélation proche de 1). Dans sa
version originale, cette relation est un peu plus complexe et est plutôt proche du polynomial
d'ordre 2 (coefficient de corrélation 1). Aussi le gain de temps de la substitution est évident
sur la figure où l'on aperçoit clairement que le rapport (représenté par la courbe
BV3C/RNA dont les valeurs sont lues sur l'axe secondaire des ordonnées à droite) peut
atteindre ou même dépasser 2. Il faut néanmoins relativiser ce gain de temps qui reste dans
l'ordre de secondes. Mais derrière ce modeste gain, il y a toute la philosophie qui a sous-
106
tendu la réflexion sur notre projet à savoir une possibilité de remplacer des modules de
modèles plus complexes par des réseaux de neurones. Enfin, il faut souligner que même si
le module remplacé avait nécessité plus de temps de calcul, le temps consommé par les
réseaux de neurones auraient été sensiblement le même qu'ici, rendant la démarche plus
intéressante pour d'autres modules.
Linéaire (RNA)
100 200 300 400 500

Nombre de pas de simulation en jours
Figure 4.21 : Comparaison du temps d'exécution
Conclusion
Dans ce chapitre ont été présentés les résultats de l'ensemble des travaux de recherche.
Pour l'essentiel trois réseaux de neurones ont été mis en œuvre : un premier avec trois
sorties modélise les teneurs en eau, deux autres avec une sortie chacun modélise
respectivement le ruissellement et l'écoulement de la deuxième couche. S'ensuit une
présentation des performances de ces réseaux au pas de temps unitaire sur les bassins
versants qui ont servi à leur mise en œuvre selon deux critères de qualité : l'efficacité et le
bilan. Ces critères font ressortir dans l'ensemble de bonnes performances des réseaux de
107
neurones. Ces performances sont bien meilleures dans la modélisation des teneurs en eau,
où l'efficacité se trouve proche de 1 dans une très grande proportion quel que soit le type de
sol. L'efficacité des trois débits est assez reliée aux types de sol. Si dans les sols peu
perméables, très peu d'efficacités sont inférieures à 0.90, dans les sols sableux ou proches
du sable, des efficacités en dessous de 0.50 sont rencontrées. Les faibles efficacités sont
surtout rencontrées pour le ruissellement dont les fortes fluctuations sur du sable sont
difficiles à modéliser par les réseaux de neurones.
Comme dans un cadre opérationnel la prévision peut s'effectuer en continue sur une longue
période de temps, les réseaux de neurones sont ensuite testés de cette manière. La période
de simulation qui s'étend sur trois (3) ans est alors subdivisée en différents horizons de
simulation (3, 7, 14, 30 et 45 jours). Les résultats montrent de bonnes performances des
réseaux de neurones jusqu'à un horizon de prévision de 14 jours avec des probabilités
d'erreur faible proches de 1 pour des horizons allant jusqu'à 14 jours. Au-delà les erreurs
enregistrées recommandent la prudence dans l'utilisation des réseaux de neurones.
Enfin, une application plus réelle a été faite sur le bassin versant de Gatineau avec cinq
points de contrôles dont cinq disposaient de données observées pour le calage. Cette
application a permis de tester davantage la nouvelle structure mise en place dans un cadre
réel, et aussi d'apprécier le gain de temps de calcul engendré à la suite des modifications.
Ce test a permis également d'apprécier les résultats globaux à l'échelle du bassin versant.
Dans l'ensemble ces résultats globaux présentent une bonne efficacité du modèle modifié
par rapport au modèle original jusqu'à horizon de 14 jours notamment pour les teneurs en
eau, la lame d'eau ruisselée et le débit total. Par contre, la qualité de prévision de la
production, qui est une variable, plus sensible se dégrade plus vite avec l'horizon de
prévision. Après calage la nouvelle structure présente de bons résultats sur trois des cinq
points de calages avec une efficacité qui conserve plus de 70% de sa valeur initiale pour un
horizon de 14 jours. Les résultats des deux autres points proches du lac, sont très sensibles
et se dégradent plus vite.
De l'estimation du temps de calcul, il ressort que la nouvelle structure est deux fois plus
rapide même si l'on reste dans l'ordre des secondes.
108
109
Conclusion générale
Le présent travail avait pour but essentiellement de remplacer le module d'un modèle
hydrologique existant (le modèle HYDROTEL) par un ensemble de réseaux de neurones.
Le module à remplacer, en l'occurrence le bilan vertical 3 couches (BV3C), analyse
l'écoulement de l'eau au sein de la zone non saturée du sol. Cet écoulement est défini par
les caractéristiques physiques du sol (perméabilité à saturation, indice des vides, potentiel
matriciel à saturation, teneur en eau à saturation), les apports en eau (précipitations) et les
pertes (évapotranspirations réelles).
Pour des besoins de bonne généralisation des réseaux de neurones, l'on s'est attaché à
constituer une base de données diversifiée intégrant des sols de textures différentes (onze
types de sol) et de bassins versants issus de zones climatologiques variées. Ces bassins au
nombre de six vont de très pluvieux au relativement sec. Chaque bassin a été divisé en unité
hydrologique relativement homogène (UHRH), champ d'application de BV3C. Les réseaux
de neurones ont été mis en œuvre à partir des résultats de simulations de BV3C sur ces
UHRHs divisées chacune en trois couches.
Trois réseaux de neurones ont été mis en œuvre :
- Un premier décrivant le comportement de l'humidité dans les trois couches
superficielles de sol ;
- Un deuxième qui quantifie le débit sortant de la première couche correspondant au
ruissellement; et
- Un troisième quantifiant le débit dans la deuxième couche.
Les différents réseaux de neurones mis en œuvre ont été par la suite testés sur les différents
types de sols. Trois critères ont été utilisés pour mesurer la qualité de ces réseaux de
neurones. Le critère de Nash (Nash et Sutcliffe, 1970), le critère de bilan (Perrin et al.,
2001) et l'erreur moyenne absolue. Les résultats sont analysés par type de sol dans un
premier cas, puis selon l'horizon de prévision.
De façon générale, l'étude a ainsi permis de mettre en évidence la possibilité de remplacer
un module de modèle déterministe par un ensemble de réseaux de neurones. Les réseaux de
neurones mis en œuvre ne se comportent cependant pas de la même manière sur les 11
types de sol. Ceci s'explique par la complexité du phénomène d'écoulement dans ces
différents sols. Sur les sols sableux ou proches du sable, l'écoulement s'effectue plus
rapidement entraînant des variations rapides des paramètres tels l'humidité et les débits
sortant des différentes couches, ce qui diminue considérablement l'efficacité des réseaux de
neurones. Par contre sur les sols de textures plus fines où les paramètres présentent des
variations plus lentes, les réseaux de neurones sont plus efficaces.
Pour une prévision au pas de temps unitaire, les modèles neuronaux des teneurs en eau sont
très proches du module BV3C en termes de précision. Les critères d'efficacité et de bilan
sont proches de 1 sur les onze types de sols. Les faibles valeurs d'efficacité enregistrées sur
la teneur en eau de la troisième couche (©3) se rencontrent sur les UHRHs où il n'y a
pratiquement pas de variation de ce paramètre. Dans ces conditions, les réseaux de
neurones tentent de faire des interpolations dans un domaine où la variable estimée est
constante au cours du temps. Les erreurs, sans être importantes, influencent fortement vers
la baisse les valeurs du critère d'efficacité et de bilan. Le modèle de ruissellement présente
de faibles valeurs d'efficacité et de bilan notamment sur les sols à texture grossière (sable
ou proche du sable). Ceci s'explique par le fait que dans ces textures de sol, le
ruissellement est rare avec des fluctuations brusques en raison de la grande capacité
d'absorption des apports en eau. Ce qui d'une part ne permet pas de disposer d'exemple de
ce type en grand nombre pour la mise en œuvre des réseaux de neurones, et d'autre part,
rend difficile la technique d'interpolation utilisée par les réseaux de neurones. Le modèle de
débit de la deuxième couche présente des résultats assez uniformes sur les onze types de sol
avec une efficacité moyenne proche de l'unité. Les faibles valeurs d'efficacité constituent
des exceptions pour lesquelles les valeurs simulées sont soit très faibles, soit varient peu.
Le modèle de débit de la troisième couche directement relié à la teneur en eau de cette
couche par une équation déterministe présente également des résultats semblables sur les
onze types de sol. La précision de ce modèle bénéficie également de celle très bonne de la
teneur en eau dans cette couche.
Pour une prévision sur plusieurs pas de temps, l'erreur moyenne absolue a été analysée sur
plusieurs horizons de 3, 7, 14, 30 et 45 jours. Les résultats obtenus permettent de conclure
avec optimisme que l'on peut effectuer une prévision continue sur 14 jours avec des erreurs
moyennes de l'ordre de 0.005 pour les teneurs en eau. Pour cet horizon, les erreurs
commises sur les autres variables que sont les débits sortants des première, deuxième et
111
troisième couches restent dans l'ordre de 0.2 mm et peuvent être considérés comme
acceptables. Au-delà de 14 jours l'efficacité des réseaux de neurones devient limitée avec
possibilité d'erreurs plus importantes.
Les tests sur le bassin versant de Gatineau permettent une comparaison des résultats
globaux issus du même modèle HYDROTEL avec respectivement BV3C et les réseaux de
neurones dans des conditions hydrologiques locales et réelles. Ici les résultats sont analysés
à l'échelle de tout le bassin versant. Les résultats obtenus confirment les bonnes
performances des réseaux de neurones observées précédemment sur les autres bassins.
La mesure du temps de calcul dans le cas du bassin versant de Gatineau permet également
d'apprécier la nouvelle structure mise en œuvre. Ainsi, il a été montré que le rapport de
temps de calcul entre la version originale de BV3C et la version BV3C avec réseaux de
neurones atteint ou dépasse 2. Ce qui est appréciable même si l'on reste dans une échelle de
durée en secondes. Mais le fait le plus important à relever dans cette étude est que quelle
que soient la complexité et le temps qu'aurait eu besoin BV3C dans sa version originale, le
temps nécessaire aux réseaux de neurones aurait été sensiblement le même car il s'agit
d'une succession de calculs matriciels dont la durée de calcul varie peu. D'où l'importance
que peut révéler de telles structures neuronales pour des modules plus complexes. La mise
en œuvre des réseaux peut être plus fastidieuse, comme dans le cadre de ce projet, mais une
fois réalisée ils peuvent rendre plus simple n'importe quel autre module.
L'étude présente toutefois quelques limites qu'il convient de souligner. Une des limites
assez générale pourrait être une légère détérioration de la précision, mais les structures plus
rapides peuvent servir en première appréciation afin de juger de la nécessité ou pas
d'effectuer des simulations de longues durées. Dans de telles conditions, on pourrait
volontiers accepter pareils compromis.
L'autre limite propre à cette étude est le fait que l'on ait testé les réseaux mis en œuvre sur
un seul bassin versant dans des conditions réelles. Bien qu'ils donnent dans l'ensemble de
bons résultats, il conviendrait de les tester sur bien plus de bassins versants pour apprécier
davantage leur comportement. Mais il ne faudrait pas s'attendre à une détérioration
importante des résultats obtenus si l'on se base sur la méthodologie utilisée dans la mise en
œuvre.
112
Dans ce projet, il a été montré que les réseaux de neurones pouvaient remplacer des
structures plus complexes. Mais comme il a été donné de s'apercevoir, plus la variable
modélisée est continue, varie lentement dans le temps, plus les réseaux de neurones se
montreront efficaces et précis dans la substitution. Ainsi, toute structure présentant de telles
caractéristiques pourraient bénéficier des impressionnantes capacités des réseaux de
neurones. Au-delà du gain de temps, les réseaux de neurones convertissent toute structure
quelle que soit sa complexité en un simple calcul matriciel facile à programmer et à utiliser
sur n'importe quel support informatique capable d'effectuer de calculs très simples. Dans
ce cadre, au-delà des modèles hydrologiques, de telles approches peuvent être appliquées
dans n'importe quel domaine des sciences appliquées. Dans le domaine hydrologique, pour
les prévisions d'ensemble qui nécessitent plusieurs prévisions et donc beaucoup plus de
calcul, on pourra également faire des, gains importants de temps en remplaçant les blocs
complexes de certains modèles par des réseaux de neurones.
113
Bibliographie
Abbott, M.B., Bathurst, J.C, Cunge, J.A., O'Connell, P.E. et Rasmussen, J., 1986. "An
Introduction to the European Hydrological System - Système Hydrologique
Européen, She .2. Structure of a Physically-Based, Distributed Modeling System".
J. Hydro!, 87(1-2): 61-77.
Aburto, L. et Weber, R., 2007. "Improved supply chain management based on hybrid
demand forecasts". Applied Soft Computing, 7(1): 136-144.
Aguiar, H.C. et Maciel, R., 2001. "Neural network and hybrid model: a discussion about
different modeling techniques to predict pulping degree with industrial data". Chem.
EngngSci., 56(2): 565-570.
Ambroise, B., 1998. "La dynamique du cycle de l'eau dans un bassin versant - Processus,
Facteurs, Modèles." Bucarest, 200 pp.
Anctil, F. et Lauzon, N., 2004. "Generalisation for neural networks through data sampling
and training procedures, with applications to streamflow predictions". Hydrol. Earth
Syst. Sci., 8(5): 940-958.
Anctil, F., Perrin, C. et Andreassian, V., 2004. "Impact of the length of observed records on
the performance of ANN and of conceptual parsimonious rainfall-runoff forecasting
models". Envir. Model. Softw., 19(4): 357-368.
Anctil, F. et Tape, D.G., 2004. "An exploration of artificial neural network rainfall-runoff
forecasting combined with wavelet decomposition". Journal of Environmental
Engineering and Science, 3: 121-128.
Anderson, J.A., 1972. "A simple neural network generating an interactive memory". Math.
Biosci., 14: 197-220.
Anderson, JA. et Rosenfeld, E., 1988. "Neurocomputing : fondation of research". The MIT
Press, 729 pp.
Andreassian, V., 2005. "Trois énigmes de modélisation hydrologique". Habilitation à
Diriger les Recherches Thesis, Université Pierre et Marie Curie.
ASCE, 1996. "Handbook of hydrology", New York.
ASCE, 2000. "Artificial Neural Networks in Hydrology. I: Preliminary Concepts". J.
Hydrol. Engng, 5(2): 115-123.
Aslanargun, A., Mammadov, M., Yazici, B. et Yolacan, S., 2007. "Comparison of ARIMA,
neural networks and hybrid models in time series: tourist arrival forecasting".
Taylor & Francis, pp. 29-53.
Barron, A.R., 1993. "Universal Approximation Bounds for Superpositions of a Sigmoidal
Function". leee Transactions on Information Theory, 39(3): 930-945.
Bates, J.M. et Granger, C.W.J., 1969. "The combination of forecasts". Oper. Res. Q., 20:
451-468.
Baudez, J.C. et al., 1999. "Modélisation hydrologique et hétérogénéité spatiale des bassins".
Étude et Gestion des sols, 6(4): 165-184.
Becker, A. et Braun, P., 1999. "Disaggregation, aggregation and spatial scaling in
hydrological modelling". J. Hydro!, 217(3-4): 239-252.
Becker, A. et Pfutzner, B., 1987. "EGMO - System Approach and Subroutines for River
Basin Modeling". Acta hydrophys., Berlin.
Benjamini, Y., 1988. "Opening the Box of a Boxplot". Am. Statist., 42(4): 257-262.
Bertalanffy, L.V., 1973. "Théorie générale des systèmes", Paris, 308 pp.
Beven, K., 1989. "Changing ideas in hydrology — The case of physically-based models". J.
Hydrol., 105(1-2): 157-172.
Beven, K., 2001. "How far can we go in distributed hydrological modelling?" Hydrol.
Earth Syst. Sci., 5(1): 1-12.
Birikundavyi, S., Labib, R., Trung, H.T. et Rousselle, J., 2002. "Performance of neural
networks in daily streamfiow forecasting". J. Hydrol. Engng, 7(5): 392-398.
Blôschl, G. et Sivapalan, M., 1995. "Scale issues in hydrological modelling: a review".
Hydrol. Processes, 9: 251-290.
Bouzaher, A. et al., 1993. "Metamodels and Nonpoint Pollution Policy in Agriculture".
Wat. Resour. Res., 29(6): 1579-1587.
Box, G.P. et Jenkins, G.M., 1970. "Time Series Analysis, Forecasting and Control",
Holden-Day, San Francisco, 553 pp.
Breiman, L., 1996. "Bagging predictors". Machine Learning, 24(2): 123-140.
115
Broad, D.R., Dandy, G.C. et Maier, H.R., 2004. "A Metamodeling Approach to Water
Distribution System Optimization". In: S. Gerald, F.H. Donald et K.S. David
(Editors). ASCE, pp. 453.
Broad, D.R., Dandy, G.C. et Maier, H.R., 2005a. "Water Distribution System Optimization
Using Metamodels". Journal of Water Resources Planning and Management,
131(3): 172-180.
Broad, D.R., Maier, H.R., Dandy, G.C. et Nixon, J.B., 2005b. "Estimating Risk Measures
for Water Distribution Systems Using Metamodels". In: W. Raymond (Editor).
ASCE, pp. 17.
Buizza, R. et Palmer, T.N., 1998. "Impact of ensemble size on ensemble prediction".
Monthly Weather Review, 126(9): 2503-2518.
Calderon-Macias, C , Sen, M.K. et Stoffa, P.L., 2000. "Artificial neural networks for
parameter estimation in geophysics". Geophysical Prospecting, 48(1): 21-47.
Chen, K.-Y. et Wang, C.-H, 2007. "A hybrid SARIMA and support vector machines in
forecasting the production values of the machinery industry in Taiwan". Expert
Systems with Applications, 32(1): 254-264.
Chua, L.H.C. et Holz, K.-P., 2005. "Hybrid Neural Network—Finite Element River Flow
Model". J. Hydraul. Engng, 131(1): 52-59.
Clapp, R.B. et Horaberger, G.M., 1978. "Empirical Equations for Some Soil Hydraulic-
Properties". Wat. Resour. Res., 14(4): 601-604.
Clarke, R.T., 1973. "A review of some mathematical models used in hydrology, with
observations on their calibration and use". J. Hydrol, 19(1): 1-20.
Clemen, R.T., 1989. "Combining forecasts: A review and annotated bibliography".
International Journal of Forecasting, 5(4): 559-583.
Cote, M., Grandjean, B.P.A., Lessard, P. et Thibault, J., 1995. "Dynamic modelling of the
activated sludge process: Improving prediction using neural networks". Wat. Res.,
29(4): 995-1004.
Coulibaly, P., 2000. "Artifcial neural networks for hydrological forecasting". PhD thesis
Thesis, Université Laval, Québec, 179 pp.
116
Dawson, CW. et Wilby, R., 1998. "An artificial neural network approach to rainfall-runoff
modelling". Hydrol. Sci. J , 43(1): 47-66.
Dawson, CW. et Wilby, R.L., 2001. "Hydrological modelling using artificial neural
networks". Prog. phys. Geogr., 25(1): 80-108.
De Rosnay, J., 1975. "Le macroscope : vers une vision globale", Paris, 295 pp.
Deksissa, T., Meirlaen, J., Ashton, P.J. et Vanrolleghem, PA., 2004. "Simplifying dynamic
river water quality modelling: A case study of inorganic nitrogen dynamics in the
Crocodile River (South Africa)". Wat. Air SoilPollut., 155(1-4): 303-320.
Descartes, R., 1637. "Discours de la méthode". Jean Maire, Leyde.
Diaz-Robles, LA. et al., 2008. "A hybrid ARIMA and artificial neural networks model to
forecast particulate matter in urban areas: The case of Temuco, Chile". Atmos.
Envir., 42(35): 8331-8340.
Dickinson, J.P., 1973. "Some Statistical Results in the Combination of Forecasts". Oper.
Res. Q., 24: 253-260.
Dickinson, J.P., 1975. "Some Comments on the Combination of Forecasts",". Oper. Res.
Q., 26: 205-210.
Dooge, J.C.I., 1973. " Linear theory of hydrologie systems". Technical Bulletin, 1468.
Dreyfus, G. et al., 2002. "Réseaux de neurones: Méthodologie et applications", 386 pp.
Elliott, D.L., 1993. "A Better Activation Function for Articial Neural Networks", Institute
for Systems Research, University of Maryland.
Ewen, J., Parkin, G. et O'Connell, P.E., 2000. "SHETRAN: Distributed River Basin Flow
and Transport Modeling System". J. Hydrol. Engng, 5(3): 250-258.
Fahlman, S.E. et Lebiere, C , 2001. "The Cascade-Correlation Learning Architecture".
Fish, K.E., Johnson, J.D., Dorsey, R.E. et Blodgett, J.G., 2004. "Using an artificial neural
network trained with a genetic algorithm to model brand share". Journal of Business
Research, 57(1): 79-85.
Fortin, J.-P. et Royer, A., 2004. "Le modèle hydrologique HYDROTEL. Bases théoriques".
Fortin, J.-P. et al., 2001a. "Distributed Watershed Model Compatible with Remote Sensing
and GIS Data. II: Application to Chaudi[e-grave]re Watershed". J. Hydrol. Engng,
6(2): 100-108.
117
Fortin, J.P., Moussa, R., Bocquillon, C. et Villeneuve, J.P., 1995. "Hydrotel, un modèle
hydrologique distribué pouvant bénéficier des données fournies par la télédétection
et les systèmes d'information géographique." Revue Sci. Eau, 8: 97-124.
Fortin, J.P. et al., 2001b. "Distributed watershed model compatible with remote sensing and
GIS data. I: Description of model". J. Hydrol. Engng, 6(2): 91-99.
Fortin, V., 2000. "Le modèle météo-apport HSAMFhistorique, thérie te application.
Rapport de recherche".
Fortin, V., Brabant, F. et Benedetti, B., 2005. "Analyse du sous-modèle d'écoulement
vertical BV3C du modèle hydrologique HYDROTEL : comparaison de deux
méthodes d'intégration des équations différentielles." Institut de Recherche d'Hydro-
Québec.
Gaume, E. et Gosset, R., 2003. "Over-parameterisation,a major obstacle to the use of
artificial neural networks in hydrology ?" Hydrol. Earth Syst. Sci., 7(5): 693-706.
Granger, C.W.J, et Newbold, P., 1974. "Spurious Regressions in Econometrics". Journal of
Econometrics, 2: 111-120.
Grossberg, S., 1976. "Adaptive pattern classification and universal recoding: I. Parallel
development and coding of neural feature detectors". Biol. Cybern., 23: 121-134.
Gutiérrez-Estrada, J.C, Silva, C , Yânez, E., Rodriguez, N. et Pulido-Calvo, I., 2007.
"Monthly catch forecasting of anchovy Engraulis ringens in the north area of Chile:
Non-linear univariate approach". Fish. Res., 86(2-3): 188-200.
Hansen, L.K. et Salamon, P., 1990. "Neural Network Ensembles". Ieee Transactions on
Pattern Analysis and Machine Intelligence, 12(10): 993-1001.
Hebb, D.O., 1949. "Introduction", The Organisation of Behavior. Wiley, New York, pp. xi-
xix.
Hettiarachchi, P., Hall, M.J. et Minns, A.W., 2005. "The extrapolation of artificial neural
networks for the modelling of rainfall-runoff relationships". Journal of
Hydroinformatics, 7(4): 291-296.
Hornik, K., 1991. "Approximation Capabilities of Multilayer Feedforward Networks".
Neural Netw, 4(2): 251-257.
118
Hornik, K., Stinchcombe, M. et White, H., 1989. "Multilayer Feedforward Networks Are
Universal Approximators". Neural Netw, 2(5): 359-366.
Hsu, K.L., Gupta, H.V. et Sorooshian, S., 1995. "Artificial Neural-Network Modeling of
the Rainfall-Runoff Process". Wat. Resour. Res., 31(10): 2517-2530.
Hung, S.L. et Adeli, H., 1994. "A Parallel Genetic/Neural Network Learning Algorithm for
Mimd Shared-Memory Machines". Ieee Transactions on Neural Networks, 5(6):
900-909.
Hussain, MA. et Ho, P.Y., 2004. "Adaptive sliding mode control with neural network
based hybrid models". J. Process Control, 14(2): 157-176.
Imrie, CE., Durucan, S. et Korre, A., 2000. "River flow prediction using artificial neural
networks: generalisation beyond the calibration range". J. Hydro!., 233(1-4): 138-
153.
Iyer, M.S. et Rhinehart, R.R., 1999. "A method to determine the required number of neural-
network training repetitions". Neural Networks, IEEE Transactions on, 10(2): 427-
432.
Jain, A. et Kumar, A.M., 2007. "Hybrid neural network models for hydrologie time series
forecasting". Applied Soft Computing, 7(2): 585-592.
James, W., 1890. "Association", Psychology (briefer course). Holt, New York, pp. 253-
279.
Jayawardena, A.W. et Fernando, D.A.K., 1998. "Use of radial basis function type artificial
neural networks for runoff simulation". Computer-Aided Civil and infrastructure
Engenering, 13: 91-99.
Jeong, K.-S., Kim, D.-K., Jung, J.-M., Kim, M.-C. et Joo, G.-J., 2008. "Non-linear
autoregressive modelling by Temporal Recurrent Neural Networks for the
prediction of freshwater phytoplankton dynamics". Ecol. Model, 211(3-4): 292-
300.
Jin, Y., 2005. "A comprehensive survey of fitness approximation in evolutionary
computation". Soft Computing, 9(1): 3-12.
Karunanitthi, N., Grenney, W.J., Whitley, D. et Bovee, K., 1994. "Neural netwoks for river
flow prediction". Journal of computer in civil engeneering, ASCE, 8(2): 201-220.
119
Khu, S.-T., Savica, D., Liua, Y. et Madsenb, H , 2004 "A fast Evolutionary-based Meta-
Modelling Approach for the Calibration of a Rainfall-Runoff Model", iEMSs 2004
International Conference. International Environmental Modelling and Software
Society, Osnabriick, Germany.
Kitanidis, P.K. et Bras, R.L., 1980. "Real-Time Forecasting with a Conceptual Hydrologie
Model .2. Applications and Results". Wat. Resour. Res., 16(6): 1034-1044.
Kite, G., 1995. "The SLURP model. In: Computer Models of Watershed Hydrology".
Water Resources Publications, Highlands Ranch, Colorado, 521-562 pp.
Kohonen, T., 1972. "Correlation matrix memories". Ieee Transactions on Computer C-21:
353-359.
Kohonen, T., 1988. "Self-organization and associative memory ", New York, 312 pp.
Kohonen, T., 1990. "The self-organizing map". Proc. IEEE, 78(9): 1464-1480.
Le Moigne, J.-L., 1994. "La théorie du système général, théorie de la modélisation".
Presses universitaires de France, Paris, 338 pp.
LeCun, Y., 1985. "Une procedure d'apprentissage pour reseau a seuil asymmetrique",
Proceedings of Cognitiva 85, Paris, pp. 599-604.
Linacre, E.T., 1977. "A simple formula for estimating evaporation rates in various climates,
using temperature data alone". Agric. Met., 18: 409-424.
Linker, R. et Seginer, I., 2004. "Greenhouse temperature modeling: a comparison between
sigmoid neural networks and hybrid models". Math. Comput. Simul, 65(1-2): 19-
29.
Loumagne, C , Chkir, N., Normand, M., Ottlé, C. et Vidal-Madjar, D., 1996. "Introduction
of the soil-vegetation-atmosphere continuum in a conceptual rainfall-runoff model".
Hydrological Sciences-Journal-des Sciences Hydrologiques,, 41(6): 889-902.
MacKay, D.J.C, 1992. "A practical Bayesian framework for backpropagation networks".
Neural Comput., 4(3): 448-472.
Maier, H.R. et Dandy, G.C, 2000. "Neural networks for the prediction and forecasting of
water resources variables: a review of modelling issues and applications". Envir.
Model. Softw., 15: 101-124.
120
Markus, M., Salas, J.D. et K., S.H., 1995. "Predicting streamflows based on neural
networks". Proc. 1st Int. Confon water Ressour. Engrg. ASCE, New York: 1641-
1646.
Mason, J.C, K.Price, R. et A Tem'me, 1996. "A neural network model of rainfall-runoff
using radial basis functions". J.Hydr. Res. Delft, The Netherlands, 34(4): 537-548.
McCulloch, W.S. et Pitts, W., 1943. "A logical calculus of the ideas immanent in nervous
activity". Bull. Math. Biophys., 5: 115-133.
Meirlaen, J., Huyghebaert, B., Sforzi, F., Benedetti, L. et Vanrolleghem, P., 2001. "Fast,
simultaneous simulation of the integrated urban wastewater system using
mechanistic surrogate models". Wat. Sci. Technol, 43(7): 301-309.
Minns, A.W. et Hall, M.J., 1996. "Artificial neural networks as rainfall-runoff models".
Hydrol. Sci. J , 41(3): 399-417.
Minsky, M. et Papert, S., 1969. "Introduction", Perceptrons. MIT Press, Cambridge, pp. 1-
20.
Monteith, J.L., 1965. "Evaporation and environment". Symp. Soc. Exp. Biol, 19: 205-234.
More-Seytoux, H.J. et Al Hassoun, S. (Editors), 1989. "The unsaturated component of
SWATCH: a multiprocess watershed model for runoff generation and routing".
Unsaturated flow in hydrological modelling- Theory Practice. NATO ASI Series C,
275. Kluwer Academic Publisher, 413 - 433 pp.
Moriasi, D.N. et al., 2007. "Model evaluation guidelines for systematic quantification of
accuracy in watershed simulations". Transactions oftheAsabe, 50(3): 885-900.
Moussa, R., 1987. "Schémas numériques de propagation de crues (Optimisation du choix
des pas de calcul)", Université des sciences et techniques du Languedoc,
Montpellier, 110 pp.
Moussa, R., 1991. "Variabilité spatio-temporelle et modélisation hydrologique", Université
des sciences et techniques du Languedoc, Montpellier, 258 pp.
Muttiah, R.S., Srinivasan, R. et Allen, P.M., 1997. "Prediction of two year peak stream
discharges using neural networks". J. Am. Water Ressour.Assoc, 33(3)(625-630).
Nash, J.E. et Sutcliffe, J.V., 1970. "River flow forecasting through conceptual models part I
~ A discussion of principles". J. Hydrol, 10(3): 282-290.
121
Ng, CW. et Hussain, M.A., 2004. "Hybrid neural network-prior knowledge model in
temperature control of a semi-batch polymerization process". Chem. Eng. Process.,
43(4): 559-570.
Parker, D.B., 1985. "Learning logic Casting the cortex of the human brain in silicon",
Center for Computational Research in Economics and Management Science,
Cambridge, MA, USA.
Penman, H.L., 1961. "Weather, plant and soil factors in hydrology." Weather, 16: 207-219.
Perrin, C , 2000. "Vers une amélioration d'un modèle global pluie-débit au travers d'une
approche comparative". PhD Thesis Thesis, Institut National Polytechnique de
Grenoble, Grenoble, France.
Perrin, C , Michel, C. et Andreassian, V., 2001. "Does a large number of parameters
enhance model performance? Comparative assessment of common catchment model
structures on 429 catchments". J. Hydrol, 242(3-4): 275-301.
Priestley, C.H.B. et Taylor, R.J., 1972. "On the assesment of surface heat flux and
evaporation using large scale parameters". Monthly Weather Review, 100: 81-92.
Pulido-Calvo, I. et Gutiérrez-Estrada, J.C, 2009. "Improved irrigation water demand
forecasting using a soft-computing hybrid model". Biosystems Engineering, 102(2):
202-218.
Rawls, W.J. et Brakensiek, D.L., 1982. "Estimating Soil-Water Retention from Soil
Properties"'. Journal of the Irrigation and Drainage Division-Asce, 108(2): 166-171.
Richards, L.A., 1931. "Capillary Conduction ofLiquids Through Porous Mediums". AIP,
pp. 318-333.
Rogers, C.C.M., Beven, K.J., Morris, E.M. et Anderson, M.G., 1985. "Sensitivity analysis,
calibration and predictive uncertainty of the Institute of Hydrology Distributed
Model". J. Hydrol, 81(1-2): 179-191.
Rosenblatt, F., 1958. "The perceptron: a probabilistic model for information storage and
organisation in the brain". PsychologR, 65: 386-408.
Rumelhart, D.E., Hinton, G.E. et Williams, R.J., 1986. "Learning Internal Representations
by Error Propagation: Parallel Distributed Processing: Explorations in the
Microstructures of Cognition". MIT Press, Cambridge, pp. 318-362.
122
See, L., Corne, S., Dougherty, M. et Openshaw, S., 1997. "Some Initial Experiments with
Neural Network Models of Flood Forecasting on the River Ouse", Second annual
conference of GeoComputation '97 & SIRC '97„ Otago, New Zealand.
Servat, E., 1986. "Présentation de Trois Modèles Globaux Conceptuels Déterministes :
CREC5, MODGLO et MODIBI." Rapport ORS1DM, Dépt F, UR 604.
Shamseldin, A.Y., O'Connor, K.M. et Liang, G.C, 1997. "Methods for combining the
outputs of different rainfall-runoff models". J. Hydrol, 197(1-4): 203-229.
Shrestha, R.R., Theobald, S. et Nestmann, F., 2005. "Simulation of flood flow in a river
system using artificial neural networks". Hydrol. Earth Syst. Sci., 9(4): 313-321.
Singh, V.P., 1995. "omputer models of watershed hydrology". Water Resources
Publications, Littleton.
Singh, V.P. et Woolhiser, DA., 2002. "Mathematical Modeling of Watershed Hydrology".
J. Hydrol. Engng, 7(4): 270-292.
Sivapalan, M., Bloschl, G, Zhang, L. et Vertessy, R., 2003. "Downward approach to
hydrological prediction". Hydrol. Processes, 17(11): 2101-2111.
Sugawara, M., 1979. "Automatic calibration of the tank model". Hydrol. Sci. J., 24(3): 375-
388.
Thornthwaite, C.W., 1948. "An approach taward a rational classification of climate".
Geographical Review, 38: 55-94.
Todini, E., 1995. "The Role of Water and the Hydrological Cycle in Global Change".
Series I, 31. Oliver HR.
Toth, E. et Brath, A., 2007. "Multistep ahead streamflow forecasting: Role of calibration
data in conceptual and neural network modeling". Wat. Resour. Res., 43(11).
Toth, E., Brath, A. et Montanari, A., 2000. "Comparison of short-term rainfall prediction
models for real-time flood forecasting". J. Hydrol, 239(1-4): 132-147.
Turcotte, R., Lacombe, P., Dimnik, C. et Villeneuve, J.P., 2004. "Prévision hydrologique
distribuée pour la gestion des barrages publics du Québec". Can. J. Civ. Engng,
31(2): 308-320.
123
Vojinovic, Z., Kecman, V. et Babovic, V., 2003. "Hybrid approach for modeling wet
weather response in wastewater systems". J. Wat. Resour. Plann. Mgmt ASCE,
129(6): 511-521.
Weeks, W.D. et Boughton, W.C, 1987. "Tests of ARMA model forms for rainfall-runoff
modelling". J. Hydrol, 91(1-2): 29-47.
Werbos, P.J., 1974. "Beyond Regression: New Tools for Prediction and Analysis in the
Behavioral Sciences." PhD thesis Thesis, Harvard University, Cambridge, MA,
USA.
Widrow, B. et Hoff, M.E., 1960. "Adaptive switching circuits", WESCON Convention
Record. IRE, New York, pp. 96 -104.
Wigmosta, M.S., Vail, L. et Lettenmaier, D.P., 1994. "A distributed hydrology-vegetation
model for complex terrain". Wat. Resour. Res., 30: 1665-1679.
Wold, H., 1938. "A Study in the Analysis of Stationary Time Series". Almqvist and
Wiksell, Uppsala.
Wurbs, R.A., 1998. "Dissemination of generalized water resources models in the United
States". Wat. Int., 23(3): 190-198.
Yu, Z., 1996. "Development of a physically-based distributed-parameter watershed -basin-
scale hydrologie model! and its application to Big Darby Creek watershed". PhD
dissertation Thesis, State University of Columbus, Ohio.
Yule, G., 1926. "Why do we sometimes get nonsense-correlations between time-series? - A
study in sampling and the nature of time-series." Journal of the Royal Statistical
Society, 89.
Zhang, G.P., 2003. "Time series forecasting using a hybrid ARIMA and neural network
model". Neurocomputing, 50: 159-175.
124
Annexes
125
Annexe 1 : Caractéristiques des sols utilisés dans BV3C
Tableau 1 : Caractéristiques des sols utilisés dans BV3C
Texture Thetas thetacc thetapf ks psis Lambda

1 sand 0.417 0.091 0.033 0.21 0.1598 0.694
2 loamysand 0.401 0.125 0.055 0.0611 0.2058 0.553
3 sandyloam 0.412 0.207 0.095 0.0259 0.302 0.378
4 loam 0.434 0.27 0.117 0.0132 0.4012 0.252
5 siltyloam 0.486 0.33 0.133 0.0068 0.5087 0.234
6 sandyclayloam 0.330 0.255 0.148 0.0043 0.5941 0.319
7 clayloam 0.390 0.318 0.197 0.0023 0.5643 0.242
8 siltyclayloam 0.432 0.366 0.208 0.0015 0.7033 0.177
9 sandyclay 0.321 0.339 0.239 0.0012 0.7948 0.223
10 siltyclay 0.423 0.387 0.25 0.0009 0.7654 0.150
11 clay 0.385 0.396 0.272 0.0006 0.856 0.165
Thetas: Teneur en eau à saturation.

thetapf: Teneur en eau au point de flétrissement.
thetacc: Teneur en eau à la capacité au champ.
ksi: Conductivité hydraulique à saturation (m/h).
Psis: Potentiel matriciel au voisinage de la saturation (m).
Lambda: Indice de distribution de la grosseur des pores.
126
Annexe 2 : Résultats de simulation suivant différents horizons
de prévision
127
100
BV3C
90
Observe
80
:
70
-. 60
«~
a so
Z
Q 40
;1
30
1 I
20
10
* i i i i i ^ ^ ^ . i
50 100 150 200 250 300 350 400 450

Temps(Jours)
Horizon 3, tronçon 1
200 ____. , { _ ! I !
; ; ; BV3C
180
Observé
160
140
~ 120
1
§ ioo
S 80
60
40 I \l-\ h
20 L lILÂv iV H
0 i ■
50 100 150 200 250 300 350 400 450
Temps(Jours)
128
250
50 100 150 200 250 300 350 400 450

Temps(Jours)
700
; ;
ûaeivo
600
i
1
fl
500
Il i i
« 400
«o
E
LH"
1J l
jSj 3 0 0 +H-V - - i i i l M 1 W ~* ~
200
K_v l \
1
ïw
Ylvi I
100 V U I* _
i i i
0 50 100 150 200 250 300 350 400 450

Temps(Jours)
129
400 i i
3V3C
350 Dbservé
RNA
l
_.__'__■-_
300 - 1 1"
250 - -4 - t - II]
§■ 200
„
Xi
S 1
150
100 A T ~ n
+ ■ _B|_
50 +- 1 —
i i
50 100 150 200 250 300 350 400 450

Temps(Jours)
100
90
Observé
80
70
~m 60 1—' -
(O
1 J L 4 -
50
1
SS"
2 40
30
20 II
10 JV
i i i i i^^ ^ r 1
50 100 150 200 250 300 350 400 450

Temps(Jours)
130
200 1 1 I I
180
Observé
— KNA
160
140
rm- 1 2 0
M
J. 100
_>
S 80
60 1 l A I M
■ n i r/
40
mjl\ JUL__AJ_.M
20
*--f I [ 1 1 1 1
0 50 100 150 200 250 300 350 400 450

Temps(Jours)
250
200 250 300 350 400 450

Temps(Jours)
Horizon7 tronçon 121
131
700 ! t I 1 1
BV3C
Observé
T
600
RNA
500
I l !
I 1 1
« 400
E
v
!
S 300
1 1
i
200 J. .
100s j f à h '--- --;-
1 1 1 1 1
50 100 150 200 250 300 350 400 450

Temps(Jours)

400
150 200 250 300 350 400

Temps(Jours)
132
100 i i
DV J U
r _
[
90
Observé
: : ;
RNA
80
70
i i i
I
mm. 60 "" "
1
M
S 50 - -I —
i
-3
40 J
Ii J -
30
20 111
10 J\M\r\, I —
[ [ I I ^ F ^ I
50 100 150 200 250 300 350 400 450

Temps(Jours)
200 1 !
180 ; ; : 1 1 1...-
160
140
_-_. 120 —1 -
i
I- 100 1- -1 —
n
3 _
Q 80
u^y
60
40 T ~
20 -t- - W- —1 -
1 1
50 100 150 200 250 300 350 400 450

Temps(Jours)
133
250 1 !
„.-~
uvou
200 RNA
1
~ 150 11
w
E
S 100
50 1 f T ^ j 1
i
i
t
1 i
50 100 150 200 250 300 350 400 450

Temps(Jours)
700
50 100 150 200 250 300 350 400 450

Temps(Jours)
134
50 100 150 200 250 300 350 400 450
Temps(Jours)
100
90
Observe
80 I
70
i I l
I
60 1 -
w
E 50
-
mT
Q 40 11
30
20
10 tt*
ï-!-
^ r ^
50 100 150 200 250 300 350 400 450

Temps(Jours)
135
200 i i i
-
_
180
I—
I
Observé
KNA
160
140
i
_ 120
M ~
<ô~
1
J-
_!
100
S 80
60
y _é
40 ,
20 »>x/ —i —
i i i i i
50 100 150 200 250 300 350 400 450

Temps(Jours)
250 '
200
l
^ 150
M
E I 1
1
*r
Q 100
50
50 100 150 200 250 300 350 400 450

Temps(Jours)
136
700
150 200 250 300 400 450

Temps(Jours)
200 250 350

Temps(Jours)
137
100
,„,-
90
Ub serve
— KNA
80
70 I
m--. 60 —I -
M
S 50 - -1 -
40 . . . : A J _
30 i
J\
20
10
0 i i i . i i ^ ' ^ i
50 100 150 200 250 300 350 400 450

Temps(Jours)
150 200 250 300 350 400 450

Temps(Jours)
138
250
200 250 300

Temps(Jours)
700 i
-
Db serve
600
RNA
500 \—
L ( |
M 400 I r ~* —
CO
E
5=- 1 l+L. L V — i i m -i
j» 300 |T
200' 1 lx _
100 i -l _ -Ml j
50 100 150 200 250 300 350 400 450

Temps(Jours)
139
400
150 200 250 300 350 400 450

Temps(Jours)
140
Annexe 3: Article sous presse
Revue: Journal of Hydrologie Engineering
Manuscript Number: HEENG-306R1
141
Comparing Sigmoid Transfer Functions for Neural Network
Multistep ahead Stream flow Forecasting
H. Yonaba1, F. Anctil 2 , and V. Fortin 3
[l]{PhD candidate, Department of Civil Engineering, Université Laval, Pavilion Adrien-

Pouliot, 1065, avenue de la Médecine, Québec, Qc, Canada G1V 0A6}
[2] {Professor, Department of Civil Engineering, Université Laval, Pavilion Adrien-Pouliot,

1065, avenue de la Médecine, Québec, Qc, Canada G1V 0A6}
[3] {Researcher, Environment Canada, Canadian meteorological Centre, 2121, North

Service Road, Trans-Canada Highway, Dorval, Qc, Canada H9P 1J3}
Correspondence to: F. Anctil ([email protected])
Abstract
One of the main problems of neural networks is the lack of consensus on how to best
implement them. This work targets the question of the transfer function selection - a vital
part of neural network providing nonlinear mapping potential. Three nonlinear transfer
functions bounded by -1 and 1 are selected for testing, based on a literature review: the
Elliott sigmoid, the bipolar sigmoid, and the tangent sigmoid. They are used to design
multilayer perceptron neural networks for multistep ahead streamflow forecasting over five
diverse watersheds and lead-times from one to five days. All multilayer perceptrons have
shown good performance on the account of the four selected criteria, which confirms that
the selected multilayer perceptron implementation procedure was adequate, namely the
dataset length, the Kohonen network clustering method to create the training and testing
sets, and the Levenberg-Marquardt backpropagation training procedure with Bayesian
regularization. Specifically, results endorsed the tangent sigmoid as the most pertinent
1
transfer function for streamflow forecasting, over the bipolar (logistic) and Elliott sigmoids,
but the latter requires less computing time and as such may be a valuable option for
operational hydrology. Also, results averaged over five lead-times confirmed the Universal
Approximation Theorem that a linear transfer function is suitable for the output layer - a
nonlinear transfer function in the output layer failed to improve performance values.
Keywords
Neural networks; Streamflow forecasting; Transfer function; Performance evaluation;

Computing time
Introduction
The series of very useful but inconclusive model-intercomparaison studies conducted

by the World Meteorological Organisation (WMO 1975; WMO 1992) did not result in a
clear guideline for model selection. Neither simple nor complex rainfall-runoff models are
free from failure in certain cases, because none of them adequately describe all rainfall-
runoff processes, and because the data at hand are not always in the required quality and
quantity (Naef 1981). Simplicity is a virtue because models, covering a wide range of
structural complexities, often produce similar and equally valid results (Franchini and
Pacciani 1991). For instance, complex models may outperform simpler ones in the
calibration phase but not necessary in the verification phase (Perrin et al. 2000), notably
because their parameters, generally quite numerous, are more difficult to identify based on
the available data. It is then difficult to recommend any single model in preference to the
others (Hughes 1994). This has lead a number of hydrologists to explore new and easier
tools for rainfall-runoff modelling, including neural networks.
Exhaustive reviews on the application of neural networks in hydrology and water

resources management, such as Coulibaly et al. (1999), Maier and Dandy (2000), Dawson
and Wilby (2001), and ASCE (2000), confirmed the growing interest of hydrologists in
2
neural networks. But the debate about their usefulness is still going on despite the claims
made for their versatility and generality (Shamseldin et al. 2002). Furthermore, for
operational purposes, the reliability of streamflow forecasts based on neural networks need
to be assessed over different lead-times (Toth and Brath 2007) and for a group of
watersheds that encompass a large array of hydrologie behaviours (Anctil and Lauzon
2004), so as to ensure that drawn conclusions are as general as possible.
One of the main unresolved problems of neural network is the lack of consensus on
how to best implement them. This work targets the question of transfer function selection -
a vital part of neural networks, providing them nonlinear mapping potential. Indeed, all
other elements of a neural network are strictly linear while nonlinearity is generally sought
for the modeling of natural phenomena. However, the problem with transfer functions is
that there is no theoretical background for their selection. Previous experimental
comparisons for streamflow forecasting, such as those of Shamseldin et al. (2002) and
Shrestha et al. (2005), indicated that transfer functions are pretty much interchangeable as
long as they are of sigmoid shape. Imrie et al. (2000) suggested that activation functions
with higher limiting amplitude produce better results.
In this paper, we compare different neural networks regarding the transfer function in
their hidden and output layer in order to seek better multistep ahead streamflow forecasting
performance. Three nonlinear transfer functions, bounded by -1 and 1, are selected for
testing, based on a literature review, namely Elliott (1993), Shamseldin et al. (2002), and
Shrestha et al. (2005). They are the bipolar sigmoid, the tangent sigmoid and the Elliott
sigmoid. The first two have already been confronted before, but not in a multistep ahead
forecasting application for a group of diverse watersheds. As for the third nonlinear transfer
function (Elliott 1993), we believe that this is its first hydrological application. The study
will also experimentally test the Universal Approximation Theorem (Hornik et al. 1989)
which states that multilayer perceptron neural networks (defined later) - with one input
layer, one hidden layer with a nonlinear transfer function, and one output layer with a linear
transfer function - are able to approximate any function with a finite number of
discontinuities. This is achieved by comparing multi-criteria performance of networks
using the linear transfer function or a nonlinear transfer function in their output layer.
Finally, the computing time requirement of the tested network architectures will be
compared in simulation.
Neural network modelling is introduced in the next section. Even if the selection of
an appropriate nonlinear transfer functions is the major objective of this work, issues
related specifically to the development of models based on multilayer perceptron neural
networks must be addressed at the same time. Such issues affect modelling performance
and consequently influence results appreciation. The construction of calibration and
validation data sets based on Kohonen network clustering, the choice of employing
Levenberg-Marquardt with Bayesian regularization as calibration procedure and the use of
the stacking multimodel approach are proposed as a way to build a rigorous model
development process that highlights the multilayer perceptron potential. The subsequent
section presents the methodology, the experimental protocol, and the modelling
performance criteria. Results are described next, with an emphasis comparing performance
values for multistep ahead streamflow forecasts. Conclusions on the relevant findings of
this work are provided in the last section.
Neural network modelling
In hydrology, neural networks has been used as models since the 1990 decade as
reported by Bonafe et al. (1994), Hsu et al. (1995), Jayawarena and Fernando (1996), Smith
and Eli (1995), Carrière (1996), Minns and Hall (1996), Shamseldin (1997), Tokar and
Johnson (2000), and so on.
Neurons form the basic units of a neural network. The basic elements of neurons are
(1) a set of input nodes, indexed by, say, 1, 2, ... I, that receives a vector of model input
signals, say x = (x\, X2, ... x\); (2) a set of synaptic connections whose strengths are
represented by a set of weights here denoted by w = (w\, W2, ... w{) and biases b = (b\, bi,
...b\); and (3) an activation function 0 that relates the total synaptic input to the output
(activation) of the neuron. The total synaptic input, u, to the neuron is given by the inner
product of the input and weight vectors:
where it is assumed that the threshold of the activation is incorporated in the weight
vectors. The output activation, y, is given by: y = O(w), where <I> denotes the activation
function of the neuron. The total synaptic input is thus transformed to the output via the
nonlinear activation function. Many neurons form a layer and many layers interconnected
to each another form a neural network (NN). A NN is thus defined according to its model
inputs, and its architecture: the number of layers, the number of nodes in each layer, the
activation function in each layer and the manner in which the layers are interconnected.
In hydrology there are many variables which may be considered as potential NN

inputs for streamflow forecasting. In addition to precipitation which is generally the most
informative model input, there are soil moisture, evaporation, air temperature, snowmelt
equivalent, soil properties, and streamflow itself. Lagged input of each of these variables
should also be included in the model to allow taking into account the residence time of
water within a watershed. But all these variables are not equally efficient for model
implementation at a specific site, and several methods are used to achieve the best local
selection. Bowden et al. (2005) classify these methods in five groups: (1) methods which
rely upon the use of a priori knowledge of the system being modelled, (2) methods based
on linear cross-correlations, (3) methods which utilise heuristic approaches, (4) methods
which extract knowledge contained within trained NN and (5) methods which use various
combinations of the four firsts. Overall, the most common approaches are the heuristic
forward selection and backward elimination. Forward selection begins by finding the best
single input and selecting it for the final model. In each subsequent step, given a set of
selected inputs, the input which improves the model's performance most is added to the
final model. Backward elimination starts with a set of all inputs, and sequentially deletes
the input that reduces performance the least.
Once selected, inputs are usually normalised because most training algorithms are
sensitive to the scale of the data. In general, in hydrology, data are rescaled to the intervals
[-1, 1], [0, 1], [0, 1] or rescaled to a Gaussian function with a mean of 0 and unit standard
deviation (Dawson and Wilby 2001).
Determining an appropriate number of neurons in the hidden layer is another

challenge in NN modeling. Shamseldin et al. (1997), claims that the best way to
determinate this number is trial and error. Dawson and Wilby (2001) in their review found
that trial and error remains one of the most popular solutions in hydrology. The main
alternatives are cascade correlation (Fahlman and Lebiere 1991) and genetic algorithms
(Jiang et al. 2003; Kim et al. 2005).
Layer interconnection distinguishes feedforward NN and recurrent NN, but much

sub-architectures exist. Details on neural networks architectures can be found in previous
studies (ASCE 2000; Coulibaly et al. 1999; Dawson and Wilby 1998; Maier and Dandy
1996). The multilayer perceptron (MLP) architecture, a feedforward type NN, is selected in
this comparison because it usually has good model performance, and also because it is the
most frequently used configuration in hydrology. Each layer consists of a group of neurons
that share the same input and output connections, but that do not interconnect with the other
neurons forming the same layer. Also, connections are strictly oriented one way: from the
input toward the output. Mathematically MLPs with one input layer, one hidden layer with
a sigmoid transfer function, and one output layer with a linear transfer function are known
to be universal approximators (Hornik et al. 1989).
Levenberg-Marquardt backpropagation training
Neural network training is the process of adjusting the weights and biases in order for
the network to produce the desired output in response to every input pattern in a
predetermined set of training patterns. Training can be supervised or unsupervised and in
the first case, for every input pattern, there is an externally specified "correct" output which
acts as target for the network to map. There is no target in unsupervised training and the
system adapts itself to regularities in the system according to rules implicit in its design.
The nature of regularities found by the system depends on details of its design.
Backpropagation which is a supervised training algorithm is by far the most

commonly used method for training MLPs. It was popularised by Rumelhart (1986)
although earlier work had been done by Werbos (1974), Parker(1985), and LeCun (1985).
Mathematically training a network means minimizing the error of a cost function such as
the sum of squares function (used here) defined as:
SSE = X ( S - à ) 2 (2)
where Q, is the target (observed) streamflow and
Q=<!>2[Yjw®.(YjWx + b) + b] (3)
is its computed counterpart, where the subscript 1 and 2 identify the transfer function used
in the hidden and outer layers, respectively. Minimising SSE by backpropagation involves
the computation of O and of its derivative. For that, even if any differentiable function can
theoretically be used (Hornik et al. 1989), functions for which the derivative is easy to
compute are generally used. Although backpropagation has been used successfully on a
wide range of problem, one of the common complaints is that it is slow. Much work
therefore has been done in search of faster methods. Reed and Marks (1998) cited about ten
variations of backpropagation. Here, the Levenberg-Marquardt algorithm is chosen as the
optimization tool because of its proven computing efficiency and good performance, as
demonstrated in Tan and Van Cauwenberghe (1999). The weight update procedure of the
Levenberg-Marquardt backpropagation training algorithm uses an approximate Hessian
matrix for the second derivatives of the cost function (Coulibaly et al. 2000).
Topology is another important factor in the network's ability to generalize after

training is completed. An over-parameterized network may over-fit the training data and
result in poor generalization on testing data, while an under-parameterized network may not
have the computational capacity to approximate the target values. Many solutions are
proposed to permit a better generalisation of neural networks used and Wilby (2001) find
that cross-validation (Prechelt 1998) is frequently used in hydrology to prevent
overtraining. Bayesian régularisation (MacKay 1992) may also be applied with the same
objective (Shrestha et al. 2005). The latter is selected for this study and reasons for it will
be detailed in the methodology section.
Nonlinear transferfunctions
Beside the linear transfer function
0(u) = u (4)
where u is the total synaptic input defined by Eq. (1), that is regularly used in the output
layer, the main interest of MLPs resides in their non-linear sigmoid function principally
used in their hidden layer. In this study, three sigmoid transfer functions bounded between -
1 and +1 have been selected: the bipolar sigmoid, the tangent sigmoid, and the Elliott
sigmoid. Sigmoid functions all share a similar S shape that is essentially linear in their
center and non-linear toward their bounds that are approached asymptotically (Fig. 1). For
use in finding optimal neural weights by backpropagation algorithms, based on a least-
8
squared approach such as SSE, it is required that the transfer function be easily
differentiable, thus permitting the evaluation of increments of weights via the chain rule for
partial derivatives (Elliott 1993).
According to Dawson and Wilby (2001) the logistic sigmoid
0(«) = — — (5)
which is easily differentiable, is the most frequently non-linear transfer function used for
hydrologie applications. However, because it is bounded between 0 and 1, we used instead
its linearly transformed version known as the bipolar transfer function
<D(«) = — 1
l+e
(6)
which is bounded between -1 and +1. The tangent transfer function, also known as the
hyperbolic tangent function
/ x 2
<p(w) = tanh(«)= —1
K ) 2
1+e" " (7)
is very similar in form and shares many mathematical properties with the bipolar transfer
function. It is also frequently used in hydrology. Finally, the Elliott (1993) transfer function
u
<D(„) =
1+H (8)
which is also differentiable everywhere and bounded from -1 to 1, is no more complex than
exponential-based transfer functions, allows for a simple backpropagation algorithm
implementation, and asks for less computing time. To our knowledge, this is the first
hydrologie application of this transfer function.
•Elliot ■Tansig ■Linear Bipolar
Figure 1 : Graph of transfer functi ons
Methodology
This secti on addresses several techni cal i ssues related to the development of neural
network models. It starts with the selection of the streamflow ti me series which is driven by
the necessity to encompass a large array of hydrologie behavi ours so as to ensure that the
results from the transfer functi on tested here are as general as possi ble. The fi ve ri vers
listed i n Table 1 come from different hydro-cli mati c regi ons, which respecti vely generate
different hydrologi e behaviours in terms of streamflow, but all share concentration times of
the order of three to four days (Fi g. 2). In the present study, we follow the path of Ancti l
and Lauzon (2004) who exploi ted the same database before. At the hi gh extreme i s the
catchment of the San Juan Ri ver whi ch i s very humi d, has a very obvious seasonal cycle,
and possesses the hi ghest dai ly streamflow mean and standard devi ati on of all the
catchments under study. Located on the Canadi an Paci fi c Coast, thi s catchment i s fed by
sustained heavy preci pi tati ons, parti cularly between November and Apri l. In terms of
10
hydrological conditions, the others four catchments are less humid. A seasonal cycle is less
pronounced for Leaf and Volpajola. The high flow period Kavi in summer and it is usually
very dry in winter. Winter is the period of high flow for Leaf, Serein, and Volpajola, while
summer is relatively dry. The common feature of all five catchments is the entire absence
of snow. Daily streamflow and rainfall observations are available for periods ranging from
18 to 43 years.
Table 1: Basic characteristics of the catchments under study

Catchement Area Daily stream Database Location
(km2) Flow (mm) length (years)
Mean Standard
deviation
Kavi 975 0.39 0.85 32 Ivory Coast
Leaf 1949 1.37 2.9 40 USA
San Juan 580 7.1 11.23 34 Canada
Serein 1120 0.61 0.86 43 France
Volpajola 930 2.4 2.42 18 France
11
(a) (d)
g
c s
C
a
-, S
•J
b
J-.
01/01 27/10 26/12

01/01 01/03 30/04 29/06 28/08 27/10 26/12
Day
(b) (e)
70
s
a
60
50 1 Min
Max
s 40 Mean
o
s:
30 1 / i
11
M
20 JIJJ
\V ir U i J
JZ-Îl^W w\M>\ ^^^W \y**y
10
0
01/01 01/03 30/04 29/06 28/08 27/10 26/12 01/01 01/03 30/04 29/06 28/08 27/10 26/12
Day Day
(C)
o
e
£
01/03 30/04 29/06 28/08 27/10 26/12

Day
Figure 2 : Daily mean, maximum and minimum streamflows for the (a) Kavi, (b)
Leaf, (c) Volpajola, (d) San Juan, and (e) Serein rivers.
12
This follows with a clear departure of the common practice in the development of
models to choose calibration and validation data sets continuous in time. In common
practice, one has to be careful in the selection of time periods to ensure that both the
calibration and validation data sets contain events that represent all possible conditions of
flux production (Klemes 1986). This practice is needed for process driven models, since the
update of their state variables requires continuous data sequences in time. Neural networks
differ in that they only need to be fed some observations over the last few days (as
determined by an input selection procedure) to be operational; they do not need continuous
streams of data. Consequently, calibration and validation data sets can be built only on the
condition of having in each of them enough input vectors representing all likely conditions
of streamflow production. Self organizing feature maps (SOFMs), which are based on the
neural network structure established by Kohonen (1990) was applied for the subdivision of
the time series into a training subset and a testing subset with similar statistical properties.
SOFMs are a descriptive tool equivalent to clustering techniques that discriminate input
vectors with respect to patterns present in them. This network is made of an input layer that
receives the data and an output layer composed of several neurons often structured as a flat
plane. The weights associated to a given output neuron is similar to a mass center, which
can be compared against input vectors. The weights define the data patterns, and an output
neuron, among all the others, is said to be activated if its weight vector most closely
matches the input vector fed to the network. The calibration process, which determines the
values of the weights of the network, ensures that the output layer is spread over the entire
data domain and defines the range of patterns in the data in some meaningful coordinate
system, which is why the Kohonen network is called a self-organizing map. In the present
study, we have used the SOFM clustering performed by Anctil and Lauzon (2004) on the
data set described in Table 1 (2/3 for training and 1/3 for testing). To ensure that all types
of inputs fed to the network are on the same scale, a linear standardisation was also
performed in order to bind the time series between -1 and 1.
13
The successful development of MLPs depends largely on the availability of pertinent
model input parameters. Here also we follow the recommendation of Anctil and Lauzon
(2004) who previously identified 4-5-1 MLP models, based on the last observed streamflow
(Qo) and the last three observed rainfall observations (Po, P-\ and P.2). Such inputs are
relatively standard for neural network streamflow models and for the sizes of the
catchments herein. Consideration of other inputs such as the potential évapotranspiration
generally provides no or small performance improvements to the model (Anctil et al. 2004).
In the present context, these MLPs will be trained to forecast one- to five-day-ahead
streamflow (Q\ to Qs). Note that tests made by Anctil and Lauzon (2004) revealed that
number of neurons of the hidden layer, incidently set to 5, have only small effect on the
modelling performance.
Bayesian regularization, as described by MacKay (1992), Foresee and Hagan (1997)

and Anctil et al. (2004) was employed with the Levenberg-Marquardt backpropagation
algorithm as the calibration procedure, where the objective function is a weighted sum of
the mean of squared errors between observed and estimated water quality parameter, and
the sum of the squares of the NN weights. The use of this weighted sum attempts to ensure
that the NNs provide accurate output values for input values not represented in the data set
employed for the calibration of the network. The second element of this weighted sum
imposes a constraint that results in smaller weights, which produces a smoother network
response. Another advantage of the Bayesian regularization procedure is that generalisation
of the network may be achieved using only two sub data sets, instead of the three sub data
sets necessary for the more commonly used cross-validation (stop training) procedure
(Anctil and Lauzon 2004).
Furthermore, the stacking method (Wolpert 1992) is performed here. In the context of
this application, it is a method by which several networks are calibrated, and the simulation
is obtained by calculating the mean of the responses of all these networks.
14
Experimental protocol
Six different 4-5-1 MLPs are experimented using a variety of transfer functions in
their hidden and output layer (Table 2). The tangent sigmoid, bipolar and Elliott transfer
functions are first tested in the hidden layer along a linear function in the output layer, as
suggested by the Universal Approximation Theorem (Hornik et al. 1989). The usage of a
nonlinear transfer function in the output layer is tested next.
Table 2: Transfer function combinations tested in the hidden and output layers
MLP Hidden layer Output layer
TL tangent sigmoid linear

BL Bipolar linear
EL Elliot linear
TT tangent sigmoid tangent sigmoid
BB bipolar bipolar
EE Elliott Elliott
These 4-5-1 MLPs are trained and tested for streamflow forecast lead times ranging
from one day to five days. In all instances, 50 MLPs are calibrated and the global
streamflow estimate of the model is the mean of the estimates from all 50 networks - a
method known as stacking (Wolpert 1992). Only then the model performance is calculated.
There is no theoretical guidance for the number of MLPs that would provide a stable
estimate after stacking, probably because it is problem dependant. The number 50 used here
is deemed large enough, based on our experience.
The computing time needed by the various 50 MLPs to simulate a 20-year testing set
is also reported.
15
Evaluation of performance
The evaluation of the performance is based on a linear scoring rule and on a quadratic
scoring rule. The MAE describes the average magnitude of the errors, without considering
their sign (it is a linear score because all errors are equally weighted):
MAE = - f \ Q L - Q L , (9)
n M
where Q is the forecast of the observed streamflow Q, n is the number of observations, and
L is the lead-time (L equals 1 for one-day-ahead forecast, and so on).
The RMSE also describes the average magnitude of the errors:
RMSE = MSE05= JijÇ(fi_-&) 2 • (10)

Since the errors are squared before they are averaged, more weight is given to large errors.
The RMSE is very similar to the MAE, except for the weighting of the errors. Both scores
range from 0 to oo (lower values are better), and they show the errors in the same unit and
scale as the parameter itself. Used together, the MAE and the RMSE can also diagnose the
variation in the errors. A large difference between the MAE and the RMSE reveals a large
variation in the error time series. Note that by definition, the RMSE is larger or equal to the
MAE.
Both scores are scale dependant, which forbids comparisons of the performance of
forecasts for basins of different sizes or with different streamflow regimes. This drawback
is overcome by using a skill score, which is a simple standardization of the score made by
comparing the performance of the forecast with the performance of a reference forecast.
The Nash and Sutcliffe (1970) efficiency index CRi is without a doubt the most known
skill score in use in hydrology:
16
M S E
™ 1
CR^l-— ~ (ID
v ;
n tr
1S m e
where f2 average observed streamflow. CRi is tailored as a statistical coefficient of
determination, except that it ranges from -oo to 1. It reaches 1 for a perfect fit between
predicted and observed values, and 0 when the hydrological model is no better than a one-
parameter 'no-knowledge' model that gives the mean of the observations as prediction for
all time steps. CRi also preserves the intrinsic quality of the RMSE, which is to heavily
penalise large errors. Note also that the MLP cost function is SSE (see Eq. 2), which is
equivalent in using CRi.
Three more performance criteria, tailored as CRi, are used to judge the model
efficiency. CR2 is the Nash-Sutcliffe efficiency index calculated on square root transformed
streamflows, in order to put a lesser emphasis on larger errors:
,2
ÈIVOT-A/QT)
CR;=1-^ —V- (12)
L(VQT-JQ)
i=l
CR3 is a criterion of absolute error that puts identical weights on all errors — it is
particularly useful in a forecasting context where the simulations must be as close as
possible to the observed values at every time step (Ye et al. 1997):
^_--2-y*-- (13)
.Pi-*
And CR4 is a water balance criterion that measures the ability of the model to correctly
reproduce streamflow volumes (Perrin et al. 2001):
17
là le.
II
;=1
(14)
Ww
CR4=1- /=i
As this study involved a comparison of the performance of various MLPs, the r2

criterion of Nash and Sutcliffe (1970) was also applied. This criterion expresses the
proportion of the initial variance unaccounted for by a reference MLP that may
subsequently be accounted for by another MLP. The r2 criterion is expressed by the
following equation:
2 -5t-_»ii k5__*i
(15)
l-SS
where SS is a skill score, I denotes a reference MLP, and II denotes a MLP using a different
transfer function. Negative values of the r2 signify that the modification has negative effects
on the MLP performance. Senbeta et al. (1999) suggest that r2 values greater than 10 %
may be considered as an indication of the significance of the model improvement. But
Perrin et al. (2003) suggest that a mean value of 7% is significant enough to justify a model
modification.
Results
Table 3 compiles the average value of all four performance criterion, for training and
testing, for all six MLPs, and for lead-time of 1 to 5 days. For 1-day lead-times, CRi values
above 0.9 confirm that all MLPs adequately mimic the rainfall-runoff process. In most
instances, the CR2 values are slightly better than the CRi ones, stating that the MLPs
behave well in low flow conditions. The CR3 values are lower than the other three, but they
remain good. Finally, the CR4 values are in most instances close to 1, revealing that the
MLPs very closely respect the water balance. It should be stressed that all performance
18
values are almost identical for the training data set and for the testing data set. All MLPs
are thus exempt of generalisation problems. It also confirms that the selected MLP
implementation procedure was adequate, namely the dataset length, the Kohonen network
clustering method to create the training and testing sets, and the Levenberg-Marquardt
backpropagation training procedure with Bayesian regularization. Finally, the use of the
Elliott transfer function in both the hidden and output layers (the EE MLP) lead to lower
performance when compared to the other 5 MLPs.
As expected for watersheds with concentration times of the order of three days, the
forecasting performance decreases as the lead-time increases. In all cases, the criterion
values stay positive. All models are thus superior to the 'no-knowledge' model, for all lead-
time. Only CR4 shows almost no signs of performance deterioration with increasing
forecast lead-time which means that the loss of performance with increasing lead-time
occurs mostly for the higher streamflows.
19
Table 3: Mean performance of the six networks
Lead- Training Testing

MLP
time (d) CRI CR2 CR3 CR4 CRI CR2 CR3 CR4
TL 0.922 0.942 0.814 0.999 0.907 0.937 0.806 0.991
BL 0.920 0.940 0.811 0.999 0.905 0.936 0.804 0.990
EL 0.922 0.941 0.814 0.998 0.906 0.937 0.806 0.991
TT 0.921 0.929 0.799 0.979 0.906 0.925 0.790 0.973
BB 0.922 0.928 0.797 0.983 0.908 0.923 0.787 0.974
EE 0.914 0.872 0.746 0.931 0.897 0.867 0.737 0.923
TL 0.761 0.828 0.664 0.999 0.764 0.831 0.659 0.977
BL 0.759 0.827 0.664 0.999 0.765 0.831 0.660 0.978
EL 0.762 0.829 0.666 0.999 0.765 0.832 0.661 0.978
C-J
TT 0.762 0.813 0.652 0.980 0.757 0.812 0.644 0.966

BB 0.762 0.810 0.646 0.980 0.754 0.808 0.637 0.956
EE 0.753 0.746 0.594 0.933 0.743 0.743 0.583 0.911
TL 0.619 0.718 0.544 0.998 0.614 0.718 0.533 0.961
BL 0.615 0.711 0.539 0.999 0.617 0.713 0.530 0.962
EL 0.618 0.715 0.541 0.999 0.619 0.716 0.532 0.962
f*1
TT 0.622 0.704 0.534 0.988 0.599 0.698 0.518 0.955
BB 0.620 0.694 0.523 0.978 0.600 0.688 0.508 0.937
EH 0.616 0.642 0.484 0.935 0.593 0.633 0.466 0.897
TL 0.485 0.610 0.441 0.998 0.475 0.603 0.426 0.957
BL 0.482 0.602 0.436 0.995 0.475 0.595 0.422 0.957
Tt
EL 0.483 0.603 0.438 0.998 0.480 0.598 0.424 0.959
TT 0.489 0.598 0.436 0.989 0.451 0.584 0.414 0.952
BB 0.488 0.591 0.427 0.981 0.455 0.577 0.406 0.937
EE 0.484 0.541 0.389 0.940 0.445 0.524 0.367 0.896
TL 0.404 0.534 0.375 0.999 0.392 0.522 0.361 0.958
BL 0.398 0.515 0.365 0.997 0.389 0.506 0.353 0.957
IT.
EL 0.397 0.512 0.364 0.998 0.390 0.503 0.352 0.959
TT 0.405 0.517 0.368 0.986 0.382 0.500 0.349 0.943
BB 0.404 0.510 0.359 0.980 0.384 0.494 0.340 0.940
EE 0.398 0.462 0.323 0.944 0.363 0.441 0.302 0.903
20
Table 4 compares Nash and Sutcliffe (1970) r2 criterion, for all skill scores,
combining all five lead-times and using the TL MLP performance results as reference to the
other five tested MLP architectures. Globally, most r2 values are negative, which means
that the selected MLPs are in general less accurate than the TL MLP - note that since the
CR4 results are close to 1, small modifications to the performance may results in large r2
values. In no instances, neither in training nor in testing, the BL MLP provides better
performance than the TL MLP, which is also the case for the EE MLP. The EL MLP
provides only a marginal performance gain for CRi and CR» in testing, while both the TT
and BB MLPs improve only performance for CRi in training. Only one of the rare
performance gains are larger than 0.4% which is far from the 7 or 10 % proposed in the
literature to justify the implementation of the new model. These results alone confirm the
Universal Approximation Theorem that a linear transfer function is suitable for the output
layer and endorse the tangent sigmoid as a pertinent transfer function for streamflow
forecasting. Those results (TL, testing subset), taken from Table 3, are drawn in Figure 3.
Table 4: Gain of performance computation (%) using the performance of the TL MLPs as
reference and combining all lead-times
Training Testing
MLP
r, 2 r22 r32 r42 r,2 r22 r32 r42
BL -1.1 -2.3 -0.9 -86.9 -0.3 -1.8 -0.7 -0.7
EL -0.1 -1.5 -0.4 -6.6 0.3 -1.2 -0.3 1.5
TT 0.2 -8.3 -3.1 -1100 -2.7 -9.5 -3.9 -63.5
BB 0.4 -10.4 -4.8 -1361 -2.3 -11.7 -5.6 -85.9
EE -2.9 -45.4 -17.5 -4579 -7.1 -46.2 -18.3 -298
21
1 2 3 4 5 6
Lead time (d)
Figure 3: Mean performance of the TL network
Results can also be analysed as an average value per watersheds. Table 5 presents
average value of the six models for testing data and for lead-times of 1 to 5 days with aim
to appreciate the evolution of CRi with lead-times from a watershed to another. For lead-
times of 1 day, mean value of CRi is above the acceptable value of 0.7 on all watersheds
showing good performance on NNs for this lead-time.CRi deteriorates differently with
lead-times from one watershed to the other. For San Juan and lead-time increasing from 1
to 2, CRi decreases from more than 0.7 to less than 0.5. On the other hand, for Serein and a
lead-time of 4 days, mean value of CRi is still more than 0.7.
22
Table 5: Mean CRi performance per watershed
Lead-time (d) Kavi Leaf San Juan Serein Volpajola

1 0.916 0.921 0.771 0.971 0.945
2 0.811 0.779 0.420 0.945 0.835
3 0.702 0.529 0.265 0.868 0.671
4 0.601 0.238 0.215 0.738 0.525
5 0.527 0.149 0.172 0.657 0.413
One possible advantage of neural networks over more complex conventional

hydrological models is their small computing time (Equation 3), allowing operational
hydrologists exploring more scenarios within an allotted decision time. In such instance,
the Elliott transfer function (Eq. 8) may provide even faster execution time because it does
not resort to the exponential function, in opposition to the more frequently used bipolar and
tangent transfer functions. Equation 3 execution time is thus compared in Table 6, for a
MATLAB implementation of the six MLP architectures, on an ordinary PC, simulating 50
times (stacking) a 20-year testing set. Results confirm that the Elliott sigmoid is indeed
about 15 % faster than both the tangent sigmoid and the bipolar sigmoid. Considering that
the EL MLP stream flow forecasting performance is almost identical to the TL MLP
performance (see Table 4), an EL MLP implementation may thus be more interesting than a
TL MLP implementation when faster computer execution are needed. Results also indicate
that the usage of a linear transfer function in the output layer saves considerable computing
time, another argument in favour of the application of Universal Approximation Theorem.
23
Table 6: Computing time recorded for the stacked simulation of a 20-year testing set
MLP Time (s)
TL 3.84
BL 3.83
EL 3.32
TT 7.54
BB 7.48
EE 7.09
Conclusion
Even though it must be understood that comparison of three nonlinear transfer

functions for multistep ahead streamflow prediction is the major objective of this work,
issues related specifically to the development of models based on multilayer perceptron
neural networks must be addressed at the same time. Such issues affect modelling
performance and consequently influence the appreciation of the results. All MLPs have
shown good performance on the account of all four criteria, either based on the water
balance, the streamflow absolute error, the streamflow squared error, and the squared error
of the square root transformed streamflows. Also, performance values were almost identical
for the training data set and for the testing data set, suggesting that MLPs were exempt of
generalisation problems. The construction of calibration and validation data sets, the
selection of input variables and the number of neurons in the hidden layer, the choice of
employing Levenberg-Marquardt with Bayesian regularization as calibration procedure,
and the consideration of using stacking to obtain response distributions have thus been
performed as a way to build a rigorous model development process that highlights MLPs
potential and to allow a fair transfer function comparison over lead-times from one to five
days.
Overall, six MLP architectures based on three different nonlinear transfer functions
used in the hidden layer, and either the same nonlinear transfer function or the linear
24
transfer function used in the output layers have been confronted on five watersheds.
Results, averaged over the five lead-times, first confirmed the Universal Approximation
Theorem that a linear transfer function is suitable for the output layer - usage of a nonlinear
transfer function in the output layer failed improving performance values. The same results
also endorsed the tangent sigmoid as the most pertinent transfer function for streamflow
forecasting, over the bipolar (logistic) and Elliott sigmoids. In no instances, neither in
training nor in testing, did the bipolar MLPs provide a better averaged performance than the
tangent MLPs. As for the Elliott transfer function, its usage, combined with a linear transfer
function, provided averaged performance values that more closely matched the hyperbolic
tangent ones. Considering that the Elliott transfer function needs less computing time to
execute that the tangent transfer function, it may be an excellent option for operational
hydrology, when a short decision time limits the number of scenarios that may be tested.
All conclusions stand for lead-times from one to five days and for five diverse
watersheds that have residence times of about three days.
Acknowledgements
Financial support for the undertaking of this work has been provided by Hydro-
Québec and by the Natural Science and Engineering Research Council of Canada.
References
Anctil, F. and Lauzon, N., (2004). "Generalisation for neural networks through data
sampling and training procedures, with applications to streamflow predictions."
Hydrol. Earth Syst. Sci., 8(5), 940-958.
25
Anctil, F., Perrin, C. and Andreassian, V., (2004). "Impact of the length of observed records
on the performance of ANN and of conceptual parsimonious rainfall-runoff
forecasting models." Envir. Model. Softw., 19(4), 357-368.

Anctil, F., Michel, C , Perrin, C. and Andreassian, V., (2004). "A soil moisture index as an
auxiliary ANN input for stream flow forecasting." J. Hydrol, 286, 155-167.
ASCE, (2000). "Artificial Neural Networks in Hydrology. I: Preliminary Concepts." J.
Hydrol. Engng, 5(2), 115-123.

Bonafe, A., Galeati, G. and Sforna, M., (1994). "Neual networks for daily mean flow
forcasting." Hydr. Engrg. Sofware V. W. R. Blain and K. L Katsifarakis, eds.,
Computational Mechanics Publications, Southampton, UK, 1, 131-138.

Bowden, G. J., Dandy, G. C. and Maier, H. R., (2005). "Input determination for neural
network models in water resources applications. Part 1—background and

methodology." J. Hydrol, 301(1-4), 75-92.
Carrière, P., Mohaghegh, S. and Gaskari, R., (1996). "Performance of a virtual runoff
hydrograph system." J. Wat. Resour. Plann. MgmtASCE, 122(6), 421-427.

Coulibaly, P., Anctil, F. and Bobée, B., (1999). "Hydrological forecasting with artificial
neural networks: The state of the art." Can. J. Civ. Engng, 26(3), 293-304.
Coulibaly, P. Anctil, F. and Bobée, B., (2000). "Daily reservoir inflow forecasting using
artificial neural networks with stopped training approach." J. Hydrol, 230, 244-257.
Dawson, C. W. and Wilby, R., (1998). "An artificial neural network approach to rainfall-
runoff modelling." Hydrol. Sci. J , 43(1), 47-66.
Dawson, C. W. and Wilby, R. L., (2001). "Hydrological modelling using artificial neural
networks." Prog.phys. Geogr., 25(1), 80-108.

Elliott, D. L., 1993. A Better Activation Function for Articial Neural Networks. Institute for
Systems Research, University of Maryland.
26
Fahlman, S. E. and Lebiere, C , (1991). The Cascade-Correlation Learning Architecture.
School of Computer Science, Carnegie Mellon University, Pittsburgh, PA, USA
Foresse, F. D. and Hagan, M. T., (1997). Gauss-Newton approximation to Bayesian
regularization.
Franchini, M. and Pacciani, M., (1991). "Comparative-Analysis of Several Conceptual
Rainfall Runoff Models." J. Hydrol, 122(1-4), 161-219.

Hornik, K, Stinchcombe, M. and White, H , (1989). "Multilayer Feedforward Networks
Are Universal Approximators." Neural Netw, 2(5), 359-366.

Hsu, K. L., Gupta, H. V. and Sorooshian, S., (1995). "Artificial Neural-Network Modeling
of the Rainfall-Runoff Process." Wat. Resour. Res., 31(10), 2517-2530.

Hughes, D. A., (1994). "Soil moisture and runoff simulations using four catchment rainfall-
runoff models. "J. Hydrol, 158(3-4), 381-404.
Imrie, C. E., Durucan, S. and Korre, A., (2000). "River flow prediction using artificial
neural networks: generalisation beyond the calibration range." J. Hydrol, 233(1-4),

138-153.
Jayawardena, A. W. and Fernando, D. A. K, (1996). Comparison of multilayer perceptron
and radial basis function networks as tools for flood forcasting, Anaheim, CA,
USA.
Jiang, N., Zhao, Z. and Ren, L., (2003). "Design of structural modular neural networks with
genetic algorithm." Adv. Engng Softw., 34(1), 17-24.

Kim, D., Kim, H. and Chung, D., (2005). "A modified genetic algorithm for fast training
neural networks", Advances in Neural Networks - Isnn 2005, Pt 1, Proceedings.
Lecture Notes in Computer Science, pp. 660-665.

Klemes, V., (1986). "Diletantism in hydrology : Transition or Destiny ?" Wat. Resour. Res.,
22(9), 177s-188s.
27
Kohonen, T., (1990). "The self-organizing map." Proc. IEEE, 78(9), 1464-1480.
LeCun, Y., (1985). Une procedure d'apprentissage pour reseau a seuil asymmetrique, Paris.
MacKay, D. J. C , (1992). "A practical Bayesian framework for backpropagation

networks." Neural Comput., 4(3), 448-472.
Maier, H. R. and Dandy, G. C , (1996). "The use of artificial neural networks for the
prediction of water quality parameters." Wat. Resour. Res., 32(4), 1013-1022.

Maier, H. R. and Dandy, G. C , (2000). "Neural networks for the prediction and forecasting
of water resources variables: a review of modelling issues and applications." Envir.

Model. Softw., 15, 101-124.
Minns, A. W. and Hall, M. J., (1996). "Artificial neural networks as rainfall-runoff
models." Hydrol. Sci. J , 41(3), 399-417.

Naef, F., (1981). "Can We Model the Rainfall-Runoff Process Today." Hydrol. Sci. Bull,
26(3), 281-289.
Nash, J. E. and Sutcliffe, J. V., (1970). "River flow forecasting through conceptual models
part I — A discussion of principles." J. Hydrol, 10(3), 282-290.

Parker, D. B., 1985. Learning logic Casting the cortex of the human brain in silicon. Center
for Computational Research in Economics and Management Science, Cambridge,

MA, USA.
Perrin, C , 2000. Vers une amélioration d'un modèle global pluie-débit au travers d'une
approche comparative. PhD Thesis, Institut National Polytechnique de Grenoble,

Grenoble, France.
Perrin, C , Michel, C. and Andreassian, V., (2001). "Does a large number of parameters
enhance model performance? Comparative assessment of common catchment model
structures on 429 catchments." J. Hydrol, 242(3-4), 275-301.
28
Perrin, C , Michel, C. and Andreassian, V., (2003). "Improvement of a parsimonious model
for streamflow simulation." J. Hydrol, 279(1-4), 275-289.

Prechelt, L., (1998). "Automatic Early Stopping Using Cross Validation:Quantifying the
Criteria." Neural Netw, 11(4), 761 - 767

Reed, R. D. and Marks, R. J., (1998). "Neural Smithing: Supervised Learning in
Feedforward Artificial Neural Networks". MIT Press, Cambridge, MA, USA, 346
pp.
Rumelhart, D. E., Hinton, G. E. and Williams, R. J., (1986). "Learning Internal
Representations by Error Propagation: Parallel Distributed Processing: Explorations
in the Microstructures of Cognition". MIT Press, Cambridge, pp. 318-362.

Senbeta, D. A., Shamseldin, A. Y. and O'Connor, K. M., (1999). "Modification of the
probability-distributed interacting storage capacity model." J. Hydrol, 224(3-4),
149-168.
Shamseldin, A. Y., Nasr, A. E. and O'Connor, K. M., (2002). "Comparison of different
forms of the Multi-Layer Feed-Forward Neural Network method used for river flow
forecasting." Hydrol. Earth Syst. Sci., 6(4), 671-684.
Shamseldin, A. Y., O'Connor, K. M. and Liang, G. C , (1997). "Methods for combining the
outputs of different rainfall-runoff models." J. Hydrol, 197(1-4), 203-229.

Shrestha, R. R., Theobald, S. and Nestmann, F., (2005). "Simulation of flood flow in a river
system using artificial neural networks." Hydrol. Earth Syst. Sci., 9(4), 313-321.
Smith, J. and Eli, R. N., (1995). "Neural-Network Models of Rainfall-Runoff Process." J.
Wat. Resour. Plann. MgmtASCE, 121(6), 499-508.

Tan, Y. H. and Van Cauwenberghe, A., (1999). "Neural-network-based d-step-ahead
predictors for nonlinear systems with time delay." Engng Applic. Artif Intell, 12(1),
21-35.
29
Tokar, A. S. and Markus, M., (2000). "Precipitation-Runoff Modeling Using Artificial
Neural Networks and Conceptual Models." J. Hydrol. Engng, 156-161.

Toth, E. and Brath, A., (2007). "Multistep ahead streamflow forecasting: Role of
calibration data in conceptual and neural network modeling." Wat. Resour. Res.,
43(11).
Werbos, P. J., 1974. Beyond Regression: New Tools for Prediction and Analysis in the
Behavioral Sciences. PhD thesis, Harvard University, Cambridge, MA, USA.

WMO, 1975. Intercomparison of Conceptual Models used in Operational Hydrological
Forecasting. Report 7, Geneva, Switzerland.

WMO, 1992. Simulated Real-time Intercomparison of Hydrological Models. Report 38,
Geneva, Switzerland.
Wolpert, D. H., (1992). "Stacked generalization." Neural Netw, 5(2), 241-259.
Ye, W., Bates, B. C , Viney, N. R., Sivapalan, M. and Jakeman, A. J., (1997). "Performance
of conceptual rainfall-runoff models in low-yielding ephemeral catchments." Wat.

Resour. Res., 33(1), 153-166.
30

TC Qqla 26583

Transféré par

Droits d'auteur :

Formats disponibles

TC Qqla 26583

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TC Qqla 26583

Transféré par

Droits d'auteur :

Formats disponibles

HAROUNA YONABA

MODELISATION HYDROLOGIQUE HYBRIDE

DEPARTEMENT DE GENIE CIVIL

© Harouna Yonaba, 2009

1.2 Classification des modèles (ou quelques qualificatifs de

1.2.1 Global, distribué ou semi-distribué

1.2.1.2 Le modèle global

1.2.1.3 Le modèle semi - distribué

y, =0O +<f\y,-. +&y,-2 +-+<PPy,-P + £ , - 0 , £ ,-. - ^ , - 2 -••■-*,-, [î.i]

t. $(/ = l,2,.../?) et 0Xj = 0,1,2,..^)sont les paramètres du modèle, p et q désigne l'ordre

1.2.2.2 Les modèles théoriques

1.2.2.3 Les modèles conceptuels

Figure 1.1: Modèle GR4J (Perrin, 2000)

La difficulté de classification des modèles provient des combinaisons possibles des

1.2.3 Modèle hybride

1.2.3.1 Les modèles hybrides (modèle conceptuel - réseau de neurones)

a) La combinaison linéaire ou en série

b) L'optimisation des réseaux de neurones

Definition de l'hybride au sens de notre projet

2.1.1 Formulation mathématique d'un réseau de neurones

Figure 2.1 : Un neurone

Figure 2.2: Réseau ouvert

2.1.2 A r c h i t e c t u r e des réseaux d e n e u r o n e s

Groupe de fonctions Exemple

Figure 2.3: Réseau bouclé

2.1.3 Apprentissage des réseaux de neurones

2.1.4 Les perceptrons multicouches (PMC)

2.1.4.1 Les fonctions de transfert

0(n) = —?—-l [2.2]

La figure 2.5 montre les graphes des ces différentes

Figure 2.5 : Graphique des différentes fonctions de transfert

2.1.4.2 Détermination des entrées

2.1.4.3 Nombre de nœuds cachés

et n la taille de la série. MSE est analogue à la variance résiduelle et représente la

L ' erreur moyenne absolue MAE = — V Q r - Q l [2.6]

- l'efficacité Nash et Sutcliffe (1970) : E = 1 — [2.7]

Où Qest la moyenne des variables observées. C'est au vu de la difficulté d'utiliser le

observés Q. Ce critère d'efficacité largement utilisé en hydrologie varie dans

- la persistance (Kitanidis et Bras, 1980) : Pers = 1 [2.8]

2.1.4.6 Nombre requis de répétitions de l'apprentissage

Tableau 2.2: Valeur de Fx(a) pour N et Fw(a) donnés

2.1.5 Les cartes auto-organisatrices de Kohonen

Figure 2.6 : Cartes de Kohonen

Vi,[x{t)-W c {t)]<[x{t)-W,{t)] [2.12]

La mise à jour des poids s'écrit alors (Kohonen, 1990) :

Wl(t + l) = Wl(t) + h cU)l [X(t)-W i (t)] [2.13]

Avec [X(t)-W.(t)] la distance euclidienne entre les vecteurs X et W à l'instant / et

être une fonction logique de la forme :

Ki,A i : i { r ^ < s p.»]

Ou une fonction de voisinage gaussienne (Kohonen, 1988) de la forme :

a(t) = -, r ou A et B sont des constantes. Tout comme ô, a(t) définit le rayon du

distance qui sépare les nœuds Nc et Ni sur le plan.

2.2 Le modèle HYDROTEL

Les données nécessaires à l'exécution d'HYDROTEL sont préalablement traitées et

L'équation de continuité qui devient :

La simulation de l'écoulement naturel dans les tronçons de rivière s'effectue également

Avec : Q, le débit (m3s*1) ; C, la célérité de l'onde de surface (ms"1) ; S, la diffusion (mV

2.2.1 Le bilan vertical : BV3C

zi Teneur en eau couche 1(91)

-min —■—perc25 —A—moy —-—perc75 ——max

0.2 J L...„'_ _ _ _ _ _ ! I J L . . J.. 1 ■