IEEE - ITS FR
IEEE - ITS FR
IEEE - ITS FR
Voir les discussions, les statistiques et les profils des auteurs de cette publication à l'adresse suivante : https://www.researchgate.net/publication/261321692
Conference Paper in Conference Record - IEEE Conference on Intelligent Transportation Systems - Septembre 2012
DOI : 10.1109/ITSC.2012.6338707
CITATIONS LIRE
68 3,026
2 auteurs :
VOIR LE VOIR LE
PROFIL PROFIL
Tout le contenu de cette page a été téléchargé par Samah El-Tantawy le 27 janvier 2015.
Comme alternative, la coordination peut être réalisée de système centralisé ; 2) évolutif pour s'adapter à toute taille de
manière plausible en utilisant l'apprentissage par renforcement réseau ; 3) robuste, c'est-à-dire sans point de défaillance
et les approches de la théorie des jeux [8]. L'apprentissage par unique ; 4) sans modèle, c ' est-à-dire ne nécessitant pas u n
renforcement (AR) a montré un bon potentiel pour l'auto- modèle du système de trafic difficile à obtenir ; 5) auto-
apprentissage du contrôle optimal des feux de circulation en apprenant, c'est-à-dire réduisant l'intervention humaine dans
boucle fermée dans un environnement de circulation la phase d'exploitation après le déploiement (l'élément le plus
stochastique [9], [10]. L'apprentissage par renforcement coûteux de l'exploitation des ATSC existants) ; et 6)
présente l'avantage supplémentaire de pouvoir apprendre en coordonné, c'est-à-dire en mettant en œuvre le mode 2 (mode
permanence et d'améliorer le service au fil du temps. Dans la intégré), qui coordonne le système de trafic avec les autres
RL, un signal de circulation représente un agent de contrôle systèmes de transport, 6) coordonné, c'est-à-dire qu'il met en
qui interagit avec l'environnement de circulation dans un œuvre le mode 2 (mode intégré), qui coordonne le
système en boucle fermée afin d'obtenir une correspondance fonctionnement des intersections dans les réseaux routiers à
optimale entre l'état de la circulation de l'environnement et deux dimensions (par exemple, le réseau en grille) - il s'agit
l'action de contrôle optimale correspondante, donnant lieu à d'une nouvelle fonctionnalité sans précédent dans l'état de l'art
une loi de contrôle optimale. La correspondance entre les états et la pratique des ATSC. En outre, MARLIN-ATSC est testé
et les actions est également appelée politique de contrôle. sur un réseau simulé à grande échelle de 59 intersections dans
L'agent reçoit itérativement une récompense en retour pour les le centre-ville de Toronto en utilisant les données d'entrée (par
actions entreprises et ajuste la politique jusqu'à ce qu'elle exemple, les comptages de trafic, les horaires des signaux,
converge vers la politique de contrôle optimale. L'application etc.) fournies par la ville de Toronto.
de la RL à un réseau de transport composé de plusieurs
carrefours à feux pose quelques problèmes. Les agents II. DE L'AGENT UNIQUE AU MULTI-AGENT
réagissent généralement aux changements de l'environnement A PPRENTISSAGE PAR RENFORCEMENT
au niveau individuel, mais le comportement global de tous les
A. RL
agents peut ne pas être optimal. Chaque agent est confronté à
un problème d'apprentissage à cible mobile, dans lequel la En règle générale, le RL s'intéresse à un agent unique
politique optimale de l'agent change au fur et à mesure que les opérant dans un environnement de manière à maximiser sa
politiques des autres agents évoluent dans le temps [8]. La récompense cumulative à long terme. L'environnement est
théorie des jeux fournit des outils permettant de modéliser les modélisé comme un processus de décision de Markov (PDM),
systèmes multi-agents comme un jeu multi-joueurs et de fournir en supposant que l'environnement sous-jacent est stationnaire,
une stratégie rationnelle à chaque joueur. L'apprentissage par c'est-à-dire que l'état de l'environnement ne dépend que des
renforcement multi-agents (MARL) est une extension de actions de l'agent. L'algorithme RL mono-agent le plus
l'apprentissage par renforcement à plusieurs agents dans un courant est l'apprentissage Q [12]. L'agent Q-learning apprend
jeu stochastique (SG ; c'est-à-dire plusieurs joueurs dans un la correspondance optimale entre l'état de l'environnement s et
environnement stochastique). Le problème du contrôle l'action de contrôle optimale correspondante a sur la base de
décentralisé du trafic est un excellent banc d'essai pour le l'accumulation des récompenses r(s, a). Chaque paire état-
MARL en raison de la dynamique héritée et de la nature action (s, a) a une valeur appelée facteur Q qui représente la
stochastique du système de trafic [8], [11], sur lequel nous récompense cumulative attendue à long terme pour la paire
nous concentrons dans le présent document. état-action (s, a). À chaque itération, c 'est-à-dire k, l'agent
Malgré les approches récentes employant le MARL dans un observe l'état actuel s et choisit et exécute l'action a qui
SG, le MARL est confronté à de nombreux défis. Le premier appartient à l'ensemble des actions disponibles A ; ensuite, le
est la croissance exponentielle de l'espace état-action avec facteur Q est mis à jour en fonction de la récompense
l'augmentation du nombre d'agents. Deuxièmement, la immédiate r(s, a) et la transition vers l'état s′ comme suit [13] :
majorité des ATSC basés sur la MARL dans la littérature
supposent que les agents apprennent de manière indépendante, Qk (sk , ak ) = (1 - α)Qk−1 (sk , a )k
-
auquel cas chaque agent agit individuellement dans son
environnement local
sans coordination explicite1 avec les autres agents de
l'environnement.
ronnement. Bien que cela simplifie le problème, cela limite )¸
leur utilité dans le cas d'un réseau d'agents. Par exemple, dans + α r(sk , a k )+ γ max Qk-1(sk+1, ak+1
ak+1∈A
des conditions de trafic sursaturé, les files d'attente peuvent
facilement se propager d'un agent à l'autre.
une intersection en aval (agent) et se répercute sur les approches approximatives basées sur la modification des tech-
intersections en amont (agents) en cascade à l'échelle du niques MARL existantes [8].
réseau ; de tels cas nécessitent une coordination multi-agents à Pour remédier à ces limitations, nous présentons un nouvel
l'échelle du réseau, comme nous l'avons vu plus haut. Ainsi, apprentissage par renforcement multi-agents pour un réseau intégré
des approches flexibles et efficaces en termes de calcul de contrôleurs adaptatifs des feux de circulation (MARLIN-ATSC)
deviennent essentielles pour contrôler un réseau d'agents, qui offre les caractéristiques suivantes : 1) une conception et une
vraisemblablement en employant des heuristiques et des exploitation décentralisées, qui sont généralement moins
coûteuses
EL-TANTAWY que
et alles systèmes de: MÉTHODOLOGIE
: MARLIN-ATSC contrôle de laETcirculation.
APPLICATION À GRANDE α et γ ∈SUR
oùÉCHELLE (0,LE1)CENTRE-VILLE
sont respectivement appelés taux 1143
DE TORONTO
d'apprentissage et taux d'actualisation.
1Il est important de ne pas confondre la coordination qui vise à créer une L'agent peut simplement choisir l'action gourmande à
onde verte le long d'un certain corridor en ajustant la synchronisation des chaque itération sur la base des facteurs Q stockés, comme
décalages (définie comme progression ci-après) avec le mécanisme entre les suit :
agents (intersections s i g n a l i s é e s ) pour coordonner leurs politiques de
sorte qu'un certain objectif soit atteint pour l'ensemble du réseau de
circulation (défini comme coordination ci-après). Dans le présent document, ak+1 ∈ arg max [Q(s, a)] .
a∈A
la coordination fait référence à ce dernier mécanisme.
Cependant, il est prouvé que la séquence Qk ne converge
vers la valeur optimale que si l'agent visite la paire état-action
pendant un nombre infini d'itérations [12]. Cela signifie que
l'agent doit parfois explorer (essayer des actions aléatoires)
plutôt qu'exploiter les meilleures actions connues. Pour
équilibrer l'exploration et l'exploitation dans l'apprentissage
Q, des algorithmes tels que ϵ-greedy et softmax sont
généralement utilisés [13].
B. MARL
MARL est une extension de RL à des agents multiples
(intersections signalisées). Le problème de contrôle
décentralisé des feux de circulation
1144 IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, VOL. 14, NO. 3, SEPTEMBRE 2013
est un excellent banc d'essai pour le MARL en raison de la S YSTÈMES DE CONTRÔLE DES SIGNAUX DE CIRCULATION
dynamique inhérente et de la nature stochastique du système Thorpe [18] a appliqué l'algorithme RL état-action-
de circulation [8], [11]. La façon la plus simple d'étendre le récompense-état-action (SARSA) à un problème simulé de
RL au MARL est de considérer l'état local et l'action locale contrôle des feux de circulation. Les résultats ont montré que
pour chaque agent, en supposant un environnement stationnaire l'algorithme SARSA RL surpassait les plans de synchronisation
et que la politique de l'agent est le principal facteur affectant fixes en réduisant le temps d'attente moyen des véhicules de 29
l'environnement. Cependant, le MARL dans l'environnement %. Wiering [19] a utilisé un algorithme RL basé sur un modèle
du trafic est associé à certains problèmes difficiles parce que
l'environnement du trafic n'est pas stationnaire puisqu'il
comprend de multiples agents qui apprennent simultanément,
c'est-à-dire que l'effet de l'action d'un agent sur l'environnement
dépend des actions prises par les autres agents. Chaque agent
est donc confronté à un problème d'apprentissage à cible
mobile, car la meilleure politique change au fur et à mesure
que les politiques des autres agents changent, ce qui accentue
le besoin de coordination entre les agents. La coordination peut
être réalisée en considérant l'état et l'action conjoints des autres
agents dans le processus d'apprentissage. En outre, étant
donné que tous les agents agissent simultanément, les choix
d'actions des agents doivent être mutuellement cohérents pour
atteindre leur objectif commun d'optimisation du problème de
contrôle des signaux. Par conséquent, les agents ont besoin
d'un mécanisme de coordination pour prendre la décision
optimale à partir des actions conjointes possibles (c'est-à-dire
que les agents doivent coordonner leurs choix/actions pour
atteindre une politique d'équilibre unique). La coordination
des agents dans ce contexte ne doit pas être confondue avec la
coordination conventionnelle des feux de circulation qui
maximise les bandes vertes, les décalages, etc.
Les jeux de Markov constituent le cadre théorique de
MARL. Un jeu de Markov (connu sous le nom de SG) est une
extension du PDM aux environnements multi-agents. Le jeu
se déroule en une séquence d'étapes. À chaque étape, le jeu a
un certain état dans lequel les joueurs choisissent des actions
et chaque joueur reçoit une récompense qui dépend de l'état
actuel et de l'action conjointe choisie. Le jeu passe ensuite à
un nouvel état aléatoire dont la distribution dépend de l'état
précédent et de l'action conjointe choisie par les joueurs. La
procédure est répétée dans le nouvel état et se poursuit
pendant un nombre fini ou infini d'étapes. L'objectif de l'agent
est de trouver une politique commune (appelée équilibre) dans
laquelle chaque politique individuelle est la meilleure réponse
aux autres, comme l'équilibre de Nash [14]. Une étude
complète des algorithmes MARL est disponible dans [15].
Des exemples d ' approches MARL avec un mécanisme de
coordination sont l'apprentissage adaptatif optimal (OAL) [16]
pour les jeux coopératifs et les algorithmes de politiques
convergentes non stationnaires (NSCP) [17] pour les jeux à
somme générale. La coordination dans OAL [16] et NSCP
[La modélisation des politiques des autres agents permet à
l'agent d'agir en conséquence. Toutefois, l'applicabilité de ces
approches est limitée à l'optimisation de quelques agents de
signalisation routière en raison de l'augmentation
exponentielle évidente de l'espace commun des états avec
l'augmentation du nombre d'agents [8].
× ³hsk , sk i ".
ANB i[j]. Chaque cellule Mi,NB i[j]([si , sNB i[j]], aNB i[j]) , [ai , a NB[j] ]
indique la probabilité que l'agent NBi [j] prenne
repre- NBi i NBi i
l'action a [j] [j]
#
à l'état conjoint [si , sNB i[j]] en utilisant le nombre de ³h kk i '
visites
état-action υ([sk , sk ], ak ) pour l'état-action × Mi,NBi [j] si , sNBi [j] aNBi [j] (4)
à l'état conjoint [s , s i[j]].
i NBi NBi
[j] [j]
paire ([sk , sk ], ak ) [voir (3)].
i NBi [j] NBi [j]
• Chaque agent i apprend la politique optimale commune des d. Mettre à jour Qi,NB i[j]
agents i'
i et NBi [j] ∀ j ∈ {1,..., |NBi |} en mettant à jour les ³hski , sNB
k i , hai k , NB = (1 - α)Qk−i,NB
1
i i i
données suivantes [j] [j] [j]
Les valeurs Q qui sont représentées par une matrice ide |Si ×Si,NBi a
k
lignes
NB[j] | et |Ai ×ANB i[j]| colonnes, où chaque cellule Qk[j]
i' ¤
Qi,NB i[j]([si , sNB i[j]],[ai , aNB i[j]]) représente la valeur × ³hsk , sk i , hak , + α £rk + γbrk (5)
Q.
ak
i NBi i NBi [j] i i
pour une paire état-action dans les espaces partiels [j]
correspondant à la paire d'agents connectés (i, NBi [j]). Décide
• Chaque agent met à jour les valeurs Qi,NB i[j]([si , sNB
i[j]]), r
"
[ai , aNB i[j]]) en utilisant la valeur de l'action de Σ Σ
ak+1 = arg max
meilleure
dans l'état réponse
suivant. La valeur de meilleure réponse (brk ) i
ai ∈A i
j∈{1,2,...,|NBi |} a ∈A NBi[j]
est la valeur Q maximale attendue à l'état suivant, c'est-à-
i
NBi[j]
dire ".
calculée à l'aide des modèles pour les autres agents [voir × Qi,NB
k ³hsik , NB
sk i , [a i , a NB[j] ]
[j] [j]
(4)]. i i i
B. Environnement de simulation
Algorithme 1 : Apprentissage MARLIN
La composante environnement de simulation modélise
Initialisation au temps k = 0 : l'environnement du trafic. Dans ce document, Paramics, qui
Pour chaque agent i, i ∈ {1, 2 , . . . , N } : est un simulateur de trafic micro-scopique, est utilisé pour
Pour chaque voisin j ∈ {1, 2,.. . , |NB |}i modéliser l'environnement de trafic [33]. Paramics modélise le
Initialiser si0 , ai0 , aNB
0
i[j]
flux stochastique de véhicules en utilisant des règles de
¡ ¢ vitesse, de suivi des voitures, d'acceptation des écarts et de
M0 [si, sNB [j]], aNB [j] = 1/|ANB [j]|,
i,NBi i i i dépassement. Paramics propose trois méthodes d'affectation
[j]
du trafic qui peuvent être utilisées à différents niveaux, à
savoir,
¡ ¢ Pour chaque agent i, i ∈ {1, 2,.... , N }, faire :
Qki,NBi [j][si , s NB[j]
i
], [a i , a NB[j] ]
i
Pour chaque voisin NB [j], j ∈ {1, 2,... |NB |}, faire :
Fin=de0
la
période
Fin de
la
période
Pour chaque pas de temps k, faire :
l'affectation "tout ou rien", l'affectation stochastique et
l'affectation
EL-TANTAWY et al : dy-
MARLIN-ATSC : MÉTHODOLOGIE ET APPLICATION À GRANDEcoût de déplacement
ÉCHELLE par les conducteurs,
SUR LE CENTRE-VILLE et 2) un intervalle de
1149
DE TORONTO
l'affectation dynamique par retour d'information. rétroaction dynamique a été utilisé pour mettre à jour les
Dans cette application, une affectation dynamique temps de déplacement sur les itinéraires pour les conducteurs
stochastique du trafic a été utilisée où 1) un bruit familiers de la simulation. La programmation d'applications
aléatoire a été ajouté au coût de déplacement pour Paramics
tenir compte de l'hétérogénéité de la perception du
i i
ont été utilisées pour construire l'état, exécuter la fonction
a. Observer , sk+1 sk+1 et r
k
unk
NBi [j] i i
NBi [j] et calculer la récompense pour chaque intersection signalisée.
b. Mise à Mi,NBi [j] Voici quelques-uns des principaux défis à relever lors de la conception
jour d'un système de NR
³hsk sk i ' la conception des définitions de l'état, de l'action et de la
Mi,NB [j] , k
,a
i NBi NBi [j]
i
[j]
récompense. Dans [34], une étude approfondie de ces
questions clés dans la commande de signalisation basée sur la
logique logique pour les intersections isolées est menée.
i ' ' L'état,
, ak et les définitions des récompenses recommandées dans [34] et
[35]
υ ³hsi k , NB
sk [j] NB
i [j] i
= Σ ³h i (3) sont adoptés comme suit dans le présent document. (Pour plus de
aNB [j]∈ANB [j]
υ si , sNBi [j] aNBi [j]
k k
détails sur les
i i
voir [34]).
• Définition de l'état : Longueur de la file d'attente :
c. Choisissez la valeur Q maximale attendue à l'état
L'état de l'agent est représenté par un vecteur de 2 + P
sk+1
NBi [j]
composantes, où P
est le nombre de phases. Les deux premières composantes sont
1) l'indice de la phase verte en cours et 2) le temps écoulé
k
brik = max ai ∈Ai Qi,NBi de la phase en cours. Les composantes P restantes sont les
"aNBi [jΣ] ∈ ANB [j]
longueurs maximales des files d'attente associées à
chaque phase.
i [j]
1150 IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, VOL. 14, NO. 3, SEPTEMBRE 2013
C. Interface
Le composant d'interface gère les interactions entre l'agent
et l'environnement de simulation en échangeant l'état, la
récompense et l'action. L'interaction entre l'agent et
l'environnement est associée aux éléments de conception
suivants.
• Une interaction synchronisée entre l'agent et
l'environnement a été conçue pour garantir que
l'environnement de simulation est maintenu pendant que
l'agent effectue les processus d'apprentissage et de prise
de décision et, finalement, produit l'action qui devrait être
exécutée par un environnement de simulation. Dans le
même temps, l'agent doit être en attente jusqu'à ce que
l'action soit exécutée dans l'environnement et que l'état
résultant et la récompense soient mesurés.
• Le système a été conçu de manière à ce que la fréquence
d'interaction soit variable pour chaque agent.
L'interaction se produit à chaque intervalle de temps
spécifié (1 s dans cette recherche) tant que le vert actuel
pour une intersection signalée associée à un agent i a
dépassé le temps de vert minimum. Dans le cas contraire,
l'interaction commence après le temps vert minimum.
L'agent a été conçu pour apprendre hors ligne dans un
environnement de simulation (tel que le modèle de
microsimulation utilisé dans les expériences) avant d'être mis
en œuvre sur le terrain. Après avoir convergé vers la politique
optimale, l'agent peut soit être déployé sur le terrain en mettant
en correspondance l'état mesuré du système avec les actions de
contrôle optimales en utilisant directement la politique apprise,
soit poursuivre l'apprentissage sur le terrain en partant de la
politique apprise.
lesÉCHELLE
EL-TANTAWY et al : MARLIN-ATSC : MÉTHODOLOGIE ET APPLICATION À GRANDE agents).SUR LE CENTRE-VILLE 1151
DE TORONTO
B. Critères de référence
Il est généralement difficile de trouver une référence
pour les problèmes de contrôle des feux de circulation à
grande échelle, étant donné que les détails opérationnels
de la plupart des systèmes de contrôle de la circulation ne
sont pas facilement disponibles pour des raisons
commerciales évidentes. La performance de l'approche
MARLIN- ATSC est comparée au scénario BC dans
lequel les feux de circulation, tels que définis et exploités
par la ville de Toronto, sont un mélange de contrôle à
temps fixe, de contrôle semi-actuel et de contrôle SCOOT,
comme le montre la figure 2. Il convient de noter qu'en
raison du peu de détails techniques sur le fonctionnement
de SCOOT, il est approximé dans cette thèse comme un
contrôle amélioré entièrement actionné, dans lequel des
détecteurs de boucles sont placés sur toutes les approches,
et les temps d'extension sont conduits seconde par
seconde.
C. Résultats et discussion
Les résultats sont présentés pour les systèmes de
contrôle BC (conditions existantes), MARL-I (représente
le mode indépendant MARLIN-ATSC sans
communication entre les agents) et MARLIN (représente
le mode intégré MARLIN-ATSC avec coordination entre
1152 IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, VOL. 14, NO. 3, SEPTEMBRE 2013
TABLEAU I
MOE À L'ÉCHELLE DU RÉSEAU DANS LE SCÉNARIO NORMAL
La performance de chaque système de contrôle est évaluée réalisées au niveau de l'écart-type de la longueur de la file
sur la base des mesures d'efficacité suivantes : d'attente sont intéressantes car elles permettent d'équilibrer
les files d'attente entre toutes les approches de
– le retard moyen par véhicule (s/veh) ; l'intersection.
– longueur maximale moyenne de la file d'attente par – MARL-I surpasse la BC dans toutes les mesures
intersection (véh) ; d'efficacité (MOE), notamment en ce qui concerne la
– l'écart-type moyen des longueurs de file d'attente entre moyenne de l'in...
les ap- proches (veh) ;
– le nombre de voyages effectués ;
– les facteurs d'émission moyens de CO2 (gm/km) ;
– durée moyenne du trajet pour les itinéraires sélectionnés
(min).
Le tableau I compare les performances de la CB par rapport
au système MARLIN-ATSC avec et sans communication
entre les agents, c'est-à-dire MARLIN et MARL-I,
respectivement.
L'analyse des résultats présentés dans le tableau I conduit
aux conclusions suivantes.
– Les deux algorithmes MARLIN-ATSC permettent de
réduire le retard moyen, d'augmenter le débit, de
raccourcir la longueur des files d'attente et le temps
d'arrêt par rapport aux algorithmes de la CB. Les
améliorations les plus notables concernent le retard
moyen (38 % pour MARLIN contre BC), l'écart type de
la longueur moyenne des files d'attente (31 % pour
MARLIN contre BC) et les facteurs d'émission de CO2
(30 % pour MARLIN contre BC).
– Ces améliorations substantielles sont dues non
seulement à l'intelligence de l'algorithme RL mais aussi
au mécanisme de coordination entre les agents pour
parvenir à un ensemble d'actions à l'échelle du réseau
qui minimisent les retards à long terme. Cette
coordination se traduit par l'effet dit de "comptage" de
l'intersection en amont vers l'intersection en aval, tout en
tenant compte des files d'attente et des retards à
l'intersection en aval. En fait, les économies tangibles
EL-TANTAWY et al : MARLIN-ATSC : MÉTHODOLOGIE ET APPLICATION À GRANDE ÉCHELLE SUR LE CENTRE-VILLE 1153
2La comparaison entre MARLIN et MARL-I montre
DE TORONTO
que les retards sont relativement plus importants
parce que les actions de MARL-I ne sont basées que
sur des données collectées localement. Toutefois, si
l'on compare MARLIN et MARL-I, o n
c o n s t a t e q u e ce dernier enregistre des
retards relativement plus importants parce que les
actions de MARL-I ne sont basées que sur des
données collectées localement et que, par
conséquent, davantage de véhicules sont conservés
dans le réseau à la fin de la simulation (6 %
d'amélioration du débit pour MARLIN contre 2,8 %
pour MARL-I).
Fig. 3. Distribution spatiale du pourcentage d'amélioration moyenne des retards pour MARLIN par rapport à BC.
TABLEAU II
TEMPS DE TRAJET POUR BC, MARL-I, ET MARLIN
ce qui reflète l'effet supérieur de la coordination terrain à l'aide des fiches de synchronisation des signaux fournies
bidimensionnelle entre les agents. par la ville de Toronto), MARL-I (représentant le mode
- L'observation de la distribution temporelle du temps de indépendant de MARLIN-ATSC sans communication entre les
parcours sur l'heure de simulation montre que le agents), et MARLIN (représentant le mode indépendant de
scénario MARLIN est stable et présente moins de MARLIN-ATSC sans communication entre les agents).
variations que les scénarios BC et MARL-I. Alors que
le scénario BC présente la plus grande variabilité de
temps de parcours (comme le montrent les valeurs de
l'écart-type dans le tableau II), MARL-I présente encore
quelques variations, plus particulièrement sur les deux
itinéraires les plus encombrés (itinéraires 7 et 8). En
termes de complexité de calcul, chaque agent
(intersection) converge vers la politique optimale avec
des vitesses de convergence différentes. Le temps
moyen nécessaire pour converger vers le retard moyen
minimum par intersection est de 60 simulations (1 heure
chacune). Le temps de calcul pour chaque étape
d'apprentissage (1 simulation/s) est de 4,2 ms.
REMERCIEMENTS
Les auteurs tiennent à remercier le personnel de la ville
de Toronto pour avoir fourni les données nécessaires à
cette recherche.
R ÉFÉRENCES
[1] W. R. McShane, R. P. Roess, et E. S. Prassas, Traffic Engineering.
Englewood Cliffs, NJ, USA : Prentice-Hall, 1998.
[2] P. B. Hunt, D. I. Robertson, R. D. Bretherton et R. I. Winton,
"SCOOT-A traffic responsive method of coordinating signals",
Transp. Road Res. Lab., Crowthorne, U.K., Tech. Rep., 1981.
[3] C. Diakaki, M. Papageorgiou, et K. Aboudolas, "A multivariable
regu- lator approach to trafficresponsive network-wide signal
control," Control Eng. Pract., vol. 10, no. 2, pp. 183-195, Feb. 2002.
[4] A. G. Sims et K. W. Dobinson, "SCAT-The Sydney co-ordinated
adaptive traffic system : Philosophy and benefits", présenté à l'Int.
Symp. Traffic Control Systems, Berkeley, CA, USA, 1979.
[5] J. L. Farges, J. J. Henry, et J. Tufal, "The PRODYN real-time traffic
algorithm," présenté au 4ème IFAC/IFIP/IFORS Symp. Control
Transp. Syst., Baden-Baden, Allemagne, 1983.
1158 IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, VOL. 14, NO. 3, SEPTEMBRE 2013
pp. 133-139.
[6] N. H. Gartner, "OPAC : A demand-responsive strategy for traffic signal
control," Transp. Res. Rec., J. Transp. Res. Board, vol. 906, pp. 75-81,
1983.
[7] K. L. Head, P. B. Mirchandani, et D. Sheppard, "Hierarchical framework
for real-time traffic control," Transp. Res. Rec., vol. 1360, pp. 82-88,
1992.
[8] A. L. C. Bazzan, "Opportunities for multiagent systems and multiagent re-
inforcement learning in traffic control", Autonomous Agents Multi-Agent
Syst, vol. 18, no. 3, pp. 342-375, juin 2009.
[9] B. Abdulhai et L. Kattan, "Reinforcement learning : Introduction to
theory and potential for transport applications," Can. J. Civil Eng, vol. 30,
no. 6, pp. 981-991, Dec. 2003.
[10] S. El-Tantawy et B. Abdulhai, "An agent-based learning towards decen-
tralized and coordinated traffic signal control," in Proc. 13th IEEE ITSC,
2010, pp. 665-670.
[11] S. El-Tantawy et B. Abdulhai, "Towards multi-agent reinforcement
learning for integrated network of optimal traffic controllers (MARLIN-
OTC)," Transp. Lett : Int. J. Transp. Res., vol. 2, pp. 89-110, avril 2010.
[12] C. Watkins et P. Dayan, "Q-learning", Mach. Learn, vol. 8, pp. 279-
292, 1992.
[13] R. S. Sutton et A. G. Barto, Introduction to Reinforcement Learning.
Cambridge, MA, USA : MIT Press, 1998.
[14] T. Basar et G. J. Olsder, Dynamic Noncooperative Game Theory, 2e éd.
Londres, Royaume-Uni : Classics Appl. Math, 1999.
[15] L. Busoniu, R. Babuska, et B. De Schutter, "A comprehensive survey of
multiagent reinforcement learning," IEEE Trans. Syst., Man, Cybern. C,
Appl. Rev., vol. 38, no. 2, pp. 156-172, Mar. 2008.
[16] C. Claus et C. Boutilier, "The dynamics of reinforcement learning in co-
operative multiagent systems," in Proc. 15th Nat. Conf. Artif. Intell./10th
Conf. Innov. Appl. Artif. Intell., Madison, WI, USA, 1998, pp. 746-752.
[17] M. Weinberg et J. S. Rosenschein, "Best-response multiagent learning in
non-stationary environments," in Proc. 3rd Int. Joint Conf. Autonom.
Agents Multiagent Syst., 2004, pp. 506-513.
[18] T. Thorpe, "Vehicle traffic light control using sarsa", thèse de maîtrise,
Comput. Sci. de l'informatique, Colo. St. Univ., Fort Collins, CO, USA,
1997.
[19] M. Wiering, "Multi-agent reinforcement learning for traffic light
control," in Proc. 17th Int. Conf. Mach. Learn, 2000, pp. 1151-1158.
[20] B. Abdulhai, R. Pringle, et G. J. Karakoulas, "Reinforcement learning
for true adaptive traffic signal control," J. Transp. Eng., vol. 129, no. 3,
pp. 278-285, avril 2003.
[21] E. Camponogara et W. Kraus Jr. "Distributed learning agents in ur- ban
traffic control", dans Proc. 11th Portuguese Conf. Artif. Intell. 2003,
pp. 324-335.
[22] D. De Oliveira, A. L. C. Bazzan, B. C. da Silva, E. W. Basso, L. Nunes,
R. Rossetti, E. de Oliveira, R. da Silva, et L. Lamb, "Reinforcement
learning-based control of traffic lights in non-stationary environments :
A case study in a microscopic simulator," in Proc. EUMAS, 2006, pp. 31-
42.
[23] S. Richter, D. Aberdeen, et J. Yu, "Natural actor-critic for road traffic
optimisation," in Advances in Neural Information Processing Systems.
Cambridge, MA, USA : MIT Press, 2007.
[24] I. Arel, C. Liu, T. Urbanik et A. G. Kohls, "Reinforcement learning-
based multi-agent system for network traffic signal control", IET Intell.
Transp. Syst., vol. 4, no. 2, pp. 128-135, Jun. 2010.
[25] T. Li, D. B. Zhao, et J. Q. Yi, "Adaptive dynamic programming for multi-
intersections traffic signal intelligent control," in Proc. 11th Int. IEEE
Conf. Intell. Transp. Syst. 2008, pp. 286-291.
[26] A. Salkham, R. Cunningham, A. Garg, et V. Cahill, "A collaborative
reinforcement learning approach to urban traffic control optimization,"
in Proc. IEEE/WIC/ACM Int. Conf. Web Intell. Intell. Agent Technol.
2008,
pp. 560-566.
[27] J. C. Medina et R. F. Benekohal, "Q-learning and approximate dynamic
programming for traffic control-A case study for an oversaturated net-
work", présenté au Transp. Res. Board Annu. Meet., Washington, DC,
USA, 2012, Paper 12-4103.
[28] L. Shoufeng, L. Ximin, et D. Shiqiang, "Q-Learning for adaptive traffic
signal control based on delay minimization strategy," in Proc. IEEE Int.
Conf. Netw. Sens. Control, 2008, pp. 687-691.
[29] L. Kuyer, S. Whiteson, B. Bakker et N. Vlassis, "Multiagent reinforce-
ment learning for urban traffic control using coordination graph," in
Proc. 19th Eur. Conf. Mach. Learn, 2008, pp. 656-671.
[30] A. L. C. Bazzan, "A distributed approach for coordination of traffic
signal agents", Autonom. Agents Multi-Agent Syst., vol. 10, no. 1, pp.
131-164, Jan. 2005.
[31] R. Nair, P. Varakantham, M. Tambe et M. Yokoo, "Networked
distributed POMDPs : A synthesis of distributed constraint optimi-
zation and POMDPs," in Proc. 20th Nat. Conf. Artif. Intell. 2005,
de ÉCHELLE
EL-TANTAWY et al : MARLIN-ATSC : MÉTHODOLOGIE ET APPLICATION À GRANDE recherche ONE-ITS (one-its.net). Il a reçu plusieurs prix, notamment le 1159
SUR LE CENTRE-VILLE prix
[32] N. Ono et K. Fukumoto, "Multi-agent reinforcement learning : A
DE TORONTO IEEE Outstanding Service Award en 2006, le prix IEEE Outstanding Service
modular a p p r o a c h , " in Proc. 2nd Int. Conf. Multi-Agent Syst. Award, le prix Early Career Teaching Excellence Award, le prix New
1996, Opportunities Award de la Fondation canadienne pour l'innovation et le prix
pp. 252-258. New Opportunities Award du Fonds ontarien pour l'innovation. En 2005,
[33] "Quadstone Paramics, Paramics Microscopic Traffic Simulation l'Intelligent Transporta- t i o n Systems Center a reçu le prix d'excellence
Soft- ware, 2012. [En ligne]. Disponible : http://www.paramics- Ontario Showcase Merit Award et l a médaille de bronze nationale GTEC.
online.com Ses recherches, en collaboration avec
[34] S. El-Tantawy et B. Abdulhai, "Comprehensive analysis of H. Abdelgawad, sur l'optimisation des évacuations d'urgence, a remporté le
reinforce- ment learning methods and parameters for adaptive
prix de l'International Transportation Forum, Leipzig, Allemagne, en 2010.
traffic signal control," présenté au Transp. Res. Board, Washington,
DC, USA, 2011.
[35] S. El-Tantawy et B. Abdulhai, "Neighborhood coordination-based
multi-agent reinforcement learning for coordinated adaptive traffic
signal control," présenté au Transp. Res. Board, Washington, DC,
USA, 2012.