IEEE - ITS FR

Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux.
Visitez www.DeepL.com/pro pour en savoir plus.
Voir les discussions, les statistiques et les profils des auteurs de cette publication à l'adresse suivante : https://www.researchgate.net/publication/261321692
Apprentissage par renforcement multi-agents pour un réseau intégré de

contrôleurs adaptatifs de la signalisation routière (MARLIN-ATSC)
Conference Paper in Conference Record - IEEE Conference on Intelligent Transportation Systems - Septembre 2012
DOI : 10.1109/ITSC.2012.6338707
CITATIONS LIRE
68 3,026
2 auteurs :
Samah El-Tantawy Baher Abdulhai

Université du Université de Toronto
Caire 158 PUBLICATIONS 4 211 CITATIONS
11 PUBLICATIONS 860 CITATIONS
VOIR LE VOIR LE
PROFIL PROFIL
Tout le contenu de cette page a été téléchargé par Samah El-Tantawy le 27 janvier 2015.
L'utilisateur a demandé l'amélioration du fichier téléchargé.

1140 IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, VOL. 14, NO. 3, SEPTEMBRE 2013
Apprentissage par renforcement multi-agents

pour un réseau intégré de contrôleurs adaptatifs
de la signalisation routière (MARLIN-ATSC) :
Méthodologie et application à grande échelle
dans le centre-ville de Toronto
Samah El-Tantawy, membre étudiant, IEEE, Baher Abdulhai, membre, IEEE, et Hossam Abdelgawad
ON M5S 1A4, Canada (e-mail : [email protected]).

Résumé - La population augmente régulièrement dans le monde H. Abdelgawad travaille au département de génie civil de l'université de
entier, ce qui entraîne des embouteillages insolubles dans les Toronto, Toronto, ON M5S 1A4, Canada (courriel : hossam.abdelgawad@
zones urbaines denses. Le contrôle adaptatif des feux de alumni.utoronto.ca).
circulation (ATSC) a montré un fort potentiel pour atténuer Des versions en couleur d'une ou plusieurs figures de ce document sont
efficacement les embouteillages urbains en ajustant les plans de disponibles en ligne à l'adresse suivante : http://ieeexplore.ieee.org.
synchronisation des feux en temps réel en réponse aux Digital Object Identifier 10.1109/TITS.2013.2255286
fluctuations du trafic afin d'atteindre les objectifs souhaités (par
exemple, minimiser les retards). Un ATSC efficace et robuste
peut être conçu en utilisant une approche d'apprentissage par
renforcement multi-agents (MARL) dans laquelle chaque
contrôleur (agent) est responsable du contrôle des feux de
circulation autour d'un seul carrefour. L'application des
approches MARL au problème de l'ATSC est associée à quelques
défis car les agents réagissent généralement aux changements de
l'environnement au niveau individuel, mais le comportement
global de tous les agents peut ne pas être optimal. Cet article
présente le développement et l'évaluation d'un nouveau système
d'apprentissage par renforcement multi-agents pour un réseau
intégré de contrôleurs adaptatifs des feux de circulation
(MARLIN-ATSC). MARLIN-ATSC offre deux modes possibles :
1) le mode indépendant, où chaque contrôleur d'intersection
travaille indépendamment des autres agents ; et 2) le mode
intégré, où chaque contrôleur coordonne les actions de contrôle
des signaux avec les intersections voisines. MARLIN-ATSC est
testé sur un réseau simulé à grande échelle de 59 intersections
dans le centre-ville de Toronto, ON, Canada, pendant l'heure de
pointe du matin. Les résultats montrent une réduction sans
précédent du retard moyen aux intersections, allant de 27 % en
mode 1 à 39 % en mode 2 au niveau du réseau, et des gains de
temps de déplacement de 15 % en mode 1 et de 26 % en mode 2,
le long des itinéraires les plus fréquentés du centre-ville de
Toronto.
Index Terms-Contrôle adaptatif des feux de circulation, théorie
des jeux, modélisation par microsimulation, apprentissage par
renforcement multi-agents, système multi-agents, apprentissage
par renforcement.
Manuscrit reçu le 2 octobre 2012 ; révisé le 11 février 2013 ; accepté

Le 7 mars 2013. Date de publication : 16 avril 2013 ; date de la version
actuelle : 28 août 2013. Ce travail a été soutenu par l'Université de Toronto,
Toronto, ON, Canada, par le biais de la bourse Connaught et de la bourse
d'études supérieures de l'Ontario. Le rédacteur en chef adjoint de cet article
était B. Chen.
S. El-Tantawy travaille à l'Intelligent Transportation Systems Center and
Testbed, Université de Toronto, Toronto, ON M5S 1A4, Canada (e-mail :
[email protected]).
B. Abdulhai travaille au Toronto Intelligent Transportation Systems Center
and Testbed, Civil Engineering Department, University of Toronto, Toronto,
problème.
EL-TANTAWY et al : MARLIN-ATSC : MÉTHODOLOGIE ET APPLICATION À GRANDE ÉCHELLE
I. I NTRODUCTION La coordination
SUR LE CENTRE-VILLE a généralement été abordée de
1141
DE TORONTO
manière centralisée (par exemple, la technique d'optimisation
L'encombrement est en augmentation constante dans
le monde entier ; en conséquence, la demande de mobilité
augmente, en particulier pendant les périodes de bonne
P du décalage des cycles (SCOOT)).
[2] et TUC [3]), ce qui n'est possible que si des canaux de
communication entre toutes les intersections et le lieu de
conjoncture économique. Lorsque la croissance des contrôle central sont disponibles, ce qui exige des ressources.
activités sociales et écologiques dépasse celle des Le Sydney Coordinated Adaptive Traffic System (SCATS) [4]
infrastructures de transport, la congestion est inévitable. La est un autre exemple de système de contrôle adaptatif de la
congestion sévère et les longues heures de trajet sont le lot signalisation qui est un système hiérarchique et distribué dans
de nombreuses grandes zones urbaines à travers le monde, lequel une zone est divisée en sous-systèmes plus petits (de
et la région du Grand Toronto, ON, Canada, ne fait pas l'ordre d'une à dix intersections) qui fonctionnent de manière
exception à la règle. La congestion fait perdre du temps, indépendante. PRODYN [5], Optimized Policies for Adaptive
entrave les activités sociales et économiques et nuit à Control [6] et RHODES [7] sont également des exemples de
l'environnement, ce qui a pour effet de détériorer notre systèmes adaptatifs décentralisés, mais leurs schémas de
qualité de vie. La régulation adaptative des feux de calcul relativement complexes rendent leur mise en œuvre
circulation (ATSC) permet d'atténuer efficacement les coûteuse [8].
embouteillages en ajustant les paramètres de Le mécanisme de coordination dans les systèmes donnés est
synchronisation des feux en fonction des fluctuations du mis en œuvre le long d'une artère (là où la demande est la plus
trafic afin d'atteindre un certain objectif (par exemple, importante). Bien qu'il soit important d'exploiter efficacement
minimiser les retards) ; elle a donc le potentiel de surpasser les feux de circulation le long des artères où la demande est la
la régulation préprogrammée et la régulation actionnée [1]. plus forte (par exemple, la progression), il est également
L'utilisation de stratégies ATSC au niveau local important de prendre en compte l'effet d'une telle exploitation
(intersection isolée) pourrait limiter leurs avantages sur l'ensemble du réseau. Dans le cadre d'un réseau urbain
potentiels. Par conséquent, le contrôle optimal du avec signalisation, la prise en compte d'un objectif à l'échelle
fonctionnement de plusieurs intersections simultanément du réseau peut permettre d'améliorer les performances
peut être synergique et bénéfique. Cependant, une telle globales du réseau et la mobilité et de réduire les émissions.
intégration ajoute certainement plus de complexité au
1524-9050 © 2013 IEEE
Comme alternative, la coordination peut être réalisée de système centralisé ; 2) évolutif pour s'adapter à toute taille de
manière plausible en utilisant l'apprentissage par renforcement réseau ; 3) robuste, c'est-à-dire sans point de défaillance
et les approches de la théorie des jeux [8]. L'apprentissage par unique ; 4) sans modèle, c ' est-à-dire ne nécessitant pas u n
renforcement (AR) a montré un bon potentiel pour l'auto- modèle du système de trafic difficile à obtenir ; 5) auto-
apprentissage du contrôle optimal des feux de circulation en apprenant, c'est-à-dire réduisant l'intervention humaine dans
boucle fermée dans un environnement de circulation la phase d'exploitation après le déploiement (l'élément le plus
stochastique [9], [10]. L'apprentissage par renforcement coûteux de l'exploitation des ATSC existants) ; et 6)
présente l'avantage supplémentaire de pouvoir apprendre en coordonné, c'est-à-dire en mettant en œuvre le mode 2 (mode
permanence et d'améliorer le service au fil du temps. Dans la intégré), qui coordonne le système de trafic avec les autres
RL, un signal de circulation représente un agent de contrôle systèmes de transport, 6) coordonné, c'est-à-dire qu'il met en
qui interagit avec l'environnement de circulation dans un œuvre le mode 2 (mode intégré), qui coordonne le
système en boucle fermée afin d'obtenir une correspondance fonctionnement des intersections dans les réseaux routiers à
optimale entre l'état de la circulation de l'environnement et deux dimensions (par exemple, le réseau en grille) - il s'agit
l'action de contrôle optimale correspondante, donnant lieu à d'une nouvelle fonctionnalité sans précédent dans l'état de l'art
une loi de contrôle optimale. La correspondance entre les états et la pratique des ATSC. En outre, MARLIN-ATSC est testé
et les actions est également appelée politique de contrôle. sur un réseau simulé à grande échelle de 59 intersections dans
L'agent reçoit itérativement une récompense en retour pour les le centre-ville de Toronto en utilisant les données d'entrée (par
actions entreprises et ajuste la politique jusqu'à ce qu'elle exemple, les comptages de trafic, les horaires des signaux,
converge vers la politique de contrôle optimale. L'application etc.) fournies par la ville de Toronto.
de la RL à un réseau de transport composé de plusieurs
carrefours à feux pose quelques problèmes. Les agents II. DE L'AGENT UNIQUE AU MULTI-AGENT
réagissent généralement aux changements de l'environnement A PPRENTISSAGE PAR RENFORCEMENT
au niveau individuel, mais le comportement global de tous les
A. RL
agents peut ne pas être optimal. Chaque agent est confronté à
un problème d'apprentissage à cible mobile, dans lequel la En règle générale, le RL s'intéresse à un agent unique
politique optimale de l'agent change au fur et à mesure que les opérant dans un environnement de manière à maximiser sa
politiques des autres agents évoluent dans le temps [8]. La récompense cumulative à long terme. L'environnement est
théorie des jeux fournit des outils permettant de modéliser les modélisé comme un processus de décision de Markov (PDM),
systèmes multi-agents comme un jeu multi-joueurs et de fournir en supposant que l'environnement sous-jacent est stationnaire,
une stratégie rationnelle à chaque joueur. L'apprentissage par c'est-à-dire que l'état de l'environnement ne dépend que des
renforcement multi-agents (MARL) est une extension de actions de l'agent. L'algorithme RL mono-agent le plus
l'apprentissage par renforcement à plusieurs agents dans un courant est l'apprentissage Q [12]. L'agent Q-learning apprend
jeu stochastique (SG ; c'est-à-dire plusieurs joueurs dans un la correspondance optimale entre l'état de l'environnement s et
environnement stochastique). Le problème du contrôle l'action de contrôle optimale correspondante a sur la base de
décentralisé du trafic est un excellent banc d'essai pour le l'accumulation des récompenses r(s, a). Chaque paire état-
MARL en raison de la dynamique héritée et de la nature action (s, a) a une valeur appelée facteur Q qui représente la
stochastique du système de trafic [8], [11], sur lequel nous récompense cumulative attendue à long terme pour la paire
nous concentrons dans le présent document. état-action (s, a). À chaque itération, c 'est-à-dire k, l'agent
Malgré les approches récentes employant le MARL dans un observe l'état actuel s et choisit et exécute l'action a qui
SG, le MARL est confronté à de nombreux défis. Le premier appartient à l'ensemble des actions disponibles A ; ensuite, le
est la croissance exponentielle de l'espace état-action avec facteur Q est mis à jour en fonction de la récompense
l'augmentation du nombre d'agents. Deuxièmement, la immédiate r(s, a) et la transition vers l'état s′ comme suit [13] :
majorité des ATSC basés sur la MARL dans la littérature
supposent que les agents apprennent de manière indépendante, Qk (sk , ak ) = (1 - α)Qk−1 (sk , a )k
-
auquel cas chaque agent agit individuellement dans son
environnement local
sans coordination explicite1 avec les autres agents de
l'environnement.
ronnement. Bien que cela simplifie le problème, cela limite )¸
leur utilité dans le cas d'un réseau d'agents. Par exemple, dans + α r(sk , a k )+ γ max Qk-1(sk+1, ak+1
ak+1∈A
des conditions de trafic sursaturé, les files d'attente peuvent
facilement se propager d'un agent à l'autre.
une intersection en aval (agent) et se répercute sur les approches approximatives basées sur la modification des tech-
intersections en amont (agents) en cascade à l'échelle du niques MARL existantes [8].
réseau ; de tels cas nécessitent une coordination multi-agents à Pour remédier à ces limitations, nous présentons un nouvel
l'échelle du réseau, comme nous l'avons vu plus haut. Ainsi, apprentissage par renforcement multi-agents pour un réseau intégré
des approches flexibles et efficaces en termes de calcul de contrôleurs adaptatifs des feux de circulation (MARLIN-ATSC)
deviennent essentielles pour contrôler un réseau d'agents, qui offre les caractéristiques suivantes : 1) une conception et une
vraisemblablement en employant des heuristiques et des exploitation décentralisées, qui sont généralement moins
coûteuses
EL-TANTAWY que
et alles systèmes de: MÉTHODOLOGIE
: MARLIN-ATSC contrôle de laETcirculation.
APPLICATION À GRANDE α et γ ∈SUR
oùÉCHELLE (0,LE1)CENTRE-VILLE
sont respectivement appelés taux 1143
DE TORONTO
d'apprentissage et taux d'actualisation.
1Il est important de ne pas confondre la coordination qui vise à créer une L'agent peut simplement choisir l'action gourmande à
onde verte le long d'un certain corridor en ajustant la synchronisation des chaque itération sur la base des facteurs Q stockés, comme
décalages (définie comme progression ci-après) avec le mécanisme entre les suit :
agents (intersections s i g n a l i s é e s ) pour coordonner leurs politiques de
sorte qu'un certain objectif soit atteint pour l'ensemble du réseau de
circulation (défini comme coordination ci-après). Dans le présent document, ak+1 ∈ arg max [Q(s, a)] .
a∈A
la coordination fait référence à ce dernier mécanisme.
Cependant, il est prouvé que la séquence Qk ne converge
vers la valeur optimale que si l'agent visite la paire état-action
pendant un nombre infini d'itérations [12]. Cela signifie que
l'agent doit parfois explorer (essayer des actions aléatoires)
plutôt qu'exploiter les meilleures actions connues. Pour
équilibrer l'exploration et l'exploitation dans l'apprentissage
Q, des algorithmes tels que ϵ-greedy et softmax sont
généralement utilisés [13].
B. MARL
MARL est une extension de RL à des agents multiples
(intersections signalisées). Le problème de contrôle
décentralisé des feux de circulation
est un excellent banc d'essai pour le MARL en raison de la S YSTÈMES DE CONTRÔLE DES SIGNAUX DE CIRCULATION
dynamique inhérente et de la nature stochastique du système Thorpe [18] a appliqué l'algorithme RL état-action-
de circulation [8], [11]. La façon la plus simple d'étendre le récompense-état-action (SARSA) à un problème simulé de
RL au MARL est de considérer l'état local et l'action locale contrôle des feux de circulation. Les résultats ont montré que
pour chaque agent, en supposant un environnement stationnaire l'algorithme SARSA RL surpassait les plans de synchronisation
et que la politique de l'agent est le principal facteur affectant fixes en réduisant le temps d'attente moyen des véhicules de 29
l'environnement. Cependant, le MARL dans l'environnement %. Wiering [19] a utilisé un algorithme RL basé sur un modèle
du trafic est associé à certains problèmes difficiles parce que
l'environnement du trafic n'est pas stationnaire puisqu'il
comprend de multiples agents qui apprennent simultanément,
c'est-à-dire que l'effet de l'action d'un agent sur l'environnement
dépend des actions prises par les autres agents. Chaque agent
est donc confronté à un problème d'apprentissage à cible
mobile, car la meilleure politique change au fur et à mesure
que les politiques des autres agents changent, ce qui accentue
le besoin de coordination entre les agents. La coordination peut
être réalisée en considérant l'état et l'action conjoints des autres
agents dans le processus d'apprentissage. En outre, étant
donné que tous les agents agissent simultanément, les choix
d'actions des agents doivent être mutuellement cohérents pour
atteindre leur objectif commun d'optimisation du problème de
contrôle des signaux. Par conséquent, les agents ont besoin
d'un mécanisme de coordination pour prendre la décision
optimale à partir des actions conjointes possibles (c'est-à-dire
que les agents doivent coordonner leurs choix/actions pour
atteindre une politique d'équilibre unique). La coordination
des agents dans ce contexte ne doit pas être confondue avec la
coordination conventionnelle des feux de circulation qui
maximise les bandes vertes, les décalages, etc.
Les jeux de Markov constituent le cadre théorique de
MARL. Un jeu de Markov (connu sous le nom de SG) est une
extension du PDM aux environnements multi-agents. Le jeu
se déroule en une séquence d'étapes. À chaque étape, le jeu a
un certain état dans lequel les joueurs choisissent des actions
et chaque joueur reçoit une récompense qui dépend de l'état
actuel et de l'action conjointe choisie. Le jeu passe ensuite à
un nouvel état aléatoire dont la distribution dépend de l'état
précédent et de l'action conjointe choisie par les joueurs. La
procédure est répétée dans le nouvel état et se poursuit
pendant un nombre fini ou infini d'étapes. L'objectif de l'agent
est de trouver une politique commune (appelée équilibre) dans
laquelle chaque politique individuelle est la meilleure réponse
aux autres, comme l'équilibre de Nash [14]. Une étude
complète des algorithmes MARL est disponible dans [15].
Des exemples d ' approches MARL avec un mécanisme de
coordination sont l'apprentissage adaptatif optimal (OAL) [16]
pour les jeux coopératifs et les algorithmes de politiques
convergentes non stationnaires (NSCP) [17] pour les jeux à
somme générale. La coordination dans OAL [16] et NSCP
[La modélisation des politiques des autres agents permet à
l'agent d'agir en conséquence. Toutefois, l'applicabilité de ces
approches est limitée à l'optimisation de quelques agents de
signalisation routière en raison de l'augmentation
exponentielle évidente de l'espace commun des états avec
l'augmentation du nombre d'agents [8].
III. DÉFIS LIÉS À L'APPLICATION DE LA MÉTHODE MULTI-

AGENTS
APPRENTISSAGE PAR RENFORCEMENT POUR L'ADAPTATION
EL-TANTAWY et al : MARLIN-ATSC : MÉTHODOLOGIE ET APPLICATION À GRANDEconnectés.
ÉCHELLE SURCependant, l'algorithme
LE CENTRE-VILLE Max-plus s'est avéré1145
(avec
DE des modèles de transition d'état et des probabilités de
TORONTO
transition d'état) pour contrôler les agents des feux de difficile à utiliser car il nécessite des négociations entre les
circulation afin de minimiser le temps d'attente des agents pour coordonner leurs actions. En raison de la nature
véhicules dans un petit réseau en grille. Les résultats en temps réel du problème ATSC, cela oblige les agents à
expérimentaux ont montré que les systèmes RL surpassent signaler leur meilleure action actuelle à tout moment, même si
les systèmes non adaptatifs de 22 % en termes de temps l'action ainsi trouvée est sous-optimale. En outre, l'utilisation
d'attente. Abdulhai et al [20] ont appliqué une technique d'une approche RL basée sur un modèle ajoute des
d'apprentissage Q sans modèle à un simple feu de complexités inutiles par rapport à l'utilisation d'une approche
circulation isolé à deux phases dans un réseau routier sans modèle telle que l'apprentissage Q.
bidimensionnel. L'apprentissage Q pour le contrôleur de En conclusion, il y a deux défis majeurs associés à
l'application de la RL (MARL) au problème de l'ATSC, c' est-à-
feux de circulation isolé a surpassé d'environ 44% le
dire le besoin d'un système de gestion de l'information.
schéma de contrôle préprogrammé pour le cas d'un flux de
circulation variable. Camponogara et Kraus Jr [21] ont
formulé le problème de contrôle des feux de circulation
comme un SG distribué, dans lequel les agents utilisent un
algorithme d'apprentissage Q distribué. En testant la
politique 3 (c'est-à-dire que les deux agents exécutent
l'apprentissage Q), une réduction de 43 % du temps
d'attente a été obtenue par rapport à la politique 1 (qui
attribue la même probabilité à toutes les actions
disponibles pour un agent). De Oliveira et al [22] ont
étendu la méthode RL à plusieurs feux de circulation
isolés. Ils ont proposé une méthode RL appelée RL avec
détection de contexte, qui peut gérer des modèles de trafic
stochastiques dus à la dynamique du trafic. Richter et al.
[23] ont appliqué l'algorithme de critique des acteurs naturels
(NAC) à un modèle de 10 ×
réseau de simulation de grille à 10 jonctions. Le NAC a
surpassé le SAT (contrôleur adaptatif inspiré du SCATS)
en réduisant de 20 % le temps de parcours moyen du
réseau. Un autre exemple peut être trouvé dans les travaux
d'Arel et al [24], où RL est utilisé pour contrôler
l'intersection centrale dans un réseau de cinq intersections,
tandis que les quatre autres intersections utilisent
l'heuristique de la plus longue file d'attente en premier. Li et
al [25] ont proposé une approche basée sur la RL dans
laquelle chaque agent considère la somme pondérée de son
retard local et des retards de ses voisins comme le résultat
de son action. Salkham et al.
[26] ont proposé un algorithme similaire pour assurer un
contrôle adaptatif et efficace du trafic urbain. Medina et
Benekohal [27] ont utilisé l'apprentissage Q et un
algorithme DP approximatif pour contrôler les feux de
circulation dans lequel l'agent d'apprentissage prend en
compte son état local en plus des informations sur les
niveaux de congestion des intersections voisines.
Dans la plupart des études précédentes, les algorithmes
ont été appliqués à des scénarios simplifiés et sur la base
d'hypothèses fortes en termes de comportement du trafic en
considérant un environnement de simulation simplifié [20]-
[24] et/ou en supposant des flux de trafic hypothétiques
[18]-[24], [28], ce qui ne reproduit pas nécessairement la
réalité des réseaux de trafic. En outre, les études
précédentes ont considéré des agents d'apprentissage
indépendants et n'ont pas envisagé de mécanisme explicite
de coordination.
D'autre part, Kuyer et al. [29] ont trouvé le seul
algorithme, à la connaissance des auteurs, qui prend en
compte un mécanisme de coordination explicite entre les
agents apprenants, en étendant le travail de Wiering dans
[19] à l'aide de l'algorithme Max-plus. L'algorithme Max-
plus a été utilisé pour estimer l'action conjointe optimale en
envoyant des messages localement optimisés entre les agents
(modèle) de sorte que l'environnement simulé corresponde

étroitement à l'environnement réel et 2) elle configure les
paramètres de conception du RL.
Fig. 1. Plate-forme MARLIN-ATSC.
pour la coordination et le traitement de la dimensionnalité.

Ces défis majeurs sont abordés comme suit.
• Besoin de coordination : Le besoin de coordination
découle du fait que l'effet de l'action d'un agent sur
l'environnement dépend également des actions
entreprises par les autres agents. On peut conclure de la
documentation examinée que la majorité des études
antérieures ont porté sur des agents d'apprentissage
indépendants, comme ceux de De Oliveira et al. [22],
Camponogara et Kraus Jr. [21], Bazzan [30], Richter et
al. [23], Arel et al. [24], Wiering [19], Li et al. [25], et
Salkham et al. [26]. Bien que Kuyer et al. [29] aient
envisagé la coordination à deux niveaux, ils souffrent des
limitations susmentionnées.
• La malédiction de la dimensionnalité : Bien qu'il existe
quelques méthodes MARL basées sur la coordination
(par exemple, OAL [16] et NSCP [17]), elles souffrent de
la malédiction de la dimensionnalité qui survient parce
que l'espace d'état croît exponentiellement avec le
nombre d'agents. Même dans les approches MARL
basées sur les SG, dont il est prouvé qu'elles convergent
de manière optimale vers la politique commune, chaque
agent doit conserver un ensemble de tables dont la taille
est exponentielle en fonction du nombre d'agents : |S1 |
× - - - × |SN | × |A1 | × - - - × |AN |, où Si et Ai
représentent respectivement les espaces d'état et d'action
de l'agent i. Outre le problème de la dimensionnalité, ces
méthodes exigent que chaque agent observe l'état de
l'ensemble du système, ce qui est irréalisable dans le cas
des réseaux de transportation. Dans la section suivante,
nous présentons un nouvel algorithme qui maintient un
mécanisme de coordination entre les agents sans
compromettre la dimensionnalité du problème.
IV. APPRENTISSAGE PAR RENFORCEMENT MULTI-AGENTS

POUR
RÉSEAU INTÉGRÉ DE SIGNAUX DE CIRCULATION ADAPTATIFS
PLATE-FORME DE CONTRÔLEURS
La plate-forme MARLIN-ATSC est présentée à la figure 1.
Elle se compose de deux couches principales. La première
couche est une couche de configuration d'entrée qui est
chargée de configurer et de fournir les données nécessaires à
la deuxième couche.
La couche de configuration joue deux rôles principaux : 1)
elle configure l'environnement d'apprentissage par simulation
espaces
EL-TANTAWY et al : MARLIN-ATSC : MÉTHODOLOGIE ET APPLICATION À GRANDE ÉCHELLE SURpartiels d'états et
LE CENTRE-VILLE d'actions pour l'agent i. Chaque
1147
DE La deuxième couche est une couche de contrôle qui
TORONTO
comprend trois composants interdépendants, comme le espace partiel d'états et d'actions est constitué de l'agent i
montre la figure 1. et de l'un des voisins NBi [j], s.t. j ∈ NBi (Si , SNB i[j],
Ai , ANB i[j]).
• Chaque agent i construit un modèle qui estime la politique
A. Agent pour chacun de ses voisins et est représentée par la
matrice Mi,NB i[j], s.t. j ∈ NBi , où les lignes sont les
Le composant agent met en œuvre l'algorithme de états conjoints Si × SNB i[j], et les colonnes sont les
contrôle ; l'agent est l'apprenant et le décideur qui interagit actions des voisins.
avec l'environnement en recevant d'abord l'état du système
et la récompense, puis en sélectionnant une action en
conséquence. Un modèle d'agent générique est développé
à l'aide du langage de programmation Java, de sorte que
différents niveaux de coordination, méthodes
d'apprentissage, représentations de l'état, séquences de
mise en phase, définition de la récompense et stratégies de
sélection des actions peuvent être testés pour n'importe
quelle tâche de contrôle. Dans MARLIN-ATSC, les
agents peuvent mettre en œuvre l'un des deux modes de
contrôle suivants.
• Mode indépendant : Dans ce mode, chaque
contrôleur dispose d'un agent RL qui travaille
indépendamment des autres agents en utilisant
MARL pour les contrôleurs indépendants (MARL-I),
dans lequel chaque agent met en œuvre un algorithme
d'apprentissage Q [12].
• Mode intégré : Dans ce mode, chaque contrôleur
coordonne les actions de contrôle des signaux avec
les contrôleurs voisins en mettant en œuvre un
algorithme d'apprentissage MARLIN.
• Approche d'apprentissage MARLIN : MARLIN
présente un nouveau système de contrôle qui
maintient un mécanisme de coordination explicite
tout en traitant le problème de la malédiction de la
dimensionnalité pour un réseau à grande échelle
d'agents connectés au moyen des mesures suivantes.
• Exploitation du principe de localité de
l'interaction [31] entre les agents : Le principe de la
localité de l'interaction vise à estimer une utilité
locale de voisinage qui fait correspondre l'effet d'un
agent à la fonction de valeur globale en ne tenant
compte que de l'interaction avec ses voisins. Il suffit
donc de prendre en compte les politiques des voisins
pour trouver la meilleure politique pour l'agent.
• Utilisation de la technique d'apprentissage Q
modulaire [32] : L'apprentissage Q modulaire
partitionne l'espace d'état en espaces d'état partiels
composés de deux agents. Par conséquent, la taille de
l'espace d'état partiel est toujours |S|2 quel que soit le
nombre d'agents, ce qui permet d'obtenir un espace
d'état raisonnable.
Dans MARLIN, chaque intersection signalée (agent)
joue un jeu avec toutes les intersections adjacentes dans
son voisinage. L'agent dispose d'un certain nombre de
modules d'apprentissage, chacun correspondant à un jeu.
Les espaces d'état et d'action sont distribués de manière à
ce que l'agent apprenne la politique commune avec l'un
des voisins à la fois, selon le principe de l'apprentissage
modulaire Q.
Voici les étapes de l'approche d'apprentissage de-
signé dans MARLIN, qui est formellement décrit dans un
pseudocode dans l'algorithme 1.
• S'il existe |NBi | voisins pour l'agent i, il existe |NBi |
× ³hsk , sk i ".
ANB i[j]. Chaque cellule Mi,NB i[j]([si , sNB i[j]], aNB i[j]) , [ai , a NB[j] ]
indique la probabilité que l'agent NBi [j] prenne
repre- NBi i NBi i
l'action a [j] [j]
#
à l'état conjoint [si , sNB i[j]] en utilisant le nombre de ³h kk i '
visites
état-action υ([sk , sk ], ak ) pour l'état-action × Mi,NBi [j] si , sNBi [j] aNBi [j] (4)
à l'état conjoint [s , s i[j]].
i NBi NBi
[j] [j]
paire ([sk , sk ], ak ) [voir (3)].
i NBi [j] NBi [j]
• Chaque agent i apprend la politique optimale commune des d. Mettre à jour Qi,NB i[j]
agents i'
i et NBi [j] ∀ j ∈ {1,..., |NBi |} en mettant à jour les ³hski , sNB
k i , hai k , NB = (1 - α)Qk−i,NB
1
i i i
données suivantes [j] [j] [j]
Les valeurs Q qui sont représentées par une matrice ide |Si ×Si,NBi a
k
lignes
NB[j] | et |Ai ×ANB i[j]| colonnes, où chaque cellule Qk[j]
i' ¤
Qi,NB i[j]([si , sNB i[j]],[ai , aNB i[j]]) représente la valeur × ³hsk , sk i , hak , + α £rk + γbrk (5)
Q.
ak
i NBi i NBi [j] i i
pour une paire état-action dans les espaces partiels [j]
correspondant à la paire d'agents connectés (i, NBi [j]). Décide
• Chaque agent met à jour les valeurs Qi,NB i[j]([si , sNB
i[j]]), r
"
[ai , aNB i[j]]) en utilisant la valeur de l'action de Σ Σ
ak+1 = arg max
meilleure
dans l'état réponse
suivant. La valeur de meilleure réponse (brk ) i
ai ∈A i
j∈{1,2,...,|NBi |} a ∈A NBi[j]
est la valeur Q maximale attendue à l'état suivant, c'est-à-
i
NBi[j]
dire ".
calculée à l'aide des modèles pour les autres agents [voir × Qi,NB
k ³hsik , NB
sk i , [a i , a NB[j] ]
[j] [j]
(4)]. i i i
• Chaque agent décide de son action sans interaction #

³h i '
directe avec ses voisins. Au lieu de cela, l'agent utilise × Mi,NB [j] sk , , aNB [j] (6)
l'estimation de la sk
pour les autres agents et agissent en conséquence. Agent i i i NBi [j] i
choisit l'action suivante à l'aide d'une procédure de
décision heuristique simple, qui oriente la sélection de
l'action vers les actions qui ont la valeur Q maximale Fin
attendue par rapport à ses voisins NBi . La probabilité des pour
valeurs Q est évaluée à l'aide des modèles des autres Fin
agents, c'est-à-dire Mi,NB i[j], estimés au cours du pour
processus d'apprentissage [voir (6)]. Fin
pour
B. Environnement de simulation
Algorithme 1 : Apprentissage MARLIN
La composante environnement de simulation modélise
Initialisation au temps k = 0 : l'environnement du trafic. Dans ce document, Paramics, qui
Pour chaque agent i, i ∈ {1, 2 , . . . , N } : est un simulateur de trafic micro-scopique, est utilisé pour
Pour chaque voisin j ∈ {1, 2,.. . , |NB |}i modéliser l'environnement de trafic [33]. Paramics modélise le
Initialiser si0 , ai0 , aNB
0
i[j]
flux stochastique de véhicules en utilisant des règles de
¡ ¢ vitesse, de suivi des voitures, d'acceptation des écarts et de
M0 [si, sNB [j]], aNB [j] = 1/|ANB [j]|,
i,NBi i i i dépassement. Paramics propose trois méthodes d'affectation
[j]
du trafic qui peuvent être utilisées à différents niveaux, à
savoir,
¡ ¢ Pour chaque agent i, i ∈ {1, 2,.... , N }, faire :
Qki,NBi [j][si , s NB[j]
i
], [a i , a NB[j] ]
i
Pour chaque voisin NB [j], j ∈ {1, 2,... |NB |}, faire :
Fin=de0
la
période
Fin de
la
période
Pour chaque pas de temps k, faire :
l'affectation "tout ou rien", l'affectation stochastique et
l'affectation
EL-TANTAWY et al : dy-
MARLIN-ATSC : MÉTHODOLOGIE ET APPLICATION À GRANDEcoût de déplacement
ÉCHELLE par les conducteurs,
SUR LE CENTRE-VILLE et 2) un intervalle de
1149
DE TORONTO
l'affectation dynamique par retour d'information. rétroaction dynamique a été utilisé pour mettre à jour les
Dans cette application, une affectation dynamique temps de déplacement sur les itinéraires pour les conducteurs
stochastique du trafic a été utilisée où 1) un bruit familiers de la simulation. La programmation d'applications
aléatoire a été ajouté au coût de déplacement pour Paramics
tenir compte de l'hétérogénéité de la perception du
i i
ont été utilisées pour construire l'état, exécuter la fonction
a. Observer , sk+1 sk+1 et r
k
unk
NBi [j] i i
NBi [j] et calculer la récompense pour chaque intersection signalisée.
b. Mise à Mi,NBi [j] Voici quelques-uns des principaux défis à relever lors de la conception
jour d'un système de NR
³hsk sk i ' la conception des définitions de l'état, de l'action et de la
Mi,NB [j] , k
,a
i NBi NBi [j]
i
[j]
récompense. Dans [34], une étude approfondie de ces
questions clés dans la commande de signalisation basée sur la
logique logique pour les intersections isolées est menée.
i ' ' L'état,
, ak et les définitions des récompenses recommandées dans [34] et
[35]
υ ³hsi k , NB
sk [j] NB
i [j] i
= Σ ³h i (3) sont adoptés comme suit dans le présent document. (Pour plus de
aNB [j]∈ANB [j]
υ si , sNBi [j] aNBi [j]
k k
détails sur les
i i
voir [34]).
• Définition de l'état : Longueur de la file d'attente :
c. Choisissez la valeur Q maximale attendue à l'état
L'état de l'agent est représenté par un vecteur de 2 + P
sk+1
NBi [j]
composantes, où P
est le nombre de phases. Les deux premières composantes sont
1) l'indice de la phase verte en cours et 2) le temps écoulé
k
brik = max ai ∈Ai Qi,NBi de la phase en cours. Les composantes P restantes sont les
"aNBi [jΣ] ∈ ANB [j]
longueurs maximales des files d'attente associées à
chaque phase.
i [j]
• Définition de l'action : Séquence de phases variables : V. RÉSULTATS EXPÉRIMENTAUX

L'agent est conçu pour prendre en compte une séquence A. Réseau du banc d'essai
de phasage variable dans laquelle l'action de contrôle
consiste soit à prolonger la phase en cours, soit à passer à MARLIN-ATSC est testé sur un réseau simulé du réseau du
une autre phase en fonction des fluctuations du trafic, en centre-ville de Toronto. Le bas centre-ville de
sautant éventuellement des phases inutiles. Par
conséquent, cet algorithme est un schéma de
synchronisation acyclique avec une séquence de phasage
variable dans lequel non seulement la longueur du cycle
est variable mais la séquence de phasage n'est pas non
plus prédéterminée. Par conséquent, l'action est la phase
qui devrait être en vigueur ensuite.
• Définition de la récompense : Réduction du délai
cumulatif total : La récompense immédiate pour un
agent donné est définie comme la réduction (économie)
du retard total cumulé associé à cet agent, c'est-à-dire la
différence entre les retards totaux cumulés de deux points
de décision successifs. Le retard total cumulé au moment
k est la somme des retards cumulés, jusqu'au moment k,
de tous les véhicules qui se trouvent actuellement en
amont des intersections. Si la récompense a une valeur
positive, cela signifie que le retard est réduit de cette
valeur après l'exécution de l'action sélectionnée. En
revanche, une valeur de récompense négative indique que
l'action entraîne une augmentation du retard cumulé total.
C. Interface
Le composant d'interface gère les interactions entre l'agent
et l'environnement de simulation en échangeant l'état, la
récompense et l'action. L'interaction entre l'agent et
l'environnement est associée aux éléments de conception
suivants.
• Une interaction synchronisée entre l'agent et
l'environnement a été conçue pour garantir que
l'environnement de simulation est maintenu pendant que
l'agent effectue les processus d'apprentissage et de prise
de décision et, finalement, produit l'action qui devrait être
exécutée par un environnement de simulation. Dans le
même temps, l'agent doit être en attente jusqu'à ce que
l'action soit exécutée dans l'environnement et que l'état
résultant et la récompense soient mesurés.
• Le système a été conçu de manière à ce que la fréquence
d'interaction soit variable pour chaque agent.
L'interaction se produit à chaque intervalle de temps
spécifié (1 s dans cette recherche) tant que le vert actuel
pour une intersection signalée associée à un agent i a
dépassé le temps de vert minimum. Dans le cas contraire,
l'interaction commence après le temps vert minimum.
L'agent a été conçu pour apprendre hors ligne dans un
environnement de simulation (tel que le modèle de
microsimulation utilisé dans les expériences) avant d'être mis
en œuvre sur le terrain. Après avoir convergé vers la politique
optimale, l'agent peut soit être déployé sur le terrain en mettant
en correspondance l'état mesuré du système avec les actions de
contrôle optimales en utilisant directement la politique apprise,
soit poursuivre l'apprentissage sur le terrain en partant de la
politique apprise.
lesÉCHELLE
EL-TANTAWY et al : MARLIN-ATSC : MÉTHODOLOGIE ET APPLICATION À GRANDE agents).SUR LE CENTRE-VILLE 1151
DE TORONTO
2La personne de contact est Rajnath Bissessar ; City of Toronto-
Transportation Services, Manager of the Urban Traffic Control System

(UTCS).
Fig. 2. Systèmes de contrôle des signaux actuellement mis en œuvre.
Toronto est le cœur de la ville de Toronto. Le bas du

centre-ville de Toronto dans cette étude est délimité au
sud par le corridor de Queens Quay, à l'ouest par Bathurst
Street, à l'est par Don Valley Parkway et au nord par Front
Street. Toronto est la zone la plus ancienne, la plus dense
et la plus diversifiée de la région, et son centre-ville abrite
l'une des plus fortes concentrations d'activité économique
du pays. Cet article démontre l'application à grande
échelle de MARLIN-ATSC sur une réplique simulée du
centre-ville inférieur. Un modèle de simulation de base
(BC) pour le centre-ville a été développé à l'origine avec
Paramics dans le centre et le banc d'essai des systèmes de
transport intelligents de l'Université de Toronto, pour
l'année 2006. Dans cette application, le modèle est affiné
pour refléter les fiches de synchronisation des signaux
fournies par la ville de Toronto.2 La période d'analyse
considérée dans cette application est l'heure de pointe du
matin, qui compte environ 25 000 déplacements de
véhicules.
B. Critères de référence
Il est généralement difficile de trouver une référence
pour les problèmes de contrôle des feux de circulation à
grande échelle, étant donné que les détails opérationnels
de la plupart des systèmes de contrôle de la circulation ne
sont pas facilement disponibles pour des raisons
commerciales évidentes. La performance de l'approche
MARLIN- ATSC est comparée au scénario BC dans
lequel les feux de circulation, tels que définis et exploités
par la ville de Toronto, sont un mélange de contrôle à
temps fixe, de contrôle semi-actuel et de contrôle SCOOT,
comme le montre la figure 2. Il convient de noter qu'en
raison du peu de détails techniques sur le fonctionnement
de SCOOT, il est approximé dans cette thèse comme un
contrôle amélioré entièrement actionné, dans lequel des
détecteurs de boucles sont placés sur toutes les approches,
et les temps d'extension sont conduits seconde par
seconde.
C. Résultats et discussion
Les résultats sont présentés pour les systèmes de
contrôle BC (conditions existantes), MARL-I (représente
le mode indépendant MARLIN-ATSC sans
communication entre les agents) et MARLIN (représente
le mode intégré MARLIN-ATSC avec coordination entre
TABLEAU I
MOE À L'ÉCHELLE DU RÉSEAU DANS LE SCÉNARIO NORMAL
La performance de chaque système de contrôle est évaluée réalisées au niveau de l'écart-type de la longueur de la file
sur la base des mesures d'efficacité suivantes : d'attente sont intéressantes car elles permettent d'équilibrer
les files d'attente entre toutes les approches de
– le retard moyen par véhicule (s/veh) ; l'intersection.
– longueur maximale moyenne de la file d'attente par – MARL-I surpasse la BC dans toutes les mesures
intersection (véh) ; d'efficacité (MOE), notamment en ce qui concerne la
– l'écart-type moyen des longueurs de file d'attente entre moyenne de l'in...
les approches (veh) ;
– le nombre de voyages effectués ;
– les facteurs d'émission moyens de CO2 (gm/km) ;
– durée moyenne du trajet pour les itinéraires sélectionnés
(min).
Le tableau I compare les performances de la CB par rapport
au système MARLIN-ATSC avec et sans communication
entre les agents, c'est-à-dire MARLIN et MARL-I,
respectivement.
L'analyse des résultats présentés dans le tableau I conduit
aux conclusions suivantes.
– Les deux algorithmes MARLIN-ATSC permettent de
réduire le retard moyen, d'augmenter le débit, de
raccourcir la longueur des files d'attente et le temps
d'arrêt par rapport aux algorithmes de la CB. Les
améliorations les plus notables concernent le retard
moyen (38 % pour MARLIN contre BC), l'écart type de
la longueur moyenne des files d'attente (31 % pour
MARLIN contre BC) et les facteurs d'émission de CO2
(30 % pour MARLIN contre BC).
– Ces améliorations substantielles sont dues non
seulement à l'intelligence de l'algorithme RL mais aussi
au mécanisme de coordination entre les agents pour
parvenir à un ensemble d'actions à l'échelle du réseau
qui minimisent les retards à long terme. Cette
coordination se traduit par l'effet dit de "comptage" de
l'intersection en amont vers l'intersection en aval, tout en
tenant compte des files d'attente et des retards à
l'intersection en aval. En fait, les économies tangibles
EL-TANTAWY et al : MARLIN-ATSC : MÉTHODOLOGIE ET APPLICATION À GRANDE ÉCHELLE SUR LE CENTRE-VILLE 1153
2La comparaison entre MARLIN et MARL-I montre
DE TORONTO
que les retards sont relativement plus importants
parce que les actions de MARL-I ne sont basées que
sur des données collectées localement. Toutefois, si
l'on compare MARLIN et MARL-I, o n
c o n s t a t e q u e ce dernier enregistre des
retards relativement plus importants parce que les
actions de MARL-I ne sont basées que sur des
données collectées localement et que, par
conséquent, davantage de véhicules sont conservés
dans le réseau à la fin de la simulation (6 %
d'amélioration du débit pour MARLIN contre 2,8 %
pour MARL-I).
Le tableau I montre que les performances globales de

MARLIN sont très prometteuses. Cependant, comme le
montre la large gamme de retards moyens entre les
intersections, les améliorations apportées à certaines
intersections sont beaucoup plus importantes que les
moyennes du réseau. C'est pourquoi la distribution spatiale
du pourcentage d'amélioration est présentée à la figure 3.
Il est important d'étudier l'effet des différents systèmes
de contrôle sur le temps de parcours et sa variabilité pour
des itinéraires clés sélectionnés dans le centre-ville de
Toronto. Huit itinéraires clés sont définis, comme le
montre la figure 4.
Les temps de parcours et l'écart-type des temps de
parcours pour les scénarios BC, MARL-I et MARLIN sont
présentés dans le tableau II. Les itinéraires du tableau II sont
classés par ordre décroissant, du plus mauvais au meilleur,
en termes de pourcentage d'amélioration de la durée
moyenne des itinéraires pour MARLIN par rapport à BC.
Pour étudier plus en détail les temps de parcours des
itinéraires pendant l'heure de simulation, les temps de
parcours des itinéraires sélectionnés sont représentés sur la
figure 4. L'analyse du tableau II et de la figure 4 permet de
tirer les conclusions suivantes.
– Il est clair que MARLIN surpasse MARL-I et BC sur

tous les itinéraires. Les améliorations en pourcentage
vont de 4 % pour l'itinéraire 1 à 30 % pour l'itinéraire
8. MARL-I surpasse BC dans presque tous les cas ;
les améliorations en pourcentage vont de 3 % pour
l'itinéraire 5 à 15 % pour l'itinéraire 6, à l'exception
de l'itinéraire 8, pour lequel le scénario BC est plus
performant que MARL-I.
Fig. 3. Distribution spatiale du pourcentage d'amélioration moyenne des retards pour MARLIN par rapport à BC.
Fig. 4. Temps de parcours moyen pour les itinéraires sélectionnés.
– Il est intéressant de constater que le temps de parcours Ouest (WB),

du trafic (entrant) de l'autoroute Gardiner en direction
de l'est (EB) s'améliore de 19 % dans le scénario
MARLIN. La réduction de la congestion sur les
bretelles de sortie de la rue Spadina et de la rue York
contribue le plus à ces économies. Cela montre
clairement l'effet de la capacité en aval sur la
performance de l'autoroute. Pour la direction Gardiner
n'était pas aussi encombré que sur la route EB, mais
DE TORONTO
MARLIN obtient tout de même une amélioration de
4 % des temps de parcours moyens.
– Les routes les plus encombrées semblent être les
routes 7 et 8, dont le trafic provient de l'extrémité
ouest de la zone d'étude et se dirige vers le centre-
ville (rue Spadina et avenue University). Le système
MARLIN permet d'obtenir des améliorations de 30
% et 26 % sur les routes 7 et 8, respectivement,
TABLEAU II
TEMPS DE TRAJET POUR BC, MARL-I, ET MARLIN
ce qui reflète l'effet supérieur de la coordination terrain à l'aide des fiches de synchronisation des signaux fournies
bidimensionnelle entre les agents. par la ville de Toronto), MARL-I (représentant le mode
- L'observation de la distribution temporelle du temps de indépendant de MARLIN-ATSC sans communication entre les
parcours sur l'heure de simulation montre que le agents), et MARLIN (représentant le mode indépendant de
scénario MARLIN est stable et présente moins de MARLIN-ATSC sans communication entre les agents).
variations que les scénarios BC et MARL-I. Alors que
le scénario BC présente la plus grande variabilité de
temps de parcours (comme le montrent les valeurs de
l'écart-type dans le tableau II), MARL-I présente encore
quelques variations, plus particulièrement sur les deux
itinéraires les plus encombrés (itinéraires 7 et 8). En
termes de complexité de calcul, chaque agent
(intersection) converge vers la politique optimale avec
des vitesses de convergence différentes. Le temps
moyen nécessaire pour converger vers le retard moyen
minimum par intersection est de 60 simulations (1 heure
chacune). Le temps de calcul pour chaque étape
d'apprentissage (1 simulation/s) est de 4,2 ms.
VI. CONCLUSION ET TRAVAUX FUTURS

Dans ce document, les études précédentes qui ont abordé le
problème ATSC en utilisant des approches MARL ont été
passées en revue et les lacunes de la littérature ont été mises
en évidence. Les principaux défis posés par l'utilisation d'un
système de contrôle des signaux basé sur les approches
MARL sont la nécessité d'une coordination et la malédiction
de la dimensionnalité. Pour atteindre le compromis consistant
à réaliser un contrôle en temps réel adaptatif décentralisé basé
sur la coordination sans souffrir de la malédiction de la
dimensionnalité qui est associée aux techniques MARL, un
système MARLIN-ATSC a été présenté. Dans ce système,
chaque agent joue un jeu avec ses voisins immédiats. Chaque
agent apprend et converge vers la meilleure politique de
réponse aux politiques de tous les voisins. Cet article a
démontré l'essence de MARLIN-ATSC sur un réseau urbain à
grande échelle de 59 intersections dans le centre-ville de
Toronto. Les résultats ont été rapportés pour les systèmes de
contrôle BC (représentant les conditions existantes sur le
LeTORONTO
DE mode intégré MARLIN-ATSC présenté avec
coordination entre les agents). Les résultats ont montré que
MARL-I et MARLIN étaient plus performants que le BC
dans tous les modes d'utilisation. Toutefois, en comparant
MARLIN et MARL-I, on constate que ce dernier subit des
retards plus importants. En termes de temps de parcours, il
a été généralement constaté que MARLIN présentait un
temps de parcours moyen inférieur et une variation
moindre de la distribution temporelle au cours de l'heure de
simulation par rapport aux scénarios BC et MARL-I. Les
avantages économiques quotidiens (c'est-à-dire les
économies de temps de déplacement) ont été estimés à
environ 53 000 dollars. La mise en œuvre de MARLIN-
ATSC sur un réseau de 59 intersections coûterait environ
1,2 million de dollars. Par conséquent, la période
d'amortissement est de 23 jours.
Pour quantifier les avantages de MARLIN-ATSC par
rapport aux systèmes ATSC existants tels que SCOOT,
sans approximation, les approches suivantes pourraient être
utilisées à l'avenir : 1) comparer les mesures de MARLIN
basées sur la simulation avec les ob- servations et les
avantages réels de SCOOT pour les intersections contrôlées
par SCOOT, et 2) utiliser des méthodologies de simulation
"hardware-in-the-loop" pour reproduire la logique de
SCOOT dans le logiciel de simulation tel que Paramics.
REMERCIEMENTS
Les auteurs tiennent à remercier le personnel de la ville
de Toronto pour avoir fourni les données nécessaires à
cette recherche.
R ÉFÉRENCES
[1] W. R. McShane, R. P. Roess, et E. S. Prassas, Traffic Engineering.
Englewood Cliffs, NJ, USA : Prentice-Hall, 1998.
[2] P. B. Hunt, D. I. Robertson, R. D. Bretherton et R. I. Winton,
"SCOOT-A traffic responsive method of coordinating signals",
Transp. Road Res. Lab., Crowthorne, U.K., Tech. Rep., 1981.
[3] C. Diakaki, M. Papageorgiou, et K. Aboudolas, "A multivariable
regu- lator approach to trafficresponsive network-wide signal
control," Control Eng. Pract., vol. 10, no. 2, pp. 183-195, Feb. 2002.
[4] A. G. Sims et K. W. Dobinson, "SCAT-The Sydney co-ordinated
adaptive traffic system : Philosophy and benefits", présenté à l'Int.
Symp. Traffic Control Systems, Berkeley, CA, USA, 1979.
[5] J. L. Farges, J. J. Henry, et J. Tufal, "The PRODYN real-time traffic
algorithm," présenté au 4ème IFAC/IFIP/IFORS Symp. Control
Transp. Syst., Baden-Baden, Allemagne, 1983.
pp. 133-139.
[6] N. H. Gartner, "OPAC : A demand-responsive strategy for traffic signal
control," Transp. Res. Rec., J. Transp. Res. Board, vol. 906, pp. 75-81,
1983.
[7] K. L. Head, P. B. Mirchandani, et D. Sheppard, "Hierarchical framework
for real-time traffic control," Transp. Res. Rec., vol. 1360, pp. 82-88,
1992.
[8] A. L. C. Bazzan, "Opportunities for multiagent systems and multiagent re-
inforcement learning in traffic control", Autonomous Agents Multi-Agent
Syst, vol. 18, no. 3, pp. 342-375, juin 2009.
[9] B. Abdulhai et L. Kattan, "Reinforcement learning : Introduction to
theory and potential for transport applications," Can. J. Civil Eng, vol. 30,
no. 6, pp. 981-991, Dec. 2003.
[10] S. El-Tantawy et B. Abdulhai, "An agent-based learning towards decen-
tralized and coordinated traffic signal control," in Proc. 13th IEEE ITSC,
2010, pp. 665-670.
[11] S. El-Tantawy et B. Abdulhai, "Towards multi-agent reinforcement
learning for integrated network of optimal traffic controllers (MARLIN-
OTC)," Transp. Lett : Int. J. Transp. Res., vol. 2, pp. 89-110, avril 2010.
[12] C. Watkins et P. Dayan, "Q-learning", Mach. Learn, vol. 8, pp. 279-
292, 1992.
[13] R. S. Sutton et A. G. Barto, Introduction to Reinforcement Learning.
Cambridge, MA, USA : MIT Press, 1998.
[14] T. Basar et G. J. Olsder, Dynamic Noncooperative Game Theory, 2e éd.
Londres, Royaume-Uni : Classics Appl. Math, 1999.
[15] L. Busoniu, R. Babuska, et B. De Schutter, "A comprehensive survey of
multiagent reinforcement learning," IEEE Trans. Syst., Man, Cybern. C,
Appl. Rev., vol. 38, no. 2, pp. 156-172, Mar. 2008.
[16] C. Claus et C. Boutilier, "The dynamics of reinforcement learning in co-
operative multiagent systems," in Proc. 15th Nat. Conf. Artif. Intell./10th
Conf. Innov. Appl. Artif. Intell., Madison, WI, USA, 1998, pp. 746-752.
[17] M. Weinberg et J. S. Rosenschein, "Best-response multiagent learning in
non-stationary environments," in Proc. 3rd Int. Joint Conf. Autonom.
Agents Multiagent Syst., 2004, pp. 506-513.
[18] T. Thorpe, "Vehicle traffic light control using sarsa", thèse de maîtrise,
Comput. Sci. de l'informatique, Colo. St. Univ., Fort Collins, CO, USA,
1997.
[19] M. Wiering, "Multi-agent reinforcement learning for traffic light
control," in Proc. 17th Int. Conf. Mach. Learn, 2000, pp. 1151-1158.
[20] B. Abdulhai, R. Pringle, et G. J. Karakoulas, "Reinforcement learning
for true adaptive traffic signal control," J. Transp. Eng., vol. 129, no. 3,
pp. 278-285, avril 2003.
[21] E. Camponogara et W. Kraus Jr. "Distributed learning agents in urban
traffic control", dans Proc. 11th Portuguese Conf. Artif. Intell. 2003,
pp. 324-335.
[22] D. De Oliveira, A. L. C. Bazzan, B. C. da Silva, E. W. Basso, L. Nunes,
R. Rossetti, E. de Oliveira, R. da Silva, et L. Lamb, "Reinforcement
learning-based control of traffic lights in non-stationary environments :
A case study in a microscopic simulator," in Proc. EUMAS, 2006, pp. 31-
42.
[23] S. Richter, D. Aberdeen, et J. Yu, "Natural actor-critic for road traffic
optimisation," in Advances in Neural Information Processing Systems.
Cambridge, MA, USA : MIT Press, 2007.
[24] I. Arel, C. Liu, T. Urbanik et A. G. Kohls, "Reinforcement learning-
based multi-agent system for network traffic signal control", IET Intell.
Transp. Syst., vol. 4, no. 2, pp. 128-135, Jun. 2010.
[25] T. Li, D. B. Zhao, et J. Q. Yi, "Adaptive dynamic programming for multi-
intersections traffic signal intelligent control," in Proc. 11th Int. IEEE
Conf. Intell. Transp. Syst. 2008, pp. 286-291.
[26] A. Salkham, R. Cunningham, A. Garg, et V. Cahill, "A collaborative
reinforcement learning approach to urban traffic control optimization,"
in Proc. IEEE/WIC/ACM Int. Conf. Web Intell. Intell. Agent Technol.
2008,
pp. 560-566.
[27] J. C. Medina et R. F. Benekohal, "Q-learning and approximate dynamic
programming for traffic control-A case study for an oversaturated net-
work", présenté au Transp. Res. Board Annu. Meet., Washington, DC,
USA, 2012, Paper 12-4103.
[28] L. Shoufeng, L. Ximin, et D. Shiqiang, "Q-Learning for adaptive traffic
signal control based on delay minimization strategy," in Proc. IEEE Int.
Conf. Netw. Sens. Control, 2008, pp. 687-691.
[29] L. Kuyer, S. Whiteson, B. Bakker et N. Vlassis, "Multiagent reinforce-
ment learning for urban traffic control using coordination graph," in
Proc. 19th Eur. Conf. Mach. Learn, 2008, pp. 656-671.
[30] A. L. C. Bazzan, "A distributed approach for coordination of traffic
signal agents", Autonom. Agents Multi-Agent Syst., vol. 10, no. 1, pp.
131-164, Jan. 2005.
[31] R. Nair, P. Varakantham, M. Tambe et M. Yokoo, "Networked
distributed POMDPs : A synthesis of distributed constraint optimi-
zation and POMDPs," in Proc. 20th Nat. Conf. Artif. Intell. 2005,
de ÉCHELLE
EL-TANTAWY et al : MARLIN-ATSC : MÉTHODOLOGIE ET APPLICATION À GRANDE recherche ONE-ITS (one-its.net). Il a reçu plusieurs prix, notamment le 1159
SUR LE CENTRE-VILLE prix
[32] N. Ono et K. Fukumoto, "Multi-agent reinforcement learning : A
DE TORONTO IEEE Outstanding Service Award en 2006, le prix IEEE Outstanding Service
modular a p p r o a c h , " in Proc. 2nd Int. Conf. Multi-Agent Syst. Award, le prix Early Career Teaching Excellence Award, le prix New
1996, Opportunities Award de la Fondation canadienne pour l'innovation et le prix
pp. 252-258. New Opportunities Award du Fonds ontarien pour l'innovation. En 2005,
[33] "Quadstone Paramics, Paramics Microscopic Traffic Simulation l'Intelligent Transporta- t i o n Systems Center a reçu le prix d'excellence
Soft- ware, 2012. [En ligne]. Disponible : http://www.paramics- Ontario Showcase Merit Award et l a médaille de bronze nationale GTEC.
online.com Ses recherches, en collaboration avec
[34] S. El-Tantawy et B. Abdulhai, "Comprehensive analysis of H. Abdelgawad, sur l'optimisation des évacuations d'urgence, a remporté le
reinforcement learning methods and parameters for adaptive
prix de l'International Transportation Forum, Leipzig, Allemagne, en 2010.
traffic signal control," présenté au Transp. Res. Board, Washington,
DC, USA, 2011.
[35] S. El-Tantawy et B. Abdulhai, "Neighborhood coordination-based
multi-agent reinforcement learning for coordinated adaptive traffic
signal control," présenté au Transp. Res. Board, Washington, DC,
USA, 2012.
Samah El-Tantawy (S'12) a obtenu une

licence en ingénierie électrique et de
communication à l'Université du C a i r e ,
Giza, Égypte, en 2004 ; une maîtrise en
mathématiques de l'ingénierie à
l'U n i v e r s i t é du Caire ; et un doctorat en
systèmes de t r a n s p o r t intelligents à
l'Université de Toronto, Toronto, ON, Canada,
en 2012.
Elle est titulaire d'une bourse postdoctorale
au sein du laboratoire et du banc d'essai des
systèmes de transport intelligents (Intelligent
Transportation Systems Laboratory and
Testbed) de l'université de Toronto. Elle a
publié quelques articles de journal et dix
articles de conférence. Elle est le
titulaire d'un brevet provincial américain.
Mme El-Tantawy a été vice-présidente de la section étudiante de
l'Institute of Transportation Engineers de l'Université de Toronto en 2010
et 2011, membre du groupe Women in ITS et de l'IEEE Women in
Engineering, et membre du Traffic Signal Systems Transportation
Research Board Committee. Elle a reçu quatre bourses industrielles
(Intelligent Transportation Systems Canada, Association des transports
du Canada, Canadian Transportation Re- search Forum et Institut
canadien des ingénieurs en transport) et trois bourses provinciales [deux
bourses d'études supérieures de l'Ontario (BESO) et une BESO en
sciences et technologie]. Après ses études de maîtrise, elle a reçu la
bourse Connaught de doctorat de l'Université de Toronto. Pour sa
recherche de doctorat, elle a développé un système coordonné de
contrôle des feux de circulation utilisant des concepts de théorie des jeux
et des approches d'apprentissage par renforcement multi-agents
(MARLIN- ATSC), ce qui lui a valu le financement MaRS Innovation
Proof of Principle pour 2012 afin d'effectuer l'intégration du système
MARLIN dans un contrôleur réel et les exigences du système de mise en
œuvre sur le terrain.
Baher Abdulhai (M'01) est né au Caire, en

Égypte, en 1966. Il a obtenu un doctorat en
ingénierie à l'université de Californie, Irvine,
CA, États-Unis, en 1996.
I l e s t professeur de génie civil à
l'Université de Toronto, Toronto, ON, Canada,
et directeur du Toronto Intelligent
Transportation Systems Center. Il est l'auteur et
le coauteur de neuf chapitres de livres, de 46
articles de revues et de 110 articles de
conférences sur divers sujets liés aux systèmes
de transport intelligents. Il est spécialisé dans
la circulation
Il s'intéresse également aux systèmes d'information des voyageurs, à
l'optimisation des évacuations d'urgence, à la tarification routière
dynamique, à la gestion du trafic dans les zones de travaux, ainsi qu'aux
applications per- vasives et mobiles des systèmes de transport
intelligents. Ses recherches utilisent les systèmes de transport intelligents
pour réduire les embouteillages, améliorer la durée et la fiabilité des
trajets et renforcer la sécurité des voyageurs. Ses recherches portent sur
l'innovation en matière de services de transport ouverts et sur les plates-
formes en réseau.
M. Abdulhai a siégé au conseil d'administration de la Régie des
transports de l'Ontario de 2004 à 2006. De 2005 à 2010, il a été titulaire
d'une chaire de recherche du Canada sur les systèmes de transport
intelligents. De 2008 à 2011, il a été président du conseil d'administration
de l'Urban Transportation Research and Advancement Center de
l'Université de Toronto. De 2010 à 2012, il a é t é président de la société
Hossam Abdelgawad est titulaire d'une licence en

génie civil et d'une maîtrise en ingénierie des
autoroutes et de la circulation de l'Université du
Caire, Gizeh, Égypte, et d'un doctorat en systèmes
de t r a n s p o r t intelligents de l'Université de
Toronto, Toronto, ON, Canada, en juin 2010.
Il est actuellement directeur du centre et du banc
d'essai des systèmes de transport intelligents d e
Toronto, à l'université de Toronto. Il est un
utilisateur accrédité de Paramics et possède une
vaste expérience dans la construction, l'étalonnage
et la validation de modèles à l'aide de Paramics
Microsimu-.
et d'autres logiciels tels que VISSIM et DynusT. Expert en systèmes de
transport intelligents et en modélisation des transports, il a présenté ses
travaux lors de nombreuses conférences internationales sur les transports et a
publié plusieurs chapitres de livres et articles de revues. Il possède une vaste
expérience des systèmes de transport intelligents, de la gestion avancée du
trafic, de la modélisation du transport, de la simulation
microscopique/mésoscopique du trafic, de la planification de l'évacuation
multimodale et de l'optimisation des feux de circulation, y compris deux ans
d'expérience dans la conception d'aéroports, les autoroutes et l'ingénierie du
trafic. Une grande partie de sa carrière professionnelle a été consacrée au
développement et au perfectionnement d'outils/algorithmes pour la gestion du
trafic en temps réel, la planification des évacuations multimodales, la gestion
et l'optimisation des évacuations d'urgence, les applications de l'intelligence
artificielle dans les transports, la gestion de la demande, la modélisation des
piétons et la gestion des foules.
M. Abdelgawad a reçu en 2010 le prix du Forum international des
transports pour le transport et l'innovation, un concours auquel participent 52
pays, pour ses travaux sur l'évacuation d'urgence et la gestion des catastrophes
dans les grandes villes. Il a notamment élaboré un plan d'évacuation
d 'urgence multimodal intégré pour l'ensemble de la ville de Toronto. Il a
obtenu 15 bourses ou prix et a récemment fait l'objet d'articles dans les
médias, notamment dans l'émission Living Cities de la CBC, le University
Affairs Magazine, le Civil Engineering Magazine de l'université de Toronto et
Gradlife de l'université de Toronto.
DE TORONTO
Voir les statistiques de publication

IEEE - ITS FR

Transféré par

Droits d'auteur :

Formats disponibles

IEEE - ITS FR

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

IEEE - ITS FR

Transféré par

Droits d'auteur :

Formats disponibles

Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux.

Visitez www.DeepL.com/pro pour en savoir plus.

Apprentissage par renforcement multi-agents pour un réseau intégré de

Samah El-Tantawy Baher Abdulhai

L'utilisateur a demandé l'amélioration du fichier téléchargé.

Apprentissage par renforcement multi-agents

ON M5S 1A4, Canada (e-mail : [email protected]).

Manuscrit reçu le 2 octobre 2012 ; révisé le 11 février 2013 ; accepté

III. DÉFIS LIÉS À L'APPLICATION DE LA MÉTHODE MULTI-

(modèle) de sorte que l'environnement simulé corresponde

Fig. 1. Plate-forme MARLIN-ATSC.

pour la coordination et le traitement de la dimensionnalité.

IV. APPRENTISSAGE PAR RENFORCEMENT MULTI-AGENTS

• Chaque agent décide de son action sans interaction #

• Définition de l'action : Séquence de phases variables : V. RÉSULTATS EXPÉRIMENTAUX

2La personne de contact est Rajnath Bissessar ; City of Toronto-

Transportation Services, Manager of the Urban Traffic Control System

Fig. 2. Systèmes de contrôle des signaux actuellement mis en œuvre.

Toronto est le cœur de la ville de Toronto. Le bas du

Le tableau I montre que les performances globales de

– Il est clair que MARLIN surpasse MARL-I et BC sur

Fig. 4. Temps de parcours moyen pour les itinéraires sélectionnés.

– Il est intéressant de constater que le temps de parcours Ouest (WB),

VI. CONCLUSION ET TRAVAUX FUTURS

Samah El-Tantawy (S'12) a obtenu une

Baher Abdulhai (M'01) est né au Caire, en

Hossam Abdelgawad est titulaire d'une licence en

Voir les statistiques de publication

Vous aimerez peut-être aussi