Relația dintre simulare și învățarea prin întărire

10 luni ago

A. TraCI (Interfața de Control al Traficului)

TraCI (Traffic Control Interface) este o derivată de API Python care permite interacțiunea în timp real cu simulările de trafic. Servește ca o punte între motorul de simulare și aplicațiile externe, permițând utilizatorilor finali să colecteze date și să modifice simularea traficului în timpul rulării.

1.Interacțiune în timp real

TraCI permite controlul diferitelor elemente din simularea traficului, direct din motorul grafic, cum ar fi semafoarele, vitezele vehiculelor și rutele, precum și colectarea de informații despre pozițiile vehiculelor, fluxul de trafic, timpii de așteptare și altele.

2.Integrarea programelor externe

Prin TraCI, programele externe (scrise în Python) pot fi integrate și pot inter-comunica cu simulatorul general.

Aplicații în învățarea prin întărire

Una dintre cele mai puternice caracteristici ale TraCI este capacitatea sa de a se integra cu cadrele de învățare prin întărire care la rândul lor se integrează cu firele de execuție. TraCI oferă interfața necesară pentru ca agenții de învățare prin întărire să observe mediul de trafic, să ia acțiuni (cum ar fi schimbarea semafoarelor) și să primească recompense bazate pe rezultatele acțiunilor lor. Acest lucru îl face un instrument ideal pentru experimente în optimizarea fluxurilor de trafic și reducerea congestionării folosind tehnici de învățare prin întărire.

3.Modularitate și flexibilitate

TraCI este modular, fiind potrivit pentru diverse cazuri de utilizare. De la controlul intersecțiilor individuale până la simulări la nivel de oraș, oferă instrumentele necesare pentru a ajusta și monitoriza fluxul de trafic într-un mod detaliat și personalizabil.

B. Gymnasium

Gymnasium a fost dezvoltat pentru a depăși limitările OpenAI Gym, trusa inițială care a stabilit standardul pentru mediile RL. OpenAI Gym a oferit o bază solidă pentru crearea și testarea algoritmilor RL, a întâmpinat provocări legate de mentenanță, rezolvarea erorilor și extensibilitate.

Cu alte cuvinte Gymnasium oferă mediul în care operează agentul de Q-learning. Standardizează modul în care agentul interacționează cu simularea traficului, permițândui să ia acțiuni și să primească recompense ( r ).

Mediul Gymnasium este responsabil pentru gestionarea și stocarea stării simulării, observarea mediului și furnizarea acestei informații ulterior agentului pentru luarea deciziilor. Gymnasium definește cum pot acțiunile să corespundă diferitelor faze ale semafoarelor (de exemplu, comutarea între verde, galben și roșu).

În mod similar, Gymnasium gestionează spațiul de observație oferind agentului starea curentă a mediului. Agentul folosește aceste informații pentru a-și actualiza tabelul în procesul de învățare ( q ) .
Recompensa este bucla critică de feedback în învățarea prin întărire.

Gymnasium, ca parte a mediului, furnizează semnalul de recompensă bazat pe modul în care acțiunile agentului afectează fluxul de trafic. Gymnasium gestionează modul în care recompensele sunt structurate și livrate agentului.

În cele din urmă, asigură că explorarea și selecția acțiunilor de către agent sunt aplicate în contextul mediului. Prin asigurarea că mediul respectă standardul Gymnasium, putem implementa, modifica sau înlocui cu ușurință strategiile de explorare fără a ne face griji cu privire la probleme de compatibilitate între mediu și agent.

Mai servește și ca punte între agentul de Q-learning și simularea traficului, standardizând modul în care agentul interacționează cu mediul, gestionează ciclul stare-acțiune-recompensă, esențial pentru procesul de învățare al agentului, și asigură o integrare fluidă între algoritmii de învățare prin întărire și mediul de simulare a traficului.

C. Aplicarea învățării prin întărire în simulări de trafic

O astfel de bibliotecă – Python construită pe baza TraCI și Gymnasium permite aplicarea algoritmilor de învățare prin întărire la controlul semafoarelor într-o simulare de trafic. Punctul forte al acestei abordări constă în capacitatea de a abstractiza complexitatea interacțiunii cu simularea, permițându-ne să ne concentrăm pe dezvoltarea și testarea învățării prin întărire pentru optimizarea traficului. Această integrare conectează mediul Gymnasium la simularea traficului prin TraCI, permițând antrenarea agentului de Q-learning în contextul unei simulări de trafic în timp real.

1.Crearea mediului

Se definește un mediu compatibil cu Gymnasium în care semafoarele sunt tratate ca agenți RL, iar acțiunile lor influențează fluxul de trafic. Se utilizează TraCI pentru a prelua date în timp real din simulare, cum ar fi pozițiile vehiculelor și timpii de așteptare la intersecții, și transmite aceste date agenților RL. Integrarea cu Gymnasium înseamnă că agentul de Q-learning poate interacționa cu mediul prin funcțiile step() și reset(), luând decizii pentru a optimiza controlul semafoarelor pe baza datelor de simulare.

2.Interacțiunea cu TraCI și Gymnasium

TraCI comunică cu simularea pentru a trimite și primi date despre trafic, cum ar fi cozile de vehicule, stările semafoarelor și viteza vehiculelor. Gymnasium oferă structura RL pentru ca agenții să ia acțiuni și să primească recompensele în funcție de greutatea ponderilor. Această abordare ne permite să aplicăm tehnici de învățare prin întărire pentru a rezolva provocări complexe de management al traficului folosind o simulare realistă, făcând legătura între capacitățile puternice de modelare a traficului și interfața de învățare prin întărire oferită de Gymnasium.