La intersección de dos vías de alto tráfico elevados, solucionada mediante una rotonda sin semaforizar, provoca atascos de cientos de metros y más de 6 minutos de espera máxima. Por el sistema de preferencias de las rotondas, puede suceder que el flujo de entrada por un ramal con mucho tráfico se vea interrumpido por los vehículos de otro ramal con menos intensidad, que goza de prioridad por estar a su izquierda.
Deep Reinforcement Learning
Para entrenar un sistema inteligente como este, desarrollamos un modelo de la rotonda capaz de simular su comportamiento real en distintas situaciones de tráfico. Después, se modelizan los semaforos en la rotonda y se pone a un Agente a controlar las fases semafóricas. El agente recibe la información de la longitud de cola que hay en cada ramal y decide qué semáforos deben ponerse en rojo en cada momento. Cada cierto tiempo, recibe una recompensa si consigue reducir el tiempo de espera máximo de la rotonda.
Al principio, el Agente manipula los teléfonos de forma aleatoria, y recibe penalizaciones por ello. Con el tiempo, aprende la forma óptima de operar los semáforos en cada momento, en función de la situación del tráfico. Este agente, entrenado en el modelo de la rotonda, será capaz de mejorar el tráfico en la rotonda real, y seguir aprendiendo.
Beneficios
- Mejora del tiempo de espera máximo en la rotonda
- Solución económica frente a la alternativas de ejecución de nuevas infraestructuras
- Posibilidad de implantar el sistema en otras rotondas
Indicadores
El mayor tiempo de espera en hora punta se reduce de 440 a 285 segundos, un 35%.