Reinforcement Learning en el Diseño de Rotondas Inteligentes

#aquiles, #IoT, #reinforcementlearning

septiembre 21, 2021
2min

Actualmente, el sector industrial y corporativo ha iniciado la adopción de técnicas basadas en Inteligencia Artificial para la resolución problemas de predicción o clasificación entre otros. En estos problemas, restricciones relativas a capacidad o exploración / explotación no son tenidos en cuenta. El Reinforcement Learning (RL) es el marco indicado para abordar esta tipología de problemas. Por ejemplo, en la venta de billetes de avión o alquiler de habitaciones de hotel. La política de precios que el sistema debe aprender depende de los recursos disponibles y el tiempo para que estos expiren. Este es por tanto un problema computacionalmente complejo.

La Rotonda Inteligente

El presente documento describe la aplicación del Reinforcement Learning al diseño de Rotondas Inteligentes. El objetivo es obtener un sistema que gestione el acceso de los vehículos teniendo en cuenta las colas existentes para minimizar el tiempo global de espera.

Esta tecnología ha sido aplicada con éxito a rotondas que por su ubicación cercana a autopistas pueden exhibir importantes retenciones. Los datos proporcionados hacen referencia a una rotonda con cuatro ramales de que habla nuestro Caso de Éxito – Rotonda Inteligente con deep Reinforcement Learning.

Modelización

La llegada de vehículos a la rotonda se parametriza en función de procedencia, tipo de vehículo y tramo horario. El siguiente gráfico representa, para cada ramal, el número de vehículos cada 15 minutos.

Así mismo se modeliza las probabilidades de transición de los vehículos. Es decir, punto de entrada y salida de la rotonda. La siguiente matriz representa, para el total de vehículos transcurridos en un día, su procedencia y su destino.

Simulación

Una vez modelizados los tiempos de llegada y probabilidades de transición de los vehículos, basándose en el software SUMO se crea un Digital Twin para que el sistema de control pueda aprender. El siguiente gráfico representa la simulación generada por SUMO en una configuración de la rotonda dada.

Fase Entrenamiento

El control de una rotonda mediante semáforos consiste en decidir, para cada uno de ellos, si debe estar en ámbar o rojo. En una rotonda, la prioridad siempre es de los vehículos previamente situados en la misma por lo que un vehículo que accede nunca podrá tener prioridad. Es decir, se excluye el semáforo en verde. Así mismo se excluye tener todos los semáforos en rojos.

En el presente estudio se han considerado 3 políticas de gestión.

Sistema Semafórico predeterminado: En este caso, el sistema aprende un conjunto de tiempos fijos.

Sistema Semafórico basado en reglas: El sistema decidirá poner un semáforo en rojo en función del tiempo de espera máximo de los vehículos en el ramal situado a la izquierda del mismo.

Sistema Semafórico basado en Reinforcement Learning: El sistema busca la mejor política de gestión en función de un conjunto de estados y rewards.

Sistema Semafórico basado en Reinforcement Learning

Para la calibración del sistema basado en Reinforcement Learning es necesario:

definir las acciones posibles: En nuestro caso, la configuración de los semáforos excluyendo el caso “todos en rojo”
describir los estados: La definición de los estados se escoge teniendo en cuenta diferentes alternativas de sensorización. Por lo general, todas ellas permiten, para cada ramal, disponer del número total de vehículos y el tiempo máximo de espera actual para los vehículos del ramal.
definir una función de reward: Este punto exhibe una complejidad similar a la propia calibración del sistema. Dado el estado actual y una política de gestión, para una acción en concreto, el reward es la mejora en el tiempo de espera medio que esa acción supone a lo largo de un horizonte temporal. Por tanto, política de gestión y reward co-evolucionan durante el periodo de aprendizaje. Este es un punto computacionalmente complejo. Entre otras técnicas, se utiliza Q-learning entrenando una red neuronal.

Resultados

Calibrando cada una de las políticas de gestión, los mejores resultados fueron obtenidos por el Sistema Semafórico basado en Reinforcement Learning, reduciendo significativamente los tiempos medios y máximos de espera, quedando en segundo lugar el sistema basado en reglas y finalmente el sistema predeterminado.

Sensorización

Finalmente, el sistema debe interactuar en el mundo real por lo que la sensorización (IoT) juega un papel fundamental. Es sistema desarrollado es compatible con distintas alternativas como Pneumatic tube counting, Piezoelectric Sensors, Automatic Number Plate Recognition o Video Vehicle Detection.

Conclusiones

Determinadas técnicas basadas en Inteligencia Artificial presentan un cierto grado de maduración en el sector corporativa e industrial para resolver problemas de previsión, clasificación u optimización para aquellos problemas que pueden ser representados con un único estado. Sin embargo, en aquellos casos en los que el problema debe ser representado con múltiples estados interconectados entre si mediante acciones que realiza nuestro agente, el Reinforcement Learning se presenta como el mejor marco de actuación. Esta tecnología ha sido aplicada al diseño de una rotonda inteligente gestionando los retos computacionales asociados pero su marco de aplicación es mucho más amplio. Teniendo cabida problemas como venta de billetes de avión o alquiler de habitaciones en los que existe un conjunto de recursos finitos.

Reinforcement Learning en el Diseño de Rotondas Inteligentes

La Rotonda Inteligente

Modelización

Simulación

Fase Entrenamiento

Sistema Semafórico basado en Reinforcement Learning

Resultados

Sensorización

Conclusiones

Te puede interesar

SUBSCRÍBETE A NUESTRA NEWSLETTER