{"id":6720,"date":"2021-09-21T16:50:11","date_gmt":"2021-09-21T16:50:11","guid":{"rendered":"https:\/\/aquilessolutions.com\/?p=6720"},"modified":"2021-09-22T12:04:39","modified_gmt":"2021-09-22T12:04:39","slug":"reinforcement-learning-en-el-diseno-de-rotondas-inteligentes","status":"publish","type":"post","link":"https:\/\/aquilessolutions.com\/es\/reinforcement-learning-en-el-diseno-de-rotondas-inteligentes\/","title":{"rendered":"Reinforcement Learning en el Dise\u00f1o de Rotondas Inteligentes"},"content":{"rendered":"\t\t<div data-elementor-type=\"wp-post\" data-elementor-id=\"6720\" class=\"elementor elementor-6720 elementor-6693\" data-elementor-post-type=\"post\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-559a677 elementor-section-boxed elementor-section-height-default elementor-section-height-default\" data-id=\"559a677\" data-element_type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-48c54c5\" data-id=\"48c54c5\" data-element_type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-c10fc9b elementor-widget elementor-widget-text-editor\" data-id=\"c10fc9b\" data-element_type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Actualmente, el sector industrial y corporativo ha iniciado la adopci\u00f3n de t\u00e9cnicas basadas en Inteligencia Artificial para la resoluci\u00f3n problemas de predicci\u00f3n o clasificaci\u00f3n entre otros. En estos problemas, restricciones relativas a capacidad o exploraci\u00f3n \/ explotaci\u00f3n no son tenidos en cuenta. El Reinforcement Learning (RL) es el marco indicado para abordar esta tipolog\u00eda de problemas. Por ejemplo, en la venta de billetes de avi\u00f3n o alquiler de habitaciones de hotel. La pol\u00edtica de precios que el sistema debe aprender depende de los recursos disponibles y el tiempo para que estos expiren. Este es por tanto un problema computacionalmente complejo.<\/p>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-cde0126 elementor-widget elementor-widget-heading\" data-id=\"cde0126\" data-element_type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<h2 class=\"elementor-heading-title elementor-size-default\">La Rotonda Inteligente<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-f2b3180 elementor-widget elementor-widget-text-editor\" data-id=\"f2b3180\" data-element_type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>El presente documento describe la aplicaci\u00f3n del Reinforcement Learning al dise\u00f1o de Rotondas Inteligentes. El objetivo es obtener un sistema que gestione el acceso de los veh\u00edculos teniendo en cuenta las colas existentes para minimizar el tiempo global de espera.<\/p>\n<p>Esta tecnolog\u00eda ha sido aplicada con \u00e9xito a rotondas que por su ubicaci\u00f3n cercana a autopistas pueden exhibir importantes retenciones. Los datos proporcionados hacen referencia a una rotonda con cuatro ramales de que habla nuestro <a href=\"https:\/\/aquilessolutions.com\/es\/rotonda-inteligente-con-deep-reinforcement-learning\/\">Caso de \u00c9xito &#8211; Rotonda Inteligente con deep Reinforcement Learning<\/a>.<\/p>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-f0c15d9 elementor-widget elementor-widget-heading\" data-id=\"f0c15d9\" data-element_type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<h3 class=\"elementor-heading-title elementor-size-default\">Modelizaci\u00f3n<\/h3>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-d6a869a elementor-widget elementor-widget-text-editor\" data-id=\"d6a869a\" data-element_type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>La llegada de veh\u00edculos a la rotonda se parametriza en funci\u00f3n de procedencia, tipo de veh\u00edculo y tramo horario. El siguiente gr\u00e1fico representa, para cada ramal, el n\u00famero de veh\u00edculos cada 15 minutos.<\/p>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-3bed1b6 elementor-widget elementor-widget-image\" data-id=\"3bed1b6\" data-element_type=\"widget\" data-widget_type=\"image.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<img fetchpriority=\"high\" decoding=\"async\" width=\"505\" height=\"330\" src=\"https:\/\/aquilessolutions.com\/wp-content\/uploads\/2021\/09\/Modeling.gif\" class=\"attachment-medium_large size-medium_large wp-image-6697\" alt=\"\" \/>\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-79cd02b elementor-widget elementor-widget-text-editor\" data-id=\"79cd02b\" data-element_type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>As\u00ed mismo se modeliza las probabilidades de transici\u00f3n de los veh\u00edculos. Es decir, punto de entrada y salida de la rotonda. La siguiente matriz representa, para el total de veh\u00edculos transcurridos en un d\u00eda, su procedencia y su destino.<\/p>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-c2b73ad elementor-widget elementor-widget-image\" data-id=\"c2b73ad\" data-element_type=\"widget\" data-widget_type=\"image.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"300\" height=\"236\" src=\"https:\/\/aquilessolutions.com\/wp-content\/uploads\/2021\/09\/Modeling2-300x236.png\" class=\"attachment-medium size-medium wp-image-6699\" alt=\"\" srcset=\"https:\/\/aquilessolutions.com\/wp-content\/uploads\/2021\/09\/Modeling2-300x236.png 300w, https:\/\/aquilessolutions.com\/wp-content\/uploads\/2021\/09\/Modeling2.png 656w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/>\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-38bc1b0 elementor-widget elementor-widget-heading\" data-id=\"38bc1b0\" data-element_type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<h3 class=\"elementor-heading-title elementor-size-default\">Simulaci\u00f3n <\/h3>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-933192d elementor-widget elementor-widget-text-editor\" data-id=\"933192d\" data-element_type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Una vez modelizados los tiempos de llegada y probabilidades de transici\u00f3n de los veh\u00edculos, bas\u00e1ndose en el software SUMO se crea un Digital Twin para que el sistema de control pueda aprender. El siguiente gr\u00e1fico representa la simulaci\u00f3n generada por SUMO en una configuraci\u00f3n de la rotonda dada.<\/p>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-13b5137 elementor-widget elementor-widget-image\" data-id=\"13b5137\" data-element_type=\"widget\" data-widget_type=\"image.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"300\" height=\"259\" src=\"https:\/\/aquilessolutions.com\/wp-content\/uploads\/2021\/09\/Simulation-300x259.gif\" class=\"attachment-medium size-medium wp-image-6701\" alt=\"Simulation Smart Roundabout\" \/>\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-75cadbe elementor-widget elementor-widget-heading\" data-id=\"75cadbe\" data-element_type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<h3 class=\"elementor-heading-title elementor-size-default\">Fase Entrenamiento<\/h3>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-ca9df27 elementor-widget elementor-widget-text-editor\" data-id=\"ca9df27\" data-element_type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>El control de una rotonda mediante sem\u00e1foros consiste en decidir, para cada uno de ellos, si debe estar en \u00e1mbar o rojo. En una rotonda, la prioridad siempre es de los veh\u00edculos previamente situados en la misma por lo que un veh\u00edculo que accede nunca podr\u00e1 tener prioridad. Es decir, se excluye el sem\u00e1foro en verde. As\u00ed mismo se excluye tener todos los sem\u00e1foros en rojos.<\/p>\n<p>En el presente estudio se han considerado 3 pol\u00edticas de gesti\u00f3n.<\/p>\n<p><u>Sistema Semaf\u00f3rico predeterminado<\/u><strong>:<\/strong> En este caso, el sistema aprende un conjunto de tiempos fijos.<\/p>\n<p><u>Sistema Semaf\u00f3rico basado en reglas<\/u>: El sistema decidir\u00e1 poner un sem\u00e1foro en rojo en funci\u00f3n del tiempo de espera m\u00e1ximo de los veh\u00edculos en el ramal situado a la izquierda del mismo.<\/p>\n<p><u>Sistema Semaf\u00f3rico basado en Reinforcement Learning<\/u>: El sistema busca la mejor pol\u00edtica de gesti\u00f3n en funci\u00f3n de un conjunto de estados y rewards.<\/p>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-a453a21 elementor-widget elementor-widget-heading\" data-id=\"a453a21\" data-element_type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<h3 class=\"elementor-heading-title elementor-size-default\">Sistema Semaf\u00f3rico basado en Reinforcement Learning<\/h3>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-38fb8ea elementor-widget elementor-widget-text-editor\" data-id=\"38fb8ea\" data-element_type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Para la calibraci\u00f3n del sistema basado en Reinforcement Learning es necesario:<\/p>\n<ul>\n<li><strong>definir las acciones posibles:<\/strong> En nuestro caso, la configuraci\u00f3n de los sem\u00e1foros excluyendo el caso \u201ctodos en rojo\u201d<\/li>\n<li><strong>describir los estados:<\/strong> La definici\u00f3n de los estados se escoge teniendo en cuenta diferentes alternativas de sensorizaci\u00f3n. Por lo general, todas ellas permiten, para cada ramal, disponer del n\u00famero total de veh\u00edculos y el tiempo m\u00e1ximo de espera actual para los veh\u00edculos del ramal.<\/li>\n<li><strong>definir una funci\u00f3n de reward:<\/strong> Este punto exhibe una complejidad similar a la propia calibraci\u00f3n del sistema. Dado el estado actual y una pol\u00edtica de gesti\u00f3n, para una acci\u00f3n en concreto, el reward es la mejora en el tiempo de espera medio que esa acci\u00f3n supone a lo largo de un horizonte temporal. Por tanto, pol\u00edtica de gesti\u00f3n y reward co-evolucionan durante el periodo de aprendizaje. Este es un punto computacionalmente complejo. Entre otras t\u00e9cnicas, se utiliza Q-learning entrenando una red neuronal.<\/li>\n<\/ul>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-176b131 elementor-widget elementor-widget-heading\" data-id=\"176b131\" data-element_type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<h3 class=\"elementor-heading-title elementor-size-default\">Resultados<\/h3>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-d63aadf elementor-widget elementor-widget-text-editor\" data-id=\"d63aadf\" data-element_type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Calibrando cada una de las pol\u00edticas de gesti\u00f3n, los mejores resultados fueron obtenidos por el Sistema Semaf\u00f3rico basado en Reinforcement Learning, reduciendo significativamente los tiempos medios y m\u00e1ximos de espera, quedando en segundo lugar el sistema basado en reglas y finalmente el sistema predeterminado.<\/p>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-28b303d elementor-widget elementor-widget-heading\" data-id=\"28b303d\" data-element_type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<h3 class=\"elementor-heading-title elementor-size-default\">Sensorizaci\u00f3n<\/h3>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-a98710a elementor-widget elementor-widget-text-editor\" data-id=\"a98710a\" data-element_type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Finalmente, el sistema debe interactuar en el mundo real por lo que la sensorizaci\u00f3n (IoT) juega un papel fundamental. Es sistema desarrollado es compatible con distintas alternativas como Pneumatic tube counting, Piezoelectric Sensors, Automatic Number Plate Recognition o Video Vehicle Detection.<\/p>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-ea019ed elementor-widget elementor-widget-heading\" data-id=\"ea019ed\" data-element_type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<h2 class=\"elementor-heading-title elementor-size-default\">Conclusiones<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-37def0e elementor-widget elementor-widget-text-editor\" data-id=\"37def0e\" data-element_type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Determinadas t\u00e9cnicas basadas en Inteligencia Artificial presentan un cierto grado de maduraci\u00f3n en el sector corporativa e industrial para resolver problemas de previsi\u00f3n, clasificaci\u00f3n u optimizaci\u00f3n para aquellos problemas que pueden ser representados con un \u00fanico estado. Sin embargo, en aquellos casos en los que el problema debe ser representado con m\u00faltiples estados interconectados entre si mediante acciones que realiza nuestro agente, el Reinforcement Learning se presenta como el mejor marco de actuaci\u00f3n. Esta tecnolog\u00eda ha sido aplicada al dise\u00f1o de una rotonda inteligente gestionando los retos computacionales asociados pero su marco de aplicaci\u00f3n es mucho m\u00e1s amplio. Teniendo cabida problemas como venta de billetes de avi\u00f3n o alquiler de habitaciones en los que existe un conjunto de recursos finitos.<\/p>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>\n\t\t","protected":false},"excerpt":{"rendered":"<p>Actualmente, el sector industrial y corporativo ha iniciado la adopci\u00f3n de t\u00e9cnicas basadas en Inteligencia Artificial para la resoluci\u00f3n problemas de predicci\u00f3n o clasificaci\u00f3n entre otros. En estos problemas, restricciones relativas a capacidad o exploraci\u00f3n \/ explotaci\u00f3n no son tenidos en cuenta. El Reinforcement Learning (RL) es el marco indicado para abordar esta tipolog\u00eda de [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":6715,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"om_disable_all_campaigns":false,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_uf_show_specific_survey":0,"_uf_disable_surveys":false,"footnotes":""},"categories":[92],"tags":[94,151,152],"class_list":["post-6720","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-articulo","tag-aquiles-es","tag-iot-es","tag-reinforcementlearning-es","industris-public","minute_read-51","technology-python","transformation-optimize","transformation-predict"],"acf":[],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/aquilessolutions.com\/es\/wp-json\/wp\/v2\/posts\/6720","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/aquilessolutions.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/aquilessolutions.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/aquilessolutions.com\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/aquilessolutions.com\/es\/wp-json\/wp\/v2\/comments?post=6720"}],"version-history":[{"count":13,"href":"https:\/\/aquilessolutions.com\/es\/wp-json\/wp\/v2\/posts\/6720\/revisions"}],"predecessor-version":[{"id":6798,"href":"https:\/\/aquilessolutions.com\/es\/wp-json\/wp\/v2\/posts\/6720\/revisions\/6798"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/aquilessolutions.com\/es\/wp-json\/wp\/v2\/media\/6715"}],"wp:attachment":[{"href":"https:\/\/aquilessolutions.com\/es\/wp-json\/wp\/v2\/media?parent=6720"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/aquilessolutions.com\/es\/wp-json\/wp\/v2\/categories?post=6720"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/aquilessolutions.com\/es\/wp-json\/wp\/v2\/tags?post=6720"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}