Aprendizaje por Refuerzo en la Robótica - Temas Avanzados de Cómputo Inteligente. Angel Hernandez Loaiza
←
→
Transcripción del contenido de la página
Si su navegador no muestra la página correctamente, lea el contenido de la página a continuación
Aprendizaje por Refuerzo en la Robótica. Temas Avanzados de Cómputo Inteligente. Angel Hernandez Loaiza
Aprendizaje por refuerzo • Consiste en aprender a decidir, ante una situación determinada que acción es la más adecuada para lograr un objetivo. • Una aplicación del aprendizaje por refuerzo es en los Robots que pueden remplazar al humano en cualquier actividad o trabajo.
Características para dar inteligencia al robot. • El aprendizaje de una tarea por parte del agente se realiza mediante un proceso iterativo de prueba y error en el entorno donde interactúa. • La forma en que el entorno informa al agente sobre si esta haciendo bien o mal la tarea que está aprendiendo.
Robots Autónomos Los robots Autónomos presentan unas características particulares que permiten que podamos aprovechar técnicas de aprendizaje para mejorar su desempeño. Los robots autónomos son entidades físicas con capacidad de percepción sobre un entorno y que actúan sobre el mismo en base a dichas percepciones, sin supervisión directa de otros agentes.
Características Principales de Robots Autónomos Están situados: Un robot autónomo percibe un entorno y actúa sobre él. Son entidades corpóreas: Los robots operan sobre el mundo físico; su experiencia del mundo y sus acciones sobre el mismo se producen de forma directa haciendo uso de sus propias capacidades físicas.
Paradigma en la robótica Paradigma en la robótica: es una manera de conseguir que los robots tengan una forma de ver el mundo. Los principales paradigmas son: 1. El jerárquico. 2. El reactivo. 3. El híbrido.
Paradigma jerárquico. Es el más antiguo utilizado en los 60-70, este paradigma se basa en la manera en que los humanos resuelven el problema dándole mucha importancia a la planeación. Este paradigma se denomina también paradigma Percepción, Planificación, Acción ó PPA
Paradigma jerárquico. Las 3 operaciones de este paradigma son: 1. Percepción. 2. Planificación. 3. Acción.
Paradigma reactivo Basado en las ciencias cognitivas y en la biología, opera mediante la planificación y se basa en la percepción y la acción. De la percepción del entorno pasa a la acción y con un mínimo de preprocesamiento trabaja con sus entradas simbólicas y genera un comportamiento. Realizan tareas sencillas y no tienen comportamientos complejos.
Paradigma reactivo • La prioridad de un robot autónomo no es el razonamiento sino que actúen con cierta inteligencia practica que permita sobrevivir y manejarse en su entorno.
Paradigma híbrido Conseguir aumento de capacidades operativas de los robots autónomos, mediante las tareas deliberativas y las reactivas. • Deliberativas: llevar a cabo la planificación de alto nivel. • Reactivas: entra en funcionamiento cuando resulta necesaria una acción inmediata para garantizar la supervivencia del robot
Robots Autónomos El paradigma mas utilizado es el híbrido, pero no es suficiente para la implementación. Para implementar se necesita: 1. Diseñar una arquitectura del paradigma. 2. Programar los comportamientos deseados del robot sobre la arquitectura. El primer robot autónomo construido es: robot Shakey desarrollado por Nilsson, codificado con lenguaje Scripts.
La importancia del aprendizaje en la Robótica • Los paradigmas y las arquitecturas no son suficientes para que los robots sobrevivan en su entorno y en condiciones cambiantes. • Los seres humanos operamos con símbolos, y que para poder llegar a un nivel de inteligencia y de razonamiento elevados es necesario contar con la aproximación simbólica, sobre todo si en algún momento se plantea la necesidad de la comunicación entre varios agentes.
Aprendizaje por refuerzo. Permite a los robots autónomos aprender de su propio entorno. Es conseguir que un agente actúe en un entorno de manera que maximice la recompensa que obtiene por sus acciones. Un agente: es un sistema computacional que habita en un entorno complejo y dinámico, con la capacidad de percibir y actuar autónomamente sobre el entorno, y de esta manera es capaz de llevar a cabo ciertas tareas para las cuales fue diseñado.
Robots autónomos. • Cada vez que el agente ejecuta una acción, recibe un valor de recompensa. Estas recompensas no tienen por qué estar asociadas directamente con la última acción ejecutada, sino que pueden ser consecuencia de acciones anteriores llevadas a cabo por el agente. • El objetivo final del aprendizaje por refuerzo es conseguir un agente que maximice el retorno a largo plazo.
El interfaz agente - entorno. El agente y el entorno interactúan en una secuencia de instantes de tiempo t=0,1,2,3… En cada instante de tiempo t , el agente recibe una representación del estado del entorno , donde S es el conjunto de posibles estados. En base a esto, el agente selecciona una acción , donde es el conjunto de acciones disponibles en el estado . En el instante de tiempo posterior, y en parte como consecuencia de la acción llevada a cabo, el agente recibe una recompensa numérica, , y pasa a estar en un nuevo estado,
El interfaz agente - entorno. En cada momento de tiempo el agente lleva a cabo un mapeo entre las representaciones de los estados y las probabilidades de seleccionar cada una de las acciones posibles. Llamamos a este mapeo la política del agente, y la denotamos por . , donde . es la probabilidad de que
El interfaz agente - entorno. Los distintos métodos de aprendizaje por refuerzo especifican de qué manera cambia el agente su política como resultado de la experiencia que va adquiriendo enfrentándose al entorno. El objetivo del agente, es maximizar a largo plazo la suma de las recompensas que obtiene.
Interfaz agente - entorno Secuencias de tiempo (t) Estados (s) Recompensa (r), indica cuan deseable es una situación para el agente, la suma de recompensa “retorno”, es la que un agente busca maximizar a largo plazo. Acciones (a) Política del agente (∏), probabilidad de seleccionar una acción.
Algoritmos Los algoritmos están basados en: Programación Dinámica. Métodos de Monte Carlo. Métodos de Diferencia Temporal.
Algoritmos Programación dinámica. Método de divide y vencerás. Resolución de problemas combinando soluciones de subproblemas. Los subproblemas no son independientes. Aplica a problemas de optimización. Algoritmos utilizados para calcular políticas óptimas dado un modelo perfecto del entorno como en los Procesos de Decisión de Markov.
Algoritmos Monte Carlo: No necesitan un modelo completo del medio. Requieren de la experiencia: secuencias de estados-acciones y recompensas. Aprenden una función estado-valor dado una política. Ayudan a resolver problemas de aprendizaje por refuerzo al ponderar las recompensas de diferentes muestras. Utilizado en tareas episódicas. Al terminar un episodio se actualizan los valores estimados y la política.
Algoritmos Diferencia Temporal. Combinación de las características de Monte Carlo y Programación Dinámica. Aprenden sin un modelo del entorno. Actualizan valores basados en valores aprendidos previamente, sin esperar hasta el final.
Aplicación en la robótica • El aprendizaje por refuerzo es un método muy prometedor para conseguir que los robots mejoren su comportamiento por sí mismos, a pesar de la posible falta de conocimiento acerca de las tareas que deben desarrollar.
Referencia • Robots Autónomos y Aprendizaje por Refuerzo, Farid Fleifel Tapia, 2002.
También puede leer