Aprendizaje por Refuerzo en la Robótica - Temas Avanzados de Cómputo Inteligente. Angel Hernandez Loaiza

Página creada Ivan Marcador
 
SEGUIR LEYENDO
Aprendizaje por Refuerzo en la
           Robótica.

             Temas Avanzados de Cómputo Inteligente.
                            Angel Hernandez Loaiza
Aprendizaje por refuerzo

• Consiste en aprender a decidir, ante una situación determinada
  que acción es la más adecuada para lograr un objetivo.

• Una aplicación del aprendizaje por refuerzo es en los Robots
  que pueden remplazar al humano en cualquier actividad o
  trabajo.
Características para dar inteligencia al
                 robot.

 • El aprendizaje de una tarea por parte del agente se realiza
   mediante un proceso iterativo de prueba y error en el entorno
   donde interactúa.
 • La forma en que el entorno informa al agente sobre si esta
   haciendo bien o mal la tarea que está aprendiendo.
Robots Autónomos
Los robots Autónomos presentan unas características
 particulares que permiten que podamos aprovechar técnicas de
 aprendizaje para mejorar su desempeño.
Los robots autónomos son entidades físicas con capacidad de
 percepción sobre un entorno y que actúan sobre el mismo en
 base a dichas percepciones, sin supervisión directa de otros
 agentes.
Características Principales de
          Robots Autónomos

Están situados: Un robot autónomo percibe un entorno y actúa
 sobre él.
Son entidades corpóreas: Los robots operan sobre el mundo
 físico; su experiencia del mundo y sus acciones sobre el mismo
 se producen de forma directa haciendo uso de sus propias
 capacidades físicas.
Paradigma en la robótica
Paradigma en la robótica: es una manera de conseguir que los
robots tengan una forma de ver el mundo. Los principales
paradigmas son:
1. El jerárquico.
2. El reactivo.
3. El híbrido.
Paradigma jerárquico.

Es el más antiguo utilizado en los 60-70, este paradigma se basa
en la manera en que los humanos resuelven el problema dándole
mucha importancia a la planeación.

Este paradigma se denomina también paradigma Percepción,
Planificación, Acción ó PPA
Paradigma jerárquico.

Las 3 operaciones de este paradigma son:

1. Percepción.
2. Planificación.
3. Acción.
Paradigma reactivo

Basado en las ciencias cognitivas y en la biología, opera mediante
la planificación y se basa en la percepción y la acción.

De la percepción del entorno pasa a la acción y con un mínimo de
preprocesamiento trabaja con sus entradas simbólicas y genera un
comportamiento. Realizan tareas sencillas y no tienen
comportamientos complejos.
Paradigma reactivo

• La prioridad de un robot autónomo no es el razonamiento sino
  que actúen con cierta inteligencia practica que permita
  sobrevivir y manejarse en su entorno.
Paradigma híbrido
Conseguir aumento de capacidades operativas de los robots
autónomos, mediante las tareas deliberativas y las reactivas.

• Deliberativas: llevar a cabo la planificación de alto nivel.
• Reactivas: entra en funcionamiento cuando resulta necesaria
  una acción inmediata para garantizar la supervivencia del robot
Robots Autónomos
El paradigma mas utilizado es el híbrido, pero no es suficiente
para la implementación. Para implementar se necesita:
1.   Diseñar una arquitectura del paradigma.
2.   Programar los comportamientos deseados del robot sobre la
     arquitectura.
El primer robot autónomo construido es: robot Shakey
desarrollado por Nilsson, codificado con lenguaje Scripts.
La importancia del aprendizaje en
           la Robótica
• Los paradigmas y las arquitecturas no son suficientes para que
  los robots sobrevivan en su entorno y en condiciones
  cambiantes.
• Los seres humanos operamos con símbolos, y que para poder
  llegar a un nivel de inteligencia y de razonamiento elevados es
  necesario contar con la aproximación simbólica, sobre todo si
  en algún momento se plantea la necesidad de la comunicación
  entre varios agentes.
Aprendizaje por refuerzo.

Permite a los robots autónomos aprender de su propio entorno. Es
conseguir que un agente actúe en un entorno de manera que
maximice la recompensa que obtiene por sus acciones.
Un agente: es un sistema computacional que habita en un entorno
complejo y dinámico, con la capacidad de percibir y actuar
autónomamente sobre el entorno, y de esta manera es capaz de
llevar a cabo ciertas tareas para las cuales fue diseñado.
Robots autónomos.
• Cada vez que el agente ejecuta una acción, recibe un valor de
  recompensa. Estas recompensas no tienen por qué estar
  asociadas directamente con la última acción ejecutada, sino que
  pueden ser consecuencia de acciones anteriores llevadas a cabo
  por el agente.
• El objetivo final del aprendizaje por refuerzo es conseguir un
  agente que maximice el retorno a largo plazo.
El interfaz agente - entorno.
El agente y el entorno interactúan en una secuencia de instantes de
tiempo t=0,1,2,3… En cada instante de tiempo t , el agente recibe
una representación del estado del entorno            , donde S es el
conjunto de posibles estados. En base a esto, el agente selecciona
una acción          , donde es el conjunto de acciones disponibles
en el estado . En el instante de tiempo posterior, y en parte
como consecuencia de la acción llevada a cabo, el agente recibe
una recompensa numérica,               , y pasa a estar en un nuevo
estado,
El interfaz agente - entorno.

En cada momento de tiempo el agente lleva a cabo un mapeo
entre las representaciones de los estados y las probabilidades de
seleccionar cada una de las acciones posibles. Llamamos a este
mapeo la política del agente, y la denotamos por . , donde
.       es la probabilidad de que
El interfaz agente - entorno.

Los distintos métodos de aprendizaje por refuerzo especifican de
qué manera cambia el agente su política como resultado de la
experiencia que va adquiriendo enfrentándose al entorno. El
objetivo del agente, es maximizar a largo plazo la suma de las
recompensas que obtiene.
Interfaz agente - entorno
Secuencias de tiempo (t)
Estados (s)
Recompensa (r), indica cuan deseable es una situación para el
agente, la suma de recompensa “retorno”, es la que un agente
busca maximizar a largo plazo.
Acciones (a)
Política del agente (∏), probabilidad de seleccionar una
acción.
Algoritmos
Los algoritmos están basados en:
Programación Dinámica.
Métodos de Monte Carlo.
Métodos de Diferencia Temporal.
Algoritmos
Programación dinámica.
Método de divide y vencerás.
Resolución de problemas combinando soluciones de
  subproblemas.
Los subproblemas no son independientes.
Aplica a problemas de optimización.
Algoritmos utilizados para calcular políticas óptimas dado un
  modelo perfecto del entorno como en los Procesos de Decisión de
  Markov.
Algoritmos
Monte Carlo:
 No necesitan un modelo completo del medio.
 Requieren de la experiencia: secuencias de estados-acciones y
 recompensas.
 Aprenden una función estado-valor dado una política.
 Ayudan a resolver problemas de aprendizaje por refuerzo al
 ponderar las recompensas de diferentes muestras.
 Utilizado en tareas episódicas.
 Al terminar un episodio se actualizan los valores estimados y la
 política.
Algoritmos
Diferencia Temporal.
Combinación de las características de Monte Carlo y
  Programación Dinámica.
Aprenden sin un modelo del entorno.
Actualizan valores basados en valores aprendidos previamente,
  sin esperar hasta el final.
Aplicación en la robótica
• El aprendizaje por refuerzo es un método muy prometedor para
  conseguir que los robots mejoren su comportamiento por sí
  mismos, a pesar de la posible falta de conocimiento acerca de
  las tareas que deben desarrollar.
Referencia
• Robots Autónomos y Aprendizaje por Refuerzo, Farid Fleifel
  Tapia, 2002.
También puede leer