Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
aprendizaje por refuerzo
aprendizaje por refuerzo
Loading in …3
×
1 of 22

Aprendizaje Por Refuerzo Marvin

0

Share

Download to read offline

introduccion a aprendizaje por refuerzo

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

Aprendizaje Por Refuerzo Marvin

  1. 1. Por: Marvin Agila J .
  2. 2. <ul><ul><li>Presento algunas definiciones de personajes que exponen sus puntos de vista: </li></ul></ul><ul><li>“ Aprender es construir o modificar representaciones de aquello con lo que se está experimentando” [McCarthy] </li></ul><ul><li>“ El aprendizaje denota cambios en el sistema que permiten que se realice la misma tarea más eficiente y eficazmente la próxima vez” [Simón] </li></ul><ul><li>“ Aprender es hacer cambios útiles en nuestra mente” [Minsky] </li></ul>
  3. 3. <ul><li>Sistema que interactúa con un entorno o que lo observa. </li></ul><ul><li>Modificación del comportamiento del sistema o de su representación interna. </li></ul><ul><li>Mejora del sistema de acuerdo a algún criterio de evaluación </li></ul>
  4. 4. <ul><li>En este modelo de aprendizaje, los agentes aprenden comportamientos por medio de interacciones basadas en ensayo y error, dentro de un medio dinámico. </li></ul><ul><li>Los agentes reactivos y adaptativos cuentan con una descripción del estado actual y tienen que seleccionar la siguiente acción, de un conjunto de posibles acciones, que maximice un refuerzo escalar proporcionado después de realizar la acción elegida </li></ul>
  5. 5. <ul><li>Algunas de las características que proporciona el aprendizaje por refuerzo son: </li></ul><ul><li>El aprendizaje ocurre a través de la experimentación basada en prueba y error con el medio ambiente. </li></ul><ul><li>La retroalimentación es a base de un pago escalar. </li></ul><ul><li>En tareas de toma de decisiones secuenciales, el pago puede repartirse y retrasarse. </li></ul>
  6. 6. <ul><li>Se requiere poco o ningún conocimiento previo. </li></ul><ul><li>Es incremental y puede usarse en línea. </li></ul><ul><li>Puede usarse para aprender tareas reactivas. </li></ul><ul><li>Se puede usar en ambientes no determinísticos. </li></ul><ul><li>Cuando se usa con métodos de diferencia temporal es eficiente en aprender tareas de toma de decisiones secuenciales. </li></ul>
  7. 7. <ul><li>No solo el agente y su medio son los que interactúan en un RA, además de estos es posible identificar 4 subelementos principales que son: </li></ul><ul><ul><li>una política </li></ul></ul><ul><ul><li>una función de recompensa </li></ul></ul><ul><ul><li>una función de valor </li></ul></ul><ul><ul><li>un modelo del medio </li></ul></ul>
  8. 8. <ul><li>La política define la forma en la que un agente se comportará en un momento dado; es decir, es el mapeo de estados percibidos del medio hacia acciones a ser tomadas cuando se encuentra en alguno de ellos. </li></ul><ul><li>La función de recompensa define la meta; es decir, mapea cada estado percibido del medio a un número que indica la deseabilidad de dicho estado. Un agente que utiliza el aprendizaje por refuerzo tiene el objetivo de maximizar el total de la recompensa recibida a largo plazo . </li></ul>
  9. 9. <ul><li>La función de valor especifica lo que es bueno en el largo plazo; es decir, el valor de un estado es la suma total de las recompensas que un agente puede esperar acumular en el futuro, iniciando en dicho estado. </li></ul><ul><li>El modelo del medio permite simular el comportamiento del mismo. Por ejemplo, dado un estado y una acción, el modelo puede predecir el estado y recompensa resultantes. </li></ul>
  10. 10. <ul><li>Los algoritmos de aprendizaje por refuerzo están basados en: </li></ul><ul><ul><li>Programación dinámica </li></ul></ul><ul><ul><li>Métodos Monte Carlo </li></ul></ul><ul><ul><li>Métodos de Diferencia temporal </li></ul></ul>
  11. 11. <ul><li>Es un método de divide y vencerás. </li></ul><ul><li>Son algoritmos que se utilizan para calcular políticas óptimas dado un modelo perfecto del medio como en los Procesos de Decisión de Markov (PDM). </li></ul><ul><li>Los algoritmos en sí son limitados para el aprendizaje por refuerzo debido a que se necesita un modelo perfecto del medio. </li></ul><ul><li>Se aplica a problemas de optimización. </li></ul>
  12. 12. <ul><li>Caracterizar la estructura de una solución óptima. </li></ul><ul><li>Definir recursivamente los valores de una solución óptima. </li></ul><ul><li>Calcular el valor de una solución óptima del estilo bottom-up. </li></ul><ul><li>Construir una solución óptima a partir de la información. </li></ul>
  13. 13. <ul><ul><li>Solucionar cada subproblema exactamente una sola vez. </li></ul></ul><ul><ul><li>Guarda soluciones parciales dentro de una tabla. </li></ul></ul><ul><ul><li>Tiene un menor costo de ejecución que los algoritmos recursivos. </li></ul></ul><ul><ul><li>Puede tomar ventaja del traslape de subproblemas. </li></ul></ul>
  14. 14. <ul><li>La desventaja más notoria que se da a conocer en la ejecución de este algoritmo es en lo referente a la capacidad de almacenamiento de cada computador: </li></ul><ul><li>Necesita memoria para almacenar sus datos, por lo que para problemas grandes, es necesaria una gran cantidad de memoria. </li></ul><ul><li>Existe la posibilidad de traslapar problemas. </li></ul>
  15. 16. <ul><li>Podemos partir el problema en etapas: </li></ul><ul><ul><li>Etapa 1: nodo A </li></ul></ul><ul><ul><li>Etapa 2: nodos B, C y D </li></ul></ul><ul><ul><li>Etapa 3: nodos E, F, y G </li></ul></ul><ul><ul><li>Etapa 4: nodos H e I </li></ul></ul><ul><ul><li>Etapa 5: nodo J </li></ul></ul><ul><ul><li>Nota: Los estados en cada etapa corresponden al nombre del nodo. </li></ul></ul>
  16. 17. <ul><li>Etapa 5 </li></ul><ul><ul><li>Donde proporciona la distancia más corta del nodo S al destino J. </li></ul></ul><ul><li>Etapa 4 </li></ul><ul><ul><li>Durante esta etapa, no hay decisiones reales que hacer, simplemente se va al estado destino, J. </li></ul></ul>
  17. 18. <ul><li>Estos algoritmos no necesitan un modelo completo del medio. </li></ul><ul><li>Requieren de la experiencia: secuencias de estados-acciones y recompensas. </li></ul><ul><li>Aprenden una función de estado-valor dada una política. </li></ul><ul><li>Se utilizan en tareas episódicas. </li></ul><ul><li>Al terminar un episodio se actualizan los valores estimados y la política. </li></ul>
  18. 19. <ul><li>Un PDM se define por sus conjuntos de acciones y estados y por una dinámica del medio de un paso. </li></ul><ul><li>Dado un estado y acción, s y a, la probabilidad de un estado s´ es: </li></ul>
  19. 20. <ul><li>Si no existen recompensas no pueden existir valores y el propósito de estimar valores es el de alcanzar mayor recompensa. </li></ul><ul><li>Sin embargo, cuando se realiza un proceso de proponer y evaluar decisiones, lo que utiliza el agente son los valores. Esto significa que un agente debe de buscar realizar las acciones que lo lleven a los estados con los valores más altos, no con la recompensa más alta, debido a que estas acciones obtienen la mayor recompensa en el largo plazo. </li></ul>
  20. 21. <ul><li>En procesos de toma de decisiones y planeación lo que interesa calcular son los valores. Sin embargo, este proceso es más difícil que asignar recompensas ya que estas se proporcionan inmediatamente por el medio y los valores se calculan y actualizan continuamente a partir de las secuencias de observaciones que realiza el agente durante su ejecución. </li></ul>
  21. 22. <ul><ul><li>http://modelosrecuperacion.50webs.com/inferencia.htm </li></ul></ul><ul><ul><li>http://ficcte.unimoron.edu.ar/wicc/Trabajos/I%20-%20asi/627-wicc_2006_AEs_DM.pdf </li></ul></ul><ul><ul><li>http://72.14.205.104/search?q=cache:l8a142XMAVIJ:www.ica.luz.ve/~dfinol/webMEsta/06-Clasificacion%2520no%2520Supervisada.pdf+clasificacion+no+supervisada&hl=es&ct=clnk&cd=2&gl=ec </li></ul></ul><ul><ul><li>http://www.um.es/geograf/sig/teledet/clasific.html </li></ul></ul>

×