Conocimiento Bóveda 2/62 - ICLR 2014-2023
Leslie Kaelbling ICLR 2020 - Oradora Invitada - Haciendo por Nuestros Robots lo que la Naturaleza Hizo por Nosotros
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef computational fill:#f9d4d4, font-weight:bold, font-size:14px; classDef policies fill:#d4f9d4, font-weight:bold, font-size:14px; classDef domains fill:#d4d4f9, font-weight:bold, font-size:14px; classDef representations fill:#f9f9d4, font-weight:bold, font-size:14px; classDef engineering fill:#f9d4f9, font-weight:bold, font-size:14px; classDef planning fill:#d4f9f9, font-weight:bold, font-size:14px; classDef components fill:#f9d4d4, font-weight:bold, font-size:14px; classDef learning fill:#d4f9d4, font-weight:bold, font-size:14px; classDef skills fill:#d4d4f9, font-weight:bold, font-size:14px; classDef partial fill:#f9f9d4, font-weight:bold, font-size:14px; classDef search fill:#f9d4f9, font-weight:bold, font-size:14px; classDef generalization fill:#d4f9f9, font-weight:bold, font-size:14px; classDef insight fill:#f9d4d4, font-weight:bold, font-size:14px; classDef biases fill:#d4f9d4, font-weight:bold, font-size:14px; classDef progress fill:#d4d4f9, font-weight:bold, font-size:14px; A[Leslie Kaelbling
ICLR 2020] --> B[Entender mecanismos computacionales
para robots inteligentes. 1] A --> C[Políticas de robots: programas que mapean
historia a acción. 2] C --> D[Dominios simples: políticas simples.
Complejos: políticas adaptativas. 3] C --> E[Representaciones de políticas: crudas, funciones de valor
planificadores, jerarquías. 4] A --> F[Robots: diseñados para tareas estrechas
o aprendizaje/adaptación. 5] F --> G[Ingeniería clásica para tareas conocidas.
RL para tareas complejas. 6] A --> H[Planificación en línea: horizontes largos.
Jerárquica: tareas complejas. 7] A --> I[Componentes: percepción, planificación,
ejecución, control. Demostración HPN. 8] A --> J[Experiencia costosa. Se necesitan previos/sesgos
para aprendizaje eficiente. 9] J --> K[Enfoque: aprender habilidades, percepción,
modelos para expandir HPN. 10] K --> L[Modelos de pre-imagen integran
nuevas habilidades en planificador. 11] L --> M[Regresión de proceso gaussiano aprende
modo de éxito de habilidad. 12] L --> N[Aprendizaje de conjunto de nivel completo permite
flexibilidad, ej. diferentes agarres. 13] K --> O[Operadores aprendidos compilados para
equilibrar planificación y habilidades. 14] O --> P[Políticas parciales elevadas generalizan,
ej. poner objeto en caja. 15] J --> Q[Redes neuronales gráficas, relaciones
guían planificación combinatoria. 16] A --> R[Abstracción correcta permite generalización
en diferentes tareas. 17] A --> S[Perspicacia humana proporciona
sesgos útiles para aprendizaje de robots. 18] S --> T[Sesgos: algoritmos de planificación, jerarquías,
objetos, convoluciones. 19] A --> U[A pesar del progreso en ML/RL, los robots
necesitan estructura para aprendizaje real. 20] class A,B computational; class C,D policies; class D,E domains; class E representations; class F,G engineering; class H planning; class I components; class J,K,L,M,N,O learning; class L,M,N skills; class O,P partial; class Q search; class R generalization; class S,T insight; class T biases; class U progress;

Resumen:

1.-El objetivo es entender los mecanismos computacionales necesarios para robots inteligentes de propósito general que puedan manejar la variabilidad en entornos y tareas.

2.-Las políticas de robots pueden representarse como un programa Pi que mapea la historia de acción/observación a la siguiente acción, optimizado para una distribución de dominio.

3.-Los dominios simples permiten políticas simples, mientras que los dominios complejos/incertidumbre requieren políticas más generales/adaptativas. Encontrar la política óptima es técnicamente desafiante.

4.-Las políticas pueden representarse de varias maneras, por ejemplo, como políticas crudas, funciones de valor, planificadores con modelos de transición, abstracción jerárquica.

5.-Los robots pueden ser diseñados para tareas estrechas conocidas o requerir aprendizaje/adaptación para distribuciones de tareas más amplias e inciertas.

6.-La ingeniería clásica funciona para tareas estrechas conocidas. RL en simulación puede compilar simuladores en políticas para tareas moderadamente complejas.

7.-La planificación en línea permite manejar horizontes más largos mediante la re-planificación, por ejemplo, AlphaZero. La planificación jerárquica permite tareas muy complejas.

8.-Varios componentes pueden permitir un comportamiento complejo del robot: percepción, planificación, ejecución jerárquica, control de bajo nivel. El sistema HPN demuestra esto sin aprendizaje.

9.-La experiencia es muy costosa al aprender en línea en el mundo real. Se necesitan previos/sesgos para aprender eficientemente a partir de muestras limitadas.

10.-Un enfoque es aprender nuevas habilidades, capacidades perceptuales, modelos de transición para expandir un sistema como HPN a través del aprendizaje.

11.-Aprender modelos de pre-imagen permite integrar una nueva habilidad primitiva (por ejemplo, verter) como un operador en un planificador de tareas y movimientos.

12.-La regresión de proceso gaussiano permite aprender el "modo" en el que una habilidad como verter tendrá éxito a partir de pocas muestras.

13.-Aprender el conjunto de nivel completo de parámetros exitosos permite flexibilidad, por ejemplo, verter desde diferentes agarres si el nominal es inviable.

14.-Compilar operadores aprendidos en políticas parciales puede proporcionar un equilibrio entre la flexibilidad de la planificación y la eficiencia de las habilidades reactivas.

15.-Las políticas parciales elevadas permiten la generalización, por ejemplo, aprender una política para poner cualquier objeto en cualquier caja a un nivel abstracto.

16.-Aprender el conocimiento de control de búsqueda, por ejemplo, con redes neuronales gráficas y características relacionales, puede guiar la planificación en grandes espacios combinatorios.

17.-La generalización a través de tareas significativamente diferentes es posible con la abstracción de estado correcta, por ejemplo, despejar el acceso a un objeto.

18.-La perspicacia humana sigue siendo necesaria para proporcionar sesgos algorítmicos y estructurales útiles para los sistemas de aprendizaje de robots, especialmente en dominios complejos.

19.-Los sesgos clave incluyen: algoritmos como la planificación, arquitecturas como jerarquías, abstracciones de estado como objetos, estructuras de aprendizaje como convoluciones.

20.-Durante las últimas décadas, ha habido un gran progreso en ML/RL, pero los robots autónomos requieren estructura adicional para aprender eficientemente en entornos reales costosos.

Bóveda del Conocimiento construida porDavid Vivancos 2024