Conocimiento Bóveda 2/21 - ICLR 2014-2023
Sergey Levine ICLR 2016 - Conferencia Principal - Aprendizaje Robótico Profundo
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef robotics fill:#f9d4d4, font-weight:bold, font-size:14px; classDef perception fill:#d4f9d4, font-weight:bold, font-size:14px; classDef learning fill:#d4d4f9, font-weight:bold, font-size:14px; classDef sensorimotor fill:#f9f9d4, font-weight:bold, font-size:14px; classDef grasping fill:#f9d4f9, font-weight:bold, font-size:14px; A[Sergey Levine
ICLR 2016] --> B[Perspectivas del aprendizaje robótico
se aplican al aprendizaje automático. 1] A --> C[El acoplamiento de percepción y acción
simplifica ambos. 2] C --> D[Los humanos atrapan usando la mirada,
no modelos físicos. 3] B --> E[Los robots humanoides actúan lentamente,
en etapas separadas. 4] C --> F[Los humanos realizan habilidades suavemente,
combinando percepción y acción. 5] B --> G[Se presentan algoritmos para que los robots aprendan
habilidades sensorimotoras. 6] G --> H[Búsqueda de políticas guiada: instancias
sin visión, generalizar con ella. 7] H --> I[Alterna optimización de trayectorias, entrenamiento
supervisado para políticas complejas. 8] G --> J[Experimentos: búsqueda guiada habilita
habilidades sensorimotoras complejas. 9] J --> K[Políticas de extremo a extremo superan a las bases,
muestran el beneficio del acoplamiento sensorimotor. 10] G --> L[Aplicado a manipulación, locomoción,
vuelo, otras tareas. 11] B --> M[Escalar requiere datos grandes y diversos. 12] M --> N[Configuración de robots paralelos recoge
datos de agarre colectivamente. 13] N --> O[Agarre: problema de predicción sensorimotora continua
no de selección única. 14] N --> P[Aprendizaje auto-supervisado basado en
etiquetas de éxito de agarre. 15] N --> Q[Red neuronal selecciona continuamente
acciones desde imágenes. 16] Q --> R[Retroalimentación visual continua supera
selección calibrada de bucle abierto. 17] N --> S[Comportamientos emergentes: manejo de objetos suaves,
pesados, translúcidos. 18] B --> T[Diversidad de datos, experiencia en el mundo real
crítica para la generalización. 19] T --> U[Robots podrían acumular experiencia,
aprender políticas colectivamente. 20] class A,B,E,G,L,M,T robotics; class C,D,F perception; class H,I,J,K learning; class N,O,P,Q,R,S grasping; class U sensorimotor;

Resumen:

1.-Las lecciones del aprendizaje robótico profundo se aplican ampliamente a los sistemas de aprendizaje automático que interactúan con el mundo real.

2.-Considerar la percepción y la acción juntas como un solo bucle sensorimotor puede simplificar ambos.

3.-Los humanos atrapan pelotas usando el seguimiento de la mirada para acoplar percepción y acción, no modelando explícitamente la física.

4.-Los robots humanoides actuales realizan tareas lentamente usando etapas separadas de percepción, modelado, planificación y ejecución.

5.-Los humanos realizan habilidades sensorimotoras como abrir puertas suavemente combinando percepción y acción.

6.-La charla presenta algoritmos para que los robots aprendan habilidades sensorimotoras usando redes neuronales profundas entrenadas de extremo a extremo.

7.-La búsqueda de políticas guiada divide las tareas en instancias solucionables sin visión, luego entrena una red profunda para generalizar usando visión.

8.-La búsqueda de políticas guiada alterna la optimización de trayectorias en modelos simples con el entrenamiento supervisado de la red para manejar políticas y dinámicas complejas.

9.-Los experimentos muestran que la búsqueda de políticas guiada permite a los robots realizar habilidades sensorimotoras complejas usando visión.

10.-Las políticas visuomotoras de extremo a extremo superan a las bases de dos etapas, mostrando el beneficio del acoplamiento sensorimotor.

11.-La búsqueda de políticas guiada se ha aplicado a la manipulación, locomoción, vuelo y otras tareas.

12.-Escalar el aprendizaje robótico profundo requiere grandes cantidades de datos diversos, similar al éxito del aprendizaje supervisado.

13.-Se construyó una configuración de robots paralelos para recolectar datos de agarre con 14 robots aprendiendo colectivamente.

14.-El agarre se planteó como un problema de predicción sensorimotora continua en lugar de una selección de agarre única.

15.-El sistema de agarre paralelo se entrenó con aprendizaje auto-supervisado basado en etiquetas de éxito de agarre.

16.-El sistema utiliza una red neuronal para seleccionar continuamente acciones de agarre basadas en imágenes sin calibración.

17.-La retroalimentación visual continua para el agarre superó a una base que usaba selección de agarre de bucle abierto calibrada.

18.-El sistema de agarre exhibió comportamientos emergentes interesantes como el manejo de objetos suaves, pesados y translúcidos.

19.-La diversidad de datos y la experiencia en el mundo real serán críticas para habilidades sensorimotoras altamente generalizables en robótica.

20.-Los robots podrían acumular experiencia para aprender colectivamente políticas generalizables para tareas repetitivas del mundo real como el empaquetado de cajas.

Bóveda del Conocimiento construida porDavid Vivancos 2024