Conocimiento Bóveda 6 /100 - ICML 2024
Aprendiendo acciones, políticas, recompensas y entornos solo de videos
Ashley Edwards
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef video fill:#f9d4d4, font-weight:bold, font-size:14px classDef robotics fill:#d4f9d4, font-weight:bold, font-size:14px classDef learning fill:#d4d4f9, font-weight:bold, font-size:14px classDef future fill:#f9f9d4, font-weight:bold, font-size:14px classDef patterns fill:#f9d4f9, font-weight:bold, font-size:14px Main["Aprendiendo acciones, políticas,
recompensas y entornos
solo de videos"] --> V["Procesamiento de Video"] Main --> R["Robótica & Movimiento"] Main --> L["Métodos de Aprendizaje"] Main --> F["Estados Futuros"] Main --> P["Análisis de Patrones"] V --> V1["Los videos enseñan acciones sin
supervisión directa 1"] V --> V2["Las speedruns de juegos revelan
tendencias de comportamiento 6"] V --> V3["El modelo detecta animales
más allá de los juegos 8"] V --> V4["Los tokens VQ-VAE dividen
partes del video 21"] V --> V5["Los valores de video entrenan
agentes de aprendizaje 19"] R --> R1["Los robots aprenden lo básico
del lenguaje de señas 2"] R --> R2["Los robots adquieren habilidades
de expresión facial 3"] R --> R3["Mapear movimientos humanos a
características de robots 4"] R --> R4["Patrones de movimiento a través de
diversos sujetos 5"] R --> R5["Nuevos entornos crean
guías de movimiento 7"] L --> L1["Los estados futuros necesitan
modelos de acción 22"] L --> L2["Los videos enseñan sin
sistemas de recompensa 17"] L --> L3["Las recompensas finales guían
el aprendizaje de valores 18"] L --> L4["Aprendizaje de datos subóptimos
de video 15"] L --> L5["Las transiciones directas reemplazan
pares de acción 16"] L --> L6["Los datos prosperan sin
necesidades de acción 29"] F --> F1["Predicción de múltiples características
simultáneamente 9"] F --> F2["Acciones compartidas a través de
agrupamiento futuro 10"] F --> F3["Las transiciones de video revelan
acciones latentes 11"] F --> F4["El modelo predice posibles
estados futuros 12"] F --> F5["Los estados futuros pesan
las opciones de política 13"] F --> F6["Adaptación rápida de políticas
al mundo real 14"] P --> P1["Espacios interactivos a partir de
contenido de video 20"] P --> P2["Los modelos mejoran la interacción
con el mundo 23"] P --> P3["Las imágenes se transforman en
espacios vivos 24"] P --> P4["Pruebas a través de juegos de plataformas 25"] P --> P5["Entrenamiento de futuras mentes artificiales 26"] P --> P6["Los videos reales necesitan estructuras
más grandes 27"] P2 --> P7["Gestionando recompensas a través de
mundos virtuales 28"] P3 --> P8["La estructura crea patrones
básicos 30"] class Main,V,V1,V2,V3,V4,V5 video class R,R1,R2,R3,R4,R5 robotics class L,L1,L2,L3,L4,L5,L6 learning class F,F1,F2,F3,F4,F5,F6 future class P,P1,P2,P3,P4,P5,P6,P7,P8 patterns

Resumen:

1.- Aprendiendo acciones, políticas, recompensas de videos sin supervisión explícita

2.- Investigación inicial sobre la enseñanza de gestos de lenguaje de señas a robots

3.- Cambio hacia la enseñanza de expresiones faciales a robots

4.- Plantillas de movimiento para mapear expresiones humanas a características de robots

5.- Representación agnóstica de patrones de movimiento a través de diferentes sujetos

6.- Análisis de speedruns de videojuegos para inferir patrones de comportamiento

7.- Generación de plantillas de movimiento a partir de entornos de juego no vistos

8.- Éxito inesperado del modelo en segmentar animales de contenido no relacionado con juegos

9.- Predicción de múltiples características en lugar de predicciones de un solo modo

10.- Agrupamiento de predicciones futuras para identificar representaciones de acciones compartidas

11.- ILPO: Aprendizaje de acciones latentes a partir de transiciones de video

12.- Modelado generativo para predecir posibles estados siguientes

13.- Aprendizaje de políticas mediante la ponderación de diferentes posibles estados futuros

14.- Adaptación rápida de políticas aprendidas a entornos reales

15.- Aprendizaje de funciones de valor óptimas a partir de demostraciones de video subóptimas

16.- Transiciones de estado a estado versus pares tradicionales de estado-acción

17.- Aprendizaje sin funciones de recompensa usando el orden de secuencias de video

18.- Derivación de funciones de valor a partir de recompensas al final del video

19.- Entrenamiento de agentes de aprendizaje por refuerzo usando valores de video aprendidos

20.- Genie: Creación de entornos interactivos a partir de datos de video

21.- Tokenización de video usando modelo VQ-VAE discretizado

22.- Modelado de acciones latentes para la predicción de estados futuros

23.- Modelado dinámico para la interacción con el entorno

24.- Imágenes generadas por texto convirtiéndose en entornos interactivos

25.- Aplicación a entornos de juegos de plataformas

26.- Potencial para entrenar futuros agentes de IA

27.- Escalado a videos del mundo real mediante la expansión de la arquitectura

28.- Manejo del hacking de recompensas a través de múltiples entornos generados

29.- Beneficios del aprendizaje sin acciones para conjuntos de datos diversos

30.- Emergencia de representaciones de bajo nivel en la estructura del entorno

Bóveda de Conocimiento construida porDavid Vivancos 2024