Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
graph LR
classDef video fill:#f9d4d4, font-weight:bold, font-size:14px
classDef robotics fill:#d4f9d4, font-weight:bold, font-size:14px
classDef learning fill:#d4d4f9, font-weight:bold, font-size:14px
classDef future fill:#f9f9d4, font-weight:bold, font-size:14px
classDef patterns fill:#f9d4f9, font-weight:bold, font-size:14px
Main["Aprendiendo acciones, políticas,
recompensas y entornos
solo de videos"] --> V["Procesamiento de Video"]
Main --> R["Robótica & Movimiento"]
Main --> L["Métodos de Aprendizaje"]
Main --> F["Estados Futuros"]
Main --> P["Análisis de Patrones"]
V --> V1["Los videos enseñan acciones sin
supervisión directa 1"]
V --> V2["Las speedruns de juegos revelan
tendencias de comportamiento 6"]
V --> V3["El modelo detecta animales
más allá de los juegos 8"]
V --> V4["Los tokens VQ-VAE dividen
partes del video 21"]
V --> V5["Los valores de video entrenan
agentes de aprendizaje 19"]
R --> R1["Los robots aprenden lo básico
del lenguaje de señas 2"]
R --> R2["Los robots adquieren habilidades
de expresión facial 3"]
R --> R3["Mapear movimientos humanos a
características de robots 4"]
R --> R4["Patrones de movimiento a través de
diversos sujetos 5"]
R --> R5["Nuevos entornos crean
guías de movimiento 7"]
L --> L1["Los estados futuros necesitan
modelos de acción 22"]
L --> L2["Los videos enseñan sin
sistemas de recompensa 17"]
L --> L3["Las recompensas finales guían
el aprendizaje de valores 18"]
L --> L4["Aprendizaje de datos subóptimos
de video 15"]
L --> L5["Las transiciones directas reemplazan
pares de acción 16"]
L --> L6["Los datos prosperan sin
necesidades de acción 29"]
F --> F1["Predicción de múltiples características
simultáneamente 9"]
F --> F2["Acciones compartidas a través de
agrupamiento futuro 10"]
F --> F3["Las transiciones de video revelan
acciones latentes 11"]
F --> F4["El modelo predice posibles
estados futuros 12"]
F --> F5["Los estados futuros pesan
las opciones de política 13"]
F --> F6["Adaptación rápida de políticas
al mundo real 14"]
P --> P1["Espacios interactivos a partir de
contenido de video 20"]
P --> P2["Los modelos mejoran la interacción
con el mundo 23"]
P --> P3["Las imágenes se transforman en
espacios vivos 24"]
P --> P4["Pruebas a través de juegos de plataformas 25"]
P --> P5["Entrenamiento de futuras mentes artificiales 26"]
P --> P6["Los videos reales necesitan estructuras
más grandes 27"]
P2 --> P7["Gestionando recompensas a través de
mundos virtuales 28"]
P3 --> P8["La estructura crea patrones
básicos 30"]
class Main,V,V1,V2,V3,V4,V5 video
class R,R1,R2,R3,R4,R5 robotics
class L,L1,L2,L3,L4,L5,L6 learning
class F,F1,F2,F3,F4,F5,F6 future
class P,P1,P2,P3,P4,P5,P6,P7,P8 patterns
Resumen:
1.- Aprendiendo acciones, políticas, recompensas de videos sin supervisión explícita
2.- Investigación inicial sobre la enseñanza de gestos de lenguaje de señas a robots
3.- Cambio hacia la enseñanza de expresiones faciales a robots
4.- Plantillas de movimiento para mapear expresiones humanas a características de robots
5.- Representación agnóstica de patrones de movimiento a través de diferentes sujetos
6.- Análisis de speedruns de videojuegos para inferir patrones de comportamiento
7.- Generación de plantillas de movimiento a partir de entornos de juego no vistos
8.- Éxito inesperado del modelo en segmentar animales de contenido no relacionado con juegos
9.- Predicción de múltiples características en lugar de predicciones de un solo modo
10.- Agrupamiento de predicciones futuras para identificar representaciones de acciones compartidas
11.- ILPO: Aprendizaje de acciones latentes a partir de transiciones de video
12.- Modelado generativo para predecir posibles estados siguientes
13.- Aprendizaje de políticas mediante la ponderación de diferentes posibles estados futuros
14.- Adaptación rápida de políticas aprendidas a entornos reales
15.- Aprendizaje de funciones de valor óptimas a partir de demostraciones de video subóptimas
16.- Transiciones de estado a estado versus pares tradicionales de estado-acción
17.- Aprendizaje sin funciones de recompensa usando el orden de secuencias de video
18.- Derivación de funciones de valor a partir de recompensas al final del video
19.- Entrenamiento de agentes de aprendizaje por refuerzo usando valores de video aprendidos
20.- Genie: Creación de entornos interactivos a partir de datos de video
21.- Tokenización de video usando modelo VQ-VAE discretizado
22.- Modelado de acciones latentes para la predicción de estados futuros
23.- Modelado dinámico para la interacción con el entorno
24.- Imágenes generadas por texto convirtiéndose en entornos interactivos
25.- Aplicación a entornos de juegos de plataformas
26.- Potencial para entrenar futuros agentes de IA
27.- Escalado a videos del mundo real mediante la expansión de la arquitectura
28.- Manejo del hacking de recompensas a través de múltiples entornos generados
29.- Beneficios del aprendizaje sin acciones para conjuntos de datos diversos
30.- Emergencia de representaciones de bajo nivel en la estructura del entorno
Bóveda de Conocimiento construida porDavid Vivancos 2024