Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
graph LR
classDef main fill:#f9d4d4, font-weight:bold, font-size:14px
classDef intro fill:#d4f9d4, font-weight:bold, font-size:14px
classDef policysearch fill:#d4d4f9, font-weight:bold, font-size:14px
classDef gradients fill:#f9f9d4, font-weight:bold, font-size:14px
classDef em fill:#f9d4f9, font-weight:bold, font-size:14px
classDef advanced fill:#d4f9f9, font-weight:bold, font-size:14px
Main["Dos desafíos de alto riesgo
en el aprendizaje
automático"]
Main --> A["Introducción y Motivación"]
A --> A1["Los robots autónomos necesitan
aprendizaje de habilidades complejas 1"]
A --> A2["Desafíos: espacios de alta dimensión, costos
de datos, seguridad 2"]
A --> A3["RL basado en valor: inestable, exploración
extensiva 3"]
A --> A4["Búsqueda de políticas: parametrizada, correlacionada,
actualizaciones locales 4"]
A --> A5["Taxonomía: métodos sin modelo vs con modelo
5"]
A --> A6["Esquema: taxonomía, métodos, extensiones,
basado en modelo 6"]
Main --> B["Fundamentos de la Búsqueda de Políticas"]
B --> B1["Representaciones de políticas: trayectorias, controladores,
redes 7"]
B --> B2["Sin modelo vs con modelo: muestras
vs aprendizaje 8"]
B --> B3["Exploración basada en pasos vs episodios:
espacio de acción/parámetro 9"]
B --> B4["Actualización de políticas: optimización directa
o EM 10"]
B --> B5["Exploración: equilibrio entre suavidad y
variabilidad 11"]
B --> B6["Exploración de parámetros correlacionados produce
trayectorias más suaves 12"]
Main --> C["Métodos de Gradientes de Políticas"]
C --> C1["Actualizaciones conservadoras vs codiciosas:
compensación exploración-explotación 13"]
C --> C2["Gradientes de políticas: truco de log-verosimilitud
estima gradiente 14"]
C --> C3["Sustracción de línea base reduce la varianza
sin sesgo 15"]
C --> C4["Gradientes basados en pasos usan función de valor
estado-acción 16"]
C --> C5["Línea base dependiente del estado reduce aún más
la varianza 17"]
C --> C6["La elección de la métrica impacta el tamaño del
paso de actualización 18"]
Main --> D["Técnicas Avanzadas de Gradientes de Políticas"]
D --> D1["Gradientes naturales: información de Fisher
normaliza el gradiente 19"]
D --> D2["Actor-crítico natural: gradientes con
aproximación de funciones 20"]
D --> D3["La función de valor del estado reduce la varianza
de la función de ventaja 21"]
D --> D4["Los gradientes de políticas aprenden habilidades
motoras lentamente 22"]
Main --> E["Métodos de Expectativa-Maximización"]
E --> E1["Búsqueda basada en EM: máxima verosimilitud
ponderada por recompensa 23"]
E --> E2["EM funciona para configuraciones basadas en pasos/episodios 24"]
E --> E3["Ponderación de recompensas: sustracción de línea base,
reescalado 25"]
E --> E4["Proyección de momentos: minimización de KL,
actualizaciones de forma cerrada 26"]
Main --> F["Temas Avanzados y Aplicaciones"]
F --> F1["Aplicaciones: habilidades complejas de robots
próximamente 27"]
F --> F2["Búsqueda contextual aprende habilidades
generalizables y adaptables 28"]
F --> F3["Búsqueda jerárquica: secuenciación de alto nivel,
primitivas de bajo nivel 29"]
F --> F4["Búsqueda basada en modelos: PILCO, búsqueda
de políticas guiada 30"]
class Main main
class A,A1,A2,A3,A4,A5,A6 intro
class B,B1,B2,B3,B4,B5,B6 policysearch
class C,C1,C2,C3,C4,C5,C6,D,D1,D2,D3,D4 gradients
class E,E1,E2,E3,E4 em
class F,F1,F2,F3,F4 advanced
Resumen:
1.- Desafíos: ingeniería de software y experimentación.
2.- La abstracción ayuda a gestionar la complejidad de la ingeniería.
3.- Las abstracciones pueden fallar, requiriendo una comprensión más profunda.
4.- Las abstracciones matemáticas no fallan, ayudando al diseño.
5.- Software construido sobre abstracciones limpias.
6.- Programación vs. aprendizaje: diferentes enfoques de computación.
7.- Los perceptrones perdieron ante la programación inicialmente.
8.- Los humanos sobresalen donde las especificaciones son elusivas.
9.- ML necesita software para tener impacto.
10.- Los modelos entrenados son componentes de software débiles.
11.- Los algoritmos de aprendizaje enredan sistemas complejos.
12.- Los ejemplos ilustran problemas de integración con ML.
13.- ML en software: los desafíos permanecen.
14.- ML mezcla aspectos de ciencia e ingeniería.
15.- ML carece de especificaciones, se basa en datos.
16.- ML se basa en el paradigma de un solo experimento.
17.- El paradigma único contrasta con otras ciencias.
18.- Los conjuntos de datos tienen sesgo, no pueden ser curados.
19.- Los datos de entrenamiento nunca cubren todos los casos.
20.- Los modelos fallan en casos extremos no vistos.
21.- La visión por computadora no es puramente estadística.
22.- Evaluar tareas similares a la IA es difícil.
23.- Repensar el paradigma experimental para el progreso de ML.
24.- Los desafíos de ML son sobre el proceso.
25.- La ingeniería de ML puede priorizar la productividad.
26.- Experimentos dirigidos podrían revelar el razonamiento del modelo.
27.- Experimentos diversos, discutiendo límites abiertamente.
28.- Los contratos podrían hacer ML más robusto.
29.- Reutilizar el trabajo de ML sigue siendo un desafío.
30.- Los desafíos clave dan forma al impacto futuro de ML.
Vault de Conocimiento construido porDavid Vivancos 2024