Conocimiento Vault 6 /1 - ICML 2015
Dos desafíos de alto riesgo en el aprendizaje automático
Leon Bottou
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4d4, font-weight:bold, font-size:14px classDef intro fill:#d4f9d4, font-weight:bold, font-size:14px classDef policysearch fill:#d4d4f9, font-weight:bold, font-size:14px classDef gradients fill:#f9f9d4, font-weight:bold, font-size:14px classDef em fill:#f9d4f9, font-weight:bold, font-size:14px classDef advanced fill:#d4f9f9, font-weight:bold, font-size:14px Main["Dos desafíos de alto riesgo
en el aprendizaje
automático"] Main --> A["Introducción y Motivación"] A --> A1["Los robots autónomos necesitan
aprendizaje de habilidades complejas 1"] A --> A2["Desafíos: espacios de alta dimensión, costos
de datos, seguridad 2"] A --> A3["RL basado en valor: inestable, exploración
extensiva 3"] A --> A4["Búsqueda de políticas: parametrizada, correlacionada,
actualizaciones locales 4"] A --> A5["Taxonomía: métodos sin modelo vs con modelo
5"] A --> A6["Esquema: taxonomía, métodos, extensiones,
basado en modelo 6"] Main --> B["Fundamentos de la Búsqueda de Políticas"] B --> B1["Representaciones de políticas: trayectorias, controladores,
redes 7"] B --> B2["Sin modelo vs con modelo: muestras
vs aprendizaje 8"] B --> B3["Exploración basada en pasos vs episodios:
espacio de acción/parámetro 9"] B --> B4["Actualización de políticas: optimización directa
o EM 10"] B --> B5["Exploración: equilibrio entre suavidad y
variabilidad 11"] B --> B6["Exploración de parámetros correlacionados produce
trayectorias más suaves 12"] Main --> C["Métodos de Gradientes de Políticas"] C --> C1["Actualizaciones conservadoras vs codiciosas:
compensación exploración-explotación 13"] C --> C2["Gradientes de políticas: truco de log-verosimilitud
estima gradiente 14"] C --> C3["Sustracción de línea base reduce la varianza
sin sesgo 15"] C --> C4["Gradientes basados en pasos usan función de valor
estado-acción 16"] C --> C5["Línea base dependiente del estado reduce aún más
la varianza 17"] C --> C6["La elección de la métrica impacta el tamaño del
paso de actualización 18"] Main --> D["Técnicas Avanzadas de Gradientes de Políticas"] D --> D1["Gradientes naturales: información de Fisher
normaliza el gradiente 19"] D --> D2["Actor-crítico natural: gradientes con
aproximación de funciones 20"] D --> D3["La función de valor del estado reduce la varianza
de la función de ventaja 21"] D --> D4["Los gradientes de políticas aprenden habilidades
motoras lentamente 22"] Main --> E["Métodos de Expectativa-Maximización"] E --> E1["Búsqueda basada en EM: máxima verosimilitud
ponderada por recompensa 23"] E --> E2["EM funciona para configuraciones basadas en pasos/episodios 24"] E --> E3["Ponderación de recompensas: sustracción de línea base,
reescalado 25"] E --> E4["Proyección de momentos: minimización de KL,
actualizaciones de forma cerrada 26"] Main --> F["Temas Avanzados y Aplicaciones"] F --> F1["Aplicaciones: habilidades complejas de robots
próximamente 27"] F --> F2["Búsqueda contextual aprende habilidades
generalizables y adaptables 28"] F --> F3["Búsqueda jerárquica: secuenciación de alto nivel,
primitivas de bajo nivel 29"] F --> F4["Búsqueda basada en modelos: PILCO, búsqueda
de políticas guiada 30"] class Main main class A,A1,A2,A3,A4,A5,A6 intro class B,B1,B2,B3,B4,B5,B6 policysearch class C,C1,C2,C3,C4,C5,C6,D,D1,D2,D3,D4 gradients class E,E1,E2,E3,E4 em class F,F1,F2,F3,F4 advanced

Resumen:

1.- Desafíos: ingeniería de software y experimentación.

2.- La abstracción ayuda a gestionar la complejidad de la ingeniería.

3.- Las abstracciones pueden fallar, requiriendo una comprensión más profunda.

4.- Las abstracciones matemáticas no fallan, ayudando al diseño.

5.- Software construido sobre abstracciones limpias.

6.- Programación vs. aprendizaje: diferentes enfoques de computación.

7.- Los perceptrones perdieron ante la programación inicialmente.

8.- Los humanos sobresalen donde las especificaciones son elusivas.

9.- ML necesita software para tener impacto.

10.- Los modelos entrenados son componentes de software débiles.

11.- Los algoritmos de aprendizaje enredan sistemas complejos.

12.- Los ejemplos ilustran problemas de integración con ML.

13.- ML en software: los desafíos permanecen.

14.- ML mezcla aspectos de ciencia e ingeniería.

15.- ML carece de especificaciones, se basa en datos.

16.- ML se basa en el paradigma de un solo experimento.

17.- El paradigma único contrasta con otras ciencias.

18.- Los conjuntos de datos tienen sesgo, no pueden ser curados.

19.- Los datos de entrenamiento nunca cubren todos los casos.

20.- Los modelos fallan en casos extremos no vistos.

21.- La visión por computadora no es puramente estadística.

22.- Evaluar tareas similares a la IA es difícil.

23.- Repensar el paradigma experimental para el progreso de ML.

24.- Los desafíos de ML son sobre el proceso.

25.- La ingeniería de ML puede priorizar la productividad.

26.- Experimentos dirigidos podrían revelar el razonamiento del modelo.

27.- Experimentos diversos, discutiendo límites abiertamente.

28.- Los contratos podrían hacer ML más robusto.

29.- Reutilizar el trabajo de ML sigue siendo un desafío.

30.- Los desafíos clave dan forma al impacto futuro de ML.

Vault de Conocimiento construido porDavid Vivancos 2024