Conocimiento Bóveda 6 /4 - ICML 2015
Avances en Predicción Estructurada
Hal Daumé III & John Langford
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4d4, font-weight:bold, font-size:14px classDef intro fill:#d4f9d4, font-weight:bold, font-size:14px classDef approaches fill:#d4d4f9, font-weight:bold, font-size:14px classDef algorithms fill:#f9f9d4, font-weight:bold, font-size:14px classDef examples fill:#f9d4f9, font-weight:bold, font-size:14px classDef comparisons fill:#d4f9f9, font-weight:bold, font-size:14px Main["Avances en Predicción
Estructurada"] Main --> A["Introducción a la Predicción Conjunta"] A --> A1["Introducción a la predicción conjunta,
evitando el término estructurado 1"] A --> A2["Ejemplos de predicción conjunta: etiquetado,
análisis, traducción 2"] A --> A3["Enfoques de predicción conjunta: independiente,
multi-tarea, gráfico 3"] A --> A4["Características de predicción conjunta: predicciones discretas,
descomposición 4"] A --> A5["Problemas de predicción conjunta: gran
espacio, combinatorio 5"] A --> A6["Formulación de toma de decisiones secuenciales,
paralelismos con aprendizaje por refuerzo 6"] Main --> B["Enfoques de Aprendizaje"] B --> B1["Inconvenientes del aprendizaje supervisado:
desajuste de distribución 7"] B --> B2["Aprendizaje por imitación: algoritmo DAgger,
consultas al experto 8"] B --> B3["Imitación vs refuerzo: ventaja de datos
etiquetados 9"] B --> B4["Limitaciones de la imitación: costos,
acceso al experto 10"] Main --> C["Algoritmo AGGRAVATE"] C --> C1["AGGRAVATE: política aprendida, desviaciones,
clasificación sensible al costo 11"] C --> C2["Comparación entre clasificación multi-clase y
sensible al costo 12"] C --> C3["Componentes de AGGRAVATE: roll-in, roll-out,
desviaciones 13"] C --> C4["Cálculo eficiente de pérdidas: política del
experto, descomposición 14"] C --> C5["Clasificador en línea sensible al costo:
estrategia uno-contra-todos 20"] Main --> D["Ejemplos y Aplicaciones"] D --> D1["Ejemplo de etiquetado de secuencias: paso
de tiempo, etiquetas 15"] D --> D2["Ventaja computacional: descomposición de pérdidas,
decisiones pasadas 16"] D --> D3["Ejemplo de etiquetado de gráficos: linearización,
búsqueda en amplitud 17"] D --> D4["Predicciones de nodos: información de vecinos,
múltiples pasadas 18"] D --> D5["Ejemplos sensibles al costo: perturbaciones de etiquetas,
pérdida de Hamming 19"] Main --> E["Comparaciones y Relaciones"] E --> E1["Convergencia de AGGRAVATE, relación con minimización
de riesgo empírico 21"] E --> E2["Expertos no óptimos en aprendizaje
para buscar 22"] E --> E3["Aprender a buscar vs campos aleatorios
condicionales 23"] E --> E4["Buscar vs CRFs: predicción
vs probabilidad 24"] E --> E5["Buscar vs redes neuronales recurrentes:
complementarios 26"] Main --> F["Consideraciones Adicionales"] F --> F1["Sensibilidad del etiquetado de gráficos al
orden de linearización 25"] F --> F2["Clasificación en línea sensible al costo en AGGRAVATE 27"] F --> F3["Optimización de pérdidas no descomponibles: ejemplo de F-score 28"] F --> F4["La descomposición de pérdidas permite atajos computacionales 29"] F --> F5["Temas adicionales: aprendizaje por refuerzo,
redes neuronales 30"] class Main main class A,A1,A2,A3,A4,A5,A6 intro class B,B1,B2,B3,B4 approaches class C,C1,C2,C3,C4,C5 algorithms class D,D1,D2,D3,D4,D5 examples class E,E1,E2,E3,E4,E5,F,F1,F2,F3,F4,F5 comparisons

Resumen:

1.- Introducción a la predicción estructurada y problemas de predicción conjunta. Evitando el término "predicción estructurada" debido a la asociación con campos aleatorios condicionales.

2.- Ejemplos de problemas de predicción conjunta: etiquetado de secuencias, análisis, emparejamiento, traducción automática, segmentación de imágenes, plegamiento de proteínas.

3.- Enfoques para la predicción conjunta: predicciones independientes, aprendizaje multi-tarea, modelos gráficos, soluciones hechas a mano. Pros y contras de cada uno.

4.- Caracterización de problemas de predicción conjunta: aprender a optimizar una pérdida conjunta sobre predicciones discretas, espacio de salida exponencial, necesidad de descomposición de salida.

5.- Problemas con la predicción conjunta: gran espacio de salida, funciones de pérdida combinatorias, necesidad de asumir que la salida se descompone útilmente para avanzar.

6.- Formulación de toma de decisiones secuenciales para problemas con descomposición de salida ordenada. Paralelismos con el aprendizaje por refuerzo.

7.- Calentamiento 1: Enfoque de aprendizaje supervisado básico para resolver la predicción conjunta. Inconvenientes debido al desajuste de distribución entre entrenamiento/prueba.

8.- Calentamiento 2: Aprendizaje por imitación con el algoritmo DAgger. Consulta repetida al experto en las trayectorias del aprendiz. Proporciona garantías teóricas.

9.- Comparación del aprendizaje por imitación con el aprendizaje por refuerzo. El acceso a datos de entrenamiento etiquetados y políticas de referencia óptimas es una ventaja.

10.- Limitaciones del aprendizaje por imitación: No captura los costos variables de diferentes predicciones incorrectas. Requiere demasiado acceso al experto.

11.- Algoritmo AGGRAVATE: Se inicia con política aprendida, hace desviaciones de un paso, se desarrolla con política de referencia, genera ejemplos de clasificación sensible al costo.

12.- Relación entre clasificación multi-clase y sensible al costo. El objetivo es minimizar el costo esperado de las predicciones en lugar de solo los errores esperados.

13.- Roll-in, roll-out y desviaciones de un paso en AGGRAVATE. Utiliza política de referencia para los roll-outs.

14.- Cálculo eficiente de pérdidas sin roll-outs explícitos al usar una política de referencia experta, aprovechando la descomposición de pérdidas (por ejemplo, pérdida de Hamming).

15.- Ejemplo 1: Etiquetado de secuencias con AGGRAVATE. Elegir un paso de tiempo, probar todas las etiquetas, desarrollar con experto, recolectar ejemplos sensibles al costo.

16.- Aprovechando la descomposición de pérdidas en el etiquetado de secuencias para evitar hacer roll-outs, ganando ventaja computacional. Solo es necesario contar decisiones pasadas incorrectas.

17.- Ejemplo 2: Etiquetado de gráficos con AGGRAVATE. Linearizando la travesía del gráfico de manera similar a la propagación de creencias. Ordenamiento de búsqueda en amplitud.

18.- Haciendo predicciones en un nodo dado la información de sus vecinos. Múltiples pasadas hacia adentro y hacia afuera proporcionan información interior y exterior.

19.- Construcción de ejemplos sensibles al costo para un nodo probando todas las perturbaciones de etiquetas. La pérdida de Hamming permite evitar roll-outs.

20.- Uso de un clasificador en línea sensible al costo en el bucle interno de AGGRAVATE. La estrategia uno-contra-todos es común en la práctica.

21.- Propiedades de convergencia de AGGRAVATE y relación con la minimización de riesgo empírico. La segunda mitad del tutorial cubre esto.

22.- Manejo de expertos no óptimos en el aprendizaje para buscar. Trabajos recientes abordan esto (artículo presentado en la conferencia).

23.- Comparación del aprendizaje para buscar y los campos aleatorios condicionales (CRFs). Similitudes a alto nivel pero enfoques y objetivos de optimización diferentes.

24.- Aprender a buscar se reduce a la capacidad de predicción como un primitivo, mientras que los CRFs se reducen a la capacidad de modelado de probabilidad. Difícil de comparar directamente.

25.- Sensibilidad de los resultados de etiquetado de gráficos al orden de linearización. Múltiples pasadas hacia adentro/afuera hacen que el orden importe menos.

26.- Relación entre el aprendizaje para buscar y las redes neuronales recurrentes. Ortogonales: uno es algorítmico, el otro es representacional. Potencialmente complementarios.

27.- Clasificación en línea sensible al costo como un subcomponente de AGGRAVATE. La elección del clasificador afecta la calidad final de la predicción.

28.- Posibilidad de optimizar funciones de pérdida no descomponibles como F-score usando el aprendizaje para buscar, pero requiriendo roll-outs explícitos.

29.- La descomposición de la función de pérdida permite atajos computacionales en AGGRAVATE al usar un experto para los roll-outs. La pérdida de Hamming es un ejemplo.

30.- Discusión adicional sobre las conexiones con el aprendizaje por refuerzo, manejo de expertos no óptimos, redes neuronales recurrentes en la segunda mitad del tutorial.

Bóveda del Conocimiento construida porDavid Vivancos 2024