Conocimiento Bóveda 6 /4 - ICML 2015
Avances en Predicción Estructurada
Hal Daumé III & John Langford
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

Avances en Predicción
Estructurada
Introducción a la Predicción Conjunta
Introducción a la predicción conjunta,
evitando el término estructurado 1
Ejemplos de predicción conjunta: etiquetado,
análisis, traducción 2
Enfoques de predicción conjunta: independiente,
multi-tarea, gráfico 3
Características de predicción conjunta: predicciones discretas,
descomposición 4
Problemas de predicción conjunta: gran
espacio, combinatorio 5
Formulación de toma de decisiones secuenciales,
paralelismos con aprendizaje por refuerzo 6
Enfoques de Aprendizaje
Inconvenientes del aprendizaje supervisado:
desajuste de distribución 7
Aprendizaje por imitación: algoritmo DAgger,
consultas al experto 8
Imitación vs refuerzo: ventaja de datos
etiquetados 9
Limitaciones de la imitación: costos,
acceso al experto 10
Algoritmo AGGRAVATE
AGGRAVATE: política aprendida, desviaciones,
clasificación sensible al costo 11
Comparación entre clasificación multi-clase y
sensible al costo 12
Componentes de AGGRAVATE: roll-in, roll-out,
desviaciones 13
Cálculo eficiente de pérdidas: política del
experto, descomposición 14
Clasificador en línea sensible al costo:
estrategia uno-contra-todos 20
Ejemplos y Aplicaciones
Ejemplo de etiquetado de secuencias: paso
de tiempo, etiquetas 15
Ventaja computacional: descomposición de pérdidas,
decisiones pasadas 16
Ejemplo de etiquetado de gráficos: linearización,
búsqueda en amplitud 17
Predicciones de nodos: información de vecinos,
múltiples pasadas 18
Ejemplos sensibles al costo: perturbaciones de etiquetas,
pérdida de Hamming 19
Comparaciones y Relaciones
Convergencia de AGGRAVATE, relación con minimización
de riesgo empírico 21
Expertos no óptimos en aprendizaje
para buscar 22
Aprender a buscar vs campos aleatorios
condicionales 23
Buscar vs CRFs: predicción
vs probabilidad 24
Buscar vs redes neuronales recurrentes:
complementarios 26
Consideraciones Adicionales
Sensibilidad del etiquetado de gráficos al
orden de linearización 25
Clasificación en línea sensible al costo en AGGRAVATE 27
Optimización de pérdidas no descomponibles: ejemplo de F-score 28
La descomposición de pérdidas permite atajos computacionales 29
Temas adicionales: aprendizaje por refuerzo,
redes neuronales 30

Resumen:

1.- Introducción a la predicción estructurada y problemas de predicción conjunta. Evitando el término "predicción estructurada" debido a la asociación con campos aleatorios condicionales.

2.- Ejemplos de problemas de predicción conjunta: etiquetado de secuencias, análisis, emparejamiento, traducción automática, segmentación de imágenes, plegamiento de proteínas.

3.- Enfoques para la predicción conjunta: predicciones independientes, aprendizaje multi-tarea, modelos gráficos, soluciones hechas a mano. Pros y contras de cada uno.

4.- Caracterización de problemas de predicción conjunta: aprender a optimizar una pérdida conjunta sobre predicciones discretas, espacio de salida exponencial, necesidad de descomposición de salida.

5.- Problemas con la predicción conjunta: gran espacio de salida, funciones de pérdida combinatorias, necesidad de asumir que la salida se descompone útilmente para avanzar.

6.- Formulación de toma de decisiones secuenciales para problemas con descomposición de salida ordenada. Paralelismos con el aprendizaje por refuerzo.

7.- Calentamiento 1: Enfoque de aprendizaje supervisado básico para resolver la predicción conjunta. Inconvenientes debido al desajuste de distribución entre entrenamiento/prueba.

8.- Calentamiento 2: Aprendizaje por imitación con el algoritmo DAgger. Consulta repetida al experto en las trayectorias del aprendiz. Proporciona garantías teóricas.

9.- Comparación del aprendizaje por imitación con el aprendizaje por refuerzo. El acceso a datos de entrenamiento etiquetados y políticas de referencia óptimas es una ventaja.

10.- Limitaciones del aprendizaje por imitación: No captura los costos variables de diferentes predicciones incorrectas. Requiere demasiado acceso al experto.

11.- Algoritmo AGGRAVATE: Se inicia con política aprendida, hace desviaciones de un paso, se desarrolla con política de referencia, genera ejemplos de clasificación sensible al costo.

12.- Relación entre clasificación multi-clase y sensible al costo. El objetivo es minimizar el costo esperado de las predicciones en lugar de solo los errores esperados.

13.- Roll-in, roll-out y desviaciones de un paso en AGGRAVATE. Utiliza política de referencia para los roll-outs.

14.- Cálculo eficiente de pérdidas sin roll-outs explícitos al usar una política de referencia experta, aprovechando la descomposición de pérdidas (por ejemplo, pérdida de Hamming).

15.- Ejemplo 1: Etiquetado de secuencias con AGGRAVATE. Elegir un paso de tiempo, probar todas las etiquetas, desarrollar con experto, recolectar ejemplos sensibles al costo.

16.- Aprovechando la descomposición de pérdidas en el etiquetado de secuencias para evitar hacer roll-outs, ganando ventaja computacional. Solo es necesario contar decisiones pasadas incorrectas.

17.- Ejemplo 2: Etiquetado de gráficos con AGGRAVATE. Linearizando la travesía del gráfico de manera similar a la propagación de creencias. Ordenamiento de búsqueda en amplitud.

18.- Haciendo predicciones en un nodo dado la información de sus vecinos. Múltiples pasadas hacia adentro y hacia afuera proporcionan información interior y exterior.

19.- Construcción de ejemplos sensibles al costo para un nodo probando todas las perturbaciones de etiquetas. La pérdida de Hamming permite evitar roll-outs.

20.- Uso de un clasificador en línea sensible al costo en el bucle interno de AGGRAVATE. La estrategia uno-contra-todos es común en la práctica.

21.- Propiedades de convergencia de AGGRAVATE y relación con la minimización de riesgo empírico. La segunda mitad del tutorial cubre esto.

22.- Manejo de expertos no óptimos en el aprendizaje para buscar. Trabajos recientes abordan esto (artículo presentado en la conferencia).

23.- Comparación del aprendizaje para buscar y los campos aleatorios condicionales (CRFs). Similitudes a alto nivel pero enfoques y objetivos de optimización diferentes.

24.- Aprender a buscar se reduce a la capacidad de predicción como un primitivo, mientras que los CRFs se reducen a la capacidad de modelado de probabilidad. Difícil de comparar directamente.

25.- Sensibilidad de los resultados de etiquetado de gráficos al orden de linearización. Múltiples pasadas hacia adentro/afuera hacen que el orden importe menos.

26.- Relación entre el aprendizaje para buscar y las redes neuronales recurrentes. Ortogonales: uno es algorítmico, el otro es representacional. Potencialmente complementarios.

27.- Clasificación en línea sensible al costo como un subcomponente de AGGRAVATE. La elección del clasificador afecta la calidad final de la predicción.

28.- Posibilidad de optimizar funciones de pérdida no descomponibles como F-score usando el aprendizaje para buscar, pero requiriendo roll-outs explícitos.

29.- La descomposición de la función de pérdida permite atajos computacionales en AGGRAVATE al usar un experto para los roll-outs. La pérdida de Hamming es un ejemplo.

30.- Discusión adicional sobre las conexiones con el aprendizaje por refuerzo, manejo de expertos no óptimos, redes neuronales recurrentes en la segunda mitad del tutorial.

Bóveda del Conocimiento construida porDavid Vivancos 2024