Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- Introducción a la predicción estructurada y problemas de predicción conjunta. Evitando el término "predicción estructurada" debido a la asociación con campos aleatorios condicionales.
2.- Ejemplos de problemas de predicción conjunta: etiquetado de secuencias, análisis, emparejamiento, traducción automática, segmentación de imágenes, plegamiento de proteínas.
3.- Enfoques para la predicción conjunta: predicciones independientes, aprendizaje multi-tarea, modelos gráficos, soluciones hechas a mano. Pros y contras de cada uno.
4.- Caracterización de problemas de predicción conjunta: aprender a optimizar una pérdida conjunta sobre predicciones discretas, espacio de salida exponencial, necesidad de descomposición de salida.
5.- Problemas con la predicción conjunta: gran espacio de salida, funciones de pérdida combinatorias, necesidad de asumir que la salida se descompone útilmente para avanzar.
6.- Formulación de toma de decisiones secuenciales para problemas con descomposición de salida ordenada. Paralelismos con el aprendizaje por refuerzo.
7.- Calentamiento 1: Enfoque de aprendizaje supervisado básico para resolver la predicción conjunta. Inconvenientes debido al desajuste de distribución entre entrenamiento/prueba.
8.- Calentamiento 2: Aprendizaje por imitación con el algoritmo DAgger. Consulta repetida al experto en las trayectorias del aprendiz. Proporciona garantías teóricas.
9.- Comparación del aprendizaje por imitación con el aprendizaje por refuerzo. El acceso a datos de entrenamiento etiquetados y políticas de referencia óptimas es una ventaja.
10.- Limitaciones del aprendizaje por imitación: No captura los costos variables de diferentes predicciones incorrectas. Requiere demasiado acceso al experto.
11.- Algoritmo AGGRAVATE: Se inicia con política aprendida, hace desviaciones de un paso, se desarrolla con política de referencia, genera ejemplos de clasificación sensible al costo.
12.- Relación entre clasificación multi-clase y sensible al costo. El objetivo es minimizar el costo esperado de las predicciones en lugar de solo los errores esperados.
13.- Roll-in, roll-out y desviaciones de un paso en AGGRAVATE. Utiliza política de referencia para los roll-outs.
14.- Cálculo eficiente de pérdidas sin roll-outs explícitos al usar una política de referencia experta, aprovechando la descomposición de pérdidas (por ejemplo, pérdida de Hamming).
15.- Ejemplo 1: Etiquetado de secuencias con AGGRAVATE. Elegir un paso de tiempo, probar todas las etiquetas, desarrollar con experto, recolectar ejemplos sensibles al costo.
16.- Aprovechando la descomposición de pérdidas en el etiquetado de secuencias para evitar hacer roll-outs, ganando ventaja computacional. Solo es necesario contar decisiones pasadas incorrectas.
17.- Ejemplo 2: Etiquetado de gráficos con AGGRAVATE. Linearizando la travesía del gráfico de manera similar a la propagación de creencias. Ordenamiento de búsqueda en amplitud.
18.- Haciendo predicciones en un nodo dado la información de sus vecinos. Múltiples pasadas hacia adentro y hacia afuera proporcionan información interior y exterior.
19.- Construcción de ejemplos sensibles al costo para un nodo probando todas las perturbaciones de etiquetas. La pérdida de Hamming permite evitar roll-outs.
20.- Uso de un clasificador en línea sensible al costo en el bucle interno de AGGRAVATE. La estrategia uno-contra-todos es común en la práctica.
21.- Propiedades de convergencia de AGGRAVATE y relación con la minimización de riesgo empírico. La segunda mitad del tutorial cubre esto.
22.- Manejo de expertos no óptimos en el aprendizaje para buscar. Trabajos recientes abordan esto (artículo presentado en la conferencia).
23.- Comparación del aprendizaje para buscar y los campos aleatorios condicionales (CRFs). Similitudes a alto nivel pero enfoques y objetivos de optimización diferentes.
24.- Aprender a buscar se reduce a la capacidad de predicción como un primitivo, mientras que los CRFs se reducen a la capacidad de modelado de probabilidad. Difícil de comparar directamente.
25.- Sensibilidad de los resultados de etiquetado de gráficos al orden de linearización. Múltiples pasadas hacia adentro/afuera hacen que el orden importe menos.
26.- Relación entre el aprendizaje para buscar y las redes neuronales recurrentes. Ortogonales: uno es algorítmico, el otro es representacional. Potencialmente complementarios.
27.- Clasificación en línea sensible al costo como un subcomponente de AGGRAVATE. La elección del clasificador afecta la calidad final de la predicción.
28.- Posibilidad de optimizar funciones de pérdida no descomponibles como F-score usando el aprendizaje para buscar, pero requiriendo roll-outs explícitos.
29.- La descomposición de la función de pérdida permite atajos computacionales en AGGRAVATE al usar un experto para los roll-outs. La pérdida de Hamming es un ejemplo.
30.- Discusión adicional sobre las conexiones con el aprendizaje por refuerzo, manejo de expertos no óptimos, redes neuronales recurrentes en la segunda mitad del tutorial.
Bóveda del Conocimiento construida porDavid Vivancos 2024