Conocimiento Bóveda 2/25 - ICLR 2014-2023
Raquel Urtasun ICLR 2016 - Conferencia - Incorporando Estructura en Aprendizaje Profundo
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef deeplearning fill:#f9d4d4, font-weight:bold, font-size:14px; classDef computervision fill:#d4f9d4, font-weight:bold, font-size:14px; classDef predicting fill:#d4d4f9, font-weight:bold, font-size:14px; classDef standarddeeplearning fill:#f9f9d4, font-weight:bold, font-size:14px; classDef multitasklearning fill:#f9d4f9, font-weight:bold, font-size:14px; classDef markovrandomfields fill:#d4f9f9, font-weight:bold, font-size:14px; classDef incorporatingdependencies fill:#f9d4d4, font-weight:bold, font-size:14px; classDef graphicalmodels fill:#d4f9d4, font-weight:bold, font-size:14px; classDef conditionalrandomfields fill:#d4d4f9, font-weight:bold, font-size:14px; classDef learningcrfs fill:#f9f9d4, font-weight:bold, font-size:14px; classDef deepcrfmodels fill:#f9d4f9, font-weight:bold, font-size:14px; classDef experiments fill:#d4f9f9, font-weight:bold, font-size:14px; classDef deepstructuredmodels fill:#f9d4d4, font-weight:bold, font-size:14px; classDef minimizingtaskloss fill:#d4f9d4, font-weight:bold, font-size:14px; classDef embeddings fill:#d4d4f9, font-weight:bold, font-size:14px; A[Raquel Urtasun
ICLR 2016] --> B[Éxito del aprendizaje profundo en
varios dominios 1] A --> C[Visión por computadora y enfoque
en aprendizaje automático 2] A --> D[Predicción de variables
estadísticamente relacionadas con aprendizaje profundo 3] A --> E[Aprendizaje profundo estándar
para una sola salida 4] A --> F[Aprendizaje multitarea comparte
parámetros y especializa ramas 5] A --> G[Campos aleatorios de Markov para
suavidad en el post-procesamiento 6] A --> H[Incorporar dependencias mientras
se aprenden características es deseable 7] H --> I[Modelos gráficos codifican
dependencias a través de funciones de energía 8] H --> J[Campos aleatorios condicionales
modelan la salida dada la entrada 9] H --> K[Aprender CRFs: minimización de
pérdida de prueba empírica es difícil 10] K --> L[Pérdidas sustitutas de CRF son
convexas en los parámetros 11] H --> M[Modelos CRF profundos combinan
CRFs con aprendizaje profundo 12] M --> N[Algoritmo de doble bucle para
aprender modelos CRF profundos 13] N --> O[Aproximación de inferencia y
paralelización para eficiencia 14] M --> P[Algoritmo de un solo bucle es
más rápido para modelos generales 15] A --> Q[Experimentos muestran que el
entrenamiento conjunto mejora el rendimiento 16] Q --> R[Reconocimiento de caracteres: redes
profundas + CRFs mejoran resultados 16] Q --> S[Etiquetado de imágenes: el bucle
único converge más rápido 17] Q --> T[Segmentación semántica: +3%
con aprendizaje conjunto de características/CRF 18] Q --> U[Segmentación a nivel de instancia es
desafiante pero abordable 19] A --> V[Modelos estructurados profundos
permiten el mapeo del mundo 20] A --> W[Modelos estructurados profundos
aplicados en varios dominios 21] A --> X[Minimizar directamente la pérdida de tarea
es deseable pero desafiante 22] X --> Y[Condiciones de regularidad permiten
convergencia a la actualización correcta 23] X --> Z[Regla de actualización modificada permite
entrenamiento con pérdidas complejas 24] X --> AA[Optimización directa de pérdida
beneficios mostrados experimentalmente 25] X --> AB[Optimización directa es
robusta al ruido en etiquetas 26] A --> AC[Aprendizaje profundo popular
para aprender incrustaciones 27] AC --> AD[Conocimiento previo de
relaciones puede ser incrustado 28] AC --> AE[Relaciones jerárquicas
pueden ser codificadas 29] AC --> AF[Incrustación de jerarquías de orden
parcial es prometedor 30] class A,B deeplearning; class C computervision; class D predicting; class E standarddeeplearning; class F multitasklearning; class G markovrandomfields; class H incorporatingdependencies; class I,J graphicalmodels; class K,L learningcrfs; class M,N,O,P deepcrfmodels; class Q,R,S,T,U experiments; class V,W deepstructuredmodels; class X,Y,Z,AA,AB minimizingtaskloss; class AC,AD,AE,AF embeddings;

Resumen:

1.-El aprendizaje profundo ha tenido éxito en asistentes personales, juegos, robótica, drones y coches autónomos.

2.-La visión por computadora se centra en aplicar redes neuronales, mientras que el aprendizaje automático se centra en mejorar las redes neuronales.

3.-Muchos problemas implican predecir variables aleatorias estadísticamente relacionadas, lo que el aprendizaje profundo puede ayudar a resolver.

4.-El aprendizaje profundo estándar utiliza métodos feedforward para predecir una sola salida minimizando una función de pérdida simple.

5.-El aprendizaje multitarea comparte parámetros de red y especializa ramas para diferentes tipos de predicción.

6.-Los campos aleatorios de Markov se pueden usar para el post-procesamiento para imponer suavidad en las predicciones.

7.-Es deseable incorporar dependencias de variables de salida mientras se aprenden características profundas.

8.-Los modelos gráficos codifican dependencias entre variables aleatorias usando funciones de energía.

9.-Los campos aleatorios condicionales modelan la distribución condicional de las salidas dadas las entradas.

10.-El aprendizaje en CRFs implica minimizar la pérdida de prueba empírica, lo cual es difícil, por lo que se utilizan pérdidas sustitutas.

11.-Las pérdidas sustitutas de CRF son convexas en los parámetros del modelo log-lineal.

12.-Hacer que los CRFs sean menos superficiales combinándolos con aprendizaje profundo es una solución.

13.-El aprendizaje de modelos CRF profundos implica un algoritmo de doble bucle con inferencia y actualizaciones de parámetros.

14.-La inferencia se puede aproximar para eficiencia, y el algoritmo se puede paralelizar a través de ejemplos y máquinas.

15.-Un algoritmo de un solo bucle que intercalan aprendizaje e inferencia es más rápido para modelos gráficos generales.

16.-Los experimentos de reconocimiento de caracteres muestran que entrenar conjuntamente redes profundas y CRFs mejora el rendimiento.

17.-Los experimentos de etiquetado de imágenes demuestran una convergencia más rápida con el algoritmo de un solo bucle.

18.-El rendimiento de la segmentación semántica mejora un 3% al aprender conjuntamente características profundas y parámetros CRF.

19.-La segmentación a nivel de instancia es más desafiante debido a la invariancia de permutación, pero se puede abordar con heurísticas de ordenamiento.

20.-Construir mapas del mundo a partir de imágenes aéreas es posible con modelos estructurados profundos.

21.-Los modelos estructurados profundos se han aplicado en varios dominios, con creciente popularidad.

22.-Minimizar directamente la pérdida de tarea durante el entrenamiento es deseable pero desafiante debido a la no diferenciabilidad.

23.-Condiciones de regularidad leves permiten la convergencia a la actualización correcta al minimizar la pérdida de tarea.

24.-El entrenamiento con funciones de pérdida arbitrariamente complicadas es posible usando una regla de actualización modificada.

25.-Experimentos sobre clasificación de acciones, detección de objetos y ranking de precisión promedio muestran beneficios de la optimización directa de pérdida.

26.-El ruido en las etiquetas degrada significativamente el rendimiento de la entropía cruzada y la pérdida de bisagra, pero la optimización directa de pérdida es robusta.

27.-El aprendizaje profundo es popular para aprender incrustaciones de oraciones, imágenes y datos multimodales.

28.-El conocimiento previo de las relaciones entre conceptos se puede incorporar en los espacios de incrustación.

29.-Relaciones jerárquicas como hiperonimia, implicación y abstracción se pueden codificar en incrustaciones.

30.-Crear incrustaciones que respeten jerarquías de orden parcial es una dirección de investigación interesante.

Bóveda de Conocimiento construida porDavid Vivancos 2024