Conocimiento Bóveda 2/26 - ICLR 2014-2023
Lucas Theis, Aäron van den Oord, Matthias Bethge ICLR 2016 - Una nota sobre la evaluación de modelos generativos
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef evaluation fill:#f9d4d4, font-weight:bold, font-size:14px; classDef applications fill:#d4f9d4, font-weight:bold, font-size:14px; classDef loglikelihood fill:#d4d4f9, font-weight:bold, font-size:14px; classDef objectives fill:#f9f9d4, font-weight:bold, font-size:14px; classDef samples fill:#f9d4f9, font-weight:bold, font-size:14px; classDef parzen fill:#d4f9f9, font-weight:bold, font-size:14px; classDef mixtures fill:#f9d4d4, font-weight:bold, font-size:14px; classDef recommendations fill:#d4f9d4, font-weight:bold, font-size:14px; A[Lucas Theis et al
ICLR 2016 ] --> B[Explora métodos de evaluación
relaciones, idoneidad. 1] A --> C[Modelos generativos: compresión,
generación, aprendizaje. 2] A --> D[Difícil evaluar verosimilitud. 3] D --> E[Alternativas debido a
aprendizaje, generación. 4] B --> F[Éxito en una aplicación
no se traduce. 5] A --> G[Objetivos de entrenamiento impactan
compromisos, resultados. 6] G --> H[Objetivos teóricamente iguales,
prácticamente difieren. 7] A --> I[Muestras intuitivas pero insuficientes. 8] I --> J[Generar buenas muestras es fácil. 9] I --> K[Vecinos más cercanos detectan sobreajuste. 10] K --> L[Distancia euclidiana desalineada
con similitud perceptual. 11] K --> M[Pruebas detectan principalmente
comportamiento de búsqueda. 12] A --> N[Ventanas de Parzen aproximan
verosimilitud. 13] N --> O[Parzen mala aproximación
incluso en configuraciones simples. 14] N --> P[Parzen no clasifica
modelos significativamente. 15] D --> Q[Evaluar verosimilitud directamente
para estimación de densidad. 16] Q --> R[Verosimilitudes pueden ser
infinitas en datos discretizados. 17] R --> S[Ruido uniforme limita verosimilitud. 18] S --> T[Verosimilitud discreta relacionada
con compresión. 19] A --> U[Calidad de muestra y verosimilitud
capturan propiedades diferentes. 20] U --> V[Modelo excelente con 99%
ruido reduce verosimilitud ligeramente. 21] U --> W[1% buen modelo, 99% ruido:
compresión idéntica, muestras diferentes. 22] U --> X[99% buen modelo, 1% ruido:
muestras idénticas, compresión diferente. 23] U --> Y[Calidad de muestra y clasificación
mezcladas arbitrariamente. 24] B --> Z[Evaluar en aplicación prevista. 25] Z --> AA[Evitar estimaciones de ventana de Parzen. 26] Z --> AB[No confiar únicamente en
pruebas de vecinos cercanos. 27] Z --> AC[Usar muestras como diagnóstico
o cuando sea relevante. 28] Z --> AD[Evaluar representaciones en
tareas posteriores. 29] B --> AE[Evaluación cuidadosa crucial ya que
rendimiento no correlaciona. 30] class A,B,F,Z,AA,AB,AC,AD,AE evaluation; class C applications; class D,E,Q,R,S,T loglikelihood; class G,H objectives; class I,J,K,L,M samples; class N,O,P parzen; class U,V,W,X,Y mixtures;

Resumen:

1.-El documento explora cómo diferentes métodos de evaluación para modelos generativos se relacionan entre sí y su idoneidad para varias aplicaciones.

2.-Los modelos generativos pueden usarse para compresión, generación de contenido, síntesis de texturas, reconstrucción de imágenes y aprendizaje de representaciones no supervisado.

3.-La verosimilitud es a menudo difícil de evaluar, lo que lleva a métodos de evaluación alternativos y aproximaciones.

4.-La insatisfacción con el progreso en la modelización generativa para el aprendizaje de representaciones no supervisado y la generación de contenido también llevó a métodos de evaluación alternativos.

5.-El documento argumenta que el éxito en una aplicación no necesariamente se traduce a otras, por lo que la evaluación debe considerar la aplicación prevista.

6.-La elección del objetivo de entrenamiento (por ejemplo, máxima verosimilitud, MMD, divergencia JS, redes adversariales) impacta los compromisos y resultados.

7.-Aunque teóricamente equivalentes dado el modelo correcto y datos infinitos, en la práctica los objetivos llevan a comportamientos diferentes en modelos generativos.

8.-Evaluar modelos generativos dibujando muestras y examinándolas es una herramienta de diagnóstico intuitiva pero insuficiente para evaluar la estimación de densidad o representaciones.

9.-Simplemente generar buenas muestras es fácil (por ejemplo, almacenar y recuperar imágenes de entrenamiento) pero no refleja capacidades de aprendizaje o estimación de densidad.

10.-Mirar a los vecinos más cercanos a las muestras se usa para detectar sobreajuste, pero pequeños cambios en las imágenes pueden dar vecinos muy diferentes.

11.-La distancia euclidiana usada para vecinos más cercanos no se alinea bien con la similitud perceptual de imágenes.

12.-Las pruebas de vecinos más cercanos principalmente detectan comportamiento de tabla de búsqueda en lugar de generalización significativa en modelos generativos.

13.-Las estimaciones de ventana de Parzen, construyendo un modelo manejable a partir de muestras del modelo, se usan como una aproximación de verosimilitud.

14.-Las estimaciones de ventana de Parzen son una muy mala aproximación de verosimilitud incluso en configuraciones simples de baja dimensión con muchas muestras.

15.-Las estimaciones de ventana de Parzen también fallan en proporcionar clasificaciones significativas de modelos en comparación con la verosimilitud.

16.-La verosimilitud debe ser evaluada directamente o adecuadamente aproximada para evaluar el rendimiento de estimación de densidad.

17.-Las verosimilitudes pueden ser infinitas al ajustar densidades a datos discretizados si el modelo detecta la discretización.

18.-Agregar ruido uniforme a los datos discretizados limita la verosimilitud continua basada en la verosimilitud del modelo discreto.

19.-La verosimilitud del modelo discreto se relaciona con su rendimiento de compresión en los datos discretos.

20.-La calidad de muestra y la verosimilitud capturan propiedades bastante diferentes de un modelo generativo.

21.-Mezclar un modelo excelente con 99% de ruido solo reduce la verosimilitud ligeramente (<4.61 nats) mientras cambia drásticamente las muestras.

22.-Los modelos de mezcla con 1% de buen modelo y 99% de ruido tienen compresión casi idéntica pero muestras muy diferentes.

23.-Los modelos de mezcla con 99% de buen modelo y 1% de ruido pueden tener muestras casi idénticas pero compresión muy diferente.

24.-Un argumento similar muestra que la calidad de muestra y el rendimiento de clasificación usando las representaciones del modelo pueden mezclarse arbitrariamente.

25.-Los modelos generativos deben ser evaluados en la aplicación prevista (por ejemplo, verosimilitud para compresión, muestras para generación de contenido, psicofísica para percepción).

26.-Evitar estimaciones de ventana de Parzen.

27.-No confiar únicamente en pruebas de vecinos más cercanos para evaluar el sobreajuste.

28.-Usar muestras como herramienta de diagnóstico o cuando sean directamente relevantes para la aplicación, no como un proxy general.

29.-Para el aprendizaje de representaciones no supervisado, evaluar las representaciones aprendidas en tareas posteriores.

30.-La evaluación cuidadosa de modelos generativos es crucial ya que el rendimiento en diferentes aplicaciones no necesariamente correlaciona.

Bóveda del Conocimiento construida porDavid Vivancos 2024