Conocimiento Bóveda 2/27 - ICLR 2014-2023
Johannes Ballé, Valero Laparra, Eero Simoncelli ICLR 2016 - Modelado de Densidad de Imágenes usando una Transformación de Normalización Generalizada
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef unsupervised fill:#f9d4d4, font-weight:bold, font-size:14px; classDef density fill:#d4f9d4, font-weight:bold, font-size:14px; classDef gaussianization fill:#d4d4f9, font-weight:bold, font-size:14px; classDef representation fill:#f9f9d4, font-weight:bold, font-size:14px; classDef perception fill:#f9d4f9, font-weight:bold, font-size:14px; Main[Johannes Ballé et al.
ICLR 2016] --> A[Aprendizaje no supervisado: estructura en
datos no etiquetados 1] Main --> B[Estimación de densidad: ajuste de parámetros
de función de valores positivos 2] B --> C[Normalizar requiere integración intratable 3] Main --> D[Gaussianización: transformando datos a
normal estándar 4] D --> E[La densidad de entrada modelada por
transformación inversa 5] D --> F[Parámetros ajustados maximizando
verosimilitud 6] Main --> G[Distribuciones de respuesta marginal simétrica
de cola pesada 7] G --> H[Gaussianización logística: mal ajuste,
discontinuidades 8] G --> I[Gaussianización alternativa: afín, exponenciación,
división 9] D --> J[La Gaussianización marginal no garantiza
Gaussianidad conjunta 10] J --> K[Enfoques antiguos: Gaussianizar repetidamente
nuevas direcciones 11] Main --> L[Normalización divisiva Gaussianiza la
densidad conjunta 12] L --> M[Términos de cruce de filtro crean
no linealidad conjunta compartida 13] L --> N[El modelo captura formas de densidad
conjunta 14] L --> O[Extensión a múltiples dimensiones:
normalización divisiva generalizada 15] D --> P[Modelos anteriores son casos
especiales 16] Main --> Q[Determinante de log-verosimilitud se descompone en
términos aditivos 17] Main --> R[Red profunda con normalizaciones
conjuntas no lineales 18] R --> S[Una capa de normalización conjunta
supera múltiples marginales 19] Main --> T[Gaussianización aprende representaciones relacionadas
con biología 20] T --> U[Las distancias en el espacio de píxeles no
correlacionan con la percepción 21] T --> V[La representación Gaussianizada se alinea con
expectativas perceptuales 22] V --> W[Las distancias Gaussianizadas correlacionan fuertemente
con juicios humanos 23] T --> X[La representación Gaussianizada no supervisada supera
el estándar de la industria 24] T --> Y[La correlación merece más investigación 25] Main --> Z[Gaussianización: modelado de densidad y
aprendizaje de representación 26] Z --> AA[Normalización divisiva generalizada aplica
no linealidades conjuntas 27] Z --> AB[Una capa supera múltiples
capas marginales 28] Z --> AC[La representación no supervisada explica
juicios humanos 29] Z --> AD[Comprender la relevancia perceptual de la Gaussianización
necesita más trabajo 30] class A unsupervised; class B,C density; class D,E,F,H,I,J,K,P gaussianization; class L,M,N,O,Q,R,S,T,U,V,W,X,Y,Z,AA,AB,AC,AD representation; class U,V,W,X,Y perception;

Resumen:

1.-El aprendizaje no supervisado busca encontrar estructura en datos no etiquetados y puede ayudar a entender cómo se aprenden las representaciones sensoriales en el cerebro.

2.-La estimación de densidad es un enfoque clásico de aprendizaje no supervisado, típicamente ajustando parámetros de una función de valores positivos a los datos.

3.-Normalizar funciones de densidad paramétrica requiere integración intratable sobre los datos. Una alternativa es encontrar una transformación paramétrica para Gaussianizar los datos.

4.-La Gaussianización transforma los datos en una densidad normal estándar. La densidad de entrada puede modelarse empujando la Gaussiana a través de la transformación inversa.

5.-Calcular la densidad de entrada a partir de los datos Gaussianizados solo requiere tomar derivadas, lo cual es más eficiente que la integración, especialmente con hardware moderno.

6.-Los parámetros de la transformación Gaussianizante se ajustan maximizando la verosimilitud, tomando derivadas y usando descenso de gradiente estocástico.

7.-Las imágenes filtradas con filtros lineales producen distribuciones de respuesta marginal simétrica de cola pesada. La Gaussianización busca expandir el centro y contraer las colas.

8.-Una función logística de Gaussianización tiene un mal ajuste en el centro y discontinuidades en las colas debido a la saturación.

9.-Una Gaussianización alternativa usando una función afín, exponenciación y división ajusta mejor los datos sin discontinuidades.

10.-La Gaussianización marginal de filtros individuales no garantiza Gaussianidad conjunta. Los marginales rotados revelan estructura no Gaussiana.

11.-Enfoques antiguos encuentran repetidamente nuevas direcciones Gaussianas y Gaussianizan. El proceso es similar a una red neuronal profunda con muchas capas.

12.-La normalización divisiva, inspirada en neuronas biológicas, Gaussianiza la densidad conjunta de múltiples filtros en un solo paso.

13.-La normalización divisiva introduce términos de cruce de filtro en el denominador, creando una no linealidad conjunta compartida a través de mapas de características.

14.-El modelo captura el continuo de formas observadas en densidades conjuntas de pares de filtros lineales, desde elípticas hasta marginalmente independientes.

15.-El modelo se extiende a múltiples dimensiones aprendiendo conjuntamente tanto los filtros como los parámetros de normalización. Esto se llama normalización divisiva generalizada.

16.-Varios modelos de imágenes anteriores pueden verse como casos especiales de Gaussianización y normalización divisiva generalizada.

17.-Bajo ciertas condiciones, el término determinante de log-verosimilitud se descompone en términos aditivos, permitiendo el ajuste de versiones convolucionales y apiladas.

18.-Se puede construir una red neuronal profunda utilizando las no linealidades de normalización divisiva conjunta en lugar de las no linealidades puntuales típicas.

19.-Una capa de normalización conjunta Gaussianiza los datos mucho más eficazmente que múltiples capas de no linealidades puntuales marginales.

20.-Más allá del modelado de densidad, la Gaussianización aprende representaciones que pueden relacionarse con la biología. Las distancias en la representación pueden predecir juicios perceptuales humanos.

21.-Las distancias euclidianas en el espacio de píxeles no correlacionan bien con la percepción humana de distorsión de imagen y calidad visual.

22.-Reordenar imágenes distorsionadas por distancia euclidiana en la representación Gaussianizada se alinea mejor con las expectativas perceptuales en comparación con la distancia de píxeles.

23.-Las distancias euclidianas en la representación Gaussianizada correlacionan mucho más fuertemente (0.84) con los juicios de distorsión humanos que las distancias de píxeles (0.40).

24.-La representación Gaussianizada no supervisada supera el estándar de la industria (0.74 de correlación) para medir la calidad perceptual de la imagen, sin ajuste supervisado a respuestas humanas.

25.-La fuerte correlación entre las distancias de representación Gaussianizadas y los juicios perceptuales humanos es sorprendente y merece más investigación.

26.-La Gaussianización sirve como un vehículo tanto para el modelado de densidad como para el aprendizaje de representación no supervisado.

27.-La normalización divisiva generalizada aplica no linealidades conjuntas a través de mapas de características, inspirada y generalizando las no linealidades neuronales biológicas.

28.-Una capa de normalización divisiva generalizada Gaussianiza los datos de imagen mucho mejor que múltiples capas de no linealidades puntuales marginales.

29.-La representación aprendida explica los juicios de calidad de imagen humana mejor que el estándar de la industria, a pesar de ser no supervisada.

30.-Se necesita más trabajo para entender por qué la Gaussianización produce representaciones perceptualmente relevantes.

Bóveda de Conocimiento construida porDavid Vivancos 2024