El Fin Del Conocimiento - Bóveda 2 - ICLR (2014-2023)

graph LR classDef somancelli fill:#f9d4d4, font-weight:bold, font-size:14px; classDef texture fill:#d4f9d4, font-weight:bold, font-size:14px; classDef synthesis fill:#d4d4f9, font-weight:bold, font-size:14px; classDef challenges fill:#f9f9d4, font-weight:bold, font-size:14px; A[Principal] --> B[Eero Somancelli: investigador HHMI,
profesor NYU 1] A --> C[Trabajo de Somancelli: entender
representaciones visuales del cerebro 2] C --> D[Procesamiento de imágenes: luz,
retina, respuestas cerebrales 3] C --> E[Información visual: transformada,
resumida, combinada internamente 4] A --> F[Información visual enviada
al V1 primario 5] F --> G[1950s-60s: selectividad de orientación
de neuronas V1 descubierta 6] F --> H[V1 mide dominancia de
parches de orientación local 7] A --> I[V2 recibe entrada de V1,
propósito desconocido 8] I --> J[Propósito de V2 asumido como límites/contornos,
pocas respuestas 9] I --> K[Somancelli: V2 representa
textura visual 10] A --> L[Mundo visual dominado
por parches de textura 11] A --> M[1960s: Julesz modeló
textura usando estadísticas 12] M --> N[Julesz: estadísticas de textura
coincidentes parecen idénticas 13] M --> O[Julesz probó estadísticas de textura
binarias, abandonó 14] A --> P[1990s: Somancelli revisó
ideas de Julesz, modelo V1 15] P --> Q[Modelo: correlaciones a través de
respuestas de filtros tipo V1 16] A --> R[Sintetizando estadísticas coincidentes:
apariencia casi idéntica 17] R --> S[Coincidencia estadística funciona
para varias texturas 18] R --> T[Redes profundas: síntesis irreconocibles,
V1 mantiene estructura 19] A --> U[Modelo de textura auditiva análoga:
percepción realista 20] U --> V[Elecciones fisiológicas mejoran
realismo de síntesis de sonido 21] A --> W[Promedio local de estadísticas
maneja imágenes heterogéneas 22] W --> X[Regiones de agrupamiento superpuestas tipo V2
coinciden con primates 23] A --> Y[Síntesis de estadísticas de textura local:
indistinguibilidad periférica 24] Y --> Z[Distorsiones sintetizadas invisibles
cuando no se ven directamente 25] Y --> AA[Relacionado con movimientos oculares
discretos al leer 26] A --> AB[Entender representación de textura
podría optimizar tipografía 27] A --> AC[Repetición de 'filtrado y estadísticas'
puede explicar visión 28] A --> AD[Letvin: textura como elementos
primitivos de forma visual 29] A --> AE[Desafíos: aprendizaje no supervisado,
modelos generativos, métricas 30] class B,C somancelli; class D,E,F,G,H,I,J,K,L,M,N,O,P,AC,AD texture; class Q,R,S,T,U,V,W,X,Y,Z,AA,AB synthesis; class AE challenges;

Resumen:

1.-El orador, Eero Somancelli, es investigador en HHMI y profesor de neurociencia, matemáticas y psicología en NYU.

2.-El trabajo de Somancelli se centra en entender las representaciones visuales en el cerebro y cómo permiten/limitan la percepción e informan los sistemas de visión artificial.

3.-Al observar una imagen, la luz llega a la retina y es procesada por células en respuestas enviadas al cerebro.

4.-A lo largo de este proceso, la información visual se transforma, resume y combina con otra información interna como recuerdos e intenciones para percibir la imagen.

5.-La información visual se envía a la corteza visual primaria en la parte trasera del cerebro, una de las áreas cerebrales más grandes.

6.-En los años 50-60, Hubel & Wiesel descubrieron que las neuronas en V1 son selectivas para la orientación, una característica definitoria al pensar en V1.

7.-V1 mide los parches de orientación local en el entorno e informa la orientación dominante de cada parche al resto del cerebro.

8.-Gran parte de la entrada de V1 va al área aún más grande V2, pero sus propiedades funcionales han sido poco claras y misteriosas durante décadas.

9.-Se asumió que V2 combina la información de orientación local de V1 para encontrar límites/contornos y aislar objetos, pero pocas células de V2 responden a eso.

10.-Somancelli piensa que el propósito de V2 se relaciona con representar la textura visual - V2 dedica enormes recursos a la visión y no puede simplemente imitar a V1.

11.-El mundo visual está dominado por la textura - pequeños parches de estructuras aproximadamente homogéneas como hierba, roca, pelaje en lugar de límites claros.

12.-En los años 60, Bela Julesz propuso modelar la textura perceptual/computacionalmente usando un conjunto limitado de estadísticas de imagen que definen la apariencia de la textura.

13.-Julesz dijo que las texturas con estadísticas coincidentes deberían parecer idénticas a los humanos, buscando identificar el conjunto mínimo de estadísticas que el cerebro representa.

14.-Julesz probó estadísticas de textura binarias hasta el tercer orden manualmente en los años 60, encontró un contraejemplo y abandonó la teoría.

15.-A finales de los años 90, Somancelli revisó las ideas de Julesz con el postdoc Javier Portilla usando un modelo multiescala basado en la fisiología del V1 de primates.

16.-Su modelo mide correlaciones a través de escala, posición y orientación de las respuestas de filtros tipo V1 para capturar ~700 estadísticas de textura.

17.-Sintetizar texturas que coinciden con las estadísticas del modelo produce imágenes que parecen casi idénticas a las originales, a pesar de descartar la mayor parte de la información de la imagen.

18.-Esta coincidencia estadística funciona bien para una amplia variedad de texturas visuales; no se necesita una representación explícita de características/objetos.

19.-Síntesis análogas de redes profundas producen imágenes "engañosas" irreconocibles, mientras que este modelo basado en V1 mantiene algo de la estructura original en la imagen sintetizada.

20.-Con el postdoc Josh McDermott, un modelo análogo de textura auditiva capturó la percepción realista de texturas sonoras usando filtros y estadísticas motivados biológicamente.

21.-Elecciones motivadas fisiológicamente como la compresión coclear y el espaciamiento logarítmico de filtros mejoran notablemente el realismo perceptual de los sonidos sintetizados frente a versiones simplificadas.

22.-Volviendo a la visión, promediar globalmente las estadísticas falla para imágenes heterogéneas, pero promediar en regiones superpuestas suavemente maneja escenas arbitrarias.

23.-Las regiones de agrupamiento superpuestas fueron elegidas para coincidir con los tamaños de campo receptivo de V2 de primates que crecen linealmente con la distancia desde el centro de la mirada.

24.-Sintetizar imágenes con estadísticas de textura localmente coincidentes en estas regiones de agrupamiento tipo V2 produce imágenes indistinguibles del original en la visión periférica.

25.-Grandes distorsiones en las imágenes sintetizadas son invisibles cuando no se ven directamente - están en el "espacio nulo perceptual".

26.-Esto se relaciona con los movimientos oculares discretos de los humanos al leer texto - cada salto mueve los ojos aproximadamente un ancho de región de agrupamiento.

27.-Entender la representación de textura podría permitir optimizar la tipografía para que la información del texto sea más visible y requiera menos, y más grandes, movimientos oculares para leer.

28.-Repetidas computaciones jerárquicas de "filtrado y estadísticas", como se ve en redes profundas, podrían ser suficientes para explicar gran parte de la visión biológica.

29.-Letvin propuso en 1976 que la representación de textura, redefinida, podría ser los elementos primitivos de los que se construye la representación de forma visual.

30.-Los desafíos abiertos incluyen aprender estos modelos de textura de manera no supervisada, formulaciones generativas invertibles y aumentarlas con control de ganancia local para métricas de calidad perceptual.

Bóveda de Conocimiento construida porDavid Vivancos 2024