Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-El orador, Eero Somancelli, es investigador en HHMI y profesor de neurociencia, matemáticas y psicología en NYU.
2.-El trabajo de Somancelli se centra en entender las representaciones visuales en el cerebro y cómo permiten/limitan la percepción e informan los sistemas de visión artificial.
3.-Al observar una imagen, la luz llega a la retina y es procesada por células en respuestas enviadas al cerebro.
4.-A lo largo de este proceso, la información visual se transforma, resume y combina con otra información interna como recuerdos e intenciones para percibir la imagen.
5.-La información visual se envía a la corteza visual primaria en la parte trasera del cerebro, una de las áreas cerebrales más grandes.
6.-En los años 50-60, Hubel & Wiesel descubrieron que las neuronas en V1 son selectivas para la orientación, una característica definitoria al pensar en V1.
7.-V1 mide los parches de orientación local en el entorno e informa la orientación dominante de cada parche al resto del cerebro.
8.-Gran parte de la entrada de V1 va al área aún más grande V2, pero sus propiedades funcionales han sido poco claras y misteriosas durante décadas.
9.-Se asumió que V2 combina la información de orientación local de V1 para encontrar límites/contornos y aislar objetos, pero pocas células de V2 responden a eso.
10.-Somancelli piensa que el propósito de V2 se relaciona con representar la textura visual - V2 dedica enormes recursos a la visión y no puede simplemente imitar a V1.
11.-El mundo visual está dominado por la textura - pequeños parches de estructuras aproximadamente homogéneas como hierba, roca, pelaje en lugar de límites claros.
12.-En los años 60, Bela Julesz propuso modelar la textura perceptual/computacionalmente usando un conjunto limitado de estadísticas de imagen que definen la apariencia de la textura.
13.-Julesz dijo que las texturas con estadísticas coincidentes deberían parecer idénticas a los humanos, buscando identificar el conjunto mínimo de estadísticas que el cerebro representa.
14.-Julesz probó estadísticas de textura binarias hasta el tercer orden manualmente en los años 60, encontró un contraejemplo y abandonó la teoría.
15.-A finales de los años 90, Somancelli revisó las ideas de Julesz con el postdoc Javier Portilla usando un modelo multiescala basado en la fisiología del V1 de primates.
16.-Su modelo mide correlaciones a través de escala, posición y orientación de las respuestas de filtros tipo V1 para capturar ~700 estadísticas de textura.
17.-Sintetizar texturas que coinciden con las estadísticas del modelo produce imágenes que parecen casi idénticas a las originales, a pesar de descartar la mayor parte de la información de la imagen.
18.-Esta coincidencia estadística funciona bien para una amplia variedad de texturas visuales; no se necesita una representación explícita de características/objetos.
19.-Síntesis análogas de redes profundas producen imágenes "engañosas" irreconocibles, mientras que este modelo basado en V1 mantiene algo de la estructura original en la imagen sintetizada.
20.-Con el postdoc Josh McDermott, un modelo análogo de textura auditiva capturó la percepción realista de texturas sonoras usando filtros y estadísticas motivados biológicamente.
21.-Elecciones motivadas fisiológicamente como la compresión coclear y el espaciamiento logarítmico de filtros mejoran notablemente el realismo perceptual de los sonidos sintetizados frente a versiones simplificadas.
22.-Volviendo a la visión, promediar globalmente las estadísticas falla para imágenes heterogéneas, pero promediar en regiones superpuestas suavemente maneja escenas arbitrarias.
23.-Las regiones de agrupamiento superpuestas fueron elegidas para coincidir con los tamaños de campo receptivo de V2 de primates que crecen linealmente con la distancia desde el centro de la mirada.
24.-Sintetizar imágenes con estadísticas de textura localmente coincidentes en estas regiones de agrupamiento tipo V2 produce imágenes indistinguibles del original en la visión periférica.
25.-Grandes distorsiones en las imágenes sintetizadas son invisibles cuando no se ven directamente - están en el "espacio nulo perceptual".
26.-Esto se relaciona con los movimientos oculares discretos de los humanos al leer texto - cada salto mueve los ojos aproximadamente un ancho de región de agrupamiento.
27.-Entender la representación de textura podría permitir optimizar la tipografía para que la información del texto sea más visible y requiera menos, y más grandes, movimientos oculares para leer.
28.-Repetidas computaciones jerárquicas de "filtrado y estadísticas", como se ve en redes profundas, podrían ser suficientes para explicar gran parte de la visión biológica.
29.-Letvin propuso en 1976 que la representación de textura, redefinida, podría ser los elementos primitivos de los que se construye la representación de forma visual.
30.-Los desafíos abiertos incluyen aprender estos modelos de textura de manera no supervisada, formulaciones generativas invertibles y aumentarlas con control de ganancia local para métricas de calidad perceptual.
Bóveda de Conocimiento construida porDavid Vivancos 2024