Conocimiento Bóveda 5 /2 - CVPR 2015
Ingeniería Inversa del Sistema Visual Humano
Jack Gallant
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef vision fill:#f9d4d4, font-weight:bold, font-size:14px classDef fmri fill:#d4f9d4, font-weight:bold, font-size:14px classDef cnn fill:#d4d4f9, font-weight:bold, font-size:14px classDef challenges fill:#f9f9d4, font-weight:bold, font-size:14px classDef community fill:#f9d4f9, font-weight:bold, font-size:14px A["Ingeniería Inversa del
Sistema Visual Humano"] --> B["Visión humana: jerárquica,
30-40 áreas distintas. 1"] B --> C["Áreas visuales representan
información como neuronas. 2"] B --> D["La atención influye en la visión
feedforward y feedback. 3"] A --> E["fMRI mide respuestas lentas,
mapea actividad. 4"] E --> F["fMRI delineó visión temprana
e intermedia. 5"] E --> G["fMRI muestra patrones complejos,
regresión de alta dimensión. 6"] G --> H["Modelos de codificación predicen
respuestas usando regresión. 7"] G --> I["Decodificación reconstruye estímulos
de la actividad cerebral. 8"] B --> J["Representaciones semánticas: ricos
gradientes en áreas. 9"] B --> K["Sintonización semántica cambia
según la tarea. 10"] A --> L["CNNs avanzaron visión,
imitan aspectos biológicos. 11"] L --> M["Capas de CNN predicen actividad
cerebral, superan. 12"] M --> N["Capas de CNN predicen áreas
visuales jerárquicamente. 13"] L --> O["CNNs revelan selectividad
en áreas visuales. 14"] L --> P["Existen discrepancias entre
CNNs y visión. 15"] P --> Q["Visión humana tiene atención,
CNNs carecen. 16"] L --> R["Compartición de pesos en CNNs
similar a normalización. 17"] A --> S["Razonamiento y cognición
rezagados tras visión. 18"] S --> T["Enfoques de big data
estudian cognición compleja. 19"] B --> U["Color difícil desde V1
debido a luminancia. 20"] B --> V["Visión natural basada en video,
importante estudiar. 21"] L --> W["CNNs predicen respuestas a películas
a pesar del entrenamiento. 22"] E --> X["Mejores datos cerebrales 3D
necesarios para CNNs. 23"] A --> Y["Visión por computadora: abstracta vs
comunidades inspiradas biológicamente. 24"] Y --> Z["Talleres reúnen
visión y biología. 25"] class B,C,D,J,K,U,V vision class E,F,G,H,I,X fmri class L,M,N,O,P,Q,R,W cnn class S,T challenges class Y,Z community

Resumen:

1.- La visión humana está organizada jerárquicamente, con 30-40 áreas visuales distintas dispuestas en una red interconectada.

2.- Cada área visual representa cierta información sobre el mundo visual, con neuronas actuando como funciones base en un espacio de alta dimensión.

3.- Las influencias atencionales ocurren en todo el sistema visual a través de conexiones feedforward y feedback entre capas.

4.- La resonancia magnética funcional (fMRI) mide respuestas hemodinámicas lentas en vóxeles 3D a lo largo del cerebro, permitiendo mapear la actividad funcional.

5.- El sistema visual humano temprano e intermedio fue delineado usando fMRI durante 20 años, identificando varias áreas visuales funcionales.

6.- Los datos de fMRI muestran patrones ricos y complejos de actividad que corresponden a diferentes estímulos, planteando un problema de regresión de alta dimensión.

7.- Los modelos de codificación usando regresión de cresta pueden predecir respuestas de fMRI a estímulos novedosos basados en espacios de características previamente aprendidos.

8.- Los modelos de decodificación, derivados de los modelos de codificación, pueden reconstruir estímulos de patrones de actividad cerebral, por ejemplo, decodificando películas de la actividad de la corteza visual.

9.- Las representaciones semánticas en el cerebro están organizadas en ricos gradientes distribuidos a través de múltiples áreas, no solo en regiones puntuales individuales.

10.- La sintonización semántica en todo el cerebro cambia dinámicamente según las demandas de la tarea, asignando recursos representacionales a la información relevante para la tarea.

11.- Las redes neuronales convolucionales profundas (CNNs) han avanzado la visión por computadora, imitando aspectos de la visión biológica.

12.- Las capas de CNN pueden usarse como regresores para predecir la actividad cerebral en respuesta a estímulos, superando a los modelos convencionales basados en características.

13.- Las áreas visuales tempranas son mejor predichas por las capas tempranas de CNN, mientras que las áreas de nivel superior son predichas por capas posteriores.

14.- Sondear las CNNs puede revelar características representadas en cada área visual, por ejemplo, selectividad de curvatura en V4, selectividad de rostros en el área fusiforme de rostros.

15.- Existen algunas discrepancias entre las CNNs y la visión humana, como artefactos de categorización idiosincrásicos y la emergencia poco clara de la organización figura-fondo.

16.- El control atencional en la visión humana influye en el procesamiento a lo largo de la jerarquía, mientras que las CNNs carecen de mecanismos atencionales a corto plazo.

17.- La compartición de pesos a través de posiciones retinotópicas, similar a la normalización divisiva en la visión biológica, es una característica clave de las CNNs.

18.- Comprender el razonamiento y la cognición compleja en mamíferos está rezagado respecto a la investigación de la visión debido a la dificultad de variar las variables de estado de arriba hacia abajo.

19.- Los enfoques de big data están comenzando a aplicarse para estudiar tareas cognitivas complicadas en humanos y animales.

20.- La información de color es difícil de recuperar de los vóxeles V1 en experimentos de fMRI con imágenes naturales debido al dominio de la luminancia.

21.- Estudiar la visión usando estímulos de video es importante, ya que la visión natural es esencialmente basada en video.

22.- Las CNNs entrenadas en imágenes estáticas aún pueden predecir respuestas cerebrales a estímulos de películas, posiblemente debido a las respuestas hemodinámicas lentas de fMRI.

23.- Se necesitan mejores datos cerebrales humanos que midan la actividad neuronal en 3D para aprovechar completamente las CNNs entrenadas en películas.

24.- Dos comunidades en visión por computadora: una que favorece enfoques abstractos y teóricos, y otra que utiliza la biología como inspiración (por ejemplo, Jitendra Malik).

25.- Se han organizado talleres para reunir a la comunidad de visión por computadora interesada en la biología y la comunidad de visión biológica.

Bóveda del Conocimiento construida porDavid Vivancos 2024