Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:
Resumen:
1.- La visión humana está organizada jerárquicamente, con 30-40 áreas visuales distintas dispuestas en una red interconectada.
2.- Cada área visual representa cierta información sobre el mundo visual, con neuronas actuando como funciones base en un espacio de alta dimensión.
3.- Las influencias atencionales ocurren en todo el sistema visual a través de conexiones feedforward y feedback entre capas.
4.- La resonancia magnética funcional (fMRI) mide respuestas hemodinámicas lentas en vóxeles 3D a lo largo del cerebro, permitiendo mapear la actividad funcional.
5.- El sistema visual humano temprano e intermedio fue delineado usando fMRI durante 20 años, identificando varias áreas visuales funcionales.
6.- Los datos de fMRI muestran patrones ricos y complejos de actividad que corresponden a diferentes estímulos, planteando un problema de regresión de alta dimensión.
7.- Los modelos de codificación usando regresión de cresta pueden predecir respuestas de fMRI a estímulos novedosos basados en espacios de características previamente aprendidos.
8.- Los modelos de decodificación, derivados de los modelos de codificación, pueden reconstruir estímulos de patrones de actividad cerebral, por ejemplo, decodificando películas de la actividad de la corteza visual.
9.- Las representaciones semánticas en el cerebro están organizadas en ricos gradientes distribuidos a través de múltiples áreas, no solo en regiones puntuales individuales.
10.- La sintonización semántica en todo el cerebro cambia dinámicamente según las demandas de la tarea, asignando recursos representacionales a la información relevante para la tarea.
11.- Las redes neuronales convolucionales profundas (CNNs) han avanzado la visión por computadora, imitando aspectos de la visión biológica.
12.- Las capas de CNN pueden usarse como regresores para predecir la actividad cerebral en respuesta a estímulos, superando a los modelos convencionales basados en características.
13.- Las áreas visuales tempranas son mejor predichas por las capas tempranas de CNN, mientras que las áreas de nivel superior son predichas por capas posteriores.
14.- Sondear las CNNs puede revelar características representadas en cada área visual, por ejemplo, selectividad de curvatura en V4, selectividad de rostros en el área fusiforme de rostros.
15.- Existen algunas discrepancias entre las CNNs y la visión humana, como artefactos de categorización idiosincrásicos y la emergencia poco clara de la organización figura-fondo.
16.- El control atencional en la visión humana influye en el procesamiento a lo largo de la jerarquía, mientras que las CNNs carecen de mecanismos atencionales a corto plazo.
17.- La compartición de pesos a través de posiciones retinotópicas, similar a la normalización divisiva en la visión biológica, es una característica clave de las CNNs.
18.- Comprender el razonamiento y la cognición compleja en mamíferos está rezagado respecto a la investigación de la visión debido a la dificultad de variar las variables de estado de arriba hacia abajo.
19.- Los enfoques de big data están comenzando a aplicarse para estudiar tareas cognitivas complicadas en humanos y animales.
20.- La información de color es difícil de recuperar de los vóxeles V1 en experimentos de fMRI con imágenes naturales debido al dominio de la luminancia.
21.- Estudiar la visión usando estímulos de video es importante, ya que la visión natural es esencialmente basada en video.
22.- Las CNNs entrenadas en imágenes estáticas aún pueden predecir respuestas cerebrales a estímulos de películas, posiblemente debido a las respuestas hemodinámicas lentas de fMRI.
23.- Se necesitan mejores datos cerebrales humanos que midan la actividad neuronal en 3D para aprovechar completamente las CNNs entrenadas en películas.
24.- Dos comunidades en visión por computadora: una que favorece enfoques abstractos y teóricos, y otra que utiliza la biología como inspiración (por ejemplo, Jitendra Malik).
25.- Se han organizado talleres para reunir a la comunidad de visión por computadora interesada en la biología y la comunidad de visión biológica.
Bóveda del Conocimiento construida porDavid Vivancos 2024