Conocimiento Bóveda 6 /44 - ICML 2019
Ingeniería inversa de la neurociencia y la ciencia cognitiva
Aude Oliva
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4f9, font-weight:bold, font-size:14px classDef neuro fill:#f9d4d4, font-weight:bold, font-size:14px classDef ai fill:#d4f9d4, font-weight:bold, font-size:14px classDef optimization fill:#d4d4f9, font-weight:bold, font-size:14px classDef generalization fill:#f9f9d4, font-weight:bold, font-size:14px classDef future fill:#d4f9f9, font-weight:bold, font-size:14px Main["Ingeniería inversa de la neurociencia
y la ciencia cognitiva"] --> A["Neurociencia e
Ideas del Cerebro"] Main --> B["IA y Redes
Neuronales"] Main --> C["Optimización y
Entrenamiento"] Main --> D["Generalización y
Sobreajuste"] Main --> E["Direcciones Futuras"] A --> A1["La neurociencia informa el diseño de sistemas de IA
1"] A --> A2["El cerebro tiene regiones especializadas para el
procesamiento de información 2"] A --> A3["La neuroimagen revela representaciones neuronales
secuenciales 3"] A --> A4["Los sonidos se procesan de manera diferente a las
imágenes 4"] A --> A5["La conectividad del cerebro cambia desde el
nacimiento 5"] A --> A6["El cerebro humano es extremadamente complejo,
creciendo constantemente 9"] B --> B1["Videos de tres segundos coinciden con la capacidad
de memoria de trabajo 6"] B --> B2["El juego de memoria revela videos consistentemente
memorables 7"] B --> B3["GANs generan imágenes memorables
usando ideas 8"] B --> B4["La confianza de CNN no se alinea con
el reconocimiento humano 10"] B --> B5["La métrica AVH se correlaciona con
el reconocimiento humano 11"] B --> B6["AVH se estabiliza temprano en el
entrenamiento de CNN 12"] C --> C1["Paisajes de pérdida de redes neuronales
descompuestos 15"] C --> C2["Las redes anchas tienen una optimización
similar a convexa 16"] C --> C3["Una mala inicialización crea una región de
curvatura negativa 17"] C --> C4["Los puntos de silla ralentizan el descenso
de gradiente 19"] C --> C5["Escapar de las sillas requiere saturación selectiva
de neuronas 20"] C --> C6["Compromiso de inicialización: entrenamiento rápido
vs generalización 28"] D --> D1["AVH refleja la capacidad de generalización del
modelo 13"] D --> D2["CNNs robustas a ataques
adversariales AVH 14"] D --> D3["La sobreparametrización generaliza bien a través de
regularización 21"] D --> D4["El espacio nulo protege del
sobreajuste 23"] D --> D5["Los mínimos agudos-planos no explican
la generalización 24"] D --> D6["Los pesos grandes perjudican la generalización
vía espacio nulo 27"] E --> E1["Las redes profundas aprenden distinciones
jerárquicas 18"] E --> E2["Los valores propios de la covarianza de datos de alta
dimensión se dividen 22"] E --> E3["Las redes rectificadas muestran una curva de
doble descenso 25"] E --> E4["El error del modelo se descompone en
tres partes 26"] E --> E5["Las redes profundas aprenden estructuras de datos
complejas 29"] E --> E6["Futuro: aprender estructuras generativas,
evitar el sobreajuste 30"] class Main main class A,A1,A2,A3,A4,A5,A6 neuro class B,B1,B2,B3,B4,B5,B6 ai class C,C1,C2,C3,C4,C5,C6 optimization class D,D1,D2,D3,D4,D5,D6 generalization class E,E1,E2,E3,E4,E5,E6 future

Resumen:

1.- Aude Oliva discute cómo la neurociencia y la ciencia cognitiva pueden informar el diseño de sistemas de inteligencia artificial.

2.- El cerebro humano tiene regiones especializadas para procesar diferentes tipos de información, como las cortezas visual y auditiva.

3.- La neuroimagen permite mapear la actividad cerebral en espacio y tiempo al percibir imágenes, revelando una secuencia de representaciones neuronales.

4.- Los sonidos se procesan de manera diferente a las imágenes en el cerebro, reclutando más regiones y persistiendo más tiempo después de que el estímulo termina.

5.- La conectividad del cerebro cambia masivamente desde el nacimiento hasta la adultez, con una poda significativa de conexiones neuronales, especialmente en la corteza visual.

6.- Los videos de 3 segundos en el conjunto de datos Moments in Time corresponden a la capacidad de la memoria de trabajo humana para eventos significativos.

7.- Un juego de memoria revela que algunos videos son consistentemente memorables mientras que otros se olvidan rápidamente, útil para diseñar sistemas de IA memorables.

8.- Los GANs pueden entrenarse para generar imágenes optimizadas para ser memorables para los humanos aprovechando ideas de la memoria humana.

9.- El cerebro humano es extremadamente complejo con 100 mil millones de neuronas, 100 billones de conexiones y 1,000 nuevas neuronas añadidas diariamente.

10.- En las CNNs, la confianza del modelo no se alinea bien con la dificultad visual humana de reconocer una imagen.

11.- Sin embargo, la métrica de dureza visual angular (AVH), basada en ángulos entre incrustaciones y pesos, se correlaciona fuertemente con el reconocimiento humano.

12.- AVH se estabiliza temprano en el entrenamiento de CNN mientras la precisión continúa mejorando, sugiriendo que no está directamente optimizado por la función objetivo.

13.- AVH refleja la capacidad de generalización del modelo, con puntuaciones finales de AVH más bajas para modelos que generalizan mejor como ResNet vs AlexNet.

14.- Las CNNs son robustas a ataques adversariales en términos de AVH: se necesitan grandes perturbaciones para cambiar sustancialmente el AVH de una imagen.

15.- El tensor de curvatura de los paisajes de pérdida de redes neuronales puede descomponerse en una parte definida positiva G y una parte indefinida H.

16.- Para redes anchas correctamente inicializadas, la parte G domina el Hessiano, haciendo la optimización más similar a convexa.

17.- Una mala inicialización conduce a una región inicial de curvatura negativa que las redes deben escapar, creando una brecha entre G y H.

18.- Las redes lineales profundas exhiben "diferenciación progresiva": aprendiendo secuencialmente distinciones de categoría más finas alineadas con una jerarquía de verdad fundamental.

19.- Los puntos de silla ralentizan el descenso de gradiente en redes neuronales y surgen de degeneraciones a modelos más simples cuando las neuronas o pesos son redundantes.

20.- Escapar de los puntos de silla requiere saturar algunas pero no todas las activaciones de las neuronas para introducir no linealidades útiles.

21.- Las redes sobreparametrizadas pueden generalizar bien, desafiando la teoría tradicional de aprendizaje estadístico, debido a la regularización implícita de la optimización.

22.- En altas dimensiones, los valores propios de la covarianza de datos se dividen en un bulto y un pico en cero a medida que los datos se vuelven escasos.

23.- Las redes neuronales están protegidas del sobreajuste por un espacio nulo de datos de valores propios cero y una brecha de valores propios que separa los valores propios no cero de cero.

24.- Los mínimos agudos vs planos no explican completamente la generalización; las direcciones de valor propio cero siempre son "planas" pero aún pueden perjudicar el error de prueba.

25.- Las redes lineales rectificadas también muestran la curva de generalización de "doble descenso", sobreajustando solo cuando la sobreparametrización coincide con el tamaño del conjunto de datos.

26.- El error del modelo puede descomponerse en errores de aproximación, estimación y espacio nulo, el último debido a la variabilidad en direcciones sin datos.

27.- Los pesos iniciales grandes inflan el error del espacio nulo, perjudicando la generalización; se necesita una inicialización pequeña para redes sobreparametrizadas.

28.- En consecuencia, surge un compromiso entre el entrenamiento rápido (gran inicialización) y la buena generalización (pequeña inicialización) en el aprendizaje profundo.

29.- Las redes profundas pueden aprender representaciones complejas como jerarquías y gráficos a partir de la estructura de los datos de entrenamiento sin codificación explícita.

30.- El trabajo futuro apunta a fomentar que las redes profundas aprendan verdaderas estructuras generativas y eviten el sobreajuste al ruido en entornos complejos del mundo real.

Bóveda del Conocimiento construida por David Vivancos 2024