Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- Aude Oliva discute cómo la neurociencia y la ciencia cognitiva pueden informar el diseño de sistemas de inteligencia artificial.
2.- El cerebro humano tiene regiones especializadas para procesar diferentes tipos de información, como las cortezas visual y auditiva.
3.- La neuroimagen permite mapear la actividad cerebral en espacio y tiempo al percibir imágenes, revelando una secuencia de representaciones neuronales.
4.- Los sonidos se procesan de manera diferente a las imágenes en el cerebro, reclutando más regiones y persistiendo más tiempo después de que el estímulo termina.
5.- La conectividad del cerebro cambia masivamente desde el nacimiento hasta la adultez, con una poda significativa de conexiones neuronales, especialmente en la corteza visual.
6.- Los videos de 3 segundos en el conjunto de datos Moments in Time corresponden a la capacidad de la memoria de trabajo humana para eventos significativos.
7.- Un juego de memoria revela que algunos videos son consistentemente memorables mientras que otros se olvidan rápidamente, útil para diseñar sistemas de IA memorables.
8.- Los GANs pueden entrenarse para generar imágenes optimizadas para ser memorables para los humanos aprovechando ideas de la memoria humana.
9.- El cerebro humano es extremadamente complejo con 100 mil millones de neuronas, 100 billones de conexiones y 1,000 nuevas neuronas añadidas diariamente.
10.- En las CNNs, la confianza del modelo no se alinea bien con la dificultad visual humana de reconocer una imagen.
11.- Sin embargo, la métrica de dureza visual angular (AVH), basada en ángulos entre incrustaciones y pesos, se correlaciona fuertemente con el reconocimiento humano.
12.- AVH se estabiliza temprano en el entrenamiento de CNN mientras la precisión continúa mejorando, sugiriendo que no está directamente optimizado por la función objetivo.
13.- AVH refleja la capacidad de generalización del modelo, con puntuaciones finales de AVH más bajas para modelos que generalizan mejor como ResNet vs AlexNet.
14.- Las CNNs son robustas a ataques adversariales en términos de AVH: se necesitan grandes perturbaciones para cambiar sustancialmente el AVH de una imagen.
15.- El tensor de curvatura de los paisajes de pérdida de redes neuronales puede descomponerse en una parte definida positiva G y una parte indefinida H.
16.- Para redes anchas correctamente inicializadas, la parte G domina el Hessiano, haciendo la optimización más similar a convexa.
17.- Una mala inicialización conduce a una región inicial de curvatura negativa que las redes deben escapar, creando una brecha entre G y H.
18.- Las redes lineales profundas exhiben "diferenciación progresiva": aprendiendo secuencialmente distinciones de categoría más finas alineadas con una jerarquía de verdad fundamental.
19.- Los puntos de silla ralentizan el descenso de gradiente en redes neuronales y surgen de degeneraciones a modelos más simples cuando las neuronas o pesos son redundantes.
20.- Escapar de los puntos de silla requiere saturar algunas pero no todas las activaciones de las neuronas para introducir no linealidades útiles.
21.- Las redes sobreparametrizadas pueden generalizar bien, desafiando la teoría tradicional de aprendizaje estadístico, debido a la regularización implícita de la optimización.
22.- En altas dimensiones, los valores propios de la covarianza de datos se dividen en un bulto y un pico en cero a medida que los datos se vuelven escasos.
23.- Las redes neuronales están protegidas del sobreajuste por un espacio nulo de datos de valores propios cero y una brecha de valores propios que separa los valores propios no cero de cero.
24.- Los mínimos agudos vs planos no explican completamente la generalización; las direcciones de valor propio cero siempre son "planas" pero aún pueden perjudicar el error de prueba.
25.- Las redes lineales rectificadas también muestran la curva de generalización de "doble descenso", sobreajustando solo cuando la sobreparametrización coincide con el tamaño del conjunto de datos.
26.- El error del modelo puede descomponerse en errores de aproximación, estimación y espacio nulo, el último debido a la variabilidad en direcciones sin datos.
27.- Los pesos iniciales grandes inflan el error del espacio nulo, perjudicando la generalización; se necesita una inicialización pequeña para redes sobreparametrizadas.
28.- En consecuencia, surge un compromiso entre el entrenamiento rápido (gran inicialización) y la buena generalización (pequeña inicialización) en el aprendizaje profundo.
29.- Las redes profundas pueden aprender representaciones complejas como jerarquías y gráficos a partir de la estructura de los datos de entrenamiento sin codificación explícita.
30.- El trabajo futuro apunta a fomentar que las redes profundas aprendan verdaderas estructuras generativas y eviten el sobreajuste al ruido en entornos complejos del mundo real.
Bóveda del Conocimiento construida por David Vivancos 2024