Conocimiento Vault 2/29 - ICLR 2014-2023
Yixuan Li, Jason Yosinski, Jeff Clune, Hod Lipson, John Hopcroft ICLR 2016 - Aprendizaje Convergente: ¿Aprenden diferentes redes neuronales las mismas representaciones?
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

Yixuan Li et al
ICLR 2016
Neurona abuela: una neurona,
un concepto. 1
Representaciones locales: uno a uno
concepto-neurona. Existe evidencia. 2
Representaciones distribuidas: concepto
a través de neuronas reutilizadas. 3
Medición de tipos de representación
en redes neuronales artificiales. 4
Trabajos previos sugirieron
representaciones distribuidas. 5
Los autores mostraron ejemplos de
representaciones locales. 6
Prueba de tipos de representación:
conjuntos de datos de conceptos etiquetados. 7
Requiere muchos datos etiquetados.
Hecho para conceptos reconocibles por humanos. 8
No escala bien, sesgado
hacia conceptos reconocibles por humanos. 9
Conceptos: subespacios de características aprendidos
fiablemente a través de redes. 10
Códigos locales: características uno a uno
a través de redes. 11
Hipótesis parcialmente distribuida:
subespacios de baja dimensión fiablemente aprendidos. 12
Estudio: AlexNet en ImageNet,
diferentes inicializaciones. 13
Calcular correlaciones de activación
de neuronas entre redes. 14
Altas correlaciones indican
neuronas disparando para los mismos conceptos. 15
Emparejamiento codicioso y bipartito
utilizado para alinear redes. 16
Acuerdo y alta correlación
sugieren códigos locales. 17
Unidades sin coincidencia indican
características únicas de la red. 18
Desacuerdo puede indicar
códigos parcialmente distribuidos. 19
Capas de mapeo predicen activaciones,
revelan subconjuntos predictivos. 20
Alineación jerárquica de redes,
revela clústeres co-predictivos. 21
Resumen: evidencia de códigos locales,
códigos parcialmente distribuidos, desconocidos. 22
Comparar múltiples redes entrenadas
para entender representaciones. 23
Futuro: entender parcialmente distribuidos,
variar arquitectura, fomentar tipos. 24

Resumen:

1.-El concepto de una "neurona abuela" - una sola neurona que corresponde a un concepto específico como la abuela de uno.

2.-Las representaciones locales tienen una relación uno a uno entre un concepto y el disparo de una neurona. Existe evidencia de esto en neurociencia.

3.-Una alternativa son las representaciones distribuidas, donde un concepto está representado por un patrón a través de varias neuronas que se reutilizan para otros conceptos.

4.-Es difícil medir tipos de representación en el cerebro, pero podemos medirlos en redes neuronales artificiales que estudiamos.

5.-Trabajos previos de Szegedy et al. en 2013 sugirieron que las representaciones son distribuidas, pero los autores piensan que esta es una historia incompleta.

6.-Los autores mostraron previamente ejemplos de conceptos representados localmente como arañas, agua, texto en el medio de algunas redes.

7.-Para probar tipos de representación, podrías ensamblar conjuntos de datos etiquetados de conceptos y ver si neuronas individuales siempre disparan para un concepto.

8.-Esto requiere muchos datos etiquetados. Zhao et al. hicieron esto con Mechanical Turk para algunos conceptos que los humanos reconocen, como lámparas.

9.-Pero este enfoque no escala bien y está sesgado hacia conceptos reconocibles por humanos. ¿Qué pasa con los conceptos sin nombre que aún son importantes?

10.-Suposición clave: los conceptos son subespacios de características aprendidos fiablemente en múltiples redes. Permite sondear representaciones comparando redes de diferentes inicializaciones.

11.-Con códigos locales, las características en una red coinciden con las características en otra red sujeto a permutación. Los códigos distribuidos usan vectores base rotados arbitrariamente.

12.-Hipótesis parcialmente distribuida: subespacios de baja dimensión fiablemente aprendidos, pero rotaciones arbitrarias dentro del subespacio entre redes.

13.-El estudio utiliza AlexNet entrenado en ImageNet con arquitectura idéntica pero diferentes inicializaciones. El rendimiento es muy similar entre redes.

14.-Para encontrar coincidencias de unidades uno a uno entre redes, calculan estadísticas de correlación de activaciones de neuronas después de ejecutar ImageNet a través de ambas redes.

15.-Altas correlaciones indican que las neuronas en las dos redes están disparando para los mismos conceptos, sugiriendo que esos conceptos individuales son importantes.

16.-El emparejamiento codicioso (eligiendo la máxima correlación para cada neurona) y el emparejamiento bipartito máximo ponderado (coincidencias únicas entre redes) se utilizan para alinear redes.

17.-Donde ambos métodos de emparejamiento coinciden y tienen alta correlación, esto sugiere que se están utilizando códigos locales, como se espera para ese tipo de representación.

18.-Algunas unidades en una red no tienen una coincidencia de alta correlación en la otra, lo que indica características únicas de cada red, posiblemente permitiendo conjuntos.

19.-Donde los métodos de emparejamiento no coinciden, los códigos parcialmente distribuidos pueden estar en uso - por ejemplo, una red usando más unidades para abarcar un subespacio.

20.-El emparejamiento uno a uno explica parte pero no todo de la red. Luego buscan subconjuntos de unidades en una red que predicen otra.

21.-Las capas de mapeo predicen las activaciones de una red desde la otra. Aumentar la escasez revela pequeños subconjuntos de unidades que pueden predecir bien.

22.-La agrupación jerárquica alinea las dos redes para revelar clústeres co-predictivos - por ejemplo, un subespacio 4D de filtros de borde.

23.-En resumen, encuentran alguna evidencia de códigos locales, indicios de códigos parcialmente distribuidos en algunas capas, y algunos aspectos aún inexplicados.

24.-Esta es una dirección de investigación interesante - entrenar múltiples redes y compararlas para entender las representaciones aprendidas.

25.-El trabajo futuro podría entender mejor los códigos parcialmente distribuidos, examinar cómo varía esto con la arquitectura, y potencialmente fomentar ciertos tipos de representación durante el entrenamiento.

26.-El código está disponible en línea. Se agradece a los co-autores.

Vault de Conocimiento construido porDavid Vivancos 2024