Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-El concepto de una "neurona abuela" - una sola neurona que corresponde a un concepto específico como la abuela de uno.
2.-Las representaciones locales tienen una relación uno a uno entre un concepto y el disparo de una neurona. Existe evidencia de esto en neurociencia.
3.-Una alternativa son las representaciones distribuidas, donde un concepto está representado por un patrón a través de varias neuronas que se reutilizan para otros conceptos.
4.-Es difícil medir tipos de representación en el cerebro, pero podemos medirlos en redes neuronales artificiales que estudiamos.
5.-Trabajos previos de Szegedy et al. en 2013 sugirieron que las representaciones son distribuidas, pero los autores piensan que esta es una historia incompleta.
6.-Los autores mostraron previamente ejemplos de conceptos representados localmente como arañas, agua, texto en el medio de algunas redes.
7.-Para probar tipos de representación, podrías ensamblar conjuntos de datos etiquetados de conceptos y ver si neuronas individuales siempre disparan para un concepto.
8.-Esto requiere muchos datos etiquetados. Zhao et al. hicieron esto con Mechanical Turk para algunos conceptos que los humanos reconocen, como lámparas.
9.-Pero este enfoque no escala bien y está sesgado hacia conceptos reconocibles por humanos. ¿Qué pasa con los conceptos sin nombre que aún son importantes?
10.-Suposición clave: los conceptos son subespacios de características aprendidos fiablemente en múltiples redes. Permite sondear representaciones comparando redes de diferentes inicializaciones.
11.-Con códigos locales, las características en una red coinciden con las características en otra red sujeto a permutación. Los códigos distribuidos usan vectores base rotados arbitrariamente.
12.-Hipótesis parcialmente distribuida: subespacios de baja dimensión fiablemente aprendidos, pero rotaciones arbitrarias dentro del subespacio entre redes.
13.-El estudio utiliza AlexNet entrenado en ImageNet con arquitectura idéntica pero diferentes inicializaciones. El rendimiento es muy similar entre redes.
14.-Para encontrar coincidencias de unidades uno a uno entre redes, calculan estadísticas de correlación de activaciones de neuronas después de ejecutar ImageNet a través de ambas redes.
15.-Altas correlaciones indican que las neuronas en las dos redes están disparando para los mismos conceptos, sugiriendo que esos conceptos individuales son importantes.
16.-El emparejamiento codicioso (eligiendo la máxima correlación para cada neurona) y el emparejamiento bipartito máximo ponderado (coincidencias únicas entre redes) se utilizan para alinear redes.
17.-Donde ambos métodos de emparejamiento coinciden y tienen alta correlación, esto sugiere que se están utilizando códigos locales, como se espera para ese tipo de representación.
18.-Algunas unidades en una red no tienen una coincidencia de alta correlación en la otra, lo que indica características únicas de cada red, posiblemente permitiendo conjuntos.
19.-Donde los métodos de emparejamiento no coinciden, los códigos parcialmente distribuidos pueden estar en uso - por ejemplo, una red usando más unidades para abarcar un subespacio.
20.-El emparejamiento uno a uno explica parte pero no todo de la red. Luego buscan subconjuntos de unidades en una red que predicen otra.
21.-Las capas de mapeo predicen las activaciones de una red desde la otra. Aumentar la escasez revela pequeños subconjuntos de unidades que pueden predecir bien.
22.-La agrupación jerárquica alinea las dos redes para revelar clústeres co-predictivos - por ejemplo, un subespacio 4D de filtros de borde.
23.-En resumen, encuentran alguna evidencia de códigos locales, indicios de códigos parcialmente distribuidos en algunas capas, y algunos aspectos aún inexplicados.
24.-Esta es una dirección de investigación interesante - entrenar múltiples redes y compararlas para entender las representaciones aprendidas.
25.-El trabajo futuro podría entender mejor los códigos parcialmente distribuidos, examinar cómo varía esto con la arquitectura, y potencialmente fomentar ciertos tipos de representación durante el entrenamiento.
26.-El código está disponible en línea. Se agradece a los co-autores.
Vault de Conocimiento construido porDavid Vivancos 2024