Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-Las reglas de aprendizaje ajustan los pesos sinápticos basándose en variables locales disponibles para cada sinapsis en un sistema neural físico.
2.-Un marco sistemático para estudiar las reglas de aprendizaje local define las variables locales y la forma funcional que las combina.
3.-Las reglas de aprendizaje local polinómicas se analizan en redes lineales y no lineales para entender su comportamiento y capacidades.
4.-El marco permite el descubrimiento de nuevas reglas de aprendizaje y revela conexiones entre las reglas de aprendizaje y las simetrías de grupo.
5.-El aprendizaje profundo local apilando reglas locales en redes feedforward puede aprender representaciones pero no funciones complejas de entrada-salida.
6.-Aprender funciones complejas de entrada-salida requiere aprendizaje profundo local donde la información objetivo se propaga a capas profundas.
7.-Cómo se propaga la información objetivo a capas profundas particiona el espacio de posibles algoritmos de aprendizaje.
8.-La capacidad del canal de retroalimentación de un algoritmo de aprendizaje se define como bits sobre el gradiente por peso dividido por operaciones por peso.
9.-Los cálculos muestran que la retropropagación supera a las alternativas, logrando la máxima capacidad posible del canal de retroalimentación.
10.-La teoría aclara el concepto de aprendizaje hebbiano, lo que puede aprender y la escasez de reglas de aprendizaje descubiertas hasta ahora.
11.-El aprendizaje hebbiano debe ser reemplazado con una definición clara de las variables locales y la forma funcional que las combina.
12.-En redes lineales, la expectativa de los cambios de peso depende solo de los primeros y segundos momentos de los datos.
13.-Cuando la recurrencia de aprendizaje es lineal en los pesos, puede resolverse exactamente en redes lineales.
14.-En redes no lineales, las expectativas de los términos dependientes de la actividad pueden estimarse usando una aproximación de dropout y expansiones de Taylor.
15.-Muchas reglas locales llevan a pesos divergentes en redes lineales, con algunas excepciones como el descenso de gradiente en un objetivo convexo.
16.-El aprendizaje local en una sola unidad de umbral lineal está limitado a aprender funciones linealmente separables.
17.-En redes feedforward profundas, el aprendizaje local profundo no puede producir pesos que sean puntos críticos de la función de error.
18.-Para que las redes profundas aprendan funciones complejas, la información objetivo debe retroalimentarse para influir en los pesos profundos.
19.-En un sistema óptimo, los pesos profundos deben depender tanto de las entradas como de los objetivos/salidas del sistema.
20.-Las implementaciones físicas del aprendizaje profundo óptimo requieren un canal de retroalimentación para enviar información objetivo a los pesos profundos.
21.-La retroalimentación a los pesos profundos puede usar conexiones hacia adelante en reversa o un conjunto separado de conexiones hacia atrás.
22.-Los cálculos de capacidad del canal de retroalimentación muestran que la retropropagación es óptima, logrando la mayor capacidad posible.
23.-Una pregunta abierta es si los sistemas neuronales biológicos han descubierto alguna forma de descenso de gradiente estocástico durante la evolución.
24.-La simple regla de Hebb es la única regla de aprendizaje invariante de isometría para redes de Hopfield.
25.-La regla de aprendizaje por descenso de gradiente es la misma para unidades binarias con funciones de activación logística o tanh.
26.-Muchas nuevas reglas de aprendizaje convergentes pueden derivarse agregando términos de decaimiento a las reglas de Hebb o acotando los pesos.
27.-Los algoritmos de objetivos profundos basados en muestreo pueden entrenar redes no diferenciables razonablemente bien.
28.-Estos algoritmos muestrean activaciones para generar objetivos que optimizan una capa mientras mantienen fijo el resto de la red.
29.-Muestrear múltiples perturbaciones proporciona más información de gradiente a un costo computacional adicional.
30.-La retropropagación es óptima en términos de bits transmitidos y mejora en la función de error por operación.
Vault de Conocimiento construido porDavid Vivancos 2024