Conocimiento Vault 2/16 - ICLR 2014-2023
Pierre Baldi ICLR 2015 - Conferencia Principal - El Flujo y Reflujo del Aprendizaje Profundo: una Teoría del Aprendizaje Local
<Imagen del Resumen>

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef rules fill:#f9d4d4, font-weight:bold, font-size:14px; classDef framework fill:#d4f9d4, font-weight:bold, font-size:14px; classDef learning fill:#d4d4f9, font-weight:bold, font-size:14px; classDef capacity fill:#f9f9d4, font-weight:bold, font-size:14px; classDef theory fill:#f9d4f9, font-weight:bold, font-size:14px; A["Pierre Baldi
ICLR 2015"] --> B["Reglas locales ajustan pesos
usando variables sinápticas. 1"] A --> C["Marco define variables,
forma funcional. 2"] C --> D["Reglas polinómicas analizadas en
redes lineales, no lineales. 3"] C --> E["Marco descubre reglas,
revela simetrías de grupo. 4"] A --> F["Aprendizaje profundo local apila
reglas, aprende representaciones. 5"] F --> G["Funciones complejas necesitan
información objetivo propagada. 6"] G --> H["Propagación de objetivos particiona
algoritmos de aprendizaje. 7"] A --> I["Capacidad del canal de retroalimentación:
bits/peso sobre operaciones/peso. 8"] I --> J["Retropropagación supera,
logra capacidad máxima. 9"] A --> K["Teoría aclara aprendizaje hebbiano,
escasez de reglas. 10"] K --> L["Reemplazar Hebbiano con variables
locales, forma funcional. 11"] A --> M["Redes lineales: cambios de peso
dependen de momentos de datos. 12"] M --> N["Recurrencia lineal resuelta
exactamente en redes lineales. 13"] M --> O["Redes no lineales estimadas
por dropout, expansiones de Taylor. 14"] M --> P["Reglas locales a menudo divergen
en redes lineales. 15"] A --> Q["Umbral lineal único limitado
a funciones linealmente separables. 16"] A --> R["Aprendizaje profundo local no puede
encontrar mínimos de función de error. 17"] R --> S["Aprendizaje profundo complejo necesita
retroalimentación de objetivos a pesos. 18"] S --> T["Pesos profundos óptimos dependen
de entradas y objetivos. 19"] S --> U["Aprendizaje profundo óptimo requiere
canal de retroalimentación físico. 20"] U --> V["Retroalimentación usa conexiones
hacia adelante o hacia atrás separadas. 21"] U --> W["Retropropagación óptima,
capacidad máxima de retroalimentación. 22"] A --> X["¿Ha descubierto la evolución
descenso de gradiente estocástico? 23"] A --> Y["Hebb solo es regla invariante
de isometría para redes de Hopfield. 24"] A --> Z["Descenso de gradiente igual para
unidades binarias logísticas, tanh. 25"] A --> AA["Nuevas reglas convergentes: términos
de decaimiento, pesos acotados. 26"] A --> AB["Muestreo de objetivos profundos entrena
redes no diferenciables. 27"] AB --> AC["Muestrear activaciones, optimizar capa,
fijar resto de la red. 28"] AB --> AD["Múltiples perturbaciones proporcionan
más gradientes, mayor costo. 29"] A --> AE["Retropropagación óptima: bits
transmitidos, mejora de error. 30"] class A,B,K,L,Y,Z,AA rules; class C,D,E framework; class F,G,H,Q,R,S,T,U,V,W,X,AB,AC,AD,AE learning; class I,J capacity; class M,N,O,P theory;

Resumen:

1.-Las reglas de aprendizaje ajustan los pesos sinápticos basándose en variables locales disponibles para cada sinapsis en un sistema neural físico.

2.-Un marco sistemático para estudiar las reglas de aprendizaje local define las variables locales y la forma funcional que las combina.

3.-Las reglas de aprendizaje local polinómicas se analizan en redes lineales y no lineales para entender su comportamiento y capacidades.

4.-El marco permite el descubrimiento de nuevas reglas de aprendizaje y revela conexiones entre las reglas de aprendizaje y las simetrías de grupo.

5.-El aprendizaje profundo local apilando reglas locales en redes feedforward puede aprender representaciones pero no funciones complejas de entrada-salida.

6.-Aprender funciones complejas de entrada-salida requiere aprendizaje profundo local donde la información objetivo se propaga a capas profundas.

7.-Cómo se propaga la información objetivo a capas profundas particiona el espacio de posibles algoritmos de aprendizaje.

8.-La capacidad del canal de retroalimentación de un algoritmo de aprendizaje se define como bits sobre el gradiente por peso dividido por operaciones por peso.

9.-Los cálculos muestran que la retropropagación supera a las alternativas, logrando la máxima capacidad posible del canal de retroalimentación.

10.-La teoría aclara el concepto de aprendizaje hebbiano, lo que puede aprender y la escasez de reglas de aprendizaje descubiertas hasta ahora.

11.-El aprendizaje hebbiano debe ser reemplazado con una definición clara de las variables locales y la forma funcional que las combina.

12.-En redes lineales, la expectativa de los cambios de peso depende solo de los primeros y segundos momentos de los datos.

13.-Cuando la recurrencia de aprendizaje es lineal en los pesos, puede resolverse exactamente en redes lineales.

14.-En redes no lineales, las expectativas de los términos dependientes de la actividad pueden estimarse usando una aproximación de dropout y expansiones de Taylor.

15.-Muchas reglas locales llevan a pesos divergentes en redes lineales, con algunas excepciones como el descenso de gradiente en un objetivo convexo.

16.-El aprendizaje local en una sola unidad de umbral lineal está limitado a aprender funciones linealmente separables.

17.-En redes feedforward profundas, el aprendizaje local profundo no puede producir pesos que sean puntos críticos de la función de error.

18.-Para que las redes profundas aprendan funciones complejas, la información objetivo debe retroalimentarse para influir en los pesos profundos.

19.-En un sistema óptimo, los pesos profundos deben depender tanto de las entradas como de los objetivos/salidas del sistema.

20.-Las implementaciones físicas del aprendizaje profundo óptimo requieren un canal de retroalimentación para enviar información objetivo a los pesos profundos.

21.-La retroalimentación a los pesos profundos puede usar conexiones hacia adelante en reversa o un conjunto separado de conexiones hacia atrás.

22.-Los cálculos de capacidad del canal de retroalimentación muestran que la retropropagación es óptima, logrando la mayor capacidad posible.

23.-Una pregunta abierta es si los sistemas neuronales biológicos han descubierto alguna forma de descenso de gradiente estocástico durante la evolución.

24.-La simple regla de Hebb es la única regla de aprendizaje invariante de isometría para redes de Hopfield.

25.-La regla de aprendizaje por descenso de gradiente es la misma para unidades binarias con funciones de activación logística o tanh.

26.-Muchas nuevas reglas de aprendizaje convergentes pueden derivarse agregando términos de decaimiento a las reglas de Hebb o acotando los pesos.

27.-Los algoritmos de objetivos profundos basados en muestreo pueden entrenar redes no diferenciables razonablemente bien.

28.-Estos algoritmos muestrean activaciones para generar objetivos que optimizan una capa mientras mantienen fijo el resto de la red.

29.-Muestrear múltiples perturbaciones proporciona más información de gradiente a un costo computacional adicional.

30.-La retropropagación es óptima en términos de bits transmitidos y mejora en la función de error por operación.

Vault de Conocimiento construido porDavid Vivancos 2024