Conocimiento Bóveda 2/36 - ICLR 2014-2023
Alex Graves ICLR 2017 - Charla Invitada - Nuevas Direcciones Para Redes Neuronales Recurrentes
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef rnn fill:#f9d4d4, font-weight:bold, font-size:14px; classDef external fill:#d4f9d4, font-weight:bold, font-size:14px; classDef dnc fill:#d4d4f9, font-weight:bold, font-size:14px; classDef bptt fill:#f9f9d4, font-weight:bold, font-size:14px; classDef act fill:#f9d4f9, font-weight:bold, font-size:14px; classDef programming fill:#d4f9f9, font-weight:bold, font-size:14px; classDef curriculum fill:#f9d4d4, font-weight:bold, font-size:14px; classDef memory fill:#d4d4f9, font-weight:bold, font-size:14px; A[Alex Graves
ICLR 2017] --> B[RNNs: LSTM, GRU efectivos
para secuencias 1] B --> C[RNNs: de extremo a extremo, menos
ingeniería de características 2] B --> D[Memoria RNN: frágil,
costosa 3] A --> E[Memoria externa: flexible,
separada del costo 4] E --> F[Primeros ejemplos: NTM,
MemNets, NMT 5] E --> G[DNCs: mecanismos de acceso
a memoria sofisticados 6] G --> H[Los DNCs sobresalen en
estructuras no vistas 7] G --> I[DNCs: múltiples mecanismos de acceso
combinados 8] G --> J[DNCs: 18/20 bAbI,
inducción poco clara 9] E --> K[Desafío de escalado: costo,
acceso disperso ayuda 10] A --> L[BPTT: costo de memoria,
actualizaciones infrecuentes 11] L --> M[BPTT truncado: pierde
interacciones de largo alcance 12] L --> N[Gradientes sintéticos: entrenamiento
desacoplado 13] N --> O[Gradientes sintéticos: secuencias más largas,
eficiencia 14] N --> P[Gradientes sintéticos: RNNs jerárquicos
asincrónicos 15] A --> Q[RNNs: cálculo vinculado
a longitud de secuencia 16] Q --> R[ACT: tiempo de 'reflexión'
aprendido por entrada 17] R --> S[ACT: separa cálculo
del tiempo de datos 18] R --> T[ACT: revela patrones de datos
informativos 19] R --> U[ACT: más cálculo
para entradas difíciles 20] A --> V[Diferenciable vs. manual
programación poco clara 21] V --> W[Programas neuronales más simples
que a nivel humano 22] V --> X[Puente entre programación neuronal y
simbólica desafiante 23] V --> Y[Computadoras auto-programables eventual,
camino incierto 24] A --> Z[Aprendizaje automático del currículo
desafío importante 25] Z --> AA[Aprendizaje por refuerzo necesita
guía de recolección de datos 26] A --> AB[Jerarquías de memoria de computadora
podrían beneficiar a la neuronal 27] AB --> AC[LSTM como registros,
externa como RAM 28] AB --> AD[Rápida, frecuente reescritura de
memoria neuronal penalizada 29] AB --> AE[Jerarquía de memoria de computadora
evolucionada informativa 30] class A,B,C,D rnn; class E,F,G,H,I,J,K external; class L,M,N,O,P bptt; class Q,R,S,T,U act; class V,W,X,Y programming; class Z,AA curriculum; class AB,AC,AD,AE memory;

Resumen:

1.-Las RNNs con unidades multiplicativas como LSTM y GRU funcionan bien y se utilizan ampliamente para tareas que involucran datos secuenciales.

2.-Las RNNs se entrenan cada vez más de extremo a extremo, con entradas crudas y salidas crudas, reduciendo la necesidad de ingeniería de características.

3.-La memoria RNN puede ser frágil, con nueva información sobrescribiendo lo almacenado. El costo computacional también crece con el tamaño de la memoria.

4.-La memoria externa permite que la red tenga una memoria menos frágil y más flexible, separada del costo computacional.

5.-Las Máquinas de Turing Neuronales, Redes de Memoria y Traducción Automática Neuronal fueron ejemplos tempranos de redes neuronales con memoria de lectura/escritura externa.

6.-Las Computadoras Neuronales Diferenciables (DNCs) son un ejemplo más reciente, con mecanismos de acceso a memoria más sofisticados como direccionamiento basado en contenido y enlace temporal.

7.-Los DNCs superaron a modelos anteriores en tareas como recorrer conexiones del metro de Londres, a pesar de nunca haber visto esa estructura durante el entrenamiento.

8.-Los DNCs utilizan múltiples mecanismos de acceso en combinación, como la búsqueda basada en contenido para completar información faltante de una consulta.

9.-Los DNCs pasaron 18/20 tareas bAbI, pero fallaron en inducción básica por razones desconocidas, destacando áreas para investigación adicional.

10.-Escalar sistemas de memoria externa ha sido desafiante debido al costo computacional, pero los métodos de acceso disperso ayudan a la eficiencia.

11.-La retropropagación a través del tiempo (BPTT) tiene problemas para las RNNs como el aumento del costo de memoria con la longitud de la secuencia y actualizaciones de peso infrecuentes.

12.-El BPTT truncado se usa comúnmente pero pierde interacciones de largo alcance. Las aproximaciones a RTRL son prometedoras pero aún no prácticas.

13.-Los gradientes sintéticos predicen gradientes de error usando información local, permitiendo el entrenamiento desacoplado de componentes de la red sin BPTT completo.

14.-Los gradientes sintéticos hacen que el BPTT truncado sea más eficiente, permitiendo el entrenamiento en secuencias mucho más largas que antes eran imprácticas.

15.-Los gradientes sintéticos permiten actualizaciones asincrónicas y comunicación entre módulos que operan a diferentes escalas de tiempo en una RNN jerárquica.

16.-Para las RNNs típicas, los pasos de cálculo están vinculados a la longitud de la secuencia de entrada, lo que es limitante para tareas de razonamiento complejo.

17.-El Tiempo de Cálculo Adaptativo (ACT) permite que la red aprenda cuánto tiempo "reflexionar" sobre cada entrada antes de producir una salida.

18.-ACT separa el tiempo de cálculo del tiempo de datos, análogo a cómo las redes de memoria separan el cálculo de la memoria.

19.-ACT revela patrones informativos en los datos, como picos en el cálculo en puntos inciertos en lugar de solo donde la pérdida es alta.

20.-ACT muestra que las redes gastan poco cálculo en información incomprensible, y más en entradas difíciles o regiones de imagen destacadas.

21.-No está claro si los sistemas diferenciables son fundamentalmente diferentes de los programas escritos manualmente, o si pueden replicar completamente las abstracciones de programación.

22.-Actualmente, los programas neuronales aprendidos parecen mucho más simples que la programación a nivel humano con conceptos como subrutinas y recursión.

23.-Puente entre representaciones neuronales implícitas y abstracciones de programación simbólica es un desafío abierto, la optimización por sí sola puede no ser suficiente.

24.-El orador cree que las computadoras eventualmente aprenderán a programarse a sí mismas, pero el camino para llegar allí es incierto.

25.-El aprendizaje automático del currículo, o aprender qué aprender a continuación, es un desafío importante a medida que avanzamos más allá de grandes conjuntos de datos supervisados.

26.-El aprendizaje por refuerzo especialmente necesita mecanismos sofisticados para guiar la recolección de datos, ya que los datos son más escasos y las pruebas son costosas.

27.-Las computadoras tienen jerarquías de memoria (registros, cachés, RAM, discos) que coinciden con los patrones de uso, lo que podría beneficiar a los sistemas de memoria neuronal.

28.-La memoria del controlador LSTM actúa como registros o caché, mientras que la memoria de lectura/escritura externa es más como RAM. Se podría añadir memoria de solo lectura.

29.-Reescribir rápidamente la memoria neuronal accedida frecuentemente puede necesitar ser penalizada de manera diferente que la memoria reescrita lentamente y con poca frecuencia.

30.-Recrear la jerarquía de memoria evolucionada de las computadoras modernas puede ser útil en el desarrollo de arquitecturas neuronales con memoria.

Bóveda de Conocimiento construida porDavid Vivancos 2024