Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-Las RNNs con unidades multiplicativas como LSTM y GRU funcionan bien y se utilizan ampliamente para tareas que involucran datos secuenciales.
2.-Las RNNs se entrenan cada vez más de extremo a extremo, con entradas crudas y salidas crudas, reduciendo la necesidad de ingeniería de características.
3.-La memoria RNN puede ser frágil, con nueva información sobrescribiendo lo almacenado. El costo computacional también crece con el tamaño de la memoria.
4.-La memoria externa permite que la red tenga una memoria menos frágil y más flexible, separada del costo computacional.
5.-Las Máquinas de Turing Neuronales, Redes de Memoria y Traducción Automática Neuronal fueron ejemplos tempranos de redes neuronales con memoria de lectura/escritura externa.
6.-Las Computadoras Neuronales Diferenciables (DNCs) son un ejemplo más reciente, con mecanismos de acceso a memoria más sofisticados como direccionamiento basado en contenido y enlace temporal.
7.-Los DNCs superaron a modelos anteriores en tareas como recorrer conexiones del metro de Londres, a pesar de nunca haber visto esa estructura durante el entrenamiento.
8.-Los DNCs utilizan múltiples mecanismos de acceso en combinación, como la búsqueda basada en contenido para completar información faltante de una consulta.
9.-Los DNCs pasaron 18/20 tareas bAbI, pero fallaron en inducción básica por razones desconocidas, destacando áreas para investigación adicional.
10.-Escalar sistemas de memoria externa ha sido desafiante debido al costo computacional, pero los métodos de acceso disperso ayudan a la eficiencia.
11.-La retropropagación a través del tiempo (BPTT) tiene problemas para las RNNs como el aumento del costo de memoria con la longitud de la secuencia y actualizaciones de peso infrecuentes.
12.-El BPTT truncado se usa comúnmente pero pierde interacciones de largo alcance. Las aproximaciones a RTRL son prometedoras pero aún no prácticas.
13.-Los gradientes sintéticos predicen gradientes de error usando información local, permitiendo el entrenamiento desacoplado de componentes de la red sin BPTT completo.
14.-Los gradientes sintéticos hacen que el BPTT truncado sea más eficiente, permitiendo el entrenamiento en secuencias mucho más largas que antes eran imprácticas.
15.-Los gradientes sintéticos permiten actualizaciones asincrónicas y comunicación entre módulos que operan a diferentes escalas de tiempo en una RNN jerárquica.
16.-Para las RNNs típicas, los pasos de cálculo están vinculados a la longitud de la secuencia de entrada, lo que es limitante para tareas de razonamiento complejo.
17.-El Tiempo de Cálculo Adaptativo (ACT) permite que la red aprenda cuánto tiempo "reflexionar" sobre cada entrada antes de producir una salida.
18.-ACT separa el tiempo de cálculo del tiempo de datos, análogo a cómo las redes de memoria separan el cálculo de la memoria.
19.-ACT revela patrones informativos en los datos, como picos en el cálculo en puntos inciertos en lugar de solo donde la pérdida es alta.
20.-ACT muestra que las redes gastan poco cálculo en información incomprensible, y más en entradas difíciles o regiones de imagen destacadas.
21.-No está claro si los sistemas diferenciables son fundamentalmente diferentes de los programas escritos manualmente, o si pueden replicar completamente las abstracciones de programación.
22.-Actualmente, los programas neuronales aprendidos parecen mucho más simples que la programación a nivel humano con conceptos como subrutinas y recursión.
23.-Puente entre representaciones neuronales implícitas y abstracciones de programación simbólica es un desafío abierto, la optimización por sí sola puede no ser suficiente.
24.-El orador cree que las computadoras eventualmente aprenderán a programarse a sí mismas, pero el camino para llegar allí es incierto.
25.-El aprendizaje automático del currículo, o aprender qué aprender a continuación, es un desafío importante a medida que avanzamos más allá de grandes conjuntos de datos supervisados.
26.-El aprendizaje por refuerzo especialmente necesita mecanismos sofisticados para guiar la recolección de datos, ya que los datos son más escasos y las pruebas son costosas.
27.-Las computadoras tienen jerarquías de memoria (registros, cachés, RAM, discos) que coinciden con los patrones de uso, lo que podría beneficiar a los sistemas de memoria neuronal.
28.-La memoria del controlador LSTM actúa como registros o caché, mientras que la memoria de lectura/escritura externa es más como RAM. Se podría añadir memoria de solo lectura.
29.-Reescribir rápidamente la memoria neuronal accedida frecuentemente puede necesitar ser penalizada de manera diferente que la memoria reescrita lentamente y con poca frecuencia.
30.-Recrear la jerarquía de memoria evolucionada de las computadoras modernas puede ser útil en el desarrollo de arquitecturas neuronales con memoria.
Bóveda de Conocimiento construida porDavid Vivancos 2024