ConocimientoBóveda 2/45 - ICLR 2014-2023
Koray Kavukcuoglu ICLR 2018 - Charla Invitada - De Modelos Generativos a Agentes Generativos
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef Main fill:#f9d4d4, font-weight:bold, font-size:14px; classDef DeepMind fill:#d4f9d4, font-weight:bold, font-size:14px; classDef WaveNet fill:#d4d4f9, font-weight:bold, font-size:14px; classDef Impala fill:#f9f9d4, font-weight:bold, font-size:14px; classDef SPIRAL fill:#f9d4f9, font-weight:bold, font-size:14px; classDef Integer fill:#d4f9f9, font-weight:bold, font-size:14px; A[Koray Kavukcuoglu
ICLR 2018 ] --> B[Kavukcuoglu: modelos
generativos, agentes. 1] A --> C[Aprendizaje no supervisado:
entender, explicar datos. 2] C --> D[Representaciones ricas permiten
generalización, transferencia. 3] A --> E[WaveNet: modelo de audio
de extremo a extremo. 4] E --> F[Convoluciones dilatadas modelan
dependencias de largo alcance. 5] E --> G[Habla a nivel humano Asistente de Google. 6] E --> H[WaveNet Paralelo: flujo
autoregresivo inverso. 7] H --> I[Destilación de probabilidad,
pérdidas mejoran eficiencia. 8] E --> J[Aprendizaje profundo permite
desarrollo rápido. 9] A --> K[RL profundo: decisiones secuenciales,
representaciones. 10] K --> L[Impala: actor-crítico fuera de política
escalable. 11] L --> M[DeepMind Lab: mundo 3D multitarea. 12] L --> N[Estabilidad, transferencia clave para multitarea. 13] L --> O[Actuación desacoplada, aprendizaje
para paralelización. 14] L --> P[V-trace equilibra en política, fuera de política. 15] L --> Q[Impala supera a A3C en DMLab-30. 16] A --> R[SPIRAL: RL no supervisado
para programas. 17] R --> S[Agente, motor, discriminador
interactúan. 18] R --> T[Aprende MNIST, Omniglot
de retroalimentación. 19] R --> U[Programas permiten transferencia
sim-a-real. 20] R --> V[Futuro: interpretabilidad,
herramientas, aprendizaje del entorno. 21] A --> W[Wu: entrenamiento e inferencia con enteros. 22] W --> X[Dispositivos de borde: potencia, memoria, precisión. 23] W --> Y[WAGE: pesos, activaciones,
gradientes, errores. 24] Y --> Z[Mapeo, cambio, redondeo, SGD puro. 25] Y --> AA[Buena precisión en
CIFAR, ImageNet. 26] W --> AB[Profundidad, datos afectan
necesidades de precisión. 27] W --> AC[Distribuciones, cuellos de botella
clave para precisión. 28] W --> AD[Reduce costos de energía, área, memoria. 29] W --> AE[Permite aprendizaje en el dispositivo. 30] class A Main; class B,C,D DeepMind; class E,F,G,H,I,J WaveNet; class K,L,M,N,O,P,Q Impala; class R,S,T,U,V SPIRAL; class W,X,Y,Z,AA,AB,AC,AD,AE Integer;

Resumen:

1.-Koray Kavukcuoglu dio una charla invitada sobre modelos generativos y agentes generativos, discutiendo el aprendizaje no supervisado en el trabajo reciente de DeepMind.

2.-El aprendizaje no supervisado tiene como objetivo entender los datos y explicar el entorno, con muestras generadas que indican la comprensión del modelo.

3.-Las representaciones ricas aprendidas a través del aprendizaje no supervisado deberían permitir la generalización y la transferencia.

4.-WaveNet es un modelo generativo de extremo a extremo de audio en bruto que puede producir muestras de habla y música realistas.

5.-WaveNet utiliza capas de convolución dilatadas para modelar dependencias de largo alcance de manera eficiente durante el entrenamiento, pero genera muestras de manera autoregresiva.

6.-WaveNet logra un rendimiento a nivel humano en texto a voz y se utiliza en el Asistente de Google.

7.-WaveNet Paralelo hace el modelo más eficiente usando un modelo estudiante de flujo autoregresivo inverso entrenado por un maestro WaveNet preentrenado.

8.-WaveNet Paralelo utiliza destilación de densidad de probabilidad, una pérdida de potencia, una pérdida perceptual del reconocimiento de habla y una pérdida contrastiva.

9.-La generalización y el desarrollo rápido para nuevos hablantes e idiomas es una ventaja clave del enfoque de aprendizaje profundo.

10.-El aprendizaje por refuerzo profundo combina la toma de decisiones secuenciales de RL con el aprendizaje de representaciones del aprendizaje profundo para abordar problemas desafiantes.

11.-Impala es una arquitectura de agente actor-crítico fuera de política altamente escalable y eficiente desarrollada en DeepMind.

12.-El entorno DeepMind Lab permite probar la capacidad de un solo agente para realizar múltiples tareas en un mundo 3D complejo.

13.-La estabilidad, la baja sensibilidad a los hiperparámetros y la transferencia positiva entre tareas son importantes para entrenar Impala en el entorno multitarea.

14.-Impala desacopla la actuación del aprendizaje, permitiendo una paralelización eficiente y robustez a velocidades de renderizado de entorno variables.

15.-El algoritmo actor-crítico de ventaja fuera de política V-trace equilibra la compensación entre en política y fuera de política en Impala.

16.-Impala demuestra mejor eficiencia de datos, rendimiento y transferencia positiva en comparación con A3C cuando se entrena en DMLab-30.

17.-SPIRAL es un enfoque de RL no supervisado para entrenar agentes para generar programas que conduzcan a estados ambientales preferidos.

18.-SPIRAL utiliza un agente, un motor de ejecución y un discriminador, combinando RL, síntesis de programas y redes adversariales generativas.

19.-El agente SPIRAL genera trazos de pincel, el entorno libmypaint los renderiza y un discriminador proporciona una señal de recompensa.

20.-SPIRAL aprende a generar dígitos MNIST y símbolos Omniglot usando solo retroalimentación del discriminador, con la capacidad de generalizar entre dominios.

21.-Representar la política como un programa de propósito general permite a SPIRAL transferirse de un simulador a un robot real.

22.-Las direcciones futuras incluyen la síntesis de programas interpretables, el uso de herramientas y el aprendizaje del entorno con agentes de RL.

23.-Shuang Wu presentó trabajo sobre entrenamiento e inferencia con enteros en redes neuronales profundas para despliegue en dispositivos de borde.

24.-Los desafíos clave son la potencia, memoria y precisión limitadas, especialmente para hardware neuromórfico futuro.

25.-Su enfoque WAGE restringe pesos, activaciones, gradientes y errores a enteros de baja anchura de bits tanto en entrenamiento como en inferencia.

26.-Las técnicas utilizadas incluyen mapeo lineal, cambio de distribución, redondeo determinista y estocástico, y SGD puro por mini-lotes.

27.-Se logra buena precisión con pesos ternarios y activaciones, gradientes y errores de 8 bits en CIFAR e ImageNet.

28.-Se encontró que los requisitos de precisión de flecha y gradiente dependían de la profundidad y los datos respectivamente.

29.-Ajustar las distribuciones internas y evitar cuellos de botella de información es clave para mantener la precisión con cuantización de enteros.

30.-La cuantización de enteros reduce los costos de energía, área y acceso a memoria para aceleradores de DNN, permitiendo el aprendizaje en el dispositivo.

Bóveda de Conocimiento construida porDavid Vivancos 2024