Conocimiento Bóveda 6 /67 - ICML 2021
Estimación de Gradiente Imparcial en Gráficos de Cómputo Desenrollados con Estrategias de Evolución Persistente
Paul Vicol · Luke Metz · Jascha Sohl-Dickstein
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef graphs fill:#f9d4d4, font-weight:bold, font-size:14px classDef strategies fill:#d4f9d4, font-weight:bold, font-size:14px classDef tasks fill:#d4d4f9, font-weight:bold, font-size:14px classDef applications fill:#f9f9d4, font-weight:bold, font-size:14px A["Estimación de Gradiente Imparcial
en Gráficos de Cómputo
Desenrollados con Estrategias
de Evolución Persistente"] --> B["Gráficos de
Cómputo"] A --> C["Estrategias de
Evolución"] A --> D["Tareas
y
Aplicaciones"] A --> E["Implementación de
PES"] B --> B1["Sistemas dinámicos
con parámetros. 1"] B --> B2["Métodos tradicionales de
optimización de ML. 2"] B --> B3["Desafíos de optimización
en largos
desenrollados. 3"] B --> B4["Optimización eficiente en memoria
suavizada por Gauss. 4"] B --> B5["Estimación de gradiente
de secuencia de
parámetros. 6"] B --> B6["Suma secuencial de
estimaciones de
gradiente. 7"] C --> C1["División imparcial
de gráfico de
cómputo. 5"] C --> C2["ES con
seguimiento de
partículas. 8"] C --> C3["Varianza de gradiente
dependiente de
correlación. 9"] C --> C4["Desenrollados parciales,
estimaciones
imparciales. 16"] C --> C5["PES navega
paisajes
caóticos. 17"] C --> C6["PES fácilmente
paralelizable. 18"] D --> D1["Demostración de
imparcialidad de PES. 10"] D --> D2["PES en
regiones
caóticas. 11"] D --> D3["Convergencia óptima
de la región. 12"] D --> D4["PES para MLP
en
MNIST. 13"] D --> D5["Pérdidas consistentes y
bajas
con PES. 14"] D --> D6["Eficiencia de PES
en tarea de
nadador. 15"] E --> E1["Pares de perturbación
positiva y negativa. 22"] E --> E2["Ejemplo de PES
usando
JAX. 23"] E --> E3["Diferencia de seguimiento
de estado de
partículas. 24"] E --> E4["PES en tareas de
hiperparámetros
caóticos. 25"] E --> E5["PES en entrenamiento
de MLP. 26"] E --> E6["Términos de corrección
de secuencia
completa. 28"] class A,B,B1,B2,B3,B4,B5,B6 graphs class C,C1,C2,C3,C4,C5,C6 strategies class D,D1,D2,D3,D4,D5,D6 tasks class E,E1,E2,E3,E4,E5,E6 applications

Resumen:

1.- Gráficos de cómputo desenrollados: Representan sistemas dinámicos con parámetros que gobiernan la evolución del estado a lo largo del tiempo, utilizados en varias aplicaciones de aprendizaje automático.

2.- Enfoques clásicos de optimización: Retropropagación a través del tiempo, retropropagación truncada, aprendizaje recurrente en tiempo real (RTRL) y aproximaciones, cada uno con limitaciones.

3.- Paisajes de pérdida caóticos: Los desenrollados largos pueden llevar a paisajes de pérdida caóticos o mal condicionados, haciendo la optimización desafiante.

4.- Estrategias de Evolución (ES): Optimiza meta-objetivo suavizado por Gauss, no requiere retropropagación, eficiente en memoria, puede optimizar funciones de caja negra, escalable en computación paralela.

5.- Estrategias de Evolución Persistente (PES): Enfoque imparcial que divide el gráfico de cómputo en desenrollados truncados, acumulando términos de corrección sobre la secuencia completa.

6.- Derivación de PES: Utiliza un cambio en la notación, considerando la pérdida como función de toda la secuencia de parámetros, derivando la estimación del gradiente.

7.- Descomposición de PES: Se descompone en la suma de estimaciones de gradiente secuenciales, acumulando perturbaciones sobre múltiples desenrollados.

8.- Implementación de PES: Similar a ES pero con seguimiento de estado de partículas y acumulación de perturbaciones.

9.- Varianza de PES: Depende de la correlación entre gradientes en cada desenrollado, puede disminuir con más desenrollados bajo ciertas condiciones.

10.- Tarea de balanceo de influencia sintética: Demuestra la imparcialidad de PES, convergiendo a soluciones correctas a diferencia de métodos truncados.

11.- Optimización de hiperparámetros: PES supera a métodos truncados en tarea de regresión 2D de juguete con regiones caóticas.

12.- Programación de tasa de aprendizaje en MNIST: PES converge a la región óptima para objetivos diferenciables y no diferenciables.

13.- Ajuste de múltiples hiperparámetros: PES supera a ES truncado y búsqueda aleatoria para ajustar 20 hiperparámetros de MLP en MNIST.

14.- Entrenamiento de optimizador aprendido: PES logra pérdidas más bajas y más consistencia que ES al meta-entrenar un optimizador basado en MLP.

15.- Aprendizaje de política de control continuo: PES más eficiente que ES en episodios completos para tarea de nadador, mientras que ES truncado falla.

16.- Estimación de gradiente imparcial: PES proporciona estimaciones imparciales de desenrollados parciales, a diferencia de métodos truncados.

17.- Suavizado de superficie de pérdida: PES hereda esta característica útil de ES, ayudando a navegar paisajes caóticos.

18.- Paralelizabilidad: PES es fácilmente paralelizable, heredando esta ventaja de ES.

19.- Objetivos no diferenciables: PES puede trabajar con funciones no diferenciables como la precisión en lugar de la pérdida.

20.- Costo de computación y memoria manejable: PES logra esto mientras proporciona estimaciones imparciales de desenrollados parciales.

21.- Aplicaciones: PES aplicable a optimización de hiperparámetros, entrenamiento de optimizadores aprendidos y aprendizaje por refuerzo.

22.- Muestreo antitético: Utilizado en la práctica para PES, muestreando pares de perturbaciones positivas y negativas en cada paso de tiempo.

23.- Implementación en JAX: Ejemplo de implementación del estimador PES usando JAX, demostrando simplicidad y paralelización.

24.- Comparación con ES truncado: PES difiere en el seguimiento de estados de partículas y acumulación de perturbaciones a lo largo del tiempo.

25.- Visualización de superficie de meta-pérdida: Ilustra regiones caóticas en tareas de optimización de hiperparámetros donde PES sobresale.

26.- Experimento CIFAR-10: PES supera a ES en el meta-entrenamiento de optimizador aprendido para entrenar MLP en CIFAR-10.

27.- Tarea de nadador Mujoco: Demuestra la eficiencia de PES en el aprendizaje de políticas de control continuo usando desenrollados parciales.

28.- Eliminación de sesgo: PES elimina el sesgo de las truncaciones acumulando términos de corrección sobre la secuencia completa de desenrollados.

29.- Actualizaciones frecuentes de parámetros: PES permite actualizaciones más frecuentes en comparación con ES de desenrollado completo, mejorando la eficiencia.

30.- Fácil implementación: PES se describe como una modificación fácil de implementar de ES, haciéndolo accesible para varias aplicaciones.

Bóveda del Conocimiento construida porDavid Vivancos 2024