Conocimiento Bóveda 6 /8 - ICML 2015
Métodos Modernos de Optimización Convexa para la Minimización del Riesgo Empírico a Gran Escala
Mark Schmidt & Peter Richtárik
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4d4, font-weight:bold, font-size:14px classDef basics fill:#d4f9d4, font-weight:bold, font-size:14px classDef gradients fill:#d4d4f9, font-weight:bold, font-size:14px classDef stochastic fill:#f9f9d4, font-weight:bold, font-size:14px classDef advanced fill:#f9d4f9, font-weight:bold, font-size:14px Main["Métodos Modernos de Optimización
Convexa para la Minimización del
Riesgo Empírico a Gran Escala"] Main --> A["Conceptos Básicos de Optimización"] A --> A1["Función de pérdida más regularización 1"] A --> A2["Grandes conjuntos de datos necesitan
optimización personalizada 2"] A --> A3["Problemas convexos resolubles de manera confiable 3"] A --> A4["Funciones de Lipschitz aseguran convergencia 4"] A --> A5["¿Qué hace que una función sea convexa? 5"] A --> A6["Operaciones que preservan convexidad 6"] Main --> B["Métodos Basados en Gradientes"] B --> B1["Métodos de gradiente manejan grandes
dimensiones 8"] B --> B2["Factores de convergencia del descenso por gradiente 9"] B --> B3["El método de Nesterov supera al descenso
por gradiente 10"] B --> B4["Búsqueda de línea, verificaciones de derivadas 11"] B --> B5["Método de Newton: convergencia cuadrática 12"] B --> B6["Ajustes prácticos de optimización de segundo orden 13"] Main --> C["Métodos Estocásticos"] C --> C1["Gradientes estocásticos: baratos pero
ruidosos 14"] C --> C2["Gradientes estocásticos requieren pasos
más pequeños 15"] C --> C3["Iteraciones promedio para gradientes ruidosos 16"] C --> C4["Newton estocástico: teoría en evolución 17"] C --> C5["Suma finita: convergencia lineal 18"] C --> C6["SAG: convergencia lineal usando
historial 19"] Main --> D["Técnicas Avanzadas"] D --> D1["SVRG: convergencia sin gradientes guardados 20"] D --> D2["Reducir requisitos de almacenamiento de SAG/SVRG 21"] D --> D3["Muestreo inteligente mejora SAG/SVRG 22"] D --> D4["Suavizado aborda problemas no suaves 23"] D --> D5["Gradientes proyectados para restricciones 24"] D --> D6["Métodos proximales manejan problemas
compuestos 25"] Main --> E["Métodos Especiales"] E --> E1["Existen operadores proximales eficientes 26"] E --> E2["Métodos proximales: variantes estocásticas/Newton 27"] E --> E3["ADMM divide restricciones complejas 28"] E --> E4["Frank-Wolfe: alternativa al método proximal 29"] E --> E5["Dualidad: transformación de problema suave 30"] E --> E6["Métodos de punto interior ineficientes 7"] class Main main class A,A1,A2,A3,A4,A5,A6 basics class B,B1,B2,B3,B4,B5,B6 gradients class C,C1,C2,C3,C4,C5,C6 stochastic class D,D1,D2,D3,D4,D5,D6,E,E1,E2,E3,E4,E5,E6 advanced

Resumen:

1.- Función de pérdida más regularización.

2.- Grandes conjuntos de datos requieren optimización personalizada.

3.- Problemas convexos: resolubles de manera confiable.

4.- Funciones de Lipschitz aseguran convergencia.

5.- ¿Qué hace que una función sea convexa?

6.- Operaciones que preservan la convexidad de la función.

7.- Métodos de punto interior son ineficientes.

8.- Métodos de gradiente manejan grandes dimensiones.

9.- La convergencia del descenso por gradiente depende...

10.- El método de Nesterov supera al descenso por gradiente.

11.- Búsqueda de línea, verificaciones de derivadas.

12.- Método de Newton: convergencia cuadrática.

13.- Ajustes prácticos de optimización de segundo orden.

14.- Gradientes estocásticos: baratos pero ruidosos.

15.- Gradientes estocásticos necesitan pasos más pequeños.

16.- Iteraciones promedio para gradientes ruidosos.

17.- Newton estocástico: teoría en evolución.

18.- Suma finita: convergencia lineal.

19.- SAG: convergencia lineal usando historial.

20.- SVRG: convergencia sin gradientes guardados.

21.- Reducir necesidades de almacenamiento de SAG/SVRG.

22.- Muestreo inteligente mejora SAG/SVRG.

23.- Suavizado aborda problemas no suaves.

24.- Gradientes proyectados para restricciones.

25.- Métodos proximales manejan problemas compuestos.

26.- Abundan operadores proximales eficientes.

27.- Métodos proximales van estocásticos/Newton.

28.- ADMM divide restricciones complejas.

29.- Frank-Wolfe: alternativa al método proximal.

30.- Dualidad: transformación de problema suave.

Bóveda de Conocimiento construida por David Vivancos 2024