Conocimiento Bóveda 6 /19 - ICML 2016
La optimización convexa, enfoque de teoría de juegos para el aprendizaje
Elad Hazan & Satyen Kale
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d9c9, font-weight:bold, font-size:14px classDef basics fill:#d4f9d4, font-weight:bold, font-size:14px classDef algorithms fill:#d4d4f9, font-weight:bold, font-size:14px classDef advanced fill:#f9f9d4, font-weight:bold, font-size:14px classDef applications fill:#f9d4f9, font-weight:bold, font-size:14px Main["La optimización convexa,
enfoque de teoría de juegos para
el aprendizaje"] Main --> A["Fundamentos del Aprendizaje en Línea"] Main --> B["Algoritmos Básicos"] Main --> C["Conceptos Avanzados"] Main --> D["Aplicaciones y Extensiones"] A --> A1["Aprendizaje en línea: decisiones secuenciales
sobre datos adversariales 1"] A --> A2["Juego repetido entre el aprendiz
y el adversario 2"] A --> A3["Optimización convexa en línea: elegir
punto, minimizar costo 3"] A --> A4["Aprendizaje en línea modelado como
optimización convexa 8"] A --> A5["Configuración de bandido: solo se observa
la pérdida de decisiones elegidas 18"] B --> B1["Algoritmo de mayoría ponderada predice,
actualiza pesos de expertos 4"] B --> B2["Descenso de gradiente en línea actualiza
con gradiente negativo 6"] B --> B3["FTRL añade regularización a
optimización 13"] B --> B4["FTRL equivalente al algoritmo de
descenso de espejo 15"] B --> B5["Seguir-al-líder-perturbado añade
perturbaciones aleatorias 16"] B --> B6["AdaGrad ajusta tasas de aprendizaje
por característica 17"] C --> C1["Fuerte convexidad permite tasas de
convergencia más rápidas 9"] C --> C2["Selección de cartera exhibe exp-concavidad,
permitiendo arrepentimiento logarítmico 10"] C --> C3["Métodos de Newton: convergencia más rápida
para pérdidas exp-concavas 11"] C --> C4["Exp3 logra arrepentimiento óptimo de
bandido multi-brazo 19"] C --> C5["Pérdidas lineales: perturbaciones logran
arrepentimiento óptimo 20"] C --> C6["Tema de red: límites inferiores
y superiores generales 24"] D --> D1["Algoritmos para clasificación convexa
vinculada, descuento repetido 21"] D --> D2["Estimaciones imparciales insertadas en
óptimo FTRL 22"] D --> D3["Optimización estocástica vinculada conecta
suposiciones estadísticas 25"] D --> D4["Aprendizaje multi-brazo: aproximaciones locales
mejoran borradores 26"] D --> D5["Métodos adicionales: robustez, espacios
de hipótesis ilimitados 28"] D --> D6["Perspectivas de aprendizaje en línea aplican
a aprendizaje por refuerzo 29"] class Main main class A,A1,A2,A3,A4,A5 basics class B,B1,B2,B3,B4,B5,B6 algorithms class C,C1,C2,C3,C4,C5,C6 advanced class D,D1,D2,D3,D4,D5,D6 applications

Resumen:

1.- El aprendizaje en línea implica tomar decisiones secuencialmente basadas en datos elegidos de manera adversarial. Ejemplos incluyen filtrado de spam, selección de cartera, sistemas de recomendación y selección de anuncios.

2.- El aprendizaje en línea se modela como un juego repetido entre un aprendiz y un adversario, con el objetivo de minimizar el arrepentimiento.

3.- La optimización convexa en línea implica que el aprendiz elige un punto en un conjunto convexo y el adversario elige una función de costo convexa.

4.- El algoritmo de mayoría ponderada asigna pesos a los expertos, predice basado en la mayoría ponderada y actualiza los pesos según el rendimiento del experto.

5.- El algoritmo de mayoría ponderada garantiza que los errores totales sean como máximo el doble de los errores del mejor experto más un término logarítmico.

6.- El descenso de gradiente en línea implica actualizar dando un paso en la dirección del gradiente negativo y proyectar de nuevo en el conjunto convexo.

7.- El descenso de gradiente en línea garantiza un arrepentimiento acotado por la raíz cuadrada del número de iteraciones, que es óptimo en general.

8.- El aprendizaje en línea se modela como un problema de optimización convexa en línea. Los ejemplos se formulan en este marco.

9.- La fuerte convexidad de las funciones de pérdida permite tasas de convergencia más rápidas, como el arrepentimiento logarítmico en lugar del arrepentimiento de raíz cuadrada.

10.- El problema de selección de cartera, con funciones de pérdida logarítmica, exhibe exp-concavidad que permite algoritmos de arrepentimiento logarítmico.

11.- Los métodos de segundo orden estilo Newton pueden lograr una convergencia más rápida para funciones de pérdida exp-concavas y regularizadores fuertemente convexos.

12.- Seguir-al-líder, que juega la mejor decisión hasta ahora, es inestable. La regularización lo hace estable.

13.- Seguir-al-líder-regularizado (FTRL) añade un término de regularización a la optimización. Los regularizadores comunes son L2 y entropía.

14.- FTRL con regularización L2 es equivalente al descenso de gradiente en línea. FTRL con regularización de entropía recupera el algoritmo de mayoría ponderada.

15.- FTRL es equivalente al algoritmo de descenso de espejo, que alterna entre la actualización del gradiente y la proyección de Bregman.

16.- Seguir-al-líder-perturbado añade perturbaciones aleatorias en lugar de regularización. Logra los mismos límites de arrepentimiento, pero solo requiere optimización lineal.

17.- AdaGrad es un método de regularización adaptativa que ajusta las tasas de aprendizaje por característica, mejorando la convergencia para características escasas.

18.- En la configuración de bandido, solo se observa la pérdida de la decisión elegida, no el vector de pérdida completo.

19.- El algoritmo Exp3 logra límites de arrepentimiento óptimos para el problema de bandido multi-brazo combinando exploración y explotación.

20.- Para pérdidas lineales y conjuntos de acciones arbitrarias, las perturbaciones o la regularización de barrera auto-concordante logran un arrepentimiento óptimo.

21.- Este movimiento desarrolla algoritmos para clasificación convexa vinculada y utiliza descomposición repetida para el descuento repetido.

22.- La idea es encontrar estimaciones imparciales de los vectores de transmisión a través de la exploración e insertarlas en el óptimo de una manera de FTRL.

23.- Para respuestas convexas y sistemas de acción arbitrarios, las perturbaciones o la regulación de programadores paralelos logran una sintonización óptima.

24.- En el tema de la red, los resultados proporcionan un límite inferior general y, dada la información, se puede lograr un límite superior general.

25.- El problema de optimización estocástica vinculada conecta las suposiciones estadísticas con las suposiciones ambientales y adversariales del aprendizaje en línea.

26.- En el aprendizaje en línea multi-brazo con información sobre las relaciones entre los brazos, se pueden usar aproximaciones locales a la función de pérdida para mejorar los borradores.

27.- Para objetivos de pérdida "fáciles" que dependen de la distancia entre parámetros, se pueden obtener aplicaciones paramétricas agradables con dependencia sub-lineal del número de parámetros.

28.- Los métodos adicionales tienen propiedades de robustez y capacidades para aprender modelos en espacios de hipótesis ilimitados.

29.- Las perspectivas del aprendizaje en línea también se pueden aplicar a problemas de aprendizaje por refuerzo, como el control de políticas recurrentes y los métodos de gradiente de políticas.

30.- Esta conferencia proporcionó una mirada profunda al campo del aprendizaje en línea, sus principales modelos, métodos y aplicaciones.

Bóveda del Conocimiento construida por David Vivancos 2024