Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- El aprendizaje en línea implica tomar decisiones secuencialmente basadas en datos elegidos de manera adversarial. Ejemplos incluyen filtrado de spam, selección de cartera, sistemas de recomendación y selección de anuncios.
2.- El aprendizaje en línea se modela como un juego repetido entre un aprendiz y un adversario, con el objetivo de minimizar el arrepentimiento.
3.- La optimización convexa en línea implica que el aprendiz elige un punto en un conjunto convexo y el adversario elige una función de costo convexa.
4.- El algoritmo de mayoría ponderada asigna pesos a los expertos, predice basado en la mayoría ponderada y actualiza los pesos según el rendimiento del experto.
5.- El algoritmo de mayoría ponderada garantiza que los errores totales sean como máximo el doble de los errores del mejor experto más un término logarítmico.
6.- El descenso de gradiente en línea implica actualizar dando un paso en la dirección del gradiente negativo y proyectar de nuevo en el conjunto convexo.
7.- El descenso de gradiente en línea garantiza un arrepentimiento acotado por la raíz cuadrada del número de iteraciones, que es óptimo en general.
8.- El aprendizaje en línea se modela como un problema de optimización convexa en línea. Los ejemplos se formulan en este marco.
9.- La fuerte convexidad de las funciones de pérdida permite tasas de convergencia más rápidas, como el arrepentimiento logarítmico en lugar del arrepentimiento de raíz cuadrada.
10.- El problema de selección de cartera, con funciones de pérdida logarítmica, exhibe exp-concavidad que permite algoritmos de arrepentimiento logarítmico.
11.- Los métodos de segundo orden estilo Newton pueden lograr una convergencia más rápida para funciones de pérdida exp-concavas y regularizadores fuertemente convexos.
12.- Seguir-al-líder, que juega la mejor decisión hasta ahora, es inestable. La regularización lo hace estable.
13.- Seguir-al-líder-regularizado (FTRL) añade un término de regularización a la optimización. Los regularizadores comunes son L2 y entropía.
14.- FTRL con regularización L2 es equivalente al descenso de gradiente en línea. FTRL con regularización de entropía recupera el algoritmo de mayoría ponderada.
15.- FTRL es equivalente al algoritmo de descenso de espejo, que alterna entre la actualización del gradiente y la proyección de Bregman.
16.- Seguir-al-líder-perturbado añade perturbaciones aleatorias en lugar de regularización. Logra los mismos límites de arrepentimiento, pero solo requiere optimización lineal.
17.- AdaGrad es un método de regularización adaptativa que ajusta las tasas de aprendizaje por característica, mejorando la convergencia para características escasas.
18.- En la configuración de bandido, solo se observa la pérdida de la decisión elegida, no el vector de pérdida completo.
19.- El algoritmo Exp3 logra límites de arrepentimiento óptimos para el problema de bandido multi-brazo combinando exploración y explotación.
20.- Para pérdidas lineales y conjuntos de acciones arbitrarias, las perturbaciones o la regularización de barrera auto-concordante logran un arrepentimiento óptimo.
21.- Este movimiento desarrolla algoritmos para clasificación convexa vinculada y utiliza descomposición repetida para el descuento repetido.
22.- La idea es encontrar estimaciones imparciales de los vectores de transmisión a través de la exploración e insertarlas en el óptimo de una manera de FTRL.
23.- Para respuestas convexas y sistemas de acción arbitrarios, las perturbaciones o la regulación de programadores paralelos logran una sintonización óptima.
24.- En el tema de la red, los resultados proporcionan un límite inferior general y, dada la información, se puede lograr un límite superior general.
25.- El problema de optimización estocástica vinculada conecta las suposiciones estadísticas con las suposiciones ambientales y adversariales del aprendizaje en línea.
26.- En el aprendizaje en línea multi-brazo con información sobre las relaciones entre los brazos, se pueden usar aproximaciones locales a la función de pérdida para mejorar los borradores.
27.- Para objetivos de pérdida "fáciles" que dependen de la distancia entre parámetros, se pueden obtener aplicaciones paramétricas agradables con dependencia sub-lineal del número de parámetros.
28.- Los métodos adicionales tienen propiedades de robustez y capacidades para aprender modelos en espacios de hipótesis ilimitados.
29.- Las perspectivas del aprendizaje en línea también se pueden aplicar a problemas de aprendizaje por refuerzo, como el control de políticas recurrentes y los métodos de gradiente de políticas.
30.- Esta conferencia proporcionó una mirada profunda al campo del aprendizaje en línea, sus principales modelos, métodos y aplicaciones.
Bóveda del Conocimiento construida por David Vivancos 2024