Conocimiento Bóveda 6 /7 - ICML 2015
Predicción de Series Temporales en Línea con Datos Faltantes
Oren Anava, Elad Hazan, Assaf Zeevi
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4d4, font-weight:bold, font-size:14px classDef timeseries fill:#d4f9d4, font-weight:bold, font-size:14px classDef model fill:#d4d4f9, font-weight:bold, font-size:14px classDef approach fill:#f9f9d4, font-weight:bold, font-size:14px classDef results fill:#f9d4f9, font-weight:bold, font-size:14px Main["Predicción de Series Temporales
en Línea con Datos
Faltantes"] Main --> A["Series Temporales y Modelos"] A --> A1["Serie temporal: observaciones de señal
en intervalos uniformes 1"] A --> A2["Modelo AR: combinación lineal ruidosa
de observaciones previas 2"] A --> A3["Datos faltantes comunes
en series de la vida real 3"] A --> A4["Modelos existentes: suposiciones
estadísticas estrictas 4"] Main --> B["Enfoque y Desafíos"] B --> B1["Objetivo: relajar suposiciones
sobre datos faltantes 5"] B --> B2["Configuración: adversario elige señal,
revela selectivamente 6"] B --> B3["Arrepentimiento: jugador vs
mejor predictor fijo 7"] B --> B4["Desafío: AR indefinido
para datos faltantes 8"] Main --> C["Solución e Implementación"] C --> C1["Solución: reemplazar faltantes
con predicciones recursivas 9"] C --> C2["Ejemplo AR1: observar
o predecir recursivamente 10"] C --> C3["No linealidad: predicción recursiva
complica aprendizaje de coeficientes 11"] C --> C4["Aprendizaje no propio: modelo más rico,
competir contra AR 12"] Main --> D["Predicción y Optimización"] D --> D1["Predicción expandida: vector de pesos,
vector de características 13"] D --> D2["Ventaja: permite optimización
convexa en línea 14"] D --> D3["Resultado: límite de arrepentimiento
OsqrtT alcanzado 15"] D --> D4["Problemas: factores exponenciales en D 16"] Main --> E["Aspectos Computacionales"] E --> E1["Solución parcial: cálculo eficiente
de producto interno 17"] E --> E2["Producto interno: coeficientes de
buenos caminos comunes 18"] E --> E3["Conteo eficiente: exponente de
puntos faltantes comunes 19"] Main --> F["Resultados y Conclusiones"] F --> F1["Experimentos: datos sintéticos,
comparaciones de modelos 20"] F --> F2["Estocástico: rendimiento similar,
enfoque en línea más robusto 21"] F --> F3["Heterocedástico: enfoque en línea
muestra robustez 22"] F --> F4["Conclusiones: predicción sin
suposiciones estocásticas 23"] F --> F5["Preguntas abiertas: reducción exponencial,
generalización multivariada 24"] F --> F6["Aspectos clave: aprendizaje en línea,
predicción recursiva 25"] class Main main class A,A1,A2,A3,A4 timeseries class B,B1,B2,B3,B4 model class C,C1,C2,C3,C4,D,D1,D2,D3,D4,E,E1,E2,E3 approach class F,F1,F2,F3,F4,F5,F6 results

Resumen:

1.- Definición de series temporales: secuencia de observaciones de señales medidas en intervalos uniformes, con ejemplos de finanzas, clima y medicina.

2.- Modelo autorregresivo (AR): cada observación es una combinación lineal ruidosa de observaciones previas, con ruido gaussiano. Se enfoca en el modelo AR(p).

3.- Motivación: las series temporales de la vida real a menudo tienen datos faltantes debido a errores o problemas de equipo. Los modelos existentes hacen suposiciones estadísticas estrictas.

4.- Limitaciones de los enfoques existentes: suponen que los datos siguen un modelo AR con ruido gaussiano y que los datos faltantes son aleatorios. La especificación incorrecta lleva a resultados subóptimos.

5.- Objetivo: relajar o eliminar suposiciones estadísticas sobre series temporales con datos faltantes.

6.- Configuración: el adversario elige el valor de la señal arbitrariamente en cada punto de tiempo y decide si revelarlo. El jugador predice y sufre pérdidas.

7.- Criterio de arrepentimiento: compara la pérdida acumulada del jugador con la pérdida del mejor predictor fijo en retrospectiva. Estándar en aprendizaje en línea.

8.- Desafío: la predicción AR no está bien definida para datos faltantes ya que se necesitan valores faltantes previos para la predicción.

9.- Solución: reemplazar los datos faltantes con predicciones de datos faltantes, utilizando un predictor AR recursivo hasta un número finito de pasos atrás (D).

10.- Ejemplo: Para AR(1) con D=2, la predicción usa el valor observado si está disponible, de lo contrario usa la predicción anterior recursivamente.

11.- Problema de no linealidad: la predicción recursiva es no lineal en los coeficientes AR, lo que impide el aprendizaje de coeficientes óptimos usando técnicas estándar de optimización convexa en línea.

12.- Aprendizaje no propio: generar predicciones a partir de un modelo más rico y competir contra el mejor predictor AR, sin aprender directamente los coeficientes AR.

13.- Predicción expandida: usar un vector de pesos W de dimensión 2^D y un vector de características phi, dando una predicción mucho más rica lineal en W.

14.- Ventaja de la predicción expandida: el problema se vuelve lineal en W, permitiendo la optimización convexa en línea. La predicción es más rica que el AR original.

15.- Resultado principal: límite de arrepentimiento de O(sqrt(T)) respecto al mejor predictor AR recursivo fijo en retrospectiva, usando algoritmos estándar de aprendizaje en línea.

16.- Problemas: factor constante exponencial en D, y la complejidad de tiempo/espacio también es exponencial en D debido al mantenimiento/actualización de W de alta dimensión.

17.- Solución parcial: cálculo eficiente del producto interno entre vectores de características phi permite evitar el mantenimiento explícito de W.

18.- Cálculo del producto interno: los coeficientes dependen del número de "buenos caminos comunes" - caminos a través de puntos de datos faltantes.

19.- Conteo eficiente de caminos: el número de buenos caminos comunes de longitud k es igual a 2^(número de puntos faltantes comunes), permitiendo un cálculo eficiente.

20.- Resultados experimentales: comparaciones en datos sintéticos capturan los méritos de diferentes modelos. Experimentos con datos reales en el documento.

21.- Datos estocásticos: todos los enfoques tienen un rendimiento similar cuando los datos y la falta de datos son estocásticos. Los métodos en línea son más robustos a cambios en los coeficientes AR.

22.- Ruido heterocedástico: las líneas base no son robustas al ruido no gaussiano, pero el enfoque en línea es robusto. Los algoritmos en línea son más rápidos y simples de implementar.

23.- Conclusiones: nuevo enfoque para la predicción de series temporales sin requerir suposiciones estocásticas. Garantías teóricas y buen rendimiento práctico.

24.- Preguntas abiertas: reducción del constante exponencial a polinómico en D (algunos avances en trabajos posteriores), y generalización al caso multivariado.

25.- Aspectos clave: marco de aprendizaje en línea, predicción recursiva para datos faltantes, aprendizaje no propio, conteo eficiente de caminos, robustez ante especificación incorrecta del modelo.

Bóveda del Conocimiento construida porDavid Vivancos 2024