Conocimiento Bóveda 6 /29 - ICML 2017
Aprendizaje Interactivo en el Mundo Real
Alekh Agarwal & John Langford
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef supervised fill:#f9d4d4, font-weight:bold, font-size:14px classDef interactive fill:#d4f9d4, font-weight:bold, font-size:14px classDef contextual fill:#d4d4f9, font-weight:bold, font-size:14px classDef algorithms fill:#f9f9d4, font-weight:bold, font-size:14px classDef practical fill:#f9d4f9, font-weight:bold, font-size:14px Main["Aprendizaje Interactivo
en el Mundo Real"] Main --> A["El aprendizaje supervisado ignora
datos valiosos de interacción 1"] Main --> B["El aprendizaje interactivo aprovecha
datos de interacción 2"] B --> C["El algoritmo aprende de
características, acciones, recompensas 3"] B --> D["RL completo: dominios especiales,
grandes muestras 4"] Main --> E["Bandidos contextuales: señal
correcta, manejo de no estacionariedad 5"] E --> F["Se adapta a problemas del mundo real:
recomendaciones, anuncios, educación 6"] E --> G["Tutorial: algoritmos, teoría,
evaluación, exploración 7"] E --> H["Observa características, elige
acción, recibe recompensa 8"] H --> I["Las políticas mapean características
a acciones 9"] H --> J["Evaluación offline usando
inversión de puntuación de propensión 10"] Main --> K["Aprendizaje offline: clasificación
multiclase ponderada por importancia 11"] K --> L["Algoritmos de exploración: epsilon-greedy,
muestreo de Thompson 12"] K --> M["Validación progresiva para
evaluación offline imparcial 13"] K --> N["El muestreo de rechazo evalúa
el bucle completo de interacción 14"] Main --> O["Modos de falla: probabilidades
desajustadas, no estacionariedad 15"] O --> P["Se necesitan sistemas de aprendizaje:
modulares, escalables, generales 16"] P --> Q["Servicio de Decisiones: sistema
bandido contextual de código abierto 17"] P --> R["Otros sistemas: NEXT,
StreamingBandit, diferentes capacidades 18"] Main --> S["No estacionariedad: problema clave
que requiere técnicas especiales 19"] S --> T["Las acciones combinatorias necesitan
semi-bandidos, enfoques de submodularidad 20"] S --> U["Especificación de recompensas crítica,
mapear objetivos a proxies 21"] S --> V["Codificación inteligente reduce
varianza, mejora eficiencia 22"] Main --> W["Existen recetas viables
para escenarios comunes 23"] W --> X["Estudio de caso de Complex.com:
beneficios sustanciales en el mundo real 24"] W --> Y["La validación offline permite
evaluación rápida 25"] W --> Z["Los bandidos contextuales son aptos
para consumo amplio 26"] Main --> AA["Investigación necesaria: algoritmos automáticos,
expansión de RL 27"] AA --> AB["Bandidos contextuales: fiables,
robustos para aplicaciones 28"] AB --> AC["Ejemplo: personalizar escritura basada en EEG
para discapacitados 29"] AB --> AD["La investigación se benefició de
muchos colaboradores 30"] class A,B,C,D supervised class E,F,G,H,I,J contextual class K,L,M,N algorithms class O,P,Q,R,S,T,U,V practical class W,X,Y,Z,AA,AB,AC,AD interactive

Resumen:

1.- El aprendizaje supervisado es el pan de cada día del aprendizaje automático, pero ignora datos valiosos de interacción.

2.- El aprendizaje automático interactivo, incluidos los bandidos contextuales, puede aprovechar los datos de interacción para mejorar los modelos.

3.- En el aprendizaje interactivo, el algoritmo aprende de características, acciones y recompensas en un bucle continuo.

4.- El aprendizaje por refuerzo completo requiere dominios especiales y tamaños de muestra grandes. El aprendizaje activo tiene el problema de la señal incorrecta.

5.- Los bandidos contextuales proporcionan la señal de recompensa correcta, manejan la no estacionariedad y actúan como agentes de IA económicamente viables.

6.- Los bandidos contextuales son adecuados para muchos problemas del mundo real como recomendaciones, anuncios, educación, música, robótica y bienestar.

7.- El tutorial cubre algoritmos, teoría, evaluación, aprendizaje, exploración, problemas prácticos, sistemas y experiencias.

8.- En los bandidos contextuales, se observan características, se elige una acción y se recibe una recompensa, con el objetivo de maximizar la recompensa.

9.- Las políticas mapean características a acciones. La exploración, generalmente aleatoria, es crítica para recopilar la información necesaria.

10.- La evaluación de políticas offline es posible utilizando técnicas como la inversión de puntuación de propensión, lo que permite pruebas rápidas de nuevas políticas.

11.- El aprendizaje offline a partir de datos de exploración es factible al reducir el problema a una clasificación multiclase ponderada por importancia.

12.- Algoritmos de exploración como epsilon-greedy, muestreo de Thompson y EXP4 equilibran la exploración y la explotación.

13.- La validación progresiva permite una evaluación offline imparcial de algoritmos de aprendizaje en datos de transmisión.

14.- El muestreo de rechazo permite la evaluación offline de algoritmos de exploración, considerando el bucle completo de datos de interacción.

15.- Los modos de falla en la práctica incluyen probabilidades de acción desajustadas, características no estacionarias y recompensas retrasadas o no observadas.

16.- Se necesitan sistemas de aprendizaje en lugar de solo algoritmos, con diseños modulares, escalables, generales y reproducibilidad offline.

17.- El Servicio de Decisiones es un sistema bandido contextual de código abierto y gestionado que aborda muchos problemas prácticos por diseño.

18.- Otros sistemas recientes de bandidos contextuales incluyen NEXT y StreamingBandit, con algunas diferencias en capacidades.

19.- La no estacionariedad es un problema clave en la práctica, que requiere técnicas basadas en el tiempo y en conjuntos más allá de la teoría estándar.

20.- Los espacios de acción combinatorios como los rankings requieren enfoques especiales basados en semi-bandidos, submodularidad o modelos en cascada.

21.- La especificación de la función de recompensa es crítica y compleja, a menudo requiere mapear objetivos a largo plazo a buenos proxies a corto plazo.

22.- La codificación inteligente de recompensas, como el uso de recompensas no cero infrecuentes, puede reducir en gran medida la varianza y mejorar la eficiencia de los datos.

23.- A pesar de las brechas entre teoría y práctica, existen recetas viables para escenarios comunes en la formulación de problemas de bandidos contextuales.

24.- Un estudio de caso de Complex.com demuestra cómo los enfoques de bandidos contextuales pueden proporcionar beneficios sustanciales en el mundo real.

25.- La validación progresiva offline permite una evaluación rápida de nuevos modelos, características y algoritmos de exploración en datos reales.

26.- Las técnicas de bandidos contextuales han madurado para ser aptas para un consumo amplio, proporcionando ganancias sobre el aprendizaje supervisado con menos complejidad que el RL.

27.- Se necesita más investigación sobre algoritmos automáticos/sin parámetros y la expansión del subconjunto tratable de problemas de RL.

28.- Para los practicantes, los bandidos contextuales se están volviendo más fiables, robustos y utilizables para aplicaciones reales.

29.- Un ejemplo de aplicación es el uso de bandidos contextuales para personalizar la escritura basada en EEG para personas con discapacidad.

30.- La investigación se ha beneficiado de muchos colaboradores, con diapositivas y referencias disponibles en hunch.net.

Bóveda del Conocimiento construida porDavid Vivancos 2024