Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- El aprendizaje supervisado es el pan de cada día del aprendizaje automático, pero ignora datos valiosos de interacción.
2.- El aprendizaje automático interactivo, incluidos los bandidos contextuales, puede aprovechar los datos de interacción para mejorar los modelos.
3.- En el aprendizaje interactivo, el algoritmo aprende de características, acciones y recompensas en un bucle continuo.
4.- El aprendizaje por refuerzo completo requiere dominios especiales y tamaños de muestra grandes. El aprendizaje activo tiene el problema de la señal incorrecta.
5.- Los bandidos contextuales proporcionan la señal de recompensa correcta, manejan la no estacionariedad y actúan como agentes de IA económicamente viables.
6.- Los bandidos contextuales son adecuados para muchos problemas del mundo real como recomendaciones, anuncios, educación, música, robótica y bienestar.
7.- El tutorial cubre algoritmos, teoría, evaluación, aprendizaje, exploración, problemas prácticos, sistemas y experiencias.
8.- En los bandidos contextuales, se observan características, se elige una acción y se recibe una recompensa, con el objetivo de maximizar la recompensa.
9.- Las políticas mapean características a acciones. La exploración, generalmente aleatoria, es crítica para recopilar la información necesaria.
10.- La evaluación de políticas offline es posible utilizando técnicas como la inversión de puntuación de propensión, lo que permite pruebas rápidas de nuevas políticas.
11.- El aprendizaje offline a partir de datos de exploración es factible al reducir el problema a una clasificación multiclase ponderada por importancia.
12.- Algoritmos de exploración como epsilon-greedy, muestreo de Thompson y EXP4 equilibran la exploración y la explotación.
13.- La validación progresiva permite una evaluación offline imparcial de algoritmos de aprendizaje en datos de transmisión.
14.- El muestreo de rechazo permite la evaluación offline de algoritmos de exploración, considerando el bucle completo de datos de interacción.
15.- Los modos de falla en la práctica incluyen probabilidades de acción desajustadas, características no estacionarias y recompensas retrasadas o no observadas.
16.- Se necesitan sistemas de aprendizaje en lugar de solo algoritmos, con diseños modulares, escalables, generales y reproducibilidad offline.
17.- El Servicio de Decisiones es un sistema bandido contextual de código abierto y gestionado que aborda muchos problemas prácticos por diseño.
18.- Otros sistemas recientes de bandidos contextuales incluyen NEXT y StreamingBandit, con algunas diferencias en capacidades.
19.- La no estacionariedad es un problema clave en la práctica, que requiere técnicas basadas en el tiempo y en conjuntos más allá de la teoría estándar.
20.- Los espacios de acción combinatorios como los rankings requieren enfoques especiales basados en semi-bandidos, submodularidad o modelos en cascada.
21.- La especificación de la función de recompensa es crítica y compleja, a menudo requiere mapear objetivos a largo plazo a buenos proxies a corto plazo.
22.- La codificación inteligente de recompensas, como el uso de recompensas no cero infrecuentes, puede reducir en gran medida la varianza y mejorar la eficiencia de los datos.
23.- A pesar de las brechas entre teoría y práctica, existen recetas viables para escenarios comunes en la formulación de problemas de bandidos contextuales.
24.- Un estudio de caso de Complex.com demuestra cómo los enfoques de bandidos contextuales pueden proporcionar beneficios sustanciales en el mundo real.
25.- La validación progresiva offline permite una evaluación rápida de nuevos modelos, características y algoritmos de exploración en datos reales.
26.- Las técnicas de bandidos contextuales han madurado para ser aptas para un consumo amplio, proporcionando ganancias sobre el aprendizaje supervisado con menos complejidad que el RL.
27.- Se necesita más investigación sobre algoritmos automáticos/sin parámetros y la expansión del subconjunto tratable de problemas de RL.
28.- Para los practicantes, los bandidos contextuales se están volviendo más fiables, robustos y utilizables para aplicaciones reales.
29.- Un ejemplo de aplicación es el uso de bandidos contextuales para personalizar la escritura basada en EEG para personas con discapacidad.
30.- La investigación se ha beneficiado de muchos colaboradores, con diapositivas y referencias disponibles en hunch.net.
Bóveda del Conocimiento construida porDavid Vivancos 2024