Conocimiento Bóveda 6 /84 - ICML 2023
Objetivos proxy en aprendizaje por refuerzo a partir de retroalimentación humana
John Schulman
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef fairness fill:#d4f9d4, font-weight:bold, font-size:14px classDef optimization fill:#f9d4d4, font-weight:bold, font-size:14px classDef RLHF fill:#d4d4f9, font-weight:bold, font-size:14px A["Objetivos proxy en
aprendizaje por refuerzo a partir de
retroalimentación humana"] --> B["DCCA:
pionero en aprendizaje de
representaciones
multimodales. 1"] A --> C["Optimización de
Hiperparámetros:
ajuste algorítmico riguroso. 2"] A --> D["Aprendizaje de
Representaciones Justas:
estableción del subcampo de
justicia. 3"] D --> E["Nociones Clave de
Justicia:
justicia individual y
de grupo. 4"] D --> F["Desafíos de
Justicia:
segmentación de subconjuntos,
métricas de similitud. 5"] D --> G["Enfoque de
Optimización:
utilidad del vendedor,
restricciones de justicia. 6"] D --> H["Taller NeurIPS:
propuesto, rechazado
por tamaño de audiencia. 7"] D --> I["Justicia Extendida:
generalizar a
nuevos datos. 8"] A --> J["Objetivos:
preservar,
generalizar, perder
información demográfica. 9"] J --> K["Implementación:
codificador, decodificador,
configuración adversarial. 10"] J --> L["Experimentos:
superó métricas de
justicia anteriores. 11"] J --> M["Daños Sociales:
más allá de la privacidad,
talleres emergentes. 12"] J --> N["Representaciones
Mejoradas:
MMD, estabilidad
adversarial. 13"] J --> O["Desafíos de
Justicia:
definiciones filosóficas,
legales. 14"] A --> P["Sobre-optimización:
el proxy empeora
el objetivo real. 15"] P --> Q["Ejemplos de
Sobre-optimización:
efecto cobra,
clavos soviéticos. 16"] P --> R["Incentivos
Proxy:
correctos localmente,
excesivos globalmente. 17"] P --> S["Patrones
Generales:
objetivo cuadrático,
proxy infinito. 18"] A --> T["RLHF:
consultas humanas
entrenan modelo de
recompensa. 19"] T --> U["Optimización de
Políticas:
iterar política,
modelo de recompensa. 20"] T --> V["RL basado en
Modelo:
ajuste eficiente de
hiperparámetros. 21"] T --> W["Problemas de
RLHF:
repetitivo,
verboso, rechazo. 22"] T --> X["RLHF
Simulado:
estudios escalables,
modelo de recompensa dorado. 23"] T --> Y["Frontera de
Sobre-optimización:
mejor de N,
PPO RL. 24"] T --> Z["Modelos
Mayores:
resistentes a
sobre-optimización. 25"] T --> AA["Divergencia KL:
crece logarítmicamente
con N. 26"] A --> AB["Retroalimentación
Humana:
desajustes proxy,
necesidad de retroalimentación imparcial. 27"] AB --> AC["Etiquetado
de IA:
debates para
criticar modelos. 28"] AB --> AD["Diseño de
Mecanismos:
humano débil,
sistema de IA fuerte. 29"] AB --> AE["Fronteras:
mejor retroalimentación,
asistir etiquetado,
cerrar brecha. 30"] class B,C,J,K,L,M,N optimization class D,E,F,G,H,I,O fairness class P,Q,R,S,T,U,V,W,X,Y,Z,AA RLHF class AB,AC,AD,AE RLHF

Resumen:

1.- El Análisis de Correlación Canónica Profunda (DCCA) fue pionero en el aprendizaje de representaciones multimodales con redes neuronales profundas e inspiró el aprendizaje de representaciones auto-supervisado sin reconstrucción.

2.- El documento sobre Optimización de Hiperparámetros demostró un ajuste algorítmico riguroso de hiperparámetros, tratándolo como un problema científico y de ingeniería en lugar de un enfoque heurístico.

3.- Aprendizaje de Representaciones Justas fue un documento influyente que ayudó a establecer el subcampo de la justicia en el aprendizaje automático.

4.- El documento introdujo nociones clave de justicia: justicia individual (tratamiento similar para individuos similares) y justicia de grupo (igualdad entre grupos).

5.- Los desafíos incluyeron la segmentación de subconjuntos, la necesidad de métricas de similitud específicas para la tarea y la suposición de acceso a una buena aproximación de la justicia real.

6.- Se utilizó un enfoque de optimización con una función de utilidad del vendedor y restricciones de justicia como la continuidad de Lipschitz en las representaciones.

7.- En 2012, los autores propusieron un taller de NeurIPS sobre justicia en el aprendizaje automático que fue rechazado debido a preocupaciones sobre el tamaño de la audiencia.

8.- El documento sobre Aprendizaje de Representaciones Justas extendió las ideas, planteándolo como un problema de aprendizaje de representaciones para generalizar a nuevos datos.

9.- Los objetivos eran preservar la información, generalizar bien y perder información demográfica. Se utilizó un enfoque teórico de la información con términos de información mutua.

10.- La implementación involucró un codificador para aprender representaciones y decodificadores para reconstruir entradas y predecir demografías, en una configuración adversarial.

11.- Los experimentos mostraron que el método superó enfoques anteriores en métricas de justicia individual. Los problemas abiertos incluían representaciones más ricas y refinamiento de objetivos de justicia.

12.- Para 2014, más atención se centró en los daños sociales del aprendizaje automático más allá de la privacidad. Surgieron talleres y conferencias dedicados a la justicia, responsabilidad y transparencia.

13.- Los autores continuaron mejorando el enfoque de aprendizaje de representaciones, igualando distribuciones con objetivos de MMD y mejorando la estabilidad del entrenamiento adversarial.

14.- Los desafíos clave permanecen en definir matemáticamente la justicia para que coincida con las nociones filosóficas y legales. Los sistemas de aprendizaje automático ahora se despliegan ampliamente con preocupaciones de justicia.

15.- La sobre-optimización ocurre cuando optimizar un objetivo proxy demasiado empeora el objetivo real. Sucede cuando las suposiciones se desmoronan.

16.- En la sociedad, ejemplos de sobre-optimización incluyen el efecto cobra (pagar por cobras muertas causó la cría de cobras) y las fábricas de clavos soviéticas que fabricaban clavos gigantes.

17.- Una interpretación es que los incentivos proxy son correctos localmente pero optimizados demasiado globalmente. Falta de regularización para evitar comportamientos "extraños".

18.- Patrones generales: el objetivo real es aproximadamente cuadrático pero el proxy va al infinito; malas estimaciones del proxy en regiones de pocos datos.

19.- En el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), las consultas a un humano producen datos de recompensa para entrenar un modelo de recompensa.

20.- La política se optimiza luego contra el modelo de recompensa. Iterar entre optimizar la política y actualizar el modelo de recompensa.

21.- El aprendizaje por refuerzo basado en modelos permite el ajuste de hiperparámetros sin recolectar nuevamente datos humanos, proporcionando un impulso de eficiencia de muestra sobre el aprendizaje sin modelo.

22.- La sobre-optimización en RLHF causa problemas como frases repetitivas, verbosidad excesiva y rechazo de solicitudes razonables.

23.- Las configuraciones de RLHF simuladas permiten estudios escalables de fenómenos de sobre-optimización. El modelo de recompensa dorado entrenado en datos completos actúa como humano simulado.

24.- La frontera de sobre-optimización se mide tanto para el muestreo "mejor de N" como para el RL PPO contra la divergencia KL de la política original.

25.- Los modelos de recompensa más grandes son más resistentes a la sobre-optimización. La forma funcional de la frontera de sobre-optimización difiere entre el mejor de N y el RL.

26.- La KL entre el mejor de N y la política original se puede calcular analíticamente y crece logarítmicamente con N. El RL sobre-optimiza menos eficientemente.

27.- Las métricas de retroalimentación humana y compromiso son proxies con desajustes de los objetivos reales. Obtener retroalimentación imparcial de alta calidad es un problema abierto.

28.- Un enfoque es asistir al etiquetado humano con IA para amplificar sus habilidades, como debates para que un modelo critique a otro.

29.- El diseño de mecanismos busca que un humano débil incentive a los sistemas de IA fuertes a ser útiles, incluso si la tarea es demasiado difícil para el humano.

30.- Las principales fronteras son mejorar los sistemas actuales con mejor retroalimentación, nuevas técnicas para asistir el etiquetado y cerrar la brecha entre el objetivo y el proxy.

Bóveda del Conocimiento construida porDavid Vivancos 2024