Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- El Análisis de Correlación Canónica Profunda (DCCA) fue pionero en el aprendizaje de representaciones multimodales con redes neuronales profundas e inspiró el aprendizaje de representaciones auto-supervisado sin reconstrucción.
2.- El documento sobre Optimización de Hiperparámetros demostró un ajuste algorítmico riguroso de hiperparámetros, tratándolo como un problema científico y de ingeniería en lugar de un enfoque heurístico.
3.- Aprendizaje de Representaciones Justas fue un documento influyente que ayudó a establecer el subcampo de la justicia en el aprendizaje automático.
4.- El documento introdujo nociones clave de justicia: justicia individual (tratamiento similar para individuos similares) y justicia de grupo (igualdad entre grupos).
5.- Los desafíos incluyeron la segmentación de subconjuntos, la necesidad de métricas de similitud específicas para la tarea y la suposición de acceso a una buena aproximación de la justicia real.
6.- Se utilizó un enfoque de optimización con una función de utilidad del vendedor y restricciones de justicia como la continuidad de Lipschitz en las representaciones.
7.- En 2012, los autores propusieron un taller de NeurIPS sobre justicia en el aprendizaje automático que fue rechazado debido a preocupaciones sobre el tamaño de la audiencia.
8.- El documento sobre Aprendizaje de Representaciones Justas extendió las ideas, planteándolo como un problema de aprendizaje de representaciones para generalizar a nuevos datos.
9.- Los objetivos eran preservar la información, generalizar bien y perder información demográfica. Se utilizó un enfoque teórico de la información con términos de información mutua.
10.- La implementación involucró un codificador para aprender representaciones y decodificadores para reconstruir entradas y predecir demografías, en una configuración adversarial.
11.- Los experimentos mostraron que el método superó enfoques anteriores en métricas de justicia individual. Los problemas abiertos incluían representaciones más ricas y refinamiento de objetivos de justicia.
12.- Para 2014, más atención se centró en los daños sociales del aprendizaje automático más allá de la privacidad. Surgieron talleres y conferencias dedicados a la justicia, responsabilidad y transparencia.
13.- Los autores continuaron mejorando el enfoque de aprendizaje de representaciones, igualando distribuciones con objetivos de MMD y mejorando la estabilidad del entrenamiento adversarial.
14.- Los desafíos clave permanecen en definir matemáticamente la justicia para que coincida con las nociones filosóficas y legales. Los sistemas de aprendizaje automático ahora se despliegan ampliamente con preocupaciones de justicia.
15.- La sobre-optimización ocurre cuando optimizar un objetivo proxy demasiado empeora el objetivo real. Sucede cuando las suposiciones se desmoronan.
16.- En la sociedad, ejemplos de sobre-optimización incluyen el efecto cobra (pagar por cobras muertas causó la cría de cobras) y las fábricas de clavos soviéticas que fabricaban clavos gigantes.
17.- Una interpretación es que los incentivos proxy son correctos localmente pero optimizados demasiado globalmente. Falta de regularización para evitar comportamientos "extraños".
18.- Patrones generales: el objetivo real es aproximadamente cuadrático pero el proxy va al infinito; malas estimaciones del proxy en regiones de pocos datos.
19.- En el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), las consultas a un humano producen datos de recompensa para entrenar un modelo de recompensa.
20.- La política se optimiza luego contra el modelo de recompensa. Iterar entre optimizar la política y actualizar el modelo de recompensa.
21.- El aprendizaje por refuerzo basado en modelos permite el ajuste de hiperparámetros sin recolectar nuevamente datos humanos, proporcionando un impulso de eficiencia de muestra sobre el aprendizaje sin modelo.
22.- La sobre-optimización en RLHF causa problemas como frases repetitivas, verbosidad excesiva y rechazo de solicitudes razonables.
23.- Las configuraciones de RLHF simuladas permiten estudios escalables de fenómenos de sobre-optimización. El modelo de recompensa dorado entrenado en datos completos actúa como humano simulado.
24.- La frontera de sobre-optimización se mide tanto para el muestreo "mejor de N" como para el RL PPO contra la divergencia KL de la política original.
25.- Los modelos de recompensa más grandes son más resistentes a la sobre-optimización. La forma funcional de la frontera de sobre-optimización difiere entre el mejor de N y el RL.
26.- La KL entre el mejor de N y la política original se puede calcular analíticamente y crece logarítmicamente con N. El RL sobre-optimiza menos eficientemente.
27.- Las métricas de retroalimentación humana y compromiso son proxies con desajustes de los objetivos reales. Obtener retroalimentación imparcial de alta calidad es un problema abierto.
28.- Un enfoque es asistir al etiquetado humano con IA para amplificar sus habilidades, como debates para que un modelo critique a otro.
29.- El diseño de mecanismos busca que un humano débil incentive a los sistemas de IA fuertes a ser útiles, incluso si la tarea es demasiado difícil para el humano.
30.- Las principales fronteras son mejorar los sistemas actuales con mejor retroalimentación, nuevas técnicas para asistir el etiquetado y cerrar la brecha entre el objetivo y el proxy.
Bóveda del Conocimiento construida porDavid Vivancos 2024