Conocimiento Bóveda 6 /50 - ICML 2019
Sobre Calibración y Equidad
Kilian Weinberger
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4f9, font-weight:bold, font-size:14px classDef calibration fill:#f9d4d4, font-weight:bold, font-size:14px classDef fairness fill:#d4f9d4, font-weight:bold, font-size:14px classDef adversarial fill:#d4d4f9, font-weight:bold, font-size:14px classDef models fill:#f9f9d4, font-weight:bold, font-size:14px classDef techniques fill:#d4f9f9, font-weight:bold, font-size:14px Main["Sobre Calibración y
Equidad"] --> A["Calibración"] Main --> B["Equidad"] Main --> C["Ejemplos Adversariales"] Main --> D["Características del Modelo"] Main --> E["Técnicas y Métricas"] A --> A1["Calibración: coincidir probabilidades
predichas y reales 1"] A --> A2["Modelos de aprendizaje profundo a menudo
demasiado confiados 2"] A --> A3["Escalado de temperatura calibra redes
neuronales 3"] A --> A4["Calibración de grupo para diferentes
demografías 5"] A --> A5["ECE mide calidad de calibración 18"] A --> A6["La verosimilitud logarítmica puede causar
exceso de confianza 20"] B --> B1["Equidad: trato igualitario entre
grupos demográficos 4"] B --> B2["Teorema de imposibilidad: calibración vs
tasas iguales 6"] B --> B3["COMPASS predice reincidencia criminal 22"] B --> B4["Restricciones de equidad aseguran trato
igualitario 30"] B --> B5["Tasas de falsos positivos/negativos evalúan
rendimiento 17"] B --> B6["Sobreajuste: buen entrenamiento, mala
generalización 19"] C --> C1["Ejemplos adversariales causan clasificación
errónea con confianza 7"] C --> C2["Ataques de caja blanca usan
gradientes del modelo 8"] C --> C3["Ataques de caja negra usan
sólo predicciones 9"] C --> C4["SimBA: ejemplos adversariales eficientes
con consultas limitadas 10"] C --> C5["Sobreoptimización empuja ejemplos a
región mal clasificada 13"] C --> C6["Transferencia adversarial: crear nuevo
de existente 14"] D --> D1["DenseNet: arquitectura moderna de red
neuronal 21"] D --> D2["Extractores de características explotados por
ejemplos adversariales 23"] D --> D3["API de Google Cloud: modelo de
caja negra 25"] D --> D4["Logits: salidas no normalizadas de
redes neuronales 28"] D --> D5["Softmax convierte logits en
probabilidades 29"] D --> D6["Imágenes naturales robustas a
pequeñas perturbaciones 11"] E --> E1["Detección de adversariales usando diferencias
de robustez al ruido 12"] E --> E2["Caja gris: adversario desconoce
detección 15"] E --> E3["Ataques de caja blanca optimizan
contra detección 16"] E --> E4["Descenso de gradiente crea adversariales
de caja blanca 24"] E --> E5["Ruido gaussiano prueba robustez,
detecta adversariales 26"] E --> E6["PGD, Carlini-Wagner generan ejemplos
adversariales 27"] class Main main class A,A1,A2,A3,A4,A5,A6 calibration class B,B1,B2,B3,B4,B5,B6 fairness class C,C1,C2,C3,C4,C5,C6 adversarial class D,D1,D2,D3,D4,D5,D6 models class E,E1,E2,E3,E4,E5,E6 techniques

Resumen:

1.- Calibración: Asegurar que las probabilidades predichas coincidan con las probabilidades reales de los resultados.

2.- Modelos de aprendizaje profundo: A menudo demasiado confiados en las predicciones en comparación con redes neuronales más antiguas.

3.- Escalado de temperatura: Método simple para calibrar redes neuronales profundas dividiendo los logits por una constante.

4.- Equidad: Asegurar trato igualitario entre diferentes grupos demográficos en las predicciones de aprendizaje automático.

5.- Calibración de grupo: Calibrar predicciones por separado para diferentes grupos demográficos.

6.- Teorema de imposibilidad: No se puede lograr tanto la calibración por grupo como tasas iguales de falsos positivos/negativos entre demografías.

7.- Ejemplos adversariales: Cambios imperceptibles en las entradas que hacen que los modelos de aprendizaje automático clasifiquen incorrectamente con alta confianza.

8.- Ataques de caja blanca: Creación de ejemplos adversariales con acceso a los gradientes del modelo.

9.- Ataques de caja negra: Creación de ejemplos adversariales sin acceso a los internos del modelo, solo predicciones.

10.- Ataque de Caja Negra Simple (SimBA): Método eficiente para crear ejemplos adversariales con consultas limitadas al modelo objetivo.

11.- Robustez al ruido: Las imágenes naturales mantienen la clasificación bajo pequeñas perturbaciones aleatorias.

12.- Detección de ejemplos adversariales: Aprovechando las diferencias en la robustez al ruido entre imágenes naturales y adversariales.

13.- Sobreoptimización: Ejemplos adversariales empujados lejos en la región mal clasificada para evadir detección.

14.- Transferencia adversarial: Dificultad para crear nuevos ejemplos adversariales a partir de los existentes.

15.- Ataques de caja gris: El adversario desconoce el método de detección que se está utilizando.

16.- Ataques de caja blanca contra detección: El adversario es consciente de y optimiza contra un método de detección específico.

17.- Tasas de falsos positivos/negativos: Métricas para evaluar la equidad y el rendimiento de detección.

18.- Error de Calibración Esperado (ECE): Medida de la calidad de calibración, comparando probabilidades predichas con reales.

19.- Sobreajuste: Fenómeno donde el modelo funciona bien en los datos de entrenamiento pero mal en nuevos datos.

20.- Verosimilitud logarítmica: Función objetivo a menudo utilizada en el entrenamiento que puede llevar a exceso de confianza.

21.- DenseNet: Arquitectura de aprendizaje profundo mencionada como ejemplo de redes neuronales modernas.

22.- Sistema COMPASS: Sistema automatizado para predecir la reincidencia criminal, utilizado como ejemplo en la discusión de equidad.

23.- Extractores de características: Componentes de modelos de aprendizaje automático que pueden ser explotados por ejemplos adversariales.

24.- Descenso de gradiente: Método de optimización utilizado en la creación de ejemplos adversariales de caja blanca.

25.- API de Google Cloud: Ejemplo de un modelo de caja negra que puede ser atacado con consultas limitadas.

26.- Ruido gaussiano: Perturbaciones aleatorias utilizadas para probar la robustez de las imágenes y detectar ejemplos adversariales.

27.- Ataques PGD y Carlini-Wagner: Métodos comunes para generar ejemplos adversariales.

28.- Logits: Salidas no normalizadas de redes neuronales antes de la función de activación final.

29.- Softmax: Función utilizada para convertir logits en distribuciones de probabilidad.

30.- Restricciones de equidad: Condiciones impuestas a modelos para asegurar trato igualitario entre demografías.

Bóveda del Conocimiento construida porDavid Vivancos 2024