Conocimiento Bóveda 6 /50 - ICML 2019
Sobre Calibración y Equidad
Kilian Weinberger
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

Sobre Calibración y
Equidad
Calibración
Equidad
Ejemplos Adversariales
Características del Modelo
Técnicas y Métricas
Calibración: coincidir probabilidades
predichas y reales 1
Modelos de aprendizaje profundo a menudo
demasiado confiados 2
Escalado de temperatura calibra redes
neuronales 3
Calibración de grupo para diferentes
demografías 5
ECE mide calidad de calibración 18
La verosimilitud logarítmica puede causar
exceso de confianza 20
Equidad: trato igualitario entre
grupos demográficos 4
Teorema de imposibilidad: calibración vs
tasas iguales 6
COMPASS predice reincidencia criminal 22
Restricciones de equidad aseguran trato
igualitario 30
Tasas de falsos positivos/negativos evalúan
rendimiento 17
Sobreajuste: buen entrenamiento, mala
generalización 19
Ejemplos adversariales causan clasificación
errónea con confianza 7
Ataques de caja blanca usan
gradientes del modelo 8
Ataques de caja negra usan
sólo predicciones 9
SimBA: ejemplos adversariales eficientes
con consultas limitadas 10
Sobreoptimización empuja ejemplos a
región mal clasificada 13
Transferencia adversarial: crear nuevo
de existente 14
DenseNet: arquitectura moderna de red
neuronal 21
Extractores de características explotados por
ejemplos adversariales 23
API de Google Cloud: modelo de
caja negra 25
Logits: salidas no normalizadas de
redes neuronales 28
Softmax convierte logits en
probabilidades 29
Imágenes naturales robustas a
pequeñas perturbaciones 11
Detección de adversariales usando diferencias
de robustez al ruido 12
Caja gris: adversario desconoce
detección 15
Ataques de caja blanca optimizan
contra detección 16
Descenso de gradiente crea adversariales
de caja blanca 24
Ruido gaussiano prueba robustez,
detecta adversariales 26
PGD, Carlini-Wagner generan ejemplos
adversariales 27

Resumen:

1.- Calibración: Asegurar que las probabilidades predichas coincidan con las probabilidades reales de los resultados.

2.- Modelos de aprendizaje profundo: A menudo demasiado confiados en las predicciones en comparación con redes neuronales más antiguas.

3.- Escalado de temperatura: Método simple para calibrar redes neuronales profundas dividiendo los logits por una constante.

4.- Equidad: Asegurar trato igualitario entre diferentes grupos demográficos en las predicciones de aprendizaje automático.

5.- Calibración de grupo: Calibrar predicciones por separado para diferentes grupos demográficos.

6.- Teorema de imposibilidad: No se puede lograr tanto la calibración por grupo como tasas iguales de falsos positivos/negativos entre demografías.

7.- Ejemplos adversariales: Cambios imperceptibles en las entradas que hacen que los modelos de aprendizaje automático clasifiquen incorrectamente con alta confianza.

8.- Ataques de caja blanca: Creación de ejemplos adversariales con acceso a los gradientes del modelo.

9.- Ataques de caja negra: Creación de ejemplos adversariales sin acceso a los internos del modelo, solo predicciones.

10.- Ataque de Caja Negra Simple (SimBA): Método eficiente para crear ejemplos adversariales con consultas limitadas al modelo objetivo.

11.- Robustez al ruido: Las imágenes naturales mantienen la clasificación bajo pequeñas perturbaciones aleatorias.

12.- Detección de ejemplos adversariales: Aprovechando las diferencias en la robustez al ruido entre imágenes naturales y adversariales.

13.- Sobreoptimización: Ejemplos adversariales empujados lejos en la región mal clasificada para evadir detección.

14.- Transferencia adversarial: Dificultad para crear nuevos ejemplos adversariales a partir de los existentes.

15.- Ataques de caja gris: El adversario desconoce el método de detección que se está utilizando.

16.- Ataques de caja blanca contra detección: El adversario es consciente de y optimiza contra un método de detección específico.

17.- Tasas de falsos positivos/negativos: Métricas para evaluar la equidad y el rendimiento de detección.

18.- Error de Calibración Esperado (ECE): Medida de la calidad de calibración, comparando probabilidades predichas con reales.

19.- Sobreajuste: Fenómeno donde el modelo funciona bien en los datos de entrenamiento pero mal en nuevos datos.

20.- Verosimilitud logarítmica: Función objetivo a menudo utilizada en el entrenamiento que puede llevar a exceso de confianza.

21.- DenseNet: Arquitectura de aprendizaje profundo mencionada como ejemplo de redes neuronales modernas.

22.- Sistema COMPASS: Sistema automatizado para predecir la reincidencia criminal, utilizado como ejemplo en la discusión de equidad.

23.- Extractores de características: Componentes de modelos de aprendizaje automático que pueden ser explotados por ejemplos adversariales.

24.- Descenso de gradiente: Método de optimización utilizado en la creación de ejemplos adversariales de caja blanca.

25.- API de Google Cloud: Ejemplo de un modelo de caja negra que puede ser atacado con consultas limitadas.

26.- Ruido gaussiano: Perturbaciones aleatorias utilizadas para probar la robustez de las imágenes y detectar ejemplos adversariales.

27.- Ataques PGD y Carlini-Wagner: Métodos comunes para generar ejemplos adversariales.

28.- Logits: Salidas no normalizadas de redes neuronales antes de la función de activación final.

29.- Softmax: Función utilizada para convertir logits en distribuciones de probabilidad.

30.- Restricciones de equidad: Condiciones impuestas a modelos para asegurar trato igualitario entre demografías.

Bóveda del Conocimiento construida porDavid Vivancos 2024