Conocimiento Bóveda 2/39 - ICLR 2014-2023
Nicolas Papernot, Martín Abadi, Úlfar Erlingsson, Ian Goodfellow, Kunal Talwar ICLR 2017 - Transferencia de Conocimiento Semi-supervisada para Aprendizaje Profundo a partir de Datos de Entrenamiento Privados
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef privacy fill:#f9d4d4, font-weight:bold, font-size:14px; classDef pate fill:#d4f9d4, font-weight:bold, font-size:14px; classDef student fill:#d4d4f9, font-weight:bold, font-size:14px; classDef experiments fill:#f9f9d4, font-weight:bold, font-size:14px; A[Nicolas Papernot et al
ICLR 2017] --> B[Aprendizaje privado: membresía,
amenazas de extracción de datos. 1] A --> C[Modelo de amenaza: adversarios
de caja blanca y caja negra. 2] A --> D[Cuantificación de privacidad: algoritmos
aleatorios revelan entrada. 3] A --> E[Objetivos: preservación de privacidad
genérica e intuitiva. 4] A --> F[PATE: Agregación Privada
de Conjuntos de Maestros. 5] F --> G[PATE: predicciones de conjuntos
de particiones disjuntas. 6] G --> H[Agregación: conteo de votos,
salida de máximo de votos. 7] H --> I[Acuerdo de maestros: pequeño
costo de privacidad. 8] F --> J[Agregación ruidosa: ruido
laplaciano para privacidad. 9] F --> K[Maestro agregado entrena
estudiante en datos públicos. 10] K --> L[Estudiante necesario: agregación
aumenta pérdida de privacidad. 11] K --> M[Estudiante desplegado, protege
privacidad de datos de entrenamiento. 12] A --> N[Privacidad diferencial cuantifica
garantías de privacidad. 13] N --> O[Contador de momentos analiza
privacidad de PATE. 14] O --> P[Quórums fuertes: pequeños
costos de privacidad, dependiente de datos. 15] A --> Q[PATE-G: variante generativa
usando GANs. 16] Q --> R[GANs: generador produce
datos sintéticos, discriminador clasifica. 17] R --> S[GAN semi-supervisado: discriminador
predice clase, real/falso. 18] Q --> T[Estudiante PATE-G: aprendizaje
semi-supervisado basado en GAN. 19] T --> U[Discriminador desplegado predice,
apunta a proteger privacidad. 20] A --> V[Experimentos: MNIST, SVHN,
UCI Adult, Diabetes datasets. 21] V --> W[Resultados: precisión del maestro
agregado en conjuntos de prueba. 22] V --> X[Compromiso privacidad-utilidad: precisión
del estudiante vs fuerza de privacidad. 23] V --> Y[PATE: precisión del estudiante
cercana a líneas base no privadas. 24] A --> Z[Más detalles: repositorio de código,
póster de conferencia. 25] class B,C,D,E,N,O,P privacy; class F,G,H,I,J,Q,R,S pate; class K,L,M,T,U student; class V,W,X,Y,Z experiments;

Resumen:

1.-Aprender de datos privados enfrenta desafíos como ataques de membresía y extracción de datos de entrenamiento.

2.-El modelo de amenaza asume que los adversarios pueden hacer consultas ilimitadas y acceder a los internos del modelo (caja blanca) o solo consultar el modelo (caja negra).

3.-Cuantificar la privacidad implica analizar algoritmos aleatorios para entender cómo diferentes respuestas revelan información sobre los datos de entrada.

4.-Los objetivos de diseño son preservar la privacidad de los datos de entrenamiento con garantías de privacidad diferencial de una manera genérica e intuitiva.

5.-PATE significa Agregación Privada de Conjuntos de Maestros. Separa los datos sensibles y entrena modelos de maestros en cada partición.

6.-En PATE, se agregan las predicciones de un conjunto de modelos de maestros entrenados en particiones de datos disjuntas.

7.-La agregación toma un conteo de votos de las predicciones de los maestros y emite la clase con el máximo de votos.

8.-Intuitivamente, si la mayoría de los maestros están de acuerdo en la etiqueta, no depende de particiones de datos específicas, por lo que el costo de privacidad es pequeño.

9.-Para proporcionar privacidad diferencial, se utiliza agregación ruidosa agregando ruido laplaciano a los conteos de votos antes de tomar el máximo.

10.-El maestro agregado se utiliza para entrenar un modelo de estudiante utilizando consultas sobre datos públicos disponibles.

11.-Es necesario entrenar un modelo de estudiante porque cada predicción del maestro agregado aumenta la pérdida de privacidad, e inspeccionar sus internos podría revelar datos privados.

12.-En el momento de la inferencia, el modelo de estudiante se despliega y está disponible para el adversario. Apunta a proporcionar privacidad para los datos de entrenamiento.

13.-La privacidad diferencial cuantifica las garantías de privacidad. Un algoritmo es diferencialmente privado si conjuntos de datos similares producen salidas estadísticamente cercanas.

14.-La técnica del contador de momentos se aplica para analizar las garantías de privacidad diferencial de PATE.

15.-Los quórums fuertes (acuerdo entre maestros) resultan en pequeños costos de privacidad. El límite de privacidad depende de los datos.

16.-PATE-G es una variante generativa de PATE que utiliza GANs.

17.-Los GANs tienen un generador que produce datos sintéticos y un discriminador que clasifica los datos como reales o falsos.

18.-En el entrenamiento GAN semi-supervisado, el discriminador también predice la clase para datos reales además de la distinción real/falso.

19.-En PATE-G, el estudiante se entrena utilizando aprendizaje semi-supervisado basado en GAN consultando al maestro agregado.

20.-Para el despliegue, se utiliza el componente discriminador del estudiante GAN para hacer predicciones mientras se apunta a proteger la privacidad.

21.-Los experimentos evalúan PATE en conjuntos de datos como MNIST, SVHN, UCI Adult y UCI Diabetes con varias arquitecturas de modelos.

22.-Los resultados muestran la precisión del conjunto de maestros agregados en los conjuntos de prueba.

23.-Existe un compromiso privacidad-utilidad entre la precisión del modelo de estudiante y la fuerza de las garantías de privacidad.

24.-PATE logra una precisión del estudiante cercana a las líneas base no privadas mientras proporciona garantías de privacidad diferencial significativas.

25.-Hay más detalles disponibles en el repositorio de código vinculado y en el póster de los autores en la conferencia.

Bóveda de Conocimiento construida porDavid Vivancos 2024