Conocimiento Bóveda 6 /20 - ICML 2016
Excavación de Datos Rigurosa: Teoría y Herramientas para el Análisis de Datos Adaptativo
Moritz Hardt & Aaron Roth
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4d4, font-weight:bold, font-size:14px classDef intro fill:#d4f9d4, font-weight:bold, font-size:14px classDef problems fill:#d4d4f9, font-weight:bold, font-size:14px classDef solutions fill:#f9f9d4, font-weight:bold, font-size:14px classDef dp fill:#f9d4f9, font-weight:bold, font-size:14px classDef results fill:#d4f9f9, font-weight:bold, font-size:14px Main["Excavación de Datos Rigurosa:
Teoría y Herramientas
para el Análisis de Datos
Adaptativo"] Main --> A["Introducción y Declaración del Problema"] A --> A1["Tutorial de excavación de datos rigurosa
en el Día del Padre 1"] A --> A2["Estafa de predicción de acciones ilustra
sobreajuste 2"] A --> A3["Ignorar el tamaño de la clase de hipótesis
causa sobreajuste 3"] A --> A4["El holdout previene el análisis estático
sobreajuste 4"] A --> A5["El análisis adaptativo revisa métodos
basados en resultados 5"] Main --> B["Desafíos en el Análisis Adaptativo"] B --> B1["Más holdouts permiten adaptabilidad,
costosamente 6"] B --> B2["Problemas adaptativos: p-hacking, husmeo,
caminos bifurcados 7"] B --> B3["Permitir adaptabilidad mientras se previene
el sobreajuste 8"] B --> B4["El marco de consultas estadísticas captura
tareas de análisis 9"] B --> B5["Adaptabilidad: siguiente consulta basada
en respuestas 10"] B --> B6["El estimador empírico falla con
consultas adaptativas 11"] Main --> C["Soluciones de Privacidad Diferencial"] C --> C1["La privacidad diferencial asegura estabilidad
distribucional 12"] C --> C2["DP se compone graciosamente, permite
diseño modular 13"] C --> C3["El mecanismo gaussiano responde n2
consultas adaptativas 14"] C --> C4["DP óptimo responde expn consultas adaptativas 15"] C --> C5["Teorema de transferencia: precisión de DP
en distribución 16"] C --> C6["Probar el teorema de transferencia mediante
experimento mental 17"] Main --> D["Algoritmos y Aplicaciones"] D --> D1["El mecanismo gaussiano permite n^2
consultas adaptativas 18"] D --> D2["DP ineficiente permite expn
consultas adaptativas 19"] D --> D3["El algoritmo ThresholdOut previene el sobreajuste 20"] D --> D4["Los experimentos muestran la efectividad de ThresholdOut 21"] Main --> E["Resultados e Implicaciones"] E --> E1["Los resultados se generalizan más allá de las expectativas 22"] E --> E2["El estudio teórico proporciona algoritmos,
reglas 23"] E --> E3["El principio de la escalera limita la fuga de información 24"] E --> E4["El análisis adaptativo con DP
previene el sobreajuste 25"] class Main main class A,A1,A2,A3,A4,A5 intro class B,B1,B2,B3,B4,B5,B6 problems class C,C1,C2,C3,C4,C5,C6 dp class D,D1,D2,D3,D4 solutions class E,E1,E2,E3,E4 results

Resumen:

1.- Tutorial sobre excavación de datos rigurosa, dado solo debido a que la esposa del co-tutor estaba embarazada de 38 semanas en el Día del Padre.

2.- Anécdota sobre una estafa de predicción de acciones por correo electrónico que ilustra el sobreajuste - enviando predicciones opuestas a muchos y solo continuando con el subconjunto correcto.

3.- El error fue no tener en cuenta el tamaño de la clase de hipótesis y la capacidad de sobreajustar. El p-hacking es un problema similar y extendido.

4.- Existen herramientas como el holdout para prevenir el sobreajuste en el análisis de datos estático, pero la práctica del análisis de datos es más adaptativa.

5.- En el análisis estático, se selecciona el método y luego se recopilan los datos. En el análisis adaptativo, el método se revisa en función de los resultados.

6.- Tener más conjuntos de holdout puede permitir la adaptabilidad, pero la cantidad de datos necesarios crece linealmente con las rondas de adaptabilidad, lo cual es costoso.

7.- Los problemas del análisis de datos adaptativo tienen muchos nombres - excavación de datos, husmeo, p-hacking, jardín de caminos bifurcados. Algunos proponen la preinscripción para combatirlo.

8.- El objetivo es permitir el análisis adaptativo mientras se previene el sobreajuste. Las soluciones potenciales miden la fuga de información para controlar la contaminación futura.

9.- El marco de consultas estadísticas captura muchas tareas de análisis de datos. El analista de datos interactúa con un estimador que tiene una muestra de una distribución desconocida.

10.- La adaptabilidad significa que el analista elige la siguiente consulta basada en respuestas anteriores. El estimador es preciso si whp todas las respuestas están cerca de la verdad.

11.- El estimador empírico es imparcial para consultas no adaptativas pero falla con consultas adaptativas - puede forzar cualquier clasificador a través de un procedimiento similar a "bagging".

12.- La noción de privacidad diferencial de estabilidad distribucional, robusta al post-procesamiento. Asegura probabilidades de salida similares en conjuntos de datos vecinos.

13.- La privacidad diferencial se compone graciosamente - ejecutar k algoritmos DP aumenta la pérdida de privacidad solo en sqrt(k). Permite el diseño modular de algoritmos DP.

14.- Algoritmo básico de DP: el mecanismo gaussiano agrega ruido N(0,1/αn) a la consulta. Puede responder n^2 consultas adaptativas para un error constante whp.

15.- Algoritmo DP eficiente óptimo puede responder exp(n) consultas adaptativas. Algoritmo ineficiente mantiene consistencia con respuestas hasta ahora, tiempo de ejecución exponencial.

16.- Teorema de transferencia: el estimador DP preciso en la muestra también es preciso en la distribución whp. Permite validez estadística bajo análisis adaptativo.

17.- Probar el teorema de transferencia mediante un experimento mental con T copias del analista interactuando con el estimador. DP significa que ninguna copia puede sobreajustar su muestra.

18.- El mecanismo gaussiano enchufado en el teorema de transferencia permite n^2 consultas adaptativas, una mejora cuadrática sobre el estimador empírico que es óptimo para estimadores eficientes.

19.- El estimador DP ineficiente permite exp(n) consultas adaptativas nuevamente cuando el tamaño de los datos excede la dimensión de los datos, de lo contrario se prefiere el mecanismo gaussiano.

20.- Algoritmo ThresholdOut: si las respuestas de consulta de holdout y entrenamiento están cerca, usar la respuesta de entrenamiento, de lo contrario, la respuesta de holdout perturbada. Permite muchas consultas si hay bajo sobreajuste.

21.- Los experimentos muestran que ThresholdOut previene el sobreajuste cuando no existe señal y encuentra el número correcto de características cuando existe una señal leve, a diferencia del holdout ingenuo.

22.- Los resultados se generalizan más allá de las expectativas a consultas de baja sensibilidad arbitrarias, consultas de optimización como ERM, y consultas de no baja sensibilidad como el cálculo de p-valor.

23.- Estudiar el análisis adaptativo teóricamente ayuda a entender los riesgos y beneficios de la adaptabilidad, proporciona algoritmos y reglas prácticas como el uso cuidadoso del holdout.

24.- "Principio de la escalera" - en competiciones de ML, no cambiar modelos por pequeñas mejoras en la tabla de clasificación, esperar ganancias sustanciales para limitar la fuga de información.

25.- La charla tuvo como objetivo permitir el análisis de datos adaptativo mientras se previene el sobreajuste a través de algoritmos diferenciales privados. Gracias por asistir en el Día del Padre.

Bóveda del Conocimiento construida por David Vivancos 2024