Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- Tutorial sobre excavación de datos rigurosa, dado solo debido a que la esposa del co-tutor estaba embarazada de 38 semanas en el Día del Padre.
2.- Anécdota sobre una estafa de predicción de acciones por correo electrónico que ilustra el sobreajuste - enviando predicciones opuestas a muchos y solo continuando con el subconjunto correcto.
3.- El error fue no tener en cuenta el tamaño de la clase de hipótesis y la capacidad de sobreajustar. El p-hacking es un problema similar y extendido.
4.- Existen herramientas como el holdout para prevenir el sobreajuste en el análisis de datos estático, pero la práctica del análisis de datos es más adaptativa.
5.- En el análisis estático, se selecciona el método y luego se recopilan los datos. En el análisis adaptativo, el método se revisa en función de los resultados.
6.- Tener más conjuntos de holdout puede permitir la adaptabilidad, pero la cantidad de datos necesarios crece linealmente con las rondas de adaptabilidad, lo cual es costoso.
7.- Los problemas del análisis de datos adaptativo tienen muchos nombres - excavación de datos, husmeo, p-hacking, jardín de caminos bifurcados. Algunos proponen la preinscripción para combatirlo.
8.- El objetivo es permitir el análisis adaptativo mientras se previene el sobreajuste. Las soluciones potenciales miden la fuga de información para controlar la contaminación futura.
9.- El marco de consultas estadísticas captura muchas tareas de análisis de datos. El analista de datos interactúa con un estimador que tiene una muestra de una distribución desconocida.
10.- La adaptabilidad significa que el analista elige la siguiente consulta basada en respuestas anteriores. El estimador es preciso si whp todas las respuestas están cerca de la verdad.
11.- El estimador empírico es imparcial para consultas no adaptativas pero falla con consultas adaptativas - puede forzar cualquier clasificador a través de un procedimiento similar a "bagging".
12.- La noción de privacidad diferencial de estabilidad distribucional, robusta al post-procesamiento. Asegura probabilidades de salida similares en conjuntos de datos vecinos.
13.- La privacidad diferencial se compone graciosamente - ejecutar k algoritmos DP aumenta la pérdida de privacidad solo en sqrt(k). Permite el diseño modular de algoritmos DP.
14.- Algoritmo básico de DP: el mecanismo gaussiano agrega ruido N(0,1/αn) a la consulta. Puede responder n^2 consultas adaptativas para un error constante whp.
15.- Algoritmo DP eficiente óptimo puede responder exp(n) consultas adaptativas. Algoritmo ineficiente mantiene consistencia con respuestas hasta ahora, tiempo de ejecución exponencial.
16.- Teorema de transferencia: el estimador DP preciso en la muestra también es preciso en la distribución whp. Permite validez estadística bajo análisis adaptativo.
17.- Probar el teorema de transferencia mediante un experimento mental con T copias del analista interactuando con el estimador. DP significa que ninguna copia puede sobreajustar su muestra.
18.- El mecanismo gaussiano enchufado en el teorema de transferencia permite n^2 consultas adaptativas, una mejora cuadrática sobre el estimador empírico que es óptimo para estimadores eficientes.
19.- El estimador DP ineficiente permite exp(n) consultas adaptativas nuevamente cuando el tamaño de los datos excede la dimensión de los datos, de lo contrario se prefiere el mecanismo gaussiano.
20.- Algoritmo ThresholdOut: si las respuestas de consulta de holdout y entrenamiento están cerca, usar la respuesta de entrenamiento, de lo contrario, la respuesta de holdout perturbada. Permite muchas consultas si hay bajo sobreajuste.
21.- Los experimentos muestran que ThresholdOut previene el sobreajuste cuando no existe señal y encuentra el número correcto de características cuando existe una señal leve, a diferencia del holdout ingenuo.
22.- Los resultados se generalizan más allá de las expectativas a consultas de baja sensibilidad arbitrarias, consultas de optimización como ERM, y consultas de no baja sensibilidad como el cálculo de p-valor.
23.- Estudiar el análisis adaptativo teóricamente ayuda a entender los riesgos y beneficios de la adaptabilidad, proporciona algoritmos y reglas prácticas como el uso cuidadoso del holdout.
24.- "Principio de la escalera" - en competiciones de ML, no cambiar modelos por pequeñas mejoras en la tabla de clasificación, esperar ganancias sustanciales para limitar la fuga de información.
25.- La charla tuvo como objetivo permitir el análisis de datos adaptativo mientras se previene el sobreajuste a través de algoritmos diferenciales privados. Gracias por asistir en el Día del Padre.
Bóveda del Conocimiento construida por David Vivancos 2024