Conocimiento Bóveda 6 /42 - ICML 2019
La Oficina del Censo de EE.UU. Intenta Ser un Buen Administrador de Datos en el Siglo XXI
John M. Abowd
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4f9, font-weight:bold, font-size:14px classDef census fill:#f9d4d4, font-weight:bold, font-size:14px classDef privacy fill:#d4f9d4, font-weight:bold, font-size:14px classDef disentanglement fill:#d4d4f9, font-weight:bold, font-size:14px classDef challenges fill:#f9f9d4, font-weight:bold, font-size:14px classDef future fill:#d4f9f9, font-weight:bold, font-size:14px Main["La Oficina del Censo
de EE.UU. Intenta
Ser un Buen
Administrador de Datos
en el Siglo XXI"] --> A["Visión General del Censo"] Main --> B["Preocupaciones de Privacidad"] Main --> C["Aprendizaje de Desenredo"] Main --> D["Desafíos y Limitaciones"] Main --> E["Direcciones Futuras"] A --> A1["Abowd: Director de Investigación del Censo,
Científico Jefe 1"] A --> A2["Censo 2020: conteo preciso, proteger
privacidad 2"] A --> A3["Recopilar datos demográficos de
residentes de EE.UU. 3"] A --> A4["Productos clave: distribución, redistribución,
demografía 4"] A --> A5["Investigó vulnerabilidad de datos 2010 a
ataques 5"] A --> A6["Censo 2020 usa sistema de privacidad diferencial
12"] B --> B1["Reconstruyó registros individuales de datos
publicados 6"] B --> B2["Demasiadas estadísticas comprometen privacidad 7"] B --> B3["Compromiso privacidad-precisión en publicación de estadísticas 8"] B --> B4["Privacidad diferencial protege confidencialidad,
reduce precisión 9"] B --> B5["Desafío privacidad-precisión para agencias, empresas
tecnológicas 10"] B --> B6["Científicos sociales, informáticos determinan
equilibrio óptimo 11"] C --> C1["Desenredo no supervisado: capturar factores generativos 14"] C --> C2["Desenredo no supervisado imposible para datos
arbitrarios 15"] C --> C3["Estudio empírico en conjuntos de datos comunes
de desenredo 16"] C --> C4["Método importa menos que hiperparámetros,
semillas 17"] C --> C5["No hay tendencias consistentes en configuraciones de
hiperparámetros 18"] C --> C6["Desenredo: mapeo 1-a-1 de características a
factores 28"] D --> D1["Transferencia de hiperparámetros funciona algo entre
conjuntos de datos 19"] D --> D2["Semilla aleatoria, hiperparámetros causan alta
varianza 20"] D --> D3["Selección de modelo no supervisado sigue siendo un
problema abierto 21"] D --> D4["Métricas no supervisadas no correlacionan con
desenredo 22"] D --> D5["Imposibilidad: dos modelos, mismos datos,
representaciones diferentes 29"] D --> D6["Datos no supervisados no pueden identificar el
modelo verdadero 30"] E --> E1["Evaluó precisión, pérdida de privacidad para
decisiones 13"] E --> E2["Sesgos inductivos explícitos, supervisión evitan
sesgo 23"] E --> E3["Beneficios del desenredo para tareas aún
inciertos 24"] E --> E4["Pequeña supervisión permite selección, mejora
aprendizaje 25"] E --> E5["Desenredo puede beneficiar eficiencia, equidad 26"] E --> E6["Conjunto de datos de robótica del mundo real fomenta
investigación más amplia 27"] class Main main class A,A1,A2,A3,A4,A5,A6 census class B,B1,B2,B3,B4,B5,B6 privacy class C,C1,C2,C3,C4,C5,C6 disentanglement class D,D1,D2,D3,D4,D5,D6 challenges class E,E1,E2,E3,E4,E5,E6 future

Resumen:

1.- John M. Abowd es el Director Asociado de Investigación y Metodología y Científico Jefe de la Oficina del Censo de EE.UU.

2.- El Censo de EE.UU. de 2020 tiene como objetivo contar con precisión a la población mientras protege la privacidad individual, lo cual es un desafío.

3.- El Censo de 2020 recopilará datos demográficos básicos de todos los residentes de EE.UU. al 1 de abril de 2020.

4.- Los productos clave de datos del Censo incluyen conteos de distribución, datos de redistribución y características demográficas y de vivienda.

5.- En 2016, la Oficina del Censo comenzó a investigar si los datos publicados del Censo de 2010 eran vulnerables a la reconstrucción de bases de datos y ataques de reidentificación.

6.- Usando solo datos publicados del Censo de 2010, la Oficina del Censo reconstruyó registros individuales y reidentificó una porción vinculándolos a bases de datos comerciales.

7.- Esto demostró que publicar demasiadas estadísticas de una base de datos confidencial permite reconstruir datos individuales, comprometiendo la privacidad.

8.- La ley fundamental de recuperación de información impone un compromiso privacidad-precisión al publicar estadísticas de datos confidenciales.

9.- Los sistemas de privacidad formales como la privacidad diferencial pueden proteger la confidencialidad de manera demostrable pero reducen la precisión de las estadísticas publicadas.

10.- Las agencias estadísticas y las empresas tecnológicas enfrentan el mismo desafío del compromiso privacidad-precisión al usar datos confidenciales.

11.- Los científicos sociales necesitan trabajar con los informáticos para determinar el equilibrio óptimo privacidad-precisión para cada caso de uso.

12.- La Oficina del Censo estableció un sistema formal de privacidad diferencial para el Censo de 2020 para proteger la privacidad individual.

13.- Se evaluó la precisión y la pérdida de privacidad de los productos de datos del Censo de 2020 para informar decisiones políticas sobre el compromiso privacidad-precisión.

14.- El aprendizaje no supervisado de representaciones desenredadas de datos tiene como objetivo capturar factores generativos de variación en diferentes partes de la representación.

15.- Los resultados teóricos muestran que el aprendizaje de desenredo no supervisado es imposible para datos arbitrarios, en contraste con el aprendizaje supervisado.

16.- Un estudio empírico investigó si las representaciones desenredadas pueden aprenderse de manera no supervisada en conjuntos de datos comunes utilizados en la literatura de desenredo.

17.- El estudio encontró que el método específico de desenredo importa menos que las configuraciones de hiperparámetros y semillas aleatorias para el rendimiento del desenredo.

18.- No hay tendencias consistentes en las configuraciones de hiperparámetros que mejoren el desenredo en diferentes conjuntos de datos.

19.- Transferir buenos hiperparámetros entre conjuntos de datos similares funciona hasta cierto punto, pero no perfectamente.

20.- La elección de semilla aleatoria e hiperparámetros causa alta varianza en las puntuaciones de desenredo para el mismo método.

21.- La selección de modelos no supervisada para identificar el modelo más desenredado de un conjunto de modelos entrenados sigue siendo un problema abierto.

22.- Las métricas no supervisadas comúnmente rastreadas como el error de reconstrucción no correlacionan de manera confiable con las puntuaciones de desenredo.

23.- El papel de los sesgos inductivos y la supervisión en el aprendizaje de desenredo debe hacerse explícito para evitar sesgar los conocimientos científicos.

24.- Los beneficios concretos de las representaciones desenredadas para tareas posteriores aún no están claros y deben investigarse más a fondo.

25.- Trabajos de seguimiento encontraron que una pequeña cantidad de supervisión permite la selección de modelos y mejora el aprendizaje de desenredo.

26.- En algunos escenarios, el desenredo puede proporcionar beneficios de eficiencia de muestra y equidad para tareas posteriores.

27.- Se recopiló un conjunto de datos de robótica del mundo real para fomentar la investigación sobre desenredo más allá de conjuntos de datos de juguete.

28.- El desenredo se define formalmente como tener un mapeo 1-a-1 entre cada característica aprendida y un factor generativo de verdad fundamental.

29.- El resultado de imposibilidad construye dos modelos generativos que podrían producir los mismos datos pero con diferentes representaciones entrelazadas.

30.- Con solo datos no supervisados, el modelo generativo verdadero es inidentificable, haciendo el desenredo imposible sin suposiciones adicionales para excluir modelos alternativos.

Bóveda del Conocimiento construida por David Vivancos 2024