Conocimiento Bóveda 6 /30 - ICML 2017
Aprendizaje Automático Interpretativo
Been Kim & Finale Doshi-Velez
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef importance fill:#f9d4d4, font-weight:bold, font-size:14px classDef approaches fill:#d4f9d4, font-weight:bold, font-size:14px classDef models fill:#d4d4f9, font-weight:bold, font-size:14px classDef posthoc fill:#f9f9d4, font-weight:bold, font-size:14px classDef challenges fill:#f9d4f9, font-weight:bold, font-size:14px Main["Aprendizaje Automático Interpretativo"] Main --> A["El ML interpretativo evita
consecuencias dañinas 1"] A --> B["Crucial en dominios de
alto riesgo como la salud 2"] A --> C["La comunidad de ML está
desarrollando herramientas de interpretabilidad 3"] A --> D["El problema de entender sistemas
complejos precede al ML 4"] A --> E["El ML ubicuo hace que
la interpretabilidad sea más importante 5"] Main --> F["Necesario para problemas
subespecificados sin funciones de costo 6"] F --> G["Ejemplos: coches autónomos,
depuración, descubrimiento científico 7"] F --> H["No necesario para
problemas bien estudiados 8"] Main --> I["Enfoques: pre-modelado, inherentemente
interpretables, explicaciones post-hoc 9"] I --> J["Facetas: herramienta de código abierto
para visualización de conjuntos de datos 10"] J --> K["Análisis exploratorio de datos
visualiza propiedades del conjunto de datos 11"] J --> L["MMD-critic selecciona puntos
de datos prototípicos y críticos 12"] I --> M["Modelos inherentemente interpretables: basados en reglas,
por característica, modelos monótonos 13"] M --> N["Modelos basados en reglas pueden
volverse complejos 14"] M --> O["Modelos aditivos generalizados:
complejos pero interpretables 15"] M --> P["Modelos basados en casos usan
ejemplos para explicar 16"] P --> Q["Limitaciones: falta de representantes,
sobregeneralización humana 17"] I --> R["Post-hoc: explicar modelos
después de ser construidos 18"] R --> S["Análisis de sensibilidad: perturbar
entradas, observar salidas 19"] R --> T["LIME: explicaciones locales
agnósticas al modelo 20"] R --> U["Mapas de saliencia: gradiente
de salida a entrada 21"] R --> V["Gradientes integrados: atribución
usando integral de camino 22"] R --> W["Vectores de activación de conceptos:
alinear con conceptos humanos 23"] R --> X["Funciones de influencia: estimar
impacto de puntos de entrenamiento 24"] Main --> Y["Modelos monótonos codifican
conocimiento del dominio 25"] Y --> Z["Explicaciones basadas en ejemplos para
puntos de datos complejos 26"] Z --> AA["Los expertos pueden actualizar
prototipos y críticas 27"] Main --> AB["Limitaciones de modelos interpretables
en representación de relaciones 28"] AB --> AC["Escasez de características y
monotonía limitan expresividad 29"] AB --> AD["Preguntas abiertas: se necesita colaboración
interdisciplinaria 30"] class A,B,C,D,E importance class F,G,H,I approaches class J,K,L,M,N,O,P,Q models class R,S,T,U,V,W,X posthoc class Y,Z,AA,AB,AC,AD challenges

Resumen:

1.- El aprendizaje automático interpretativo tiene como objetivo ayudar a entender qué hacen los modelos complejos de aprendizaje automático para evitar consecuencias dañinas no deseadas.

2.- La interpretabilidad es importante cuando el aprendizaje automático se utiliza en dominios de alto riesgo como la salud, donde los errores pueden ser muy costosos.

3.- La comunidad de aprendizaje automático ha estado trabajando cada vez más en herramientas y técnicas de interpretabilidad durante la última década.

4.- Los sistemas complejos y los humanos que no los entienden completamente han sido un problema antes, como con los sistemas expertos en los años 80.

5.- La abundancia de datos y el cálculo barato hoy en día hace que el aprendizaje automático sea ubicuo y que la interpretabilidad sea más importante que nunca.

6.- La interpretabilidad es necesaria cuando el problema está fundamentalmente subespecificado y no se puede escribir claramente en una función de costo.

7.- Ejemplos de problemas subespecificados son los coches autónomos, la depuración de modelos y el descubrimiento científico donde las respuestas correctas no se conocen completamente.

8.- La interpretabilidad no es necesaria cuando se puede razonar sobre la pérdida esperada o el problema está suficientemente bien estudiado.

9.- Los enfoques para la interpretabilidad incluyen hacerlo antes del modelado (análisis de datos), modelos inherentemente interpretables y explicaciones post-hoc de modelos de caja negra.

10.- Facetas es una herramienta de código abierto de Google para ayudar a visualizar y entender conjuntos de datos antes del modelado.

11.- El análisis exploratorio de datos, acuñado por John Tukey, se refiere a visualizar e investigar las propiedades de los datos.

12.- MMD-critic es un método para seleccionar puntos de datos prototípicos y críticos para entender eficientemente los conjuntos de datos.

13.- Los modelos inherentemente interpretables incluyen modelos basados en reglas, modelos por característica como la regresión lineal/logística y modelos monótonos.

14.- Los modelos basados en reglas como los árboles de decisión y las listas de reglas pueden volverse bastante complejos y difíciles de interpretar para los humanos.

15.- Los modelos aditivos generalizados aprenden funciones de forma para cada característica para permitir relaciones complejas pero interpretables.

16.- Los modelos interpretables basados en casos usan ejemplos para explicar, como prototipos para clústeres o críticas para mostrar puntos no representados.

17.- Las limitaciones de los modelos basados en casos incluyen la posible falta de ejemplos representativos y la sobregeneralización de los humanos a partir de casos individuales.

18.- Los enfoques de interpretabilidad post-hoc tienen como objetivo explicar los modelos después de que se construyen, como el análisis de sensibilidad y los mapas de saliencia.

19.- El análisis de sensibilidad implica perturbar las entradas y ver el impacto en las salidas para entender la importancia de las características y las interacciones.

20.- LIME explica la decisión de un clasificador sobre un punto de datos perturbándolo y ajustando un modelo interpretable localmente.

21.- Los mapas de saliencia toman el gradiente de la salida con respecto a la entrada para mostrar la influencia de cada característica.

22.- Los gradientes integrados atribuyen la predicción de una red profunda a sus características de entrada utilizando una integral de camino.

23.- Los vectores de activación de conceptos muestran cómo las representaciones internas de las redes neuronales se alinean con conceptos interpretables por humanos.

24.- Las funciones de influencia estiman el impacto de cada punto de entrenamiento en las predicciones de un modelo para entender y depurar.

25.- Los modelos monótonos imponen relaciones monótonas entre ciertas características y la salida, codificando conocimiento del dominio para un mejor aprendizaje con menos datos.

26.- Las explicaciones basadas en ejemplos funcionan bien para puntos de datos complejos como piezas de código que los expertos en el dominio pueden entender fácilmente.

27.- Los expertos como médicos y científicos de datos pueden actualizar interactivamente prototipos y críticas para alinear las explicaciones con su conocimiento.

28.- Los modelos inherentemente interpretables pueden no siempre ser capaces de representar relaciones de manera escasa y simulable.

29.- La escasez de características y la monotonía pueden ser útiles para la interpretabilidad pero tienen limitaciones en el poder expresivo.

30.- El tutorial plantea preguntas abiertas y discusiones sobre la interpretabilidad y llama a una mayor colaboración interdisciplinaria, como con HCI.

Bóveda de Conocimiento construida porDavid Vivancos 2024