Conocimiento Bóveda 2/82 - ICLR 2014-2023
Been Kim ICLR 2022 - Conferencia Invitada - Más allá de la interpretabilidad: desarrollando un lenguaje para moldear nuestras relaciones con la IA
<Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef medicine fill:#f9d4d4, font-weight:bold, font-size:14px; classDef science fill:#d4f9d4, font-weight:bold, font-size:14px; classDef practical fill:#d4d4f9, font-weight:bold, font-size:14px; classDef theoretical fill:#f9f9d4, font-weight:bold, font-size:14px; classDef future fill:#f9d4f9, font-weight:bold, font-size:14px; A[Been Kim
ICLR 2022] --> B[Medicina: TCAP alinea predicciones
con conocimiento. 1] A --> C[Ciencia: TCAP conecta
ML y expertos. 2] A --> D[Práctico: Popularidad de TCAP en Google,
premio UNESCO. 3] A --> E[Ciencia: Descomponer embeddings
revela conceptos. 4] E --> F[Ciencia: El modelo atiende a
características específicas de clase. 5] E --> G[Teórico: Medir la completitud del
concepto es posible. 6] E --> H[Ciencia: Dissect entrena modelo
en gradientes de clasificación. 7] E --> I[Teórico: Existen limitaciones de los
métodos de expansión actuales. 8] A --> J[Práctico: Estudio de AlphaZero proporciona
perspectiva sobre expansión. 9] J --> K[Ciencia: Conceptos de ajedrez humano
existen en AlphaZero. 10] J --> L[Ciencia: El desarrollo de AlphaZero difiere
del de los humanos. 11] J --> M[Práctico: Herramienta NMF explora
representaciones de AlphaZero. 12] A --> N[Teórico: Desalineación humano-máquina
inspira creatividad. 13] N --> O[Práctico: Mood Board permite
diálogo visual. 14] N --> P[Práctico: La perspectiva de la máquina ayuda
a los artistas a ver diferente. 15] N --> Q[Práctico: Concept Camera ve
a través de ojos conceptuales. 16] N --> R[Teórico: Proyectos de diálogo humano-máquina
expanden conocimiento. 17] A --> S[Práctico: Colaboradores moldearon el lenguaje
que influye en oportunidades. 18] A --> T[Teórico: Visualización de ML implica
escepticismo, necesidad de pruebas. 19] T --> U[Teórico: Esfuerzos paralelos en ciencia e ingeniería
sacan a la luz errores. 20] T --> V[Teórico: Colaboración en psicología humana
crucial dada las sesgos. 21] T --> W[Teórico: Equilibrio entre interpretabilidad inherente y
explicaciones post-hoc. 22] T --> X[Práctico: Inserción de errores prueba
métodos de explicación. 23] T --> Y[Teórico: Los mapas de saliencia pueden
reflejar variabilidad de datos. 24] T --> Z[Teórico: Diferencias de percepción humano-máquina
subyacen limitaciones. 25] A --> AA[Práctico: TCAP aplicado a
diversos tipos de datos. 26] A --> AB[Futuro: Lenguaje abstracto de interpretabilidad
permite alineación. 27] AB --> AC[Futuro: Lenguaje permite comunicación accesible
entre expertos y legos. 28] A --> AD[Ciencia: TCAV mejora comprensión de
modelos de PLN. 29] A --> AE[Teórico: Métodos deben considerar
cognición humana. 30] class B,C medicine; class D,E,F,G,H,I,J,K,L,M,U,V,W,Y,Z,AA,AD,AE science; class N,O,P,Q,R,S,T,X practical; class AB,AC future;

Resumen:

1.-Los artículos que utilizan TCAP en medicina y ciencia proporcionan la mejor evidencia, permitiendo que las predicciones del modelo se alineen con el conocimiento y las guías médicas actuales.

2.-El uso de conceptos familiares para los médicos hace que el lenguaje funcione tanto para investigadores de aprendizaje automático como para expertos en otros campos.

3.-El trabajo de TCAP es ampliamente popular en Google, destacado por Sundar Pichai, y ganó un Premio NetExplorer de la UNESCO por su impacto potencial.

4.-Para expandir el conocimiento, los ejemplos descomponen el espacio de embeddings usando PCA o clustering para revelar conceptos de máquinas expresados de maneras comprensibles para los humanos.

5.-Un modelo entrenado presta atención a baldosas en una plataforma para una clase, y a humanos sosteniendo mancuernas para la clase de mancuernas.

6.-Es posible medir la completitud de los conceptos descubiertos, aunque los conceptos de las máquinas pueden ser demasiado salvajes para expresarse usando imágenes disponibles.

7.-El artículo Dissect entrena un modelo generativo usando gradientes de un modelo de clasificación entrenado para dibujar los conceptos aprendidos por la máquina.

8.-Existen limitaciones en los métodos actuales para expandir el conocimiento, como validar nuevos conceptos en conjuntos de datos sintéticos limitados o con expertos en el dominio.

9.-Un estudio en profundidad de cómo el modelo de ajedrez autoentrenado AlphaZero ve el mundo proporciona una perspectiva sobre la expansión de la base compartida con los humanos.

10.-Conceptos de ajedrez humano como el desequilibrio material y estar en jaque existen en AlphaZero, pero cuándo y dónde se aprenden varía.

11.-El desarrollo del ajedrez en AlphaZero difiere del de los humanos, con movimientos de apertura más diversos y un momento "aha" donde las habilidades explotan y emerge el estilo.

12.-Una herramienta que utiliza la factorización de matrices no negativas permite explorar el espacio representacional de AlphaZero, marcando un primer paso hacia muchos trabajos de seguimiento potenciales.

13.-La falta de alineación entre humanos y máquinas podría inspirar la creatividad humana, como se explora en un proyecto de código abierto con diseñadores y artistas.

14.-Mood Board Search permite el diálogo visual, con humanos proporcionando imágenes iniciales y máquinas respondiendo basándose en su diferente mapeo representacional.

15.-Los artistas encontraron que la perspectiva diferente de la máquina les ayudó a ver su propia fotografía de nuevas maneras y escapar de lo ordinario.

16.-Concept Camera, otra aplicación de código abierto, permite ver a través de tu cámara desde los ojos conceptuales de otra persona.

17.-Los proyectos que sacan a la luz ideas sorprendentes en los humanos representan una forma diferente de expandir el conocimiento a través del diálogo humano-máquina basado en conceptos.

18.-Muchos colaboradores a lo largo de los años contribuyeron a moldear la oportunidad de influir en el pensamiento humano y máquina y en las relaciones futuras a través del lenguaje.

19.-Las implicaciones del trabajo sobre el uso de la visualización para diagnosticar errores de aprendizaje automático subrayan la necesidad de escepticismo y pruebas exhaustivas.

20.-Esfuerzos paralelos entre ciencia e ingeniería, tanto teóricos como prácticos, son necesarios para sacar a la luz errores y desarrollar herramientas de interpretabilidad.

21.-La colaboración con expertos en psicología humana es crucial dada la sesgo humana y el desafío de entendernos a nosotros mismos mientras desarrollamos máquinas.

22.-Una consideración equilibrada de modelos inherentemente interpretables y métodos de explicación post-hoc está justificada dado el estado actual del conocimiento.

23.-Probar métodos de explicación insertando intencionalmente errores es importante para verificar que realmente detectan problemas conocidos antes de su uso práctico.

24.-Los mapas de saliencia pueden reflejar la variabilidad de la distribución de datos en lugar de información relevante para la predicción, por lo que las pruebas son clave para determinar la adecuación del método de explicación.

25.-Diferencias fundamentales en cómo los humanos y las máquinas perciben los datos a nivel de píxel pueden subyacer a algunas limitaciones observadas en los mapas de saliencia.

26.-Herramientas generales de interpretabilidad como TCAP se han aplicado con éxito a diversos tipos de datos, incluidos lenguaje, audio, imágenes y datos médicos.

27.-Un lenguaje abstracto de interpretabilidad previsto para permitir una amplia alineación aún no se ha realizado, pero es un objetivo aspiracional a largo plazo.

28.-El lenguaje podría eventualmente permitir que tanto expertos como legos comuniquen ideas a los modelos de aprendizaje automático de maneras accesibles.

29.-Las aplicaciones potenciales de TCAV para mejorar la comprensión de modelos de PLN, como para la detección de lenguaje abusivo, son un área de estudio intrigante.

30.-Los métodos de interpretabilidad efectivos deben considerar la cognición humana, como aprovechar nuestra rápida interpretación de la información visual o las restricciones de pensamiento secuencial relevantes para el dominio.

Bóveda del Conocimiento construida porDavid Vivancos 2024