Conocimiento Bóveda 2/14 - ICLR 2014-2023
Percy Liang ICLR 2015 - Conferencia Magistral - Aprendizaje de Programas Latentes para Responder Preguntas
<Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef task fill:#f9d4d4, font-weight:bold, font-size:14px; classDef solution fill:#d4f9d4, font-weight:bold, font-size:14px; classDef learning fill:#d4d4f9, font-weight:bold, font-size:14px; classDef data fill:#f9f9d4, font-weight:bold, font-size:14px; classDef future fill:#f9d4f9, font-weight:bold, font-size:14px; A[Percy Liang
ICLR 2015] --> B[Nuevo desafío: razonamiento
sobre tablas web 1] A --> C[Solución: inducción de programas
para el razonamiento 2] C --> D[Programas: representación compacta,
poderosa 3] A --> E[Visión general de QA: del estadístico
al análisis semántico 4] B --> F[Tablas no vistas,
modelos generalizables 5] B --> G[Operaciones más allá de la recuperación:
contar, comparar, aritmética 6] C --> H[Tablas convertidas a gráfico,
consultadas por programas 7] H --> I[Primitivas lógicas compuestas:
entidades, conjuntos, argmax 8] C --> J[Mapea preguntas a
formas lógicas, respuestas 9] J --> K[Búsqueda de aguja en un pajar,
sólo observa la respuesta 10] J --> L[Características sobre la pregunta,
tokens de forma lógica 11] L --> M[Poda extensiva,
marginalización requerida 12] A --> N[Resultados: 37% de precisión,
supera las bases 13] N --> O[Desafíos: comparaciones, temporal,
conocimiento externo, esquema 14] C --> P[Enunciados mapeados a programas,
ejecutados para responder 15] P --> Q[Aplicado para mapear NL
a acciones robóticas 16] C --> R[Aprendizaje profundo: abstracciones de alto nivel
vía transformaciones no lineales 17] A --> S[Programas, vectores fortalezas complementarias:
imprecisión vs lógica 18] S --> T[Oraciones mapean estado a
booleano, como funciones 19] A --> U[Comprensión del lenguaje vs
factorización del conocimiento mundial 20] A --> V[Cuello de botella de datos para
análisis semántico 21] V --> W[Invertir colección: generar desde
KB, parafrasear 22] W --> X[Construir rápidamente durante la noche
dada la base de datos objetivo 23] B --> Y[Destaca razonamiento de varios pasos,
búsqueda de aguja en un pajar 24] A --> Z[Combinar programas discretos,
representaciones continuas 25] Z --> AA[Arquitecturas de memoria/atención para
razonamiento complejo 26] A --> AB[Programas: construir complejidad
desde primitivas simples 27] AB --> AC[Comprensión distinta del conocimiento,
controlador combina 28] B --> AD[Desafíos de escalado: representación,
aprendizaje, inferencia 29] C --> AE[Iteración implícita vía conjuntos,
robot usa planificador 30] class A,B,F,G,Y,AD task; class C,D,H,I,J,K,L,M,O,P,Q,R,Z,AA,AB,AC,AE solution; class E,N,S,T,U learning; class V,W,X data; class Z,AA future;

Resumen:

1.-La charla introduce una nueva tarea desafiante para el aprendizaje de representaciones: responder preguntas que requieren razonamiento sobre tablas web.

2.-La solución actual se basa en inducir programas ocultos para representar los pasos de razonamiento necesarios para responder la pregunta.

3.-Los programas pueden ser una representación compacta y poderosa para capturar el significado y razonamiento detrás de las preguntas.

4.-Ofrece una visión general de la respuesta a preguntas, desde los primeros métodos estadísticos/de recuperación hasta los enfoques más recientes de análisis semántico.

5.-La nueva tarea requiere responder preguntas sobre tablas de Wikipedia no vistas en el momento de la prueba aprendiendo modelos generalizables.

6.-Las preguntas requieren operaciones como búsqueda, conteo, superlativos, comparaciones, aritmética, más que solo recuperación simple.

7.-Las tablas se convierten a un formato de gráfico y se utilizan formas lógicas/programas para consultar el gráfico y encontrar la respuesta.

8.-El lenguaje lógico incluye primitivas para entidades, conjuntos, conteo, argmax/min, intersección, etc. que se pueden componer.

9.-El aprendizaje mapea preguntas a formas lógicas a respuestas, pero solo observa la respuesta final, convirtiéndolo en un problema de búsqueda de aguja en un pajar.

10.-Se definen características sobre la pregunta y los tokens de forma lógica, y se entrena un modelo lineal para maximizar obtener la respuesta correcta.

11.-Se requiere una poda extensiva y marginalización sobre las formas lógicas. Toma 10 horas entrenar en 23K ejemplos.

12.-Los resultados muestran un 37% de precisión, superando las bases. Obtener la respuesta correcta por razones incorrectas es un desafío.

13.-Los fallos incluyen fenómenos del lenguaje como comparaciones, relaciones temporales, conocimiento externo y mapeo al esquema de la tabla.

14.-El paradigma mapea enunciados a programas que se ejecutan para producir la respuesta. El aprendizaje se realiza solo desde la entrada-salida.

15.-El marco también se aplica para mapear instrucciones de lenguaje natural de alto nivel a acciones robóticas de bajo nivel a través de post-condiciones.

16.-Afirma que esto se ajusta a la definición de "aprendizaje profundo" al aprender abstracciones de alto nivel a través de transformaciones no lineales complejas.

17.-Los programas y los vectores/matrices tienen fortalezas y debilidades complementarias en representar cosas como la imprecisión frente a operaciones lógicas precisas.

18.-Las oraciones mapean un estado del mundo a un booleano y se comportan como funciones. Las representaciones deben poder capturar esto.

19.-Hay una factorización entre comprender el lenguaje y conocer hechos sobre el mundo. Los programas hacen esto explícito.

20.-Los datos han sido un cuello de botella para el análisis semántico. Se recopilaron nuevos conjuntos de datos, pero aún son pequeños en comparación con la visión.

21.-La recopilación de datos puede invertirse: comenzar desde el KB y generar ejemplos canónicos que luego son parafraseados por humanos.

22.-Esto permite construir rápidamente analizadores semánticos para nuevos dominios "durante la noche" si tienes la base de datos objetivo.

23.-La tarea destaca el razonamiento con múltiples pasos computacionales durante la predicción y la búsqueda de aguja en un pajar durante el entrenamiento.

24.-Potencial para combinar programas discretos con representaciones continuas para una mejor generalización mientras se mantiene la composicionalidad.

25.-Las arquitecturas recientes de memoria/atención pueden proporcionar nuevas formas de abordar estas tareas de razonamiento complejo.

26.-Los programas proporcionan una forma de construir complejidad de manera composicional a partir de primitivas simples: una representación poderosa.

27.-La comprensión es distinta del conocimiento/memoria y un controlador aprende a combinarlos para realizar razonamiento secuencial.

28.-Escalar a grandes KBs con millones de entidades plantea desafíos en representación, aprendizaje e inferencia eficiente.

29.-Los programas aquí utilizan iteración implícita a través de operaciones basadas en conjuntos en lugar de bucles explícitos. La aplicación robótica utiliza un planificador.

30.-El marco proporciona una forma de explorar los límites y capacidades de las representaciones para la comprensión del lenguaje y el razonamiento.

Bóveda del Conocimiento construida por David Vivancos 2024