Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-La charla introduce una nueva tarea desafiante para el aprendizaje de representaciones: responder preguntas que requieren razonamiento sobre tablas web.
2.-La solución actual se basa en inducir programas ocultos para representar los pasos de razonamiento necesarios para responder la pregunta.
3.-Los programas pueden ser una representación compacta y poderosa para capturar el significado y razonamiento detrás de las preguntas.
4.-Ofrece una visión general de la respuesta a preguntas, desde los primeros métodos estadísticos/de recuperación hasta los enfoques más recientes de análisis semántico.
5.-La nueva tarea requiere responder preguntas sobre tablas de Wikipedia no vistas en el momento de la prueba aprendiendo modelos generalizables.
6.-Las preguntas requieren operaciones como búsqueda, conteo, superlativos, comparaciones, aritmética, más que solo recuperación simple.
7.-Las tablas se convierten a un formato de gráfico y se utilizan formas lógicas/programas para consultar el gráfico y encontrar la respuesta.
8.-El lenguaje lógico incluye primitivas para entidades, conjuntos, conteo, argmax/min, intersección, etc. que se pueden componer.
9.-El aprendizaje mapea preguntas a formas lógicas a respuestas, pero solo observa la respuesta final, convirtiéndolo en un problema de búsqueda de aguja en un pajar.
10.-Se definen características sobre la pregunta y los tokens de forma lógica, y se entrena un modelo lineal para maximizar obtener la respuesta correcta.
11.-Se requiere una poda extensiva y marginalización sobre las formas lógicas. Toma 10 horas entrenar en 23K ejemplos.
12.-Los resultados muestran un 37% de precisión, superando las bases. Obtener la respuesta correcta por razones incorrectas es un desafío.
13.-Los fallos incluyen fenómenos del lenguaje como comparaciones, relaciones temporales, conocimiento externo y mapeo al esquema de la tabla.
14.-El paradigma mapea enunciados a programas que se ejecutan para producir la respuesta. El aprendizaje se realiza solo desde la entrada-salida.
15.-El marco también se aplica para mapear instrucciones de lenguaje natural de alto nivel a acciones robóticas de bajo nivel a través de post-condiciones.
16.-Afirma que esto se ajusta a la definición de "aprendizaje profundo" al aprender abstracciones de alto nivel a través de transformaciones no lineales complejas.
17.-Los programas y los vectores/matrices tienen fortalezas y debilidades complementarias en representar cosas como la imprecisión frente a operaciones lógicas precisas.
18.-Las oraciones mapean un estado del mundo a un booleano y se comportan como funciones. Las representaciones deben poder capturar esto.
19.-Hay una factorización entre comprender el lenguaje y conocer hechos sobre el mundo. Los programas hacen esto explícito.
20.-Los datos han sido un cuello de botella para el análisis semántico. Se recopilaron nuevos conjuntos de datos, pero aún son pequeños en comparación con la visión.
21.-La recopilación de datos puede invertirse: comenzar desde el KB y generar ejemplos canónicos que luego son parafraseados por humanos.
22.-Esto permite construir rápidamente analizadores semánticos para nuevos dominios "durante la noche" si tienes la base de datos objetivo.
23.-La tarea destaca el razonamiento con múltiples pasos computacionales durante la predicción y la búsqueda de aguja en un pajar durante el entrenamiento.
24.-Potencial para combinar programas discretos con representaciones continuas para una mejor generalización mientras se mantiene la composicionalidad.
25.-Las arquitecturas recientes de memoria/atención pueden proporcionar nuevas formas de abordar estas tareas de razonamiento complejo.
26.-Los programas proporcionan una forma de construir complejidad de manera composicional a partir de primitivas simples: una representación poderosa.
27.-La comprensión es distinta del conocimiento/memoria y un controlador aprende a combinarlos para realizar razonamiento secuencial.
28.-Escalar a grandes KBs con millones de entidades plantea desafíos en representación, aprendizaje e inferencia eficiente.
29.-Los programas aquí utilizan iteración implícita a través de operaciones basadas en conjuntos en lugar de bucles explícitos. La aplicación robótica utiliza un planificador.
30.-El marco proporciona una forma de explorar los límites y capacidades de las representaciones para la comprensión del lenguaje y el razonamiento.
Bóveda del Conocimiento construida por David Vivancos 2024