Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- Información V-usable: Marco para medir la dificultad del conjunto de datos basado en cuánta información una familia de modelos V puede extraer sobre las etiquetas a partir de las entradas.
2.- Información V puntual (PVI): Medida de dificultad para instancias individuales dentro de un conjunto de datos, basada en el marco de información V-usable.
3.- Comparaciones de conjuntos de datos: La información V-usable permite comparar la dificultad de diferentes conjuntos de datos respecto al mismo modelo.
4.- Comparaciones de modelos: La información V-usable permite comparar cuánta información pueden extraer diferentes modelos del mismo conjunto de datos.
5.- Transformaciones de entrada: Técnica de aplicar transformaciones para aislar atributos de entrada y medir su contenido informativo sobre las etiquetas.
6.- Segmentación del conjunto de datos: Analizar el PVI promedio a través de diferentes segmentos/subconjuntos de datos para entender patrones de dificultad.
7.- Artefactos a nivel de token: Identificar tokens individuales que más contribuyen a las predicciones del modelo midiendo el cambio en la información V cuando se eliminan.
8.- Artefactos de anotación: Usar el marco de información V para descubrir correlaciones espurias y sesgos en conjuntos de datos que los modelos explotan.
9.- Consistencia entre modelos: Las estimaciones de PVI tienden a estar altamente correlacionadas a través de diferentes arquitecturas de modelos, especialmente para conjuntos de datos con mayor información V.
10.- Estabilidad a través del entrenamiento: Las estimaciones de PVI permanecen relativamente estables a través de las épocas de entrenamiento e inicializaciones aleatorias.
11.- Correlación con la dificultad humana: Los ejemplos que los humanos encuentran más fáciles (mayor acuerdo entre anotadores) tienden a tener un PVI más alto.
12.- Ejemplos mal etiquetados: Las instancias con PVI muy bajo o negativo a menudo están mal etiquetadas.
13.- Análisis del conjunto de datos SNLI: Reveló que la identidad del token por sí sola proporciona la mayor información usable, y las líneas base solo de hipótesis extraen información sustancial.
14.- Análisis del conjunto de datos CoLA: Mostró menos información usable en general comparado con SNLI, con ciertas clases de palabras indicativas de agramaticalidad.
15.- Sesgo en la detección de discurso de odio: El análisis del conjunto de datos DWMW17 reveló un potencial sesgo racial en la etiquetación del lenguaje ofensivo.
16.- Aislamiento de información: Técnica para medir el contenido informativo de atributos específicos más allá de lo capturado por otras variables.
17.- Comparación de cartografía de conjuntos de datos: El PVI muestra correlación con la medida de confianza de la cartografía de conjuntos de datos, ofreciendo un análisis complementario del conjunto de datos.
18.- Instancias fáciles de aprender: Corresponden al PVI promedio más alto, indicando la información más usable para el modelo.
19.- Instancias difíciles de aprender: Corresponden al PVI promedio más bajo, a menudo indicativo de ejemplos mal etiquetados.
20.- Instancias ambiguas: Muestran valores intermedios de PVI, conteniendo algo pero no el máximo de información usable.
21.- Suficiencia de datos de entrenamiento: La estabilización de la estimación de información V con el aumento de datos de entrenamiento indica datos suficientes para la estimación.
22.- Capacidad del modelo: Los modelos más grandes tienden a extraer más información V-usable de los conjuntos de datos.
23.- Detección de sobreajuste: La información V es más sensible al sobreajuste que la precisión en el conjunto de prueba.
24.- Umbral de dificultad del conjunto de datos: Umbral de PVI similar a través de conjuntos de datos donde los modelos comienzan a cometer errores.
25.- Ventaja de interpretabilidad: El marco de información V ofrece estimaciones de dificultad más fundamentadas e interpretables en comparación con las métricas de rendimiento estándar.
Bóveda del Conocimiento construida porDavid Vivancos 2024