Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-El aprendizaje zero-shot busca clasificar imágenes en clases no vistas aprovechando información lateral como incrustaciones semánticas de etiquetas.
2.-Las incrustaciones semánticas no supervisadas de etiquetas permiten trabajar con muchas clases sin anotar manualmente atributos.
3.-El enfoque proyecta imágenes en el espacio de etiquetas semánticas y utiliza búsqueda de vecino más cercano para clasificar imágenes de prueba.
4.-Los desafíos clave son definir la incrustación de etiquetas semánticas, proyectar imágenes en ese espacio y realizar búsqueda de vecino más cercano.
5.-El modelo Skip-gram se utiliza para aprender incrustaciones semánticas de etiquetas a partir de co-ocurrencias de palabras de manera no supervisada.
6.-El modelo ConSE (combinación convexa de incrustaciones semánticas) proyecta imágenes tomando una combinación ponderada de incrustaciones de etiquetas de entrenamiento.
7.-Los pesos son las probabilidades condicionales de las etiquetas de entrenamiento dadas la imagen, obtenidas de un clasificador probabilístico entrenado.
8.-Un parámetro t selecciona promediar solo las t principales incrustaciones de etiquetas para reducir el ruido de probabilidades pequeñas.
9.-ConSE no requiere entrenamiento adicional más allá del clasificador inicial. La salida probablemente permanece en el mánifold de incrustaciones de etiquetas.
10.-Modelos alternativos aprenden una regresión para mapear imágenes cerca de su incrustación de etiqueta y lejos de las incorrectas.
11.-Experimentos realizados en ImageNet con 1000 etiquetas de entrenamiento y 20,000 etiquetas de prueba zero-shot, usando incrustaciones de Wikipedia de 500-D skip-gram.
12.-ConSE se compara con el modelo DeViSE que aprende un mapeo lineal de imágenes en el espacio de incrustaciones mediante pérdida de ranking.
13.-Se utilizan tres subconjuntos de etiquetas de prueba: 1-2 saltos, 3 saltos y >3 saltos de distancia de las etiquetas de entrenamiento en la jerarquía de ImageNet.
14.-Se reporta hit@k plano (% de imágenes de prueba con etiqueta verdadera en las k principales predicciones), excluyendo e incluyendo etiquetas de entrenamiento.
15.-ConSE con t=10 supera a t=1 (puede capturar ambigüedad de etiquetas) y t=1000 (demasiado ruido). Supera a DeViSE en un 5-15%.
16.-El rendimiento se degrada a medida que las etiquetas de prueba se alejan en la jerarquía de las de entrenamiento. Todos los métodos prefieren predecir etiquetas de entrenamiento cuando se incluyen.
17.-Los resultados cualitativos muestran que ConSE predice etiquetas relevantes para imágenes de categorías raras como leones marinos y martillos.
18.-Incluso los casos de fallo tienen predicciones sensatas como clases relacionadas con vehículos para una imagen de máquina agrícola.
19.-ConSE rinde peor que DeViSE en etiquetas de entrenamiento, pero generaliza mejor a etiquetas de prueba no vistas sin sobreajustarse.
20.-En resumen, ConSE incrusta determinísticamente imágenes usando probabilidades del clasificador e incrustaciones de etiquetas semánticas, superando enfoques basados en regresión.
21.-Tambien se reportan métricas de rendimiento jerárquicas en el documento para medir la distancia taxonómica de las predicciones respecto a la verdad del terreno.
22.-Un cuestionador señala las limitaciones de usar incrustaciones textuales como un proxy para la similitud visual.
23.-La similitud visual y textual puede no alinearse bien siempre, por ejemplo, la Torre Eiffel mapeándose cerca de categorías no relacionadas.
24.-Las incrustaciones de palabras son no supervisadas y fáciles de entrenar en Wikipedia, lo que las hace convenientes a pesar de esta limitación.
25.-El trabajo futuro podría explorar el uso de matrices de confusión de clasificadores para capturar mejor las similitudes visuales entre clases.
Bóveda de Conocimiento construida porDavid Vivancos 2024