Conocimiento Bóveda 2/9 - ICLR 2014-2023
Mohammad Norouzi; Tomas Mikolov; Samy Bengio; Yoram Singer; Jonathon Shlens; Andrea Frome; Greg S. Corrado; Jeffrey Dean ICLR 2014 - Aprendizaje Zero-Shot mediante Combinación Convexa de Incrustaciones Semánticas
<Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef main fill:#f9d4d4, font-weight:bold, font-size:14px; classDef approach fill:#d4f9d4, font-weight:bold, font-size:14px; classDef experiments fill:#d4d4f9, font-weight:bold, font-size:14px; classDef results fill:#f9f9d4, font-weight:bold, font-size:14px; classDef limitations fill:#f9d4f9, font-weight:bold, font-size:14px; A["Principal"] --> B["Aprendizaje zero-shot
aprovecha información lateral 1"] B --> C["Incrustaciones no supervisadas
manejan muchas clases 2"] B --> D["Proyecta imágenes,
usa vecino más cercano 3"] D --> E["Desafíos: incrustación,
proyección, búsqueda 4"] A --> F["Enfoque ConSE 6"] F --> G["Skip-gram aprende
incrustaciones no supervisadas 5"] F --> H["Peso de
clasificador probabilístico 7"] F --> I["t selecciona las
incrustaciones de etiquetas superiores 8"] F --> J["ConSE no necesita
entrenamiento adicional 9"] F --> K["Alternativas mapean
imágenes a etiquetas 10"] A --> L["Experimentos en ImageNet 11"] L --> M["ConSE vs
DeViSE mapeo lineal 12"] L --> N["Etiquetas de prueba:
1-2, 3, >3 saltos 13"] L --> O["Hitak reportado,
etiquetas de entrenamiento dentro/fuera 14"] A --> P["Resultados de ConSE 15"] P --> Q["t=10 supera
t=1, t=1000, DeViSE 15"] P --> R["Etiquetas más lejanas
degradan, entrenamiento preferido 16"] P --> S["Predice bien
categorías raras 17"] P --> T["Fallos tienen
predicciones sensatas 18"] P --> U["Generaliza mejor
que DeViSE 19"] P --> V["Incrusta determinísticamente,
supera regresión 20"] A --> W["Limitaciones 22"] W --> X["Incrustaciones limitan
similitud visual 22"] X --> Y["Similitud visual, textual
puede desalinearse 23"] W --> Z["Incrustaciones de Wikipedia
cómodas pese a limitación 24"] W --> AA["Confusión del clasificador
podría mejorar similitud 25"] A --> AB["Métricas jerárquicas
miden distancia 21"] class A,B main; class F,G,H,I,J,K approach; class L,M,N,O experiments; class P,Q,R,S,T,U,V,AB results; class W,X,Y,Z,AA limitations;

Resumen:

1.-El aprendizaje zero-shot busca clasificar imágenes en clases no vistas aprovechando información lateral como incrustaciones semánticas de etiquetas.

2.-Las incrustaciones semánticas no supervisadas de etiquetas permiten trabajar con muchas clases sin anotar manualmente atributos.

3.-El enfoque proyecta imágenes en el espacio de etiquetas semánticas y utiliza búsqueda de vecino más cercano para clasificar imágenes de prueba.

4.-Los desafíos clave son definir la incrustación de etiquetas semánticas, proyectar imágenes en ese espacio y realizar búsqueda de vecino más cercano.

5.-El modelo Skip-gram se utiliza para aprender incrustaciones semánticas de etiquetas a partir de co-ocurrencias de palabras de manera no supervisada.

6.-El modelo ConSE (combinación convexa de incrustaciones semánticas) proyecta imágenes tomando una combinación ponderada de incrustaciones de etiquetas de entrenamiento.

7.-Los pesos son las probabilidades condicionales de las etiquetas de entrenamiento dadas la imagen, obtenidas de un clasificador probabilístico entrenado.

8.-Un parámetro t selecciona promediar solo las t principales incrustaciones de etiquetas para reducir el ruido de probabilidades pequeñas.

9.-ConSE no requiere entrenamiento adicional más allá del clasificador inicial. La salida probablemente permanece en el mánifold de incrustaciones de etiquetas.

10.-Modelos alternativos aprenden una regresión para mapear imágenes cerca de su incrustación de etiqueta y lejos de las incorrectas.

11.-Experimentos realizados en ImageNet con 1000 etiquetas de entrenamiento y 20,000 etiquetas de prueba zero-shot, usando incrustaciones de Wikipedia de 500-D skip-gram.

12.-ConSE se compara con el modelo DeViSE que aprende un mapeo lineal de imágenes en el espacio de incrustaciones mediante pérdida de ranking.

13.-Se utilizan tres subconjuntos de etiquetas de prueba: 1-2 saltos, 3 saltos y >3 saltos de distancia de las etiquetas de entrenamiento en la jerarquía de ImageNet.

14.-Se reporta hit@k plano (% de imágenes de prueba con etiqueta verdadera en las k principales predicciones), excluyendo e incluyendo etiquetas de entrenamiento.

15.-ConSE con t=10 supera a t=1 (puede capturar ambigüedad de etiquetas) y t=1000 (demasiado ruido). Supera a DeViSE en un 5-15%.

16.-El rendimiento se degrada a medida que las etiquetas de prueba se alejan en la jerarquía de las de entrenamiento. Todos los métodos prefieren predecir etiquetas de entrenamiento cuando se incluyen.

17.-Los resultados cualitativos muestran que ConSE predice etiquetas relevantes para imágenes de categorías raras como leones marinos y martillos.

18.-Incluso los casos de fallo tienen predicciones sensatas como clases relacionadas con vehículos para una imagen de máquina agrícola.

19.-ConSE rinde peor que DeViSE en etiquetas de entrenamiento, pero generaliza mejor a etiquetas de prueba no vistas sin sobreajustarse.

20.-En resumen, ConSE incrusta determinísticamente imágenes usando probabilidades del clasificador e incrustaciones de etiquetas semánticas, superando enfoques basados en regresión.

21.-Tambien se reportan métricas de rendimiento jerárquicas en el documento para medir la distancia taxonómica de las predicciones respecto a la verdad del terreno.

22.-Un cuestionador señala las limitaciones de usar incrustaciones textuales como un proxy para la similitud visual.

23.-La similitud visual y textual puede no alinearse bien siempre, por ejemplo, la Torre Eiffel mapeándose cerca de categorías no relacionadas.

24.-Las incrustaciones de palabras son no supervisadas y fáciles de entrenar en Wikipedia, lo que las hace convenientes a pesar de esta limitación.

25.-El trabajo futuro podría explorar el uso de matrices de confusión de clasificadores para capturar mejor las similitudes visuales entre clases.

Bóveda de Conocimiento construida porDavid Vivancos 2024