Conocimiento Bóveda 5 /72 - CVPR 2022
Hacia una IA Integrativa con Visión por Computadora
Xuedong Huang
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef accessibility fill:#f9d4d4, font-weight:bold, font-size:14px classDef ai fill:#d4f9d4, font-weight:bold, font-size:14px classDef speech fill:#d4d4f9, font-weight:bold, font-size:14px classDef vision fill:#f9f9d4, font-weight:bold, font-size:14px classDef multimodal fill:#f9d4f9, font-weight:bold, font-size:14px A["Hacia una IA Integrativa
con Visión por Computadora"] --> B["Subtítulos en vivo permiten
seguir el ritmo 1"] A --> C["La IA identifica objetos,
resume videos 2"] A --> D["Avances en habla y lenguaje
en 50 años 3"] D --> E["Modelos de Markov Ocultos
combinan conocimiento 4"] D --> F["IBM pionera en traducción
automática estadística 5"] D --> G["Aprendizaje profundo redujo
tasas de error en habla 6"] A --> H["Modelos fundacionales:
nuevo paradigma de IA 7"] H --> I["Modelo fundacional unificado
de habla de Microsoft 8"] H --> J["Transformer maneja habla,
traducción, resumen 9"] D --> K["Disparidades raciales en
reconocimiento de habla 10"] D --> L["Z-code mejora traducción
de lenguajes de pocos recursos 11"] D --> M["Resumen de texto usa
arquitectura codificador-decodificador 12"] H --> N["Modelos fundacionales combinan
lenguaje, visión, habla 13"] A --> O["Lecciones: marcos probabilísticos,
modelos fundacionales, transformers 14"] A --> P["Visión por computadora: señales 2D/3D,
interpretación, tareas 15"] P --> Q["Florence: modelo fundacional de
visión por computadora de Microsoft 16"] Q --> R["Florence usa transformers,
aprendizaje supervisado y auto-supervisado 17"] Q --> S["Florence supera en
43/44 benchmarks de visión 18"] Q --> T["Florence clasifica 400K
conceptos abiertos 19"] Q --> U["Florence permite búsqueda visual
abierta 20"] Q --> V["Florence + GPT-3 genera
historias creativas 21"] Q --> W["Florence busca fotos
por conceptos visuales 22"] Q --> X["Florence sobresale en segmentación,
recorte humano 23"] Q --> Y["Aprendizaje auto-supervisado mejora
segmentación de Florence 24"] Q --> Z["Arquitectura codificador-decodificador para
subtitulación de imágenes 25"] Q --> AA["Florence infiere atributos
implícitos en subtítulos 26"] Q --> AB["Florence potencia herramientas de accesibilidad
como Seeing AI 27"] Q --> AC["Florence logra superhumanos
en respuesta a preguntas visuales 28"] A --> AD["IA multimodal necesita experiencias
reales del mundo 29"] A --> AE["El ponente respondió preguntas,
ofreció más discusión 30"] class B,AB accessibility class C,H,N,AD ai class D,E,F,G,I,J,K,L,M speech class P,Q,R,S,T,U,V,W,X,Y,Z,AA,AC vision class AD multimodal

Resumen:

1.- Las funciones de accesibilidad como los subtítulos en vivo en PowerPoint permiten a todos seguir el ritmo, incluso con acentos fuertes.

2.- La IA ahora puede identificar objetos y acciones en un video, traducirlos, generar un resumen de texto y tener un avatar que lo narre.

3.- En los últimos 50 años, ha habido grandes avances en el reconocimiento del habla, la comprensión del lenguaje y la traducción automática.

4.- Los Modelos de Markov Ocultos proporcionaron un marco probabilístico para combinar conocimiento acústico, fonético y del lenguaje para el reconocimiento del habla en los años 70.

5.- En los años 90, IBM aplicó técnicas estadísticas similares del reconocimiento del habla para ser pionera en la traducción automática estadística.

6.- En los años 2010, el aprendizaje profundo reemplazó los modelos de mezcla gaussiana en el reconocimiento del habla, reduciendo sustancialmente las tasas de error.

7.- Los modelos fundacionales, modelos masivos entrenados en grandes conjuntos de datos para muchas tareas, se han convertido en un nuevo paradigma de IA.

8.- Microsoft creó un modelo fundacional unificado para el habla en 2017, cubriendo muchos dominios, tareas e idiomas en un solo modelo.

9.- Un solo modelo transformer ahora puede hacer reconocimiento del habla, traducción, resumen y más en muchos idiomas simultáneamente.

10.- A pesar del progreso, aún existen disparidades raciales en las tasas de error del reconocimiento del habla, que el campo está trabajando para cerrar.

11.- Z-code es un modelo fundacional que utiliza datos monolingües y paralelos para mejorar la traducción de lenguajes de pocos recursos.

12.- El resumen de texto utiliza una arquitectura codificador-decodificador similar a la traducción automática para condensar documentos en resúmenes cortos.

13.- Los modelos fundacionales que combinan lenguaje, visión, habla, etc. son una tendencia en toda la industria entre las grandes empresas tecnológicas.

14.- Tres lecciones clave de la IA de habla y lenguaje son: 1) Marcos probabilísticos 2) Modelos fundacionales 3) Transformers codificador-decodificador

15.- La visión por computadora enfrenta desafíos de señales 2D/3D, ambigüedad de interpretación y una amplia gama de tareas.

16.- Florence es un modelo fundacional de visión por computadora desarrollado por Microsoft, entrenado en 1 mil millones de imágenes.

17.- Florence utiliza un codificador de imágenes Swin transformer y un codificador de texto transformer, combinando aprendizaje supervisado y auto-supervisado contrastivo.

18.- Florence supera a los modelos más avanzados en 43 de 44 benchmarks de visión por computadora, incluso en configuraciones de cero disparos.

19.- A diferencia de las 22K etiquetas de ImageNet, Florence puede clasificar y subtitular imágenes con 400K conceptos abiertos.

20.- Florence utiliza la comprensión semántica del lenguaje para permitir búsquedas visuales abiertas más allá de las etiquetas de clasificación predefinidas.

21.- La combinación de Florence y GPT-3 permite generar historias creativas sobre imágenes que van más allá de la descripción literal.

22.- Florence permite buscar fotos personales por conceptos visuales sin depender de subtítulos o señales de usuario.

23.- Florence logra resultados de vanguardia en tareas como recorte humano y segmentación de imágenes, incluso para objetos no humanos.

24.- El aprendizaje auto-supervisado permite a Florence pseudo-etiquetar datos y mejorar iterativamente su propia segmentación de imágenes.

25.- Una arquitectura codificador-decodificador permite a Florence sobresalir en la subtitulación de imágenes, incluso para texto dentro de imágenes.

26.- La subtitulación de imágenes de Florence va más allá de la descripción literal para inferir atributos implícitos como las letras de la camiseta de un jugador.

27.- Florence potencia herramientas de accesibilidad como Seeing AI que ayudan a los usuarios con discapacidad visual a interpretar objetos en fotos.

28.- Florence logra un rendimiento sobrehumano en benchmarks como subtitulación de imágenes basada en texto y respuesta a preguntas visuales.

29.- La IA multimodal que combina visión, lenguaje, habla, etc. aún tiene espacio para avanzar aprendiendo de experiencias reales del mundo.

30.- El ponente respondió preguntas del público y ofreció discutir más después de que la sesión concluyera debido a limitaciones de tiempo.

Bóveda del Conocimiento construida porDavid Vivancos 2024