Conocimiento Bóveda 6 /11 - ICML 2016
Una Búsqueda de Inteligencia Visual en Computadoras
Fei-Fei Li
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4d4, font-weight:bold, font-size:14px classDef intro fill:#d4f9d4, font-weight:bold, font-size:14px classDef evolution fill:#d4d4f9, font-weight:bold, font-size:14px classDef progress fill:#f9f9d4, font-weight:bold, font-size:14px classDef datasets fill:#f9d4f9, font-weight:bold, font-size:14px classDef future fill:#d4f9f9, font-weight:bold, font-size:14px Main["Una Búsqueda de
Inteligencia Visual en
Computadoras"] Main --> A["Introducción y Antecedentes"] A --> A1["Fei-Fei Li: profesora de Stanford,
investigadora de IA 1"] A --> A2["Ojos desencadenaron la explosión de
especiación animal 2"] A --> A3["Visión humana: poderosa maquinaria
evolutiva 3"] A --> A4["Los humanos entienden presentaciones
breves de escenas rápidamente 4"] A --> A5["Comprensión total de escenas: objetivo
de visión por computadora 5"] Main --> B["Evolución de la Visión por Computadora"] B --> B1["Visión temprana: modelos 3D
hechos a mano 6"] B --> B2["Visión desafiante: contexto, conocimiento
requerido 7"] B --> B3["Aprendizaje de grandes datos: camino
a la inteligencia 8"] B --> B4["Herramientas de aprendizaje automático avanzaron
la visión por computadora 9"] B --> B5["Aprendizaje de un solo intento inspirado
por humanos 10"] B --> B6["La visión infantil requiere entrenamiento
extensivo 11"] Main --> C["Datos y Conjuntos de Datos"] C --> C1["Explosión de datos visuales en Internet 12"] C --> C2["ImageNet: conjunto de datos masivo
de imágenes etiquetadas 13"] C --> C3["Algoritmos reconocen objetos, evitan
errores 14"] C --> C4["Avance del aprendizaje profundo en
reconocimiento de objetos 15"] C --> C5["Detección de objetos desafiante para
objetos pequeños 16"] C --> C6["Visual Genome: anotaciones ricas e
interconectadas 22"] Main --> D["Progreso en la Comprensión de Imágenes"] D --> D1["Los humanos sobresalen en el
reconocimiento contextual 17"] D --> D2["Descripciones tempranas de imágenes: conjuntos
de datos limitados 18"] D --> D3["Emparejamiento de imágenes y oraciones a través
de similitud semántica 19"] D --> D4["RNNs generan descripciones a partir de
características de CNN 20"] D --> D5["Modelos de subtitulación de imágenes: novedosos,
algunos errores 21"] D --> D6["Subtitulación densa: descripciones detalladas
de regiones 23"] Main --> E["Estado Actual y Desafíos Futuros"] E --> E1["El contexto permite la detección de
objetos pequeños 24"] E --> E2["La comprensión profunda requiere relaciones,
conocimiento 25"] E --> E3["Progreso en visión: modelado a
preguntas y respuestas 26"] E --> E4["Algoritmos carecen de comprensión de
historias a nivel humano 27"] E --> E5["La visión humana capta significados
complejos de escenas 28"] E --> E6["Queda mucho trabajo por hacer para
la inteligencia visual 29"] class Main main class A,A1,A2,A3,A4,A5 intro class B,B1,B2,B3,B4,B5,B6 evolution class C,C1,C2,C3,C4,C5,C6 datasets class D,D1,D2,D3,D4,D5,D6 progress class E,E1,E2,E3,E4,E5,E6 future

Resumen:

1.- Fei-Fei Li es profesora asociada en Stanford y directora del Laboratorio de IA, el Laboratorio de Visión por Computadora y la Investigación de IA Centrada en el Humano de Toyota.

2.- Hace 540 millones de años, la aparición de ojos en animales desencadenó una explosión en la especiación animal, iniciando una carrera armamentista evolutiva.

3.- El sistema visual humano, desarrollado a lo largo de 540 millones de años de evolución, es la maquinaria visual más poderosa del universo conocido.

4.- Los experimentos muestran que los humanos pueden entender la esencia de una escena presentada muy brevemente, escribiendo descripciones detalladas de destellos de imágenes de 500ms.

5.- La comprensión total de escenas - ser capaz de ver y entender una escena visual completa como lo hacen los humanos - es un objetivo clave para la visión por computadora.

6.- El trabajo temprano en visión por computadora en las décadas de 1960-80 se centró en crear modelos a mano para explicar el mundo 3D a partir de imágenes 2D.

7.- La visión es difícil porque medir píxeles no es lo mismo que entender escenas; el cerebro interpreta escenas usando contexto y conocimiento previo.

8.- Después de 30 años de modelado, la comunidad de visión por computadora se dio cuenta de que aprender de grandes datos era el camino hacia la inteligencia visual.

9.- Alrededor del año 2000, la visión por computadora encontró el aprendizaje automático, obteniendo herramientas como SVMs, modelos gráficos y redes neuronales para hacer un progreso real.

10.- Los algoritmos de aprendizaje de un solo intento tenían como objetivo aprender a reconocer objetos a partir de muy pocos ejemplos de entrenamiento, inspirados en el aprendizaje humano.

11.- Sin embargo, el sistema visual humano realmente requiere un entrenamiento extenso - los ojos de los infantes recolectan cientos de millones de "imágenes de entrenamiento" en sus primeros años.

12.- A principios de la década de 2000 se produjo una explosión de datos visuales en Internet, con más del 85% de los datos del ciberespacio siendo basados en píxeles para 2016.

13.- El proyecto ImageNet, iniciado en 2009, recolectó un conjunto de datos masivo de 15 millones de imágenes etiquetadas en 22,000 categorías.

14.- Usando ImageNet, se desarrollaron algoritmos para reconocer objetos mientras evitaban errores retrocediendo a categorías más generales cuando no estaban seguros.

15.- La competición de ImageNet de 2012 vio un avance en la precisión del reconocimiento de objetos con redes neuronales profundas convolucionales, marcando el renacimiento del aprendizaje profundo.

16.- El progreso en el desafío de detección de objetos de ImageNet ha sido más lento, con objetos pequeños y sin textura resultando muy difíciles de detectar para los algoritmos.

17.- Los humanos sobresalen en el uso del contexto y una visión holística de una imagen para el reconocimiento, notando diferencias significativas mientras ignoran las irrelevantes.

18.- Los primeros esfuerzos en generar descripciones de imágenes fueron limitados, usando pequeños conjuntos de datos y categorías de objetos conocidas y estructuras de oraciones.

19.- Trabajos posteriores buscaron emparejar imágenes con oraciones clasificándolas, aprendiendo características que codificaban la similitud semántica entre ambas.

20.- Para generar descripciones directamente, se usaron redes neuronales recurrentes como modelos de lenguaje, combinadas con redes neuronales convolucionales que representaban la imagen.

21.- Estos modelos de subtitulación de imágenes podían generar descripciones novedosas de imágenes, aunque aún cometían algunos errores debido a la falta de contexto.

22.- Se introdujo el conjunto de datos Visual Genome, con anotaciones más ricas que incluían entidades, atributos, relaciones, mapeadas a bases de conocimiento - interconectando imágenes.

23.- Usando Visual Genome, se desarrolló un modelo de subtitulación densa para proporcionar descripciones detalladas y contextuales de muchas regiones dentro de una imagen.

24.- El modelo de subtitulación densa también permitió la detección de objetos pequeños proporcionando contexto, resolviendo una limitación de métodos anteriores de detección de objetos.

25.- La comprensión profunda de imágenes requiere ir más allá de etiquetar objetos para también considerar relaciones, conocimiento y estructura.

26.- El viaje de la visión por computadora ha progresado desde el modelado temprano hasta los grandes datos, el aprendizaje automático, descripciones ricas y preguntas y respuestas.

27.- Sin embargo, la visión sigue siendo un problema no resuelto - mientras que los algoritmos pueden detectar objetos y describir escenas, carecen de comprensión de historias a nivel humano.

28.- Los algoritmos de hoy no pueden igualar la profundidad de la comprensión visual humana que capta sin esfuerzo historias, emociones, humor, intenciones de las imágenes.

29.- Aunque la visión por computadora ha hecho avances notables, queda mucho trabajo por hacer para acercarse a una inteligencia visual similar a la humana.

30.- Este progreso es gracias al trabajo de muchos estudiantes y colaboradores que contribuyen a avanzar el estado del arte en la comprensión visual.

Bóveda del Conocimiento construida porDavid Vivancos 2024