Conocimiento Bóveda 5 /71 - CVPR 2022
Aprendiendo a ver de la manera humana
Josh Tennebaum
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef human fill:#f9d4d4, font-weight:bold, font-size:14px classDef machine fill:#d4f9d4, font-weight:bold, font-size:14px classDef vision fill:#d4d4f9, font-weight:bold, font-size:14px classDef intelligence fill:#f9f9d4, font-weight:bold, font-size:14px classDef future fill:#f9d4f9, font-weight:bold, font-size:14px A["Aprendiendo a ver
de la manera humana"] --> B["La visión humana modela el mundo
físico, más allá de patrones 1"] A --> C["La visión temprana etiquetó imágenes,
enfoque limitado 2"] A --> D["La verdadera visión ve lo oculto,
invisible a través de la física 3"] A --> E["La inteligencia modela el mundo,
no solo datos 4"] A --> F["IA cognitiva: inteligencia como
construcción de modelos 5"] A --> G["Los humanos infieren objetos invisibles,
propiedades mediante el razonamiento 6"] A --> H["El reconocimiento de patrones de IA captura
inteligencia parcial 7"] A --> I["Ver de manera humana: etiquetado
vs comprensión del mundo 8"] A --> J["Conocimiento central del infante: física,
psicología, razonamiento 9"] J --> K["Física intuitiva: permanencia de objetos,
solidez, causas 10"] J --> L["La simulación mental puede subyacer
a la comprensión de escenas 11"] A --> M["La IA cognitiva integra probabilístico,
simbólico, neural 12"] M --> N["Gráficos inversos infieren 3D
de imágenes 13"] M --> O["La visión ideal ve objetos
movibles independientemente 14"] M --> P["Arquitecturas neuronales con física,
objetos, causalidad 15"] M --> Q["Representaciones flexibles de escenas superan
límites de reconocimiento 16"] M --> R["Programas probabilísticos expresan modelos de visión
basados en física 17"] A --> S["Desafíos prueban física,
razonamiento, transferencia 18-19"] S --> T["Progreso mediante renderizado diferenciable,
programación probabilística, cognición 20"] A --> U["Los humanos analizan 3D, dinámica,
posibilidades en escenas nuevas 21"] A --> V["Objetivo: la visión aprende modelos generativos
de pocas observaciones 22"] A --> W["La biología probablemente usa física,
simulación, no solo reconocimiento 23"] A --> X["La probabilidad es crucial para incertidumbre,
búsqueda de información 24"] A --> Y["Rendimiento de tareas ≠ comprensión
a nivel humano 25"] A --> Z["Progreso emocionante en IA similar a
humana, basada en física 26"] Z --> AA["Desafíos abiertos en transferencia
flexible de conocimiento 27"] Z --> AB["El progreso requiere ML, visión,
cognición, biología 28"] Z --> AC["Objetivo de aprendizaje rápido,
transferencia flexible, no incrementalismo 29"] Z --> AD["Desafíos precisos empujan límites
de comprensión visual 30"] class B,D,I,U,W,Y human class C,H,S machine class E,F,G,J,K,L,M,N,O,P,Q,R,T,V,X vision class Z,AA,AB,AC,AD future

Resumen:

1.- Aprender a ver de la manera humana implica modelar el mundo físico, no solo encontrar patrones en imágenes.

2.- La visión por computadora temprana se centró en etiquetar lo que los humanos pueden en imágenes, lo cual es coherente y práctico pero limitado.

3.- La verdadera visión humana implica "ver" cosas que están ocultas o son invisibles aprovechando el conocimiento de la física y la objetividad.

4.- La inteligencia humana trata de modelar el mundo, no solo datos, para explicar observaciones, imaginar posibilidades y lograr objetivos mediante la planificación.

5.- La IA cognitiva ve la inteligencia como construcción de modelos, con el aprendizaje como la construcción de nuevos modelos basados en interacciones con el mundo.

6.- Los humanos pueden inferir objetos invisibles y propiedades en escenas razonando sobre física, objetividad y causalidad.

7.- La IA se ha centrado más en el reconocimiento de patrones y la aproximación de funciones, capturando solo parte de lo que constituye la inteligencia.

8.- Dos visiones de "ver de la manera humana": 1) Etiquetar imágenes como lo hacen los humanos, 2) Dar sentido al mundo a partir de la entrada visual

9.- El conocimiento central en los humanos, presente desde temprano en la infancia, incluye física intuitiva, psicología y otros dominios para razonar sobre el mundo.

10.- La física intuitiva permite a los infantes y adultos entender la permanencia de los objetos, solidez, soporte, estabilidad e interacciones causales a partir de observaciones visuales.

11.- La simulación mental, similar a un "motor de juego en tu cabeza", puede subyacer a la comprensión de escenas físicas humanas y la planificación de interacciones.

12.- La IA cognitiva busca combinar las fortalezas de los enfoques probabilísticos, simbólicos y neuronales, integrados mediante técnicas como la programación probabilística.

13.- Los gráficos inversos infieren la estructura de la escena 3D a partir de imágenes, una base para la visión similar a la humana; el progreso reciente proviene del renderizado diferenciable.

14.- Los sistemas de visión ideales ven "objetos movibles independientemente" para apoyar el razonamiento sobre la dinámica de la escena y las posibilidades de acción.

15.- Las arquitecturas neuronales que incorporan sesgos inductivos sobre física, objetividad y causalidad muestran promesa para la comprensión de escenas visuales similar a la humana.

16.- Las representaciones de escenas flexibles, centradas en objetos, que combinan lógica, probabilidad y redes neuronales pueden superar las limitaciones de las tuberías de reconocimiento convencionales.

17.- Los programas probabilísticos pueden expresar modelos generativos ricos para la visión basada en física, con inferencia programable para resolver adaptativamente tareas de comprensión de escenas.

18.- El "Desafío del Tapón de Botella" prueba si los sistemas de visión pueden segmentar y modelar objetos nuevos con observabilidad parcial aprovechando la comprensión de la física.

19.- El "Desafío General de Gráficos Inversos de Juegos" prueba la transferencia de comprensión visual a mundos virtuales nuevos con diferente apariencia y física.

20.- El progreso en estos desafíos puede provenir de integrar el renderizado diferenciable, la programación probabilística y las ideas de los estudios de la cognición humana.

21.- Los humanos analizan sin esfuerzo la estructura 3D, la dinámica y las posibilidades en escenas nuevas y transfieren conocimiento a nuevos entornos de manera casi instantánea.

22.- Un objetivo clave es que los sistemas de visión aprendan rápidamente modelos generativos para inferir objetos/propiedades ocultos combinando física y pocas observaciones.

23.- La visión biológica probablemente se basa en representaciones y simulaciones basadas en física, no solo en el reconocimiento de patrones, implicando áreas más allá de la corriente ventral.

24.- Los enfoques probabilísticos son cruciales para cuantificar la incertidumbre en la visión para impulsar comportamientos de búsqueda de información cuando los modelos del mundo no son aplicables.

25.- El mejor rendimiento en tareas no es equivalente a la comprensión a nivel humano; debemos distinguir los pequeños pasos de alcanzar habilidades humanas clave.

26.- Se está logrando un progreso emocionante en los sistemas de IA basados en física que aprenden modelos generativos del mundo de una manera más similar a la humana.

27.- Sin embargo, quedan grandes desafíos abiertos en la transferencia flexible de conocimiento a entornos nuevos con diferente apariencia y dinámica física.

28.- El éxito en estos desafíos requerirá combinar herramientas de ML moderno, visión clásica, ciencia cognitiva y estudios de inteligencia biológica.

29.- El campo debe aspirar a crear sistemas que aprendan rápidamente y transfieran flexiblemente, no solo lograr avances incrementales en tareas estrechas.

30.- La clave para el progreso es la formulación precisa de desafíos que empujen los límites de la comprensión visual artificial hacia capacidades más similares a las humanas.

Bóveda del Conocimiento construida porDavid Vivancos 2024