Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:
Resumen:
1.- Aprender a ver de la manera humana implica modelar el mundo físico, no solo encontrar patrones en imágenes.
2.- La visión por computadora temprana se centró en etiquetar lo que los humanos pueden en imágenes, lo cual es coherente y práctico pero limitado.
3.- La verdadera visión humana implica "ver" cosas que están ocultas o son invisibles aprovechando el conocimiento de la física y la objetividad.
4.- La inteligencia humana trata de modelar el mundo, no solo datos, para explicar observaciones, imaginar posibilidades y lograr objetivos mediante la planificación.
5.- La IA cognitiva ve la inteligencia como construcción de modelos, con el aprendizaje como la construcción de nuevos modelos basados en interacciones con el mundo.
6.- Los humanos pueden inferir objetos invisibles y propiedades en escenas razonando sobre física, objetividad y causalidad.
7.- La IA se ha centrado más en el reconocimiento de patrones y la aproximación de funciones, capturando solo parte de lo que constituye la inteligencia.
8.- Dos visiones de "ver de la manera humana": 1) Etiquetar imágenes como lo hacen los humanos, 2) Dar sentido al mundo a partir de la entrada visual
9.- El conocimiento central en los humanos, presente desde temprano en la infancia, incluye física intuitiva, psicología y otros dominios para razonar sobre el mundo.
10.- La física intuitiva permite a los infantes y adultos entender la permanencia de los objetos, solidez, soporte, estabilidad e interacciones causales a partir de observaciones visuales.
11.- La simulación mental, similar a un "motor de juego en tu cabeza", puede subyacer a la comprensión de escenas físicas humanas y la planificación de interacciones.
12.- La IA cognitiva busca combinar las fortalezas de los enfoques probabilísticos, simbólicos y neuronales, integrados mediante técnicas como la programación probabilística.
13.- Los gráficos inversos infieren la estructura de la escena 3D a partir de imágenes, una base para la visión similar a la humana; el progreso reciente proviene del renderizado diferenciable.
14.- Los sistemas de visión ideales ven "objetos movibles independientemente" para apoyar el razonamiento sobre la dinámica de la escena y las posibilidades de acción.
15.- Las arquitecturas neuronales que incorporan sesgos inductivos sobre física, objetividad y causalidad muestran promesa para la comprensión de escenas visuales similar a la humana.
16.- Las representaciones de escenas flexibles, centradas en objetos, que combinan lógica, probabilidad y redes neuronales pueden superar las limitaciones de las tuberías de reconocimiento convencionales.
17.- Los programas probabilísticos pueden expresar modelos generativos ricos para la visión basada en física, con inferencia programable para resolver adaptativamente tareas de comprensión de escenas.
18.- El "Desafío del Tapón de Botella" prueba si los sistemas de visión pueden segmentar y modelar objetos nuevos con observabilidad parcial aprovechando la comprensión de la física.
19.- El "Desafío General de Gráficos Inversos de Juegos" prueba la transferencia de comprensión visual a mundos virtuales nuevos con diferente apariencia y física.
20.- El progreso en estos desafíos puede provenir de integrar el renderizado diferenciable, la programación probabilística y las ideas de los estudios de la cognición humana.
21.- Los humanos analizan sin esfuerzo la estructura 3D, la dinámica y las posibilidades en escenas nuevas y transfieren conocimiento a nuevos entornos de manera casi instantánea.
22.- Un objetivo clave es que los sistemas de visión aprendan rápidamente modelos generativos para inferir objetos/propiedades ocultos combinando física y pocas observaciones.
23.- La visión biológica probablemente se basa en representaciones y simulaciones basadas en física, no solo en el reconocimiento de patrones, implicando áreas más allá de la corriente ventral.
24.- Los enfoques probabilísticos son cruciales para cuantificar la incertidumbre en la visión para impulsar comportamientos de búsqueda de información cuando los modelos del mundo no son aplicables.
25.- El mejor rendimiento en tareas no es equivalente a la comprensión a nivel humano; debemos distinguir los pequeños pasos de alcanzar habilidades humanas clave.
26.- Se está logrando un progreso emocionante en los sistemas de IA basados en física que aprenden modelos generativos del mundo de una manera más similar a la humana.
27.- Sin embargo, quedan grandes desafíos abiertos en la transferencia flexible de conocimiento a entornos nuevos con diferente apariencia y dinámica física.
28.- El éxito en estos desafíos requerirá combinar herramientas de ML moderno, visión clásica, ciencia cognitiva y estudios de inteligencia biológica.
29.- El campo debe aspirar a crear sistemas que aprendan rápidamente y transfieran flexiblemente, no solo lograr avances incrementales en tareas estrechas.
30.- La clave para el progreso es la formulación precisa de desafíos que empujen los límites de la comprensión visual artificial hacia capacidades más similares a las humanas.
Bóveda del Conocimiento construida porDavid Vivancos 2024