Conocimiento Bóveda 5 /68 - CVPR 2021
Aprendiendo a ver como humanos
Matthias Bethge
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef turing fill:#f9d4d4, font-weight:bold, font-size:14px classDef brain fill:#d4f9d4, font-weight:bold, font-size:14px classDef learning fill:#d4d4f9, font-weight:bold, font-size:14px classDef imagenet fill:#f9f9d4, font-weight:bold, font-size:14px classDef generalization fill:#f9d4f9, font-weight:bold, font-size:14px classDef experimental fill:#d4f9f9, font-weight:bold, font-size:14px classDef generative fill:#f9d4d4, font-weight:bold, font-size:14px A["Aprendiendo a ver
como humanos"] --> B["Turing: las máquinas imitan la mente,
memoria, aprendizaje. 1"] A --> C["Cerebro: datos complejos,
buenas decisiones, visión. 2"] A --> D["Aprendizaje supervisado: tarea, decisiones,
entrenar máquinas. 3"] A --> E["ImageNet: clasificación de imágenes,
1000 categorías. 4"] E --> F["Rendimiento de ImageNet vs.
visión similar al cerebro. 5"] A --> G["Generalización: clave para
inteligencia, cambios de tarea. 6"] G --> H["Aprendizaje por transferencia: reutilizar
características, otras tareas. 7"] H --> I["Éxito de transferencia: saliencia,
pose, seguimiento. 8"] G --> J["Limitaciones: ejemplos adversariales,
sesgo de textura. 9"] J --> K["CNNs: textura, humanos: forma. 10"] J --> L["Ruido fuera de dominio: CNNs
vs. modelos de forma. 11"] J --> M["Eliminación de sesgo de textura:
aumento, robustez. 12"] G --> N["Precisión fuera de dominio
correlaciona decisiones similares a humanos. 13"] G --> O["Pruebas contrafactuales: cambios
mínimos de entrada, decisiones. 14"] O --> P["Modelado generativo permite
en MNIST. 15"] G --> Q["Estímulos controvertidos: desacuerdos
de modelos, alineación humana. 16"] Q --> R["ABS: mejor alineación,
dígitos ambiguos. 17"] A --> S["Escalado de modelos generativos:
objetos, complejidad de escenas. 18"] S --> T["Modelo de escena composicional:
fondo, objetos, segmentación. 19"] T --> U["Representación latente: propiedades,
recombinación, intervención. 20"] A --> V["Variedades de invariancia: información
preservada, descartada. 21"] V --> W["Redes invertibles: imágenes metameras,
información de molestia. 22"] W --> X["CNNs: metamers percibidos
como molestia, desalineados. 23"] W --> Y["Entrenamiento: molestia invariante
a clase, consistencia. 24"] V --> Z["Moldeando invariancias: decisiones similares a humanos. 25"] A --> AA["Datos, sesgos inductivos:
restringir reglas similares a humanos. 26"] AA --> AB["Modelos generativos centrados en objetos,
composicionalidad, datos de entrenamiento. 27"] A --> AC["Decisiones similares a humanos, no
sólo rendimiento de referencia. 28"] A --> AD["Pruebas fuera de dominio, contrafactuales:
evaluar, mejorar consistencia. 29"] A --> AE["Modelos generativos: robustos,
generalizables, visión alineada con humanos. 30"] class B turing class C brain class D,H,I learning class E,F imagenet class G,J,K,L,M,N,O generalization class P,Q,R,V,W,X,Y,Z experimental class S,T,U,AA,AB,AE generative

Resumen:

1.- Ideas de Alan Turing sobre el uso de máquinas para imitar la mente humana, incluyendo la prueba de Turing, la universalidad de las máquinas, los requisitos de memoria y el aprendizaje automático.

2.- Los cerebros como dispositivos de toma de decisiones que reciben datos complejos y los utilizan para tomar buenas decisiones, con un enfoque en la visión.

3.- Enfoque de aprendizaje supervisado de definir una tarea, recopilar decisiones humanas y entrenar máquinas para generar las mismas respuestas.

4.- Desafío de ImageNet de asignar imágenes a 1000 categorías. El rendimiento ha mejorado del 50% al 90% de precisión en 10 años.

5.- Cuestión de si el alto rendimiento de ImageNet implica toma de decisiones visuales similares al cerebro en redes neuronales.

6.- Prueba de la capacidad de generalización como clave para la inteligencia cuando cambian los datos de entrada o la tarea.

7.- Aprendizaje por transferencia: Reutilización de características de modelos preentrenados de ImageNet como representaciones fijas para otras tareas de visión.

8.- Éxitos del aprendizaje por transferencia en la predicción de saliencia, estimación de pose, seguimiento de comportamiento, mostrando una generalización útil más allá de ImageNet.

9.- Limitaciones: Ejemplos adversariales, sensibilidad a dominios/fondos, sesgo de textura muestran que las características de ImageNet por sí solas no implican visión similar al cerebro.

10.- Experimentos controlados que muestran que las CNNs dependen más de la textura mientras que los humanos dependen más de la forma para el reconocimiento de objetos.

11.- Pruebas fuera de dominio en perturbaciones de ruido revelan sensibilidad no humana de las CNNs estándar en comparación con modelos basados en forma.

12.- Eliminar el sesgo de textura a través de la ampliación de datos hace que las CNNs sean más robustas al ruido como los humanos.

13.- Hallazgos empíricos que mejor precisión fuera de dominio en algunos conjuntos de datos correlaciona con decisiones más similares a las humanas.

14.- Pruebas contrafactuales de los cambios más pequeños de entrada que alteran las decisiones del modelo es una prueba aún más fuerte de visión similar a la humana.

15.- El modelado generativo permite esto en MNIST, revelando perturbaciones interpretables por humanos en los límites de clase.

16.- Experimentos de estímulos controvertidos que comparan sistemáticamente desacuerdos de modelos permiten cuantificar la alineación con decisiones humanas.

17.- El modelo generativo (ABS) muestra la mejor alineación con la interpretación humana de dígitos ambiguos.

18.- Escalar modelos generativos a imágenes naturales requiere manejar la complejidad combinatoria de objetos y escenas.

19.- El modelo de escena generativa composicional aprende a renderizar secuencialmente el fondo y los objetos a partir de una segmentación no supervisada ruidosa.

20.- La representación latente aprendida captura propiedades perceptuales significativas, permite recombinación e intervención plausibles en escenas.

21.- Exploración de variedades de invariancia en redes neuronales para estudiar qué información se preserva o descarta.

22.- Las redes neuronales invertibles permiten sintetizar imágenes "metaméricas" con la misma salida pero diferente información de molestia (no específica de clase).

23.- Para las CNNs estándar, los humanos perciben los metamers como idénticos a la imagen de molestia, no a la imagen de clase, exponiendo invariancias desalineadas.

24.- El entrenamiento modificado para fomentar que el espacio de molestia sea invariante a la clase mejora la consistencia humana de las invariancias de las CNNs.

25.- Moldear activamente las invariancias en redes neuronales es una dirección importante para hacer que sus decisiones sean más similares a las humanas.

26.- Perspectiva general sobre el uso de datos y sesgos inductivos para restringir las reglas de decisión aprendibles hacia soluciones humanas intencionadas.

27.- Modelos generativos centrados en objetos y composicionalidad a través de escalas como ingredientes clave para generar datos de entrenamiento.

28.- Argumento implícito de que una toma de decisiones más similar a la humana, no solo el rendimiento de referencia, debería ser el objetivo de la visión por computadora.

29.- Importancia de las pruebas fuera de dominio y contrafactuales para evaluar y mejorar la consistencia humana de los modelos de visión.

30.- Papel central de los modelos generativos en el trabajo futuro para construir sistemas de visión por computadora más robustos, generalizables y alineados con los humanos.

Bóveda de Conocimiento construida porDavid Vivancos 2024