Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:
Resumen:
1.- Ideas de Alan Turing sobre el uso de máquinas para imitar la mente humana, incluyendo la prueba de Turing, la universalidad de las máquinas, los requisitos de memoria y el aprendizaje automático.
2.- Los cerebros como dispositivos de toma de decisiones que reciben datos complejos y los utilizan para tomar buenas decisiones, con un enfoque en la visión.
3.- Enfoque de aprendizaje supervisado de definir una tarea, recopilar decisiones humanas y entrenar máquinas para generar las mismas respuestas.
4.- Desafío de ImageNet de asignar imágenes a 1000 categorías. El rendimiento ha mejorado del 50% al 90% de precisión en 10 años.
5.- Cuestión de si el alto rendimiento de ImageNet implica toma de decisiones visuales similares al cerebro en redes neuronales.
6.- Prueba de la capacidad de generalización como clave para la inteligencia cuando cambian los datos de entrada o la tarea.
7.- Aprendizaje por transferencia: Reutilización de características de modelos preentrenados de ImageNet como representaciones fijas para otras tareas de visión.
8.- Éxitos del aprendizaje por transferencia en la predicción de saliencia, estimación de pose, seguimiento de comportamiento, mostrando una generalización útil más allá de ImageNet.
9.- Limitaciones: Ejemplos adversariales, sensibilidad a dominios/fondos, sesgo de textura muestran que las características de ImageNet por sí solas no implican visión similar al cerebro.
10.- Experimentos controlados que muestran que las CNNs dependen más de la textura mientras que los humanos dependen más de la forma para el reconocimiento de objetos.
11.- Pruebas fuera de dominio en perturbaciones de ruido revelan sensibilidad no humana de las CNNs estándar en comparación con modelos basados en forma.
12.- Eliminar el sesgo de textura a través de la ampliación de datos hace que las CNNs sean más robustas al ruido como los humanos.
13.- Hallazgos empíricos que mejor precisión fuera de dominio en algunos conjuntos de datos correlaciona con decisiones más similares a las humanas.
14.- Pruebas contrafactuales de los cambios más pequeños de entrada que alteran las decisiones del modelo es una prueba aún más fuerte de visión similar a la humana.
15.- El modelado generativo permite esto en MNIST, revelando perturbaciones interpretables por humanos en los límites de clase.
16.- Experimentos de estímulos controvertidos que comparan sistemáticamente desacuerdos de modelos permiten cuantificar la alineación con decisiones humanas.
17.- El modelo generativo (ABS) muestra la mejor alineación con la interpretación humana de dígitos ambiguos.
18.- Escalar modelos generativos a imágenes naturales requiere manejar la complejidad combinatoria de objetos y escenas.
19.- El modelo de escena generativa composicional aprende a renderizar secuencialmente el fondo y los objetos a partir de una segmentación no supervisada ruidosa.
20.- La representación latente aprendida captura propiedades perceptuales significativas, permite recombinación e intervención plausibles en escenas.
21.- Exploración de variedades de invariancia en redes neuronales para estudiar qué información se preserva o descarta.
22.- Las redes neuronales invertibles permiten sintetizar imágenes "metaméricas" con la misma salida pero diferente información de molestia (no específica de clase).
23.- Para las CNNs estándar, los humanos perciben los metamers como idénticos a la imagen de molestia, no a la imagen de clase, exponiendo invariancias desalineadas.
24.- El entrenamiento modificado para fomentar que el espacio de molestia sea invariante a la clase mejora la consistencia humana de las invariancias de las CNNs.
25.- Moldear activamente las invariancias en redes neuronales es una dirección importante para hacer que sus decisiones sean más similares a las humanas.
26.- Perspectiva general sobre el uso de datos y sesgos inductivos para restringir las reglas de decisión aprendibles hacia soluciones humanas intencionadas.
27.- Modelos generativos centrados en objetos y composicionalidad a través de escalas como ingredientes clave para generar datos de entrenamiento.
28.- Argumento implícito de que una toma de decisiones más similar a la humana, no solo el rendimiento de referencia, debería ser el objetivo de la visión por computadora.
29.- Importancia de las pruebas fuera de dominio y contrafactuales para evaluar y mejorar la consistencia humana de los modelos de visión.
30.- Papel central de los modelos generativos en el trabajo futuro para construir sistemas de visión por computadora más robustos, generalizables y alineados con los humanos.
Bóveda de Conocimiento construida porDavid Vivancos 2024