Conocimiento Bóveda 5 /14 - CVPR 2016
Aprendizaje Residual Profundo para el Reconocimiento de Imágenes
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef competitions fill:#f9d4d4, font-weight:bold, font-size:14px classDef network fill:#d4f9d4, font-weight:bold, font-size:14px classDef performance fill:#d4d4f9, font-weight:bold, font-size:14px classDef resnet fill:#f9f9d4, font-weight:bold, font-size:14px classDef applications fill:#f9d4f9, font-weight:bold, font-size:14px A["Aprendizaje Residual Profundo
para el Reconocimiento de Imágenes"] --> B["ResNet ganó
competiciones 2015. 1"] A --> C["La profundidad de la red
aumenta con el tiempo. 2"] C --> D["La profundidad mejora
los resultados de detección de objetos. 3"] C --> E["AlexNet 2012, VGGNet 2014,
ResNet 2015. 4"] C --> F["Más capas no
aseguran mejor rendimiento. 5"] C --> G["Redes más profundas pueden tener
errores más altos. 6"] G --> H["Modelos más profundos deberían reducir
el error de entrenamiento. 7"] G --> I["Los solucionadores tienen problemas con
redes muy profundas. 8"] A --> J["ResNet usa
conexiones de salto de identidad. 9"] J --> K["Pesos más fáciles de
ajustar con identidad. 10"] J --> L["ResNet: diseño VGG +
conexiones de salto. 11"] J --> M["ResNets superan a
redes simples en profundidad. 12"] J --> N["ResNet de 34 capas
supera a una de 18 capas. 13"] J --> O["Se necesitan menos filtros
en modelos más profundos. 14"] A --> P["ResNets útiles
más allá de la clasificación. 15"] P --> Q["ResNet-101
supera a VGG-16. 16"] Q --> R["Detector entrenado en COCO con ResNet-101
destaca. 17"] P --> S["ResNets destacan en
varios benchmarks. 18"] P --> T["ResNets aplicados
más allá de tareas de visión. 19"] A --> U["La profundidad permite
entrenamiento más fácil. 20"] U --> V["ResNets: entrenamiento fácil,
precisos, transferibles. 21"] U --> W["Futuro: ImageNet de 200 capas,
CIFAR-10 de 1000 capas. 22"] U --> X["Modelos preentrenados,
código de entrenamiento liberado. 23"] U --> Y["Redes de un millón de capas
improbables pronto. 24"] U --> Z["La profundidad es una dimensión de
diseño de redes. 25"] U --> AA["La profundidad no siempre es
rentable. 26"] U --> AB["Equilibrar la profundidad con
otros factores. 27"] P --> AC["Modelos más profundos pueden
usar menos filtros. 28"] P --> AD["ResNet-101 muestra
transferencia de características. 29"] P --> AE["ResNets: lo último en tecnología,
versátiles. 30"] class A,B competitions class C,D,E,F,G,H,I,J,K,L,M,N,O network class P,Q,R,S,T performance class U,V,W,X,Y,Z,AA,AB resnet class AC,AD,AE applications

Resumen:

1.- ResNet ganó 5 pistas principales en las competiciones ImageNet & COCO 2015, a menudo por un amplio margen

2.- El benchmark de ImageNet muestra un aumento en la profundidad de la red con el tiempo, desde métodos no profundos hasta redes de más de 150 capas

3.- El aumento de la profundidad ha mejorado enormemente los resultados en tareas como la detección de objetos Pascal VOC

4.- AlexNet (8 capas) era el estado del arte en 2012, VGGNet/GoogleNet (20 capas) en 2014, ResNet (más de 150 capas) en 2015

5.- Simplemente apilar más capas no garantiza un mejor rendimiento

6.- Los experimentos muestran que las redes simples más profundas pueden tener un error de entrenamiento y prueba más alto que las redes menos profundas

7.- Intuición: Los modelos más profundos tienen un espacio de soluciones más rico, por lo que no deberían tener un error de entrenamiento más alto

8.- Hipótesis: Los solucionadores actuales (SGD, backprop) tienen dificultades de optimización para redes muy profundas

9.- Solución de ResNet: Hacer que las capas aprendan funciones residuales con referencia a las entradas de capa, usando conexiones de salto de identidad

10.- Hipótesis: Más fácil establecer pesos a 0 si la identidad es óptima, más fácil aprender pequeñas fluctuaciones sobre la identidad

11.- Diseño de ResNet: Similar a VGG - capas conv 3x3, duplicar filtros al reducir a la mitad el tamaño espacial. Convertir a ResNet con conexiones de salto

12.- Resultados en CIFAR-10: El error de las redes simples aumenta con la profundidad, el error de ResNets disminuye incluso más allá de 100 capas

13.- ImageNet: ResNet de 34 capas supera a una de 18 capas, el error disminuye hasta 152 capas manteniendo menor complejidad que VGG

14.- Hipótesis: La expresividad de los modelos más profundos significa que se necesitan menos filtros, permitiendo ResNets más profundas con baja complejidad

15.- ResNets son útiles como extractores de características para otras tareas de visión más allá de solo clasificadores

16.- Las características de ResNet-101 dieron un aumento del 28% sobre VGG-16 para la detección de objetos

17.- Detección de objetos COCO: Detector de 80 categorías entrenado en características de ResNet-101 detecta muchas clases de objetos en imágenes/video

18.- ResNets lideran en muchos benchmarks - PASCAL VOC, desafío VQA, estimación de pose humana, estimación de profundidad, propuesta de segmento

19.- ResNets también se usan más allá de la visión - generación de imágenes, PLN, reconocimiento de voz, publicidad computacional

20.- La idea central es ir más profundo haciendo que sea más fácil entrenar redes muy profundas

21.- Conclusiones: ResNets son fáciles de entrenar, ganan precisión con la profundidad y proporcionan buenas características transferibles

22.- Trabajo de seguimiento: ImageNet de 200 capas, CIFAR-10 de 1000 capas ResNets

23.- Se liberaron modelos preentrenados de ImageNet en Caffe, Facebook liberó código de entrenamiento en Torch. Muchas implementaciones de terceros disponibles

24.- El autor no espera redes de un millón de capas para el próximo CVPR

25.- La profundidad es una dimensión del espacio de diseño de redes a explorar, junto con el ancho, etc.

26.- Ir más profundo no siempre es lo más económico para un presupuesto computacional dado

27.- ResNets permiten entrenar redes más profundas pero se necesita un equilibrio óptimo con otros factores

28.- Los modelos más profundos son más expresivos, por lo que potencialmente pueden usar menos filtros

29.- Simplemente reemplazar VGG-16 con ResNet-101 dio grandes ganancias en detección de objetos, mostrando transferencia de características

30.- ResNets son el estado del arte en muchos benchmarks de visión y tienen aplicaciones más allá de la visión también

Bóveda del Conocimiento construida porDavid Vivancos 2024