Conocimiento Bóveda 2/17 - ICLR 2014-2023
Karen Simonyan, Andrew Zisserman ICLR 2015 - Redes Neuronales Convolucionales Muy Profundas para el Reconocimiento de Imágenes a Gran Escala
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef arch fill:#f9d4d4, font-weight:bold, font-size:14px; classDef train fill:#d4f9d4, font-weight:bold, font-size:14px; classDef eval fill:#d4d4f9, font-weight:bold, font-size:14px; classDef results fill:#f9f9d4, font-weight:bold, font-size:14px; classDef impact fill:#f9d4f9, font-weight:bold, font-size:14px; A[Karen Simonyan et al
ICLR 2015] --> B[ConvNets más profundos mejoran
la clasificación de ImageNet. 1] B --> C[Evaluación de profundidad en
la misma arquitectura. 2] C --> D[Modelos más profundos que
el arte previo. 3] A --> E[Usa pequeños núcleos 3x3
en todas partes. 7] E --> F[3x3 apilados sin agrupamiento:
campo receptivo más grande. 9] E --> G[3x3 apilados: más no linealidad,
menos parámetros. 10] E --> H[Núcleos 3x3 simplifican
el diseño de la arquitectura. 11] A --> I[Arquitecturas: 11 a
19 capas. 12] A --> J[Entrada fija 224x224,
reescalar, recortar. 13] J --> K[Entrenamiento multiescala:
reescalar 256-512, recortar. 14] A --> L[Se usa aumento estándar,
sin distorsiones. 15] A --> M[Optimización de descenso
de gradiente por mini-lotes. 16] A --> N[11 capas inicializan
redes más profundas. 17] A --> O[Dos pruebas: muestreo de recorte,
totalmente convolucional. 19] O --> P[Evaluación multiescala en
múltiples resoluciones ayuda. 20] A --> Q[Implementación: Caffe,
múltiples GPUs. 21] A --> R[Resultados: profundidad importante,
multiescala ayuda. 22] R --> S[Evaluación densa y de recorte
complementarias. 23] R --> T[Ganó 2014 ImageNet
localización y clasificación. 24] A --> U[Características profundas superan
a las menos profundas en conjuntos de datos. 27] A --> V[Profundidad crucial para ImageNet,
3x3 funciona bien. 29] A --> W[Modelos disponibles públicamente
para descargar. 5] W --> X[Modelos liberados permitieron avances en detección,
segmentación. 28] X --> Y[Modelos de 16, 19 capas
liberados para uso. 30] class B,C,D,E,F,G,H,I arch; class J,K,L,M,N train; class O,P,Q eval; class R,S,T,U,V results; class W,X,Y impact;

Resumen:

1.-Las redes convolucionales se han vuelto más profundas con el tiempo para mejorar el rendimiento en la clasificación de ImageNet.

2.-El trabajo evalúa redes convolucionales de diferentes profundidades en ImageNet que comparten el mismo diseño de arquitectura excepto por la profundidad.

3.-Los modelos son mucho más profundos en comparación con el estado del arte previo como AlexNet.

4.-Las características más profundas se evalúan en otros conjuntos de datos.

5.-Los modelos se hicieron disponibles públicamente para que la comunidad los descargue y use.

6.-Se explora una sola familia de redes donde solo difiere la profundidad, fijando otras opciones clave de diseño.

7.-Se usan núcleos de convolución muy pequeños de 3x3 en todas las capas con paso 1, diferenciándose de trabajos previos.

8.-Se usan otros detalles convencionales como agrupamiento máximo, abandono, capas completamente conectadas, con la última capa realizando la clasificación.

9.-Las capas conv apiladas de 3x3 sin agrupamiento entre ellas tienen un campo receptivo más grande que una sola capa.

10.-Las capas apiladas de 3x3 tienen más no linealidad haciendo la función de decisión más discriminativa, y tienen menos parámetros.

11.-Comprometerse a usar núcleos de 3x3 en todas partes facilita el diseño de la arquitectura.

12.-Las arquitecturas se construyen comenzando con 11 capas e inyectando más capas conv de 3x3 para obtener 13, 16, 19 capas.

13.-La entrada es una imagen fija de 224x224. El enfoque convencional es reescalar para preservar la relación de aspecto y luego tomar un recorte aleatorio.

14.-Se utiliza entrenamiento multiescala, reescalando cada imagen a un tamaño muestreado aleatoriamente entre 256-512 antes de tomar un recorte fijo.

15.-Se usan aumentos estándar como giros horizontales y desplazamientos RGB, pero no distorsiones automáticas avanzadas.

16.-Las redes se optimizan con descenso de gradiente por mini-lotes con momento. La convergencia es rápida en ~74 épocas debido a los pequeños núcleos.

17.-El modelo de 11 capas se inicializa desde Gaussiana y se usa para inicializar redes más profundas sin fijar las capas.

18.-También es posible la inicialización completamente aleatoria por capa si se escala para preservar magnitudes.

19.-Dos enfoques de prueba: Muestreo de recorte aleatorio con combinación de predicciones, y evaluación completamente convolucional para obtener mapas de puntuación de clase.

20.-Se prueban ambos enfoques de prueba junto con la combinación de sus predicciones. La evaluación multiescala al aplicar a múltiples resoluciones ayuda.

21.-La implementación utilizó una caja de herramientas Caffe modificada que soporta múltiples GPUs con paralelismo de datos sincrónico. Aceleración de 3.7x con 4 GPUs.

22.-Los resultados muestran que la profundidad es importante, con redes de 16 y 19 capas superando sustancialmente a las de 11 capas. El entrenamiento y la prueba multiescala ayudan.

23.-La evaluación densa y la evaluación de múltiples recortes producen resultados comparables y son complementarias cuando se combinan.

24.-El enfoque ganó el desafío de localización de ImageNet 2014 y obtuvo el 2º en clasificación después de GoogleNet. Un solo modelo obtuvo un error del 7%.

25.-Tanto VGG como GoogleNet usaron redes muy profundas con entrenamiento multiescala. VGG usó núcleos simples de 3x3, GoogleNet usó Inception complejo.

26.-Se reportaron resultados aún mejores después, construyendo sobre las redes VGG profundas de 3x3 pero más anchas con un aumento más agresivo.

27.-Las representaciones profundas funcionan bien como extractores de características en otros conjuntos de datos. Las características más profundas superan a las menos profundas incluso con clasificadores simples.

28.-Los modelos de 16 y 19 capas liberados públicamente permitieron avances en detección de objetos, segmentación, subtitulado después de su liberación.

29.-La profundidad convolucional es muy importante para la clasificación de ImageNet. Las redes construidas con capas conv apiladas de 3x3 funcionan bien.

30.-Los modelos de 16 y 19 capas fueron liberados y pueden ser usados en cualquier paquete con un backend Caffe o Torch.

Bóveda de Conocimiento construida porDavid Vivancos 2024