Conocimiento Bóveda 2/4 - ICLR 2014-2023
Vincent Vanhoucke ICLR 2014 - Charla Invitada - Aprendiendo Representaciones Visuales a Gran Escala
<Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef google fill:#f9d4d4, font-weight:bold, font-size:14px; classDef convnets fill:#d4f9d4, font-weight:bold, font-size:14px; classDef parallelization fill:#d4d4f9, font-weight:bold, font-size:14px; classDef efficiency fill:#f9f9d4, font-weight:bold, font-size:14px; classDef objectdetection fill:#f9d4f9, font-weight:bold, font-size:14px; classDef video fill:#d4f9f9, font-weight:bold, font-size:14px; A[Vincent Vanhoucke
ICLR 2014] --> B[Ex-científico de habla ahora
reconocimiento de imágenes en Google 1] A --> C[Convnets poderoso martillo
en tareas de visión 2] A --> E[Objetivo construir más rápido
convnets, escalado eficiente 4] A --> F[Paralelizar modelo de entrenamiento
dividir vs copiar datos 5] A --> R[Más rápido, convnets eficientes
reducir filtros redundantes 15] A --> X[Desafíos de clasificación de video
fusión, conv 3D 21] C --> D[Clasificación de perros de grano fino
muestra poder de transferencia 3] F --> G[El paralelismo de modelos tiene
penalización de comunicación 6] F --> H[El paralelismo de datos tiene
penalización de sincronización de parámetros 6] F --> I[Modelo distribuido implementado
y paralelismo de datos 7] F --> L[Diseño de paralelismo a través de
topologías de cómputo, densidades 9] I --> J[Funciona mejor baja
densidad de cómputo 8] I --> K[Se descompone en núcleos de alta densidad
como GPUs 8] R --> S[Convoluciones separables independientes
canales, proyección 1x1 16] S --> T[Menos parámetros 5-10x,
preciso, convergencia rápida 17] S --> AD[Multiplicador de profundidad separable
8 entrada a características 27] E --> U[Escalar detección de objetos
más clases, datos 18] U --> V[Detector saliente genérico,
sin ventanas deslizantes 19] V --> W[Resultados competitivos VOC ImageNet
escalable 20] V --> AG[Inferencia de caja delimitadora
detalles en diapositivas 30] X --> Y[Característica prometedora de Youtube
transferencia supera UCF-101 22] X --> AF[Modelado físico, gráficos
ayudan a la compresión de video 29] E --> Z[Convnets grandes +
ajuste fino supera ML 23] Z --> AA[La robustez sugiere que el aprendizaje profundo
está más cerca de lo correcto 24] E --> AB[Cuello de botella de cómputo, redes más grandes
con abandono 25] AB --> AC[Tamaño del modelo limitado por memoria GPU
26] L --> M[Paralelismo de modelo convoluciones,
datos totalmente conectados 10] M --> N[Desafío totalmente conectado
necesita todos los datos de conv 11] M --> O[Transmitir salida de conv,
paralelizar fragmentos de la siguiente capa 12] O --> P[Transmisión en tubería siguiente
lote durante el actual 13] O --> Q[3.74x 4 GPU,
6.32x 8 GPU aceleración 14] E --> AE[Minilotes grandes funcionan,
superposición comunicación cómputo 28] class A,B google; class C,D,R,S,T convnets; class E,F,G,H,I,J,K,L,M,N,O,P,Q parallelization; class U,V,W,AG objectdetection; class X,Y,AF video; class Z,AA,AB,AC,AD,AE efficiency;

Resumen:

1.-El ponente es un científico de reconocimiento de habla en recuperación que ahora trabaja en el reconocimiento de imágenes en el grupo de infraestructura de aprendizaje profundo en Google.

2.-Las redes convolucionales son un enfoque poderoso de "martillo" que funcionan bien en muchas tareas de visión por computadora como búsqueda, etiquetado, segmentación, detección.

3.-Ejemplo de clasificación de razas de perros de grano fino - usando un modelo preentrenado de ImageNet con nuevos datos obtiene el 2° lugar, mostrando el poder del aprendizaje por transferencia.

4.-El objetivo es construir mejores redes convolucionales más rápido, hacer el entrenamiento más eficiente a medida que se escala a datos y modelos más grandes.

5.-Dos enfoques para paralelizar el entrenamiento de redes neuronales - paralelismo de modelo (dividir la red entre máquinas) y paralelismo de datos (copiar modelo, dividir datos).

6.-El paralelismo de modelo tiene una penalización de comunicación al intercambiar datos entre máquinas. El paralelismo de datos tiene una penalización de comunicación al sincronizar parámetros entre trabajadores.

7.-Sistema distribuido implementado que hace tanto paralelismo de modelo como de datos. Usa SGD asincrónico. Pero la eficiencia sigue siendo pobre a medida que se añaden máquinas.

8.-Funciona mejor con baja densidad de cómputo (red rápida, núcleos lentos). Se descompone con núcleos de alta densidad como GPUs debido al cuello de botella de comunicación.

9.-El objetivo es diseñar un enfoque de paralelismo que funcione a través de diferentes topologías y densidades de cómputo para mantenerse al día con el hardware de rápido cambio.

10.-Nueva idea de Alex Krizhevsky - usar paralelismo de modelo para capas convolucionales, paralelismo de datos para capas totalmente conectadas.

11.-El desafío es que las capas totalmente conectadas necesitan todos los datos de la capa convolucional, causando un cuello de botella de comunicación al cambiar los enfoques de paralelismo.

12.-Solución - transmitir la salida de la capa convolucional a todos los trabajadores, hacer que trabajen en fragmentos de la siguiente capa en paralelo.

13.-Ingeniosa canalización - comenzar a transmitir el siguiente lote a totalmente conectado durante el cómputo del lote actual para superponer comunicación y cómputo.

14.-Se puede obtener una aceleración de 3.74x en 4 GPUs (casi óptimo 4x), 6.32x en 8 GPUs. Más rápido que otros enfoques en la literatura.

15.-Próximo tema - hacer que los convnets sean más rápidos y eficientes. Los filtros son a menudo redundantes, por ejemplo, los filtros RGB en la primera capa son muy similares.

16.-Convoluciones separables - primero convolucionar cada canal de entrada independientemente para hacer muchos mapas de características más delgados, luego convolución 1x1 para proyectar.

17.-Usa muchos menos parámetros, reducción típica de 5-10x. Igual de preciso, converge más rápido. Simple de implementar. Funciona mejor para tareas a gran escala.

18.-La próxima frontera es escalar la detección de objetos con convnets a más clases y datos. Los enfoques actuales son lentos y específicos de clase.

19.-Nuevo enfoque - construir un detector genérico de "objetos salientes" usando características de conv para proponer directamente regiones de objetos, sin ventanas deslizantes.

20.-Obtiene resultados competitivos en detección VOC e ImageNet de una manera mucho más escalable al restringir la complejidad del modelo y la propuesta de regiones.

21.-La clasificación de video es el próximo desafío. Aún no hay enfoques claros - fusión tardía, fusión temprana, convolución 3D, ¿híbrido? Limitado computacionalmente.

22.-Pero se observa un prometedor aprendizaje por transferencia - las características de convnet aprendidas en videos de Youtube superan al estado del arte en el benchmark UCF-101, sin ajuste fino de convnet.

23.-Una y otra vez, los modelos grandes de convnet más el ajuste fino específico de tareas a menor escala producen resultados de vanguardia, mucho más robustos que el ML pasado.

24.-Esta robustez a nuevos datos sugiere que los modelos de aprendizaje profundo están más cerca del enfoque "correcto", no solo sobreajustando.

25.-El mayor cuello de botella es el cómputo - con cómputo ilimitado, podría entrenar redes mucho más grandes con más regularización de abandono y casi seguramente mejorar.

26.-Actualmente el tamaño del modelo está limitado por la memoria de GPU. Algunos modelos entrenan durante meses para obtener pequeñas ganancias. Más cómputo ayudaría mucho.

27.-En las convoluciones separables, típicamente se usa un "multiplicador de profundidad" de 8 - convertir cada canal de entrada en 8 mapas de características antes del 1x1.

28.-Los minilotes muy grandes funcionan sorprendentemente bien, generalmente no perjudican la convergencia. Permiten una mejor superposición de comunicación y cómputo durante el entrenamiento distribuido.

29.-El modelado físico y la inversión del pipeline de gráficos podrían ayudar al video, fuerte antecedente para la compresión de datos. Pero no está claro cuánto ayuda en general.

30.-Detalles del enfoque de inferencia de caja delimitadora en diapositivas no discutidos en profundidad - dejados para que la audiencia discuta con los autores después.

Bóveda del Conocimiento construida porDavid Vivancos 2024