Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-El ponente es un científico de reconocimiento de habla en recuperación que ahora trabaja en el reconocimiento de imágenes en el grupo de infraestructura de aprendizaje profundo en Google.
2.-Las redes convolucionales son un enfoque poderoso de "martillo" que funcionan bien en muchas tareas de visión por computadora como búsqueda, etiquetado, segmentación, detección.
3.-Ejemplo de clasificación de razas de perros de grano fino - usando un modelo preentrenado de ImageNet con nuevos datos obtiene el 2° lugar, mostrando el poder del aprendizaje por transferencia.
4.-El objetivo es construir mejores redes convolucionales más rápido, hacer el entrenamiento más eficiente a medida que se escala a datos y modelos más grandes.
5.-Dos enfoques para paralelizar el entrenamiento de redes neuronales - paralelismo de modelo (dividir la red entre máquinas) y paralelismo de datos (copiar modelo, dividir datos).
6.-El paralelismo de modelo tiene una penalización de comunicación al intercambiar datos entre máquinas. El paralelismo de datos tiene una penalización de comunicación al sincronizar parámetros entre trabajadores.
7.-Sistema distribuido implementado que hace tanto paralelismo de modelo como de datos. Usa SGD asincrónico. Pero la eficiencia sigue siendo pobre a medida que se añaden máquinas.
8.-Funciona mejor con baja densidad de cómputo (red rápida, núcleos lentos). Se descompone con núcleos de alta densidad como GPUs debido al cuello de botella de comunicación.
9.-El objetivo es diseñar un enfoque de paralelismo que funcione a través de diferentes topologías y densidades de cómputo para mantenerse al día con el hardware de rápido cambio.
10.-Nueva idea de Alex Krizhevsky - usar paralelismo de modelo para capas convolucionales, paralelismo de datos para capas totalmente conectadas.
11.-El desafío es que las capas totalmente conectadas necesitan todos los datos de la capa convolucional, causando un cuello de botella de comunicación al cambiar los enfoques de paralelismo.
12.-Solución - transmitir la salida de la capa convolucional a todos los trabajadores, hacer que trabajen en fragmentos de la siguiente capa en paralelo.
13.-Ingeniosa canalización - comenzar a transmitir el siguiente lote a totalmente conectado durante el cómputo del lote actual para superponer comunicación y cómputo.
14.-Se puede obtener una aceleración de 3.74x en 4 GPUs (casi óptimo 4x), 6.32x en 8 GPUs. Más rápido que otros enfoques en la literatura.
15.-Próximo tema - hacer que los convnets sean más rápidos y eficientes. Los filtros son a menudo redundantes, por ejemplo, los filtros RGB en la primera capa son muy similares.
16.-Convoluciones separables - primero convolucionar cada canal de entrada independientemente para hacer muchos mapas de características más delgados, luego convolución 1x1 para proyectar.
17.-Usa muchos menos parámetros, reducción típica de 5-10x. Igual de preciso, converge más rápido. Simple de implementar. Funciona mejor para tareas a gran escala.
18.-La próxima frontera es escalar la detección de objetos con convnets a más clases y datos. Los enfoques actuales son lentos y específicos de clase.
19.-Nuevo enfoque - construir un detector genérico de "objetos salientes" usando características de conv para proponer directamente regiones de objetos, sin ventanas deslizantes.
20.-Obtiene resultados competitivos en detección VOC e ImageNet de una manera mucho más escalable al restringir la complejidad del modelo y la propuesta de regiones.
21.-La clasificación de video es el próximo desafío. Aún no hay enfoques claros - fusión tardía, fusión temprana, convolución 3D, ¿híbrido? Limitado computacionalmente.
22.-Pero se observa un prometedor aprendizaje por transferencia - las características de convnet aprendidas en videos de Youtube superan al estado del arte en el benchmark UCF-101, sin ajuste fino de convnet.
23.-Una y otra vez, los modelos grandes de convnet más el ajuste fino específico de tareas a menor escala producen resultados de vanguardia, mucho más robustos que el ML pasado.
24.-Esta robustez a nuevos datos sugiere que los modelos de aprendizaje profundo están más cerca del enfoque "correcto", no solo sobreajustando.
25.-El mayor cuello de botella es el cómputo - con cómputo ilimitado, podría entrenar redes mucho más grandes con más regularización de abandono y casi seguramente mejorar.
26.-Actualmente el tamaño del modelo está limitado por la memoria de GPU. Algunos modelos entrenan durante meses para obtener pequeñas ganancias. Más cómputo ayudaría mucho.
27.-En las convoluciones separables, típicamente se usa un "multiplicador de profundidad" de 8 - convertir cada canal de entrada en 8 mapas de características antes del 1x1.
28.-Los minilotes muy grandes funcionan sorprendentemente bien, generalmente no perjudican la convergencia. Permiten una mejor superposición de comunicación y cómputo durante el entrenamiento distribuido.
29.-El modelado físico y la inversión del pipeline de gráficos podrían ayudar al video, fuerte antecedente para la compresión de datos. Pero no está claro cuánto ayuda en general.
30.-Detalles del enfoque de inferencia de caja delimitadora en diapositivas no discutidos en profundidad - dejados para que la audiencia discuta con los autores después.
Bóveda del Conocimiento construida porDavid Vivancos 2024