Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-La Ley de Moore se está desacelerando, limitando la computación por potencia, y los sistemas convencionales basados en CPU ya no son suficientes.
2.-El aprendizaje automático se está utilizando en varios aspectos de la sociedad, lo que lleva a demandas insaciables de computación para entrenar y servir modelos.
3.-El desafío es lograr una mejora de rendimiento de cien a mil veces en aplicaciones de ML a pesar de la desaceleración de la Ley de Moore.
4.-La solución debe lograr alto rendimiento, eficiencia y programabilidad, con flexibilidad similar a un procesador y eficiencia similar a un ASIC.
5.-Se propone la computación de flujo de datos como la respuesta para cumplir con estos requisitos.
6.-La tendencia abrumadora en ML es construir modelos más complejos con mayores precisiones, ejemplificados por grandes modelos de lenguaje.
7.-El tamaño de los modelos basados en transformadores se duplica cada 2.5 meses, alcanzando billones de parámetros, pero entrenarlos es ineficiente.
8.-Se están investigando modelos dispersos para lograr menores requisitos de memoria y cómputo manteniendo la precisión.
9.-La técnica de mariposa pixelada combina patrones de dispersión de mariposa con cómputo en bloques para una utilización eficiente del hardware.
10.-Hay una convergencia de entrenamiento e inferencia, permitiendo servir el mismo modelo que fue entrenado sin recalificación.
11.-El reentrenamiento continuo se hace posible con una plataforma convergente, adaptándose al desplazamiento de distribución en los datos de inferencia.
12.-Los modelos de ML se desarrollan utilizando marcos de lenguaje específico de dominio de alto nivel como PyTorch y TensorFlow, representando gráficos de computación de flujo de datos.
13.-Los operadores específicos de dominio pueden descomponerse en patrones paralelos jerárquicos que pueden optimizarse para diferentes arquitecturas de hardware.
14.-Patrones paralelos como map, reduce, group by describen tanto la computación paralela como el acceso a datos para la optimización del rendimiento.
15.-Los futuros modelos de ML requieren computación masiva energéticamente eficiente, modelos de tamaño terabyte, ejecución eficiente de dispersión y convergencia de entrenamiento e inferencia.
16.-La arquitectura de flujo de datos reconfigurable Plasticine fue desarrollada para ejecutar eficientemente patrones paralelos utilizando unidades dedicadas de cómputo y memoria.
17.-SambaNova Systems fue fundada para implementar la arquitectura de flujo de datos reconfigurable, resultando en el chip SN10 con capacidades sustanciales de cómputo y memoria.
18.-El chip SN10 tiene un tablero de ajedrez de unidades de cómputo y memoria, caminos de datos amplios y redes estáticas/dinámicas para mover datos eficientemente.
19.-El objetivo es tomar modelos de PyTorch/TensorFlow y desenrollarlos en el espacio para explotar el paralelismo de vector, tubería y flujo espacial.
20.-La unidad de cómputo de patrón explota el paralelismo de vector y tubería, mientras que las unidades de memoria de patrón proporcionan un suministro de datos de alto ancho de banda y transformaciones.
21.-El flujo de datos espacial mejora la ejecución al diseñar el gráfico de computación en el espacio, permitiendo la fusión de kernels en el chip y la metacanalización.
22.-El compilador SambaFlow toma PyTorch/TensorFlow y genera un mapeo eficiente al RDU, optimizando kernels en tiempo y espacio.
23.-El flujo de datos espacial proporciona una mejora de 2-6x sobre TPUs en varios algoritmos de ML debido a la ruta de datos de grano fino, programación y fusión.
24.-El enfoque de mariposa pixelada con flujo de datos espacial puede proporcionar una mejora de 2x en clasificación de imágenes y modelado de lenguaje.
25.-RDU puede explotar más paralelismo que las GPUs para cómputo disperso, con hasta 20x de mejora de rendimiento en tamaños de lote más pequeños.
26.-El cómputo de flujo de datos eficiente de RDU y el ancho de banda de memoria fuera del chip mínimo permiten alta capacidad (1.5TB/chip) sin memoria de alto ancho de banda.
27.-Los sistemas RDU pueden entrenar grandes modelos de lenguaje con menos chips, eliminando la ingeniería de sistemas compleja para el uso eficiente de múltiples chips.
28.-La flexibilidad del tamaño de lote de RDU permite un aprendizaje más rápido para aplicaciones como modelos de descubrimiento de fármacos.
29.-Las grandes capacidades de memoria y mosaico de RDU permiten mayor resolución y precisión para tareas de visión por computadora como la física de neutrinos.
30.-RDU proporciona 20x mejor rendimiento de inferencia y latencia en comparación con GPUs para aplicaciones como modelos de recomendación de aprendizaje profundo.
Bóveda de Conocimiento construida porDavid Vivancos 2024