Conocimiento Bóveda 2/86 - ICLR 2014-2023
Kunle Olukotun ICLR 2022 - Charla Invitada - ¡Acelerando Sistemas de IA: Deja Fluir los Datos!
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef computation fill:#f9d4d4, font-weight:bold, font-size:14px; classDef machinelearning fill:#d4f9d4, font-weight:bold, font-size:14px; classDef performance fill:#d4d4f9, font-weight:bold, font-size:14px; classDef models fill:#f9f9d4, font-weight:bold, font-size:14px; classDef architecture fill:#f9d4f9, font-weight:bold, font-size:14px; classDef compiler fill:#d4f9f9, font-weight:bold, font-size:14px; classDef applications fill:#f9d4d4, font-weight:bold, font-size:14px; A[Kunle Olukotun
ICLR 2022] --> B[La desaceleración de la Ley de Moore
limita la computación 1] A --> C[ML omnipresente, demandas
insaciables de computación 2] A --> G[Tendencia: modelos complejos,
mayor precisión 6] A --> K[Convergencia de entrenamiento
e inferencia 10] A --> M[Modelos de ML usan DSLs
de flujo de datos de alto nivel 12] A --> P[Necesidades futuras de ML: computación
eficiente, modelos grandes 15] B --> D[Se necesita un rendimiento de 100-1000x
a pesar de la desaceleración 3] D --> E[Se requiere alto rendimiento, eficiencia
y programabilidad 4] E --> F[Se propone la computación de flujo
de datos como solución 5] G --> H[Modelos transformadores duplicándose
cada 2.5 meses 7] H --> I[Modelos dispersos investigados
para eficiencia 8] I --> J[Mariposa pixelada:
dispersión + cómputo en bloques 9] K --> L[Reentrenamiento continuo,
adaptación al desplazamiento 11] M --> N[Operadores específicos de dominio descomponen
en patrones paralelos 13] N --> O[Patrones paralelos optimizan
computación, acceso a datos 14] P --> Q[Arquitectura de flujo de datos reconfigurable
Plasticine desarrollada 16] Q --> R[SambaNova Systems implementa
RDU en SN10 17] R --> S[SN10: unidades de cómputo, memoria
y redes 18] S --> T[Desenrollar PyTorch/TensorFlow
para paralelismo 19] T --> U[Unidades de patrón explotan
paralelismo, suministro de datos 20] T --> V[Flujo de datos espacial: diseño de gráfico,
fusión, canalización 21] P --> W[Compilador SambaFlow: PyTorch/TensorFlow
a RDU 22] W --> X[Flujo de datos espacial 2-6x
mejor que TPUs 23] X --> Y[Mariposa pixelada + flujo
de datos espacial 2x mejora 24] P --> Z[RDU explota paralelismo,
20x aceleración dispersa 25] Z --> AA[RDU: alta capacidad sin
memoria de alto ancho de banda 26] AA --> AB[RDU entrena grandes modelos
con menos chips 27] P --> AC[RDU permite un aprendizaje
más rápido en descubrimiento de fármacos 28] AC --> AD[RDU: mayor resolución,
precisión en visión 29] AD --> AE[RDU: 20x mejor rendimiento
de inferencia, latencia 30] class A,B,D,E,F computation; class C,G,H,I,J,K,L machinelearning; class M,N,O,P,Q,R,S,T,U,V,W,X,Y architecture; class Z,AA,AB,AC,AD,AE applications;

Resumen:

1.-La Ley de Moore se está desacelerando, limitando la computación por potencia, y los sistemas convencionales basados en CPU ya no son suficientes.

2.-El aprendizaje automático se está utilizando en varios aspectos de la sociedad, lo que lleva a demandas insaciables de computación para entrenar y servir modelos.

3.-El desafío es lograr una mejora de rendimiento de cien a mil veces en aplicaciones de ML a pesar de la desaceleración de la Ley de Moore.

4.-La solución debe lograr alto rendimiento, eficiencia y programabilidad, con flexibilidad similar a un procesador y eficiencia similar a un ASIC.

5.-Se propone la computación de flujo de datos como la respuesta para cumplir con estos requisitos.

6.-La tendencia abrumadora en ML es construir modelos más complejos con mayores precisiones, ejemplificados por grandes modelos de lenguaje.

7.-El tamaño de los modelos basados en transformadores se duplica cada 2.5 meses, alcanzando billones de parámetros, pero entrenarlos es ineficiente.

8.-Se están investigando modelos dispersos para lograr menores requisitos de memoria y cómputo manteniendo la precisión.

9.-La técnica de mariposa pixelada combina patrones de dispersión de mariposa con cómputo en bloques para una utilización eficiente del hardware.

10.-Hay una convergencia de entrenamiento e inferencia, permitiendo servir el mismo modelo que fue entrenado sin recalificación.

11.-El reentrenamiento continuo se hace posible con una plataforma convergente, adaptándose al desplazamiento de distribución en los datos de inferencia.

12.-Los modelos de ML se desarrollan utilizando marcos de lenguaje específico de dominio de alto nivel como PyTorch y TensorFlow, representando gráficos de computación de flujo de datos.

13.-Los operadores específicos de dominio pueden descomponerse en patrones paralelos jerárquicos que pueden optimizarse para diferentes arquitecturas de hardware.

14.-Patrones paralelos como map, reduce, group by describen tanto la computación paralela como el acceso a datos para la optimización del rendimiento.

15.-Los futuros modelos de ML requieren computación masiva energéticamente eficiente, modelos de tamaño terabyte, ejecución eficiente de dispersión y convergencia de entrenamiento e inferencia.

16.-La arquitectura de flujo de datos reconfigurable Plasticine fue desarrollada para ejecutar eficientemente patrones paralelos utilizando unidades dedicadas de cómputo y memoria.

17.-SambaNova Systems fue fundada para implementar la arquitectura de flujo de datos reconfigurable, resultando en el chip SN10 con capacidades sustanciales de cómputo y memoria.

18.-El chip SN10 tiene un tablero de ajedrez de unidades de cómputo y memoria, caminos de datos amplios y redes estáticas/dinámicas para mover datos eficientemente.

19.-El objetivo es tomar modelos de PyTorch/TensorFlow y desenrollarlos en el espacio para explotar el paralelismo de vector, tubería y flujo espacial.

20.-La unidad de cómputo de patrón explota el paralelismo de vector y tubería, mientras que las unidades de memoria de patrón proporcionan un suministro de datos de alto ancho de banda y transformaciones.

21.-El flujo de datos espacial mejora la ejecución al diseñar el gráfico de computación en el espacio, permitiendo la fusión de kernels en el chip y la metacanalización.

22.-El compilador SambaFlow toma PyTorch/TensorFlow y genera un mapeo eficiente al RDU, optimizando kernels en tiempo y espacio.

23.-El flujo de datos espacial proporciona una mejora de 2-6x sobre TPUs en varios algoritmos de ML debido a la ruta de datos de grano fino, programación y fusión.

24.-El enfoque de mariposa pixelada con flujo de datos espacial puede proporcionar una mejora de 2x en clasificación de imágenes y modelado de lenguaje.

25.-RDU puede explotar más paralelismo que las GPUs para cómputo disperso, con hasta 20x de mejora de rendimiento en tamaños de lote más pequeños.

26.-El cómputo de flujo de datos eficiente de RDU y el ancho de banda de memoria fuera del chip mínimo permiten alta capacidad (1.5TB/chip) sin memoria de alto ancho de banda.

27.-Los sistemas RDU pueden entrenar grandes modelos de lenguaje con menos chips, eliminando la ingeniería de sistemas compleja para el uso eficiente de múltiples chips.

28.-La flexibilidad del tamaño de lote de RDU permite un aprendizaje más rápido para aplicaciones como modelos de descubrimiento de fármacos.

29.-Las grandes capacidades de memoria y mosaico de RDU permiten mayor resolución y precisión para tareas de visión por computadora como la física de neutrinos.

30.-RDU proporciona 20x mejor rendimiento de inferencia y latencia en comparación con GPUs para aplicaciones como modelos de recomendación de aprendizaje profundo.

Bóveda de Conocimiento construida porDavid Vivancos 2024