Quelles sont les contraintes computationnelles lors de l’entraînement d’un modèle de langue ?

Quelles sont les techniques qui permettent de limiter ses contraintes ?

Qu’est ce qu’un Petaflop ? Comment choisir le nombre de CPU vs taille du dataset vs nombre de poids du modèle ?

Limitations

CUDA memory

1 param — 4 bytes — 32bit float

1B parameters — 4 x 10^9 bytes — 4 GB

Screenshot 2023-07-17 at 17.28.10.png

20 bytes per parameter — 80 GB

80 GB = Single Nvidia 100 GPU

How to reduce memory size ?

Screenshot 2023-07-17 at 17.31.55.png

4 bytes —> 2 bytes (reduction by half)

Machines