Comment faire de l’inférence avec un modèle de langue de manière efficace ?
Quelles sont les techniques permettant de réduire la taille des modèles ?


More effective for encoder model



ggml is a tensor library for machine learning to enable large models and high performance on commodity hardware. It is used by llama.cpp and whisper.cpp