Comment faire de l’inférence avec un modèle de langue de manière efficace ?
Quelles sont les techniques permettant de réduire la taille des modèles ?
More effective for encoder model
ggml is a tensor library for machine learning to enable large models and high performance on commodity hardware. It is used by llama.cpp and whisper.cpp