Attention concept
BERT coté encoder Mask language modelling
Totalement non supervisée - self-supervised model
Prédiction de la prochaine phrase: seulement la partie Decoder
Sur la partie attention:
Constructions de manière itérative. Comment optimiser la performance de ces modèles ?
Q: query vector
Chaque mot de la phrase est une requête ?
J’aime la pizza
Quelle autre mots sont en lien avec moi