Understand Transformers in 10 minutes

Posted by

HTML Tutorial:

Comprendre les Transformers en 10 minutes

Comprendre les Transformers en 10 minutes

Les Transformers sont des modèles de traitement du langage naturel utilisés dans le domaine de l’intelligence artificielle. Ils ont révolutionné le domaine de la traduction automatique, de la génération de texte et de la compréhension du langage naturel. En seulement 10 minutes, vous pouvez comprendre les bases des Transformers et comment ils fonctionnent.

Qu’est-ce qu’un Transformer?

Un Transformer est un modèle de réseau de neurones développé par Google en 2017. Il a été introduit dans le papier de recherche “Attention is All You Need”. Les Transformers se distinguent des modèles précédents par leur capacité à traiter des séquences de données de manière parallèle, ce qui les rend beaucoup plus efficaces pour des tâches de traitement du langage naturel.

Comment fonctionne un Transformer?

Un Transformer se compose de plusieurs couches d’attention et de couches feed-forward. Chaque couche d’attention permet au modèle de focaliser son attention sur des parties spécifiques de la séquence en entrée, tandis que les couches feed-forward sont responsables de la transformation non linéaire des données.

Les composants d’un Transformer

Un Transformer se compose de trois principaux composants:

  • 1. Embedding: Les embeddings sont les représentations vectorielles des mots dans un espace de dimension réduite.
  • 2. Encoders: Les encodeurs sont les modules responsables de la transformation des embeddings en représentations plus riches.
  • 3. Decoders: Les décodeurs sont les modules utilisés pour générer des séquences de sortie à partir des représentations encodées.

Applications des Transformers

Les Transformers ont été largement utilisés dans divers domaines tels que la traduction automatique, la génération de résumés de texte, la génération de texte et même la reconnaissance d’entités nommées. Leur capacité à capturer des dépendances à longue distance et à traiter des séquences de données de manière parallèle en fait des modèles très polyvalents.

Conclusion

En seulement 10 minutes, vous avez compris les bases des Transformers et comment ils sont utilisés dans le domaine de l’intelligence artificielle. Si vous souhaitez en savoir plus sur les Transformers, je vous recommande de consulter les ressources en ligne et de commencer à expérimenter avec des modèles pré-entraînés.

0 0 votes
Article Rating
12 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
@animewatcher-bk9ur
3 months ago

Bonjour, je comprends l'idée générale de l'attention mais j'ai du mal à saisir intuitivement comment le produit q(i)*k(j) nous indique à quel point le modèle doit prêter attention au token j. D'après ce que j'ai compris, les queries et les keys proviennent d'un entrainement, mais je ne comprends pas comment ce produit fournit une mesure de la pertinence/attention du token j.

Je sais que la notion de produit scalaire nous donne une information sur la "similarité" entre deux vecteurs. Mais du coup, pourquoi ne pas comparer les clés entre eux ? Pourquoi utiliser une query ? Comment peut-on être certain que le produit q(i)*k(j) donne une information pertinente pour l'attention à accorder au token considéré ? Est-ce que pendant l'entrainement, le modèle comprend que le produit q * k signifie "score d'attention" ? Ou alors on voit empiriquement que c'est mieux d'utiliser deux vecteurs q et k différents ?

Désolé si les questions sont mal formulées, je ne vois pas encore très clair étant nouveau dans le NLP. En tout cas, merci beaucoup pour vos vidéos !!

@shindero
3 months ago

Optimum pride

@ghizleneouafi
3 months ago

Merci c'est très bien expliqué <3

@SaveCount-bh8tp
3 months ago

Tes vidéos sont très utiles merci beaucoup n'oublie pas de m'écrire

@lest7522
3 months ago

Bien vu

@prfontaine5387
3 months ago

Incompréhensible pour un néophyte, trop de prérequis nécessaires, je passe

@labyrinthus304
3 months ago

C'est bien beau tout ça, mais quel est le rapport avec Optimus Prime?

@tetuaoro
3 months ago

Wow les dessins sont beaux ! Merci pour cette superbe vidéo.

@redia-uz4yv
3 months ago

Salut, il a une une chose qui me perturbe. Dans la vidéo tu as parlé du look ahead Mask . Mais pour le padding Mask j’ai remarqué que l’on appliquer le Padding que sur les colonnes.

@diabolo19x
3 months ago

Super video, il y a par contre un abus de langage sur le masque. Il n'est utilisé que dans la version predictive des trasnformers (decoder) voir le papier attention is all you need. Super job sinon

@redone7696
3 months ago

T’es le meilleur youtubeur en IA de toute la France.

@nathank.2746
3 months ago

Super explication ! A quoi correspondent les attentions heads dans les modèles transformers ?