Lors de la conférence pour développeurs Google I/O 2021 la firme de Mountain View a présenté le successeur de BERT. Il porte le nom de MUM et est censé être environ 1 000 fois plus puissant. Nous explorerons Ce que cela change pour la visibilité de nos sites.
twitter.com/nicoseosem
2. Paris 2021 #seocamp
Cycle Search 2
@nicoseosem - @SistrixFR
Je suis Nicolas Audemar (@nicoseosem)
Consultant SEO Espagne / France depuis
2011 à Barcelona.
SAAS – Ecommerce – Générateur de Lead
Country Manager France pour l'outil SEO
SISTRIX
3. Paris 2021 #seocamp
Cycle Search
(Ro)BERT
3
@nicoseosem - @SistrixFR
https://www.blog.google/products/search/search-language-understanding-bert/
https://blog.google/products/search/responsibly-applying-ai-models-search/
Apparition fin 2019
Successeur de RankBrain (2015)
Bidirectional Encoder Representations from Transformers : Représentations d'encodeurs
bidirectionnels à partir de transformateurs
Objectif :
Aider les algorithmes de recherche de Google à mieux comprendre le langage que les internautes
utilisent lors des requêtes phrasés.
BERT Keyword Extractor : https://share.streamlit.io/charlywargnier/bert-keyword-
extractor/main/app.py
4. Paris 2021 #seocamp
Cycle Search
MUM
4
@nicoseosem - @SistrixFR
Conférence pour développeurs Google IO 2021
Successeur de BERT.
MUM
Environ 1 000 fois plus puissant.
Pas exclusif de Google.
https://events.google.com/io/
https://blog.google/products/search/introducing-mum/
5. Paris 2021 #seocamp
Cycle Search
MUM : à base de BERT
5
@nicoseosem - @SistrixFR
https://www.wired.co.uk/article/google-ai-language-create
Carlos Redondo
Les étapes :
1 Création d’une langue intermédiaire.
2 Dérivation de la technologie BERT pour application au NLP :
• Entrainement version sur image.
• Entrainement multilingue.
• Union de tous ces apprentissages depuis textes et images : Multimodal
6. Paris 2021 #seocamp
Cycle Search
UniT de Facebook
6
@nicoseosem - @SistrixFR
https://arxiv.org/pdf/2102.10772.pdf
2019 Facebook sort son “Apprentissage multimodal multitâche avec un transformateur unifié »
Sources de
diverses origines
comme textes,
ou images
=> évaluation
des réponses.
7. Paris 2021 #seocamp
Cycle Search
UniT de Facebook
7
@nicoseosem - @SistrixFR
https://arxiv.org/pdf/2102.10772.pdf
Détection d’objet et
éléments
Sur-question implicite :
D’abord reconnaitre,
évaluer, puis répondre
7 tâches à la fois sur 8
ensembles de donnée
8. Paris 2021 #seocamp
Cycle Search
Omninet : Architecture unifiée pour
l’apprentissage multi-tâches multimodal
8
@nicoseosem - @SistrixFR
https://openreview.net/pdf?id=HJgdo6VFPH
Même type de réseau neuronal
Repérage de parties de la parole,
de sous-titrage d'images, de
réponse à des questions visuelles
et de reconnaissance d'activités
vidéo => simultanément.
9. Paris 2021 #seocamp
Cycle Search
Première application “officielle” de MUM
9
https://blog.google/products/search/how-mum-improved-google-searches-vaccine-information/
https://blog.google/inside-google/company-announcements/coronavirus-covid19-response/
Détection de nom de virus.
Détection de nom de vaccin.
10. Paris 2021 #seocamp
Cycle Search
Qu’est ce qui va changer ?
10
@nicoseosem - @SistrixFR
https://blog.google/products/search/introducing-mum/
Améliorer le niveau de
compréhension des questions
avec différentes sources de
contenus.
11. Paris 2021 #seocamp
Cycle Search
Qu’est ce qui va changer ?
11
@nicoseosem - @SistrixFR
https://blog.google/products/search/introducing-mum/
Aller chercher la réponse dans
toutes les resources multi-
lingues.
75 langues.
12. Paris 2021 #seocamp
Cycle Search 12
@nicoseosem - @SistrixFR
Machine learning => Machine answering
https://fr.sistrix.com/host/questions.universal-search-box.com/
Qu’est ce qui va changer ?
Évolution de la
box/feature “Question” en
SERP
13. Paris 2021 #seocamp
Cycle Search 13
@nicoseosem - @SistrixFR
Un apprentissage => 1 seule fois
La même réponse pour le monde entier ?
https://arxiv.org/abs/2104.10350
Qu’est ce qui va changer ?
14. Paris 2021 #seocamp
Cycle Search 14
@nicoseosem - @SistrixFR
Un résultat (davantage) personnalisé ?
https://www.google.com/intl/es/search/howsearchworks/how-search-works/ranking-results/
https://www.zdnet.com/article/how-does-google-chrome-know-where-you-want-to-go-on-the-internet/
https://blog.google/products/chrome/updated-timeline-privacy-sandbox-milestones/
Qu’est ce qui va changer ?
chrome://omnibox/
chrome://chrome-urls/
chrome://media-engagement/
chrome://predictors/
Cookies ?
15. Paris 2021 #seocamp
Cycle Search 15
@nicoseosem - @SistrixFR
La recherche n'est pas parfaite, et toute application de l'IA
ne sera pas parfaite - c'est pourquoi toute modification de
la recherche implique une évaluation et des tests
approfondis et constants.
https://blog.google/products/search/responsibly-applying-ai-models-search/
C’est pour quand ?
16. Paris 2021 #seocamp
Cycle Search 16
@nicoseosem - @SistrixFR
Google crée MUM, système qui peut :
• Interpréter et créer des textes (tel GPT3).
• Analyser en même temps Image + Texte + Information contextuelle.
• Réduire les coûts énergétiques (et financier).
Ce qu’il faut retenir :
17. Paris 2021 #seocamp
Cycle Search 17
@nicoseosem - @SistrixFR
Si Google montre la réponse en position 0, quid du trafic organique ?
La majorité des revenus de Google provient de la publicité, quid de Google Ads ?
=> Il faudra observer les requêtes sur lesquelles MUM intervient.
https://static.googleusercontent.com/media/guidelines.raterhub.com/en//searchqualityevaluatorguidelines.pdf version du 14
octobre 2020 Chapitre 12-7, p71
https://www.youtube.com/watch?v=mFkAR2cwzBg
Réflexions
18. Question Mug
Paris 2021 #seocamp
Cycle Search
Dans combien de
langues Google
déclare t’il que MUM
peut apprendre et
transférer des
connaissances ?
18
Si vous êtes ici, c’est parce que vous savez que Google déploit des Intelligence Artificielle successivement. Par Intelligence Artificielle on comprend des processus d’imitation de l’intelligence humaine grâce à des algorithmes.
Google annonce ses nouveautés une fois par an durant de grands évènements.
Quand il y a ce genre d’annonce, il faut faire la part des choses.
Il y a des choses concrètes applicable et d’autres assez théorique.
Le modèle de langage algorithmique mis à jour BERT
RankBrain : Première IA qui permettez de transformer les mots en vecteurs numériques et comprendre la relation entre elles.
BERT :
analyser une phrase dans deux directions. En d'autres termes, il analyse les mots situés à gauche et à droite d'un mot clé, ce qui lui permet de comprendre en profondeur le contexte et le sujet de l'ensemble de la phrase qu'un utilisateur saisit dans le cadre d'une recherche Google.
BERT a eu un impact sur 1 requête en anglais sur 10
Pas Maman mais Multitask Unified Model : Modèle Unifié Multitâche
On est passé d’un modèle de traduction par comparation à un modèle dans lequel tout est traduit dans la langue de Google avant d’être retranscrit dans la langue désirée.
NLP : natural language processing ou traitement du langage naturel => l'analyse et à la synthèse du langage naturel et de la parole.
Ils ont entrainer l’algorithme dans le corpus de langage
Multimodal
Google n’est pas le seul.
Dans la même branche Facebook s’est mis à travailler sur le sujet.
Le but est de trouver un sens à ce qui est détecté, un peu comme l’information logique qui est montré dans le Knowledge Graph pour tenter de trouver des vérités universelles.
Dans l’exemple montré, on a une image, une question, une hypothèse, une certitude/postulat, un paragraphe.
Chacun va être traité par un algorythme qui est entrainé a une tache particulière.
Dans le même contexte, aussi bien MUM que UNiT, va prendre des sources de diverses origines comme textes, images etc,… faire travailler toutes les tâches en même temps et évaluer les réponses.
Je vous laisse le lien du brevet si vous souhaitez enquêter
Plus loin dans le brevet on peut lire = > Détection de ce qui est présent dans l’image.
Puis recherche dans la base de connaissance quel est le fruit qui a la plus grande quantité de potassium.
Nouveauté MUM : croisement des types d’informations de textes et images
UniT permet de traiter simultanément 7 tâches sur 8 ensembles de données, allant de la détection d'objets au raisonnement par vision et langage, en passant par la compréhension du langage naturel, tout en obtenant de bonnes performances sur chaque tâche avec un ensemble compact de paramètres de modèle.
Durant la International Conference on Learning Representations de 2020, des chercheurs ont présenté Omninet.
Omninet peut apprendre simultanément à exécuter les tâches de repérage de parties de la parole, de sous-titrage d'images, de réponse à des questions visuelles et de reconnaissance d'activités vidéo
La première apllication officielle de MUM, selon Google, lorsqu’il l’on appliquer dans les SERP, a été d’apporter aux internautes les informations les plus récentes et fiables sur le virus puis plus tard sur le vaccin
En appliquant MUM, ils ont pu identifier plus de 800 variations de noms de vaccins dans plus de 50 langues en quelques secondes.
On vient de voir un aperçu de la mise en application en condition réelle.
Maintenant, qu’est ce que nous a promis Google. C’est qu’à partir d’une photo il soit posible de répondre à une question ayant un rapport. Dans son exemple. La requeté est une photo associé à la question de la possibilité de faire de la randonnée avec sur une montagne.
Si MUM est capable réellement de répondre, qu’est ce que cela va changer ?
Pour les internautes, cela devrait pouvoir améliore la diversité de requête. Nous le voyons déja un peu. Avec votre mobile Android, il est posible de prendre une photo d’une plante et interroger le moteur de recherche pour en connaitre l’espèce. Bientôt pourra-t¡on demander si ces feuilles sont bonne pour une tisane…
Peut être que pour la requête d’un français sur les chaussures de randonnées au Mont Fuji, c’est la réponse d’un site japonais automatiquement traduit au français qui va appraitre.
Il est probable, pas tout de suite, que la concurrence deviennent mondiale.
MUM fonctionne dans toute les langues (à la différence de BERT qu’il fallait entrainer dans chacune des langues) : MUM peut apprendre et transférer des connaissances dans plus de 75 langues dans lesquelles il est formé.
Google continu d’être très présent avec sa feature/box des questions en SERP.
On peut en voir l’évolution sur ce graphique.
Que cela veut-il dire ?En réalité, Google a déja les réponses et il les propose aux internautes tel un sondage par rapport à la requête pour savoir ce qu’il devra montrer la fois prochaine en position 0.
Si sur un très large échantillon représentatif pour une requête : tous ceux qui cliquent sur une question puis s’en vont…ont probablement trouvé la bonne réponse que Google leur a montré.
Qu’est-ce qui va changer d’autre ?
Il faut savoir que MUM est moins gourmand en données et énergie car disposent de nombreuses applications différentes réalisé en même temps.
Google en a publié une étude.
Ensuite, sur certaines requêtes puisqu’on est en multilingue l’apprentissage sur une entité pourrait se faire une seule fois.
Si MUM veut apprendre le Kung Fu par exemple, il va crawler 1 seule fois toutes les connaissances (vidéos, photos, textes,...) sur le kung fu (on imagine de sources chinoises) et ensuite il va les servir au monde entier traduite.
Et ce, au lieu de répondre en allant chercher la meilleure réponse dans le pays/langue de la requête.
On savait que nous avions de l’information personnalisé selon les recherches précédentes efféctuées sur notre navigateur
MUM pourrait davantage se servir des informations contenus dans votre navigateur pour personnaliser les résultats.
Avec les commandes à l’écran, il est posible d’acceder :
informations basées sur historique ou favoris
liens internes proposés par le navigateur,
engagement médiatique
Sites susceptibles d’être visité
Google a déclaré pouvoir se passer des cookies serait-ce une piste ? Ils ont annoncé un peu de retard dans l’application.
Donc on se demande tous à partir de quand MUM sera appliqué dans le Search ?
La déclaration officielle (qui date du 22 septiembre) est que : “La recherche…”
Ils expliquent faire des test avec des humains en conformité avec les guidelines des évaluateurs. Ils indquent aussi avoir mis en place des systèmes visant à ne pas choquer ou offenser.
Attention aussi à l’effet d’annonce, combien de fois nous avons vu des produits spectaculaires à l’annonce et qui ensuite n’ont pas donné le change.
L’exemple des chaussures de randonnées donnera peut être (dans un premier temps) uniquement l’altitude à laquelle on peut faire de la randonnée.
Pour les requêtes MUM on pense à l’intention de recherche Do, Visit-In-Person et Know Simple.
Il faudra donc travailler encore davantage les requêtes KNOW et WEBSITE pour espérer obtener le “trafic gratuit” de Google.
Les requêtes sont celles qui sont suffisament compliqué pour que Google réponde directement.
G Ads
Poids des liens :
Je m’explique : Google veut donner la meilleure réponse (s’il peut se débarrasser de la tache de classification de la Page de Résultat il le fera).
Jusqu’à aujourd’hui le meilleur résultat c’était de servir des pages de site web et les ranger par pertinence. Pour Google, ça lui est un peu égal que ce soit votre site ou celui du concurrent qui apparaissent. Si Google a la réponse et la donne directement, peu importe si ce n’est pas la meilleure réponse. A partir du moment où la réponse est bonne/correcte. Le poids des liens pourraient importer moins. Alors qu’aujourd’hui les liens sont des signaux très fort de pertinence.