Comment améliorer l’indexation de ses entités par Google

Note: Cet article constitue la deuxième partie de notre guide sur l’utilisation des entités en SEO. Nous vous conseillons de lire la première partie si vous n’êtes pas encore familier avec la notion d’entité en SEO.

Pourquoi l’indexation des entités est essentielle à votre stratégie SEO ?

Tout propriétaire de site ou expert SEO connait l’importance de l’indexation des pages par les moteurs de recherche.

Mais l’indexation des URLs d’un site n’est qu’une première étape. Il est devenu aujourd’hui essentiel de vérifier de quelle manière Google indexe le contenu présent sur ces pages.

Nous avons vu dans la partie précédente de ce guide que les entités sont devenues un élément central de la stratégie d’indexation de Google: chaque page indexée via le Google bot est ensuite analysée pour extraire et indexer les entités présentes dans le texte.

L’indexation des entités offre de nombreux avantages à Google :

  • comprendre le sens des contenus publiés sur une page,
  • établir des connections entre les pages,
  • comprendre les requêtes de ses utilisateurs et les reformuler si nécessaire
  • cartographier leurs centres d’intérêts pour améliorer ses résultats de recherche et ses suggestions de contenus.

Google utilise aujourd’hui les entités dans tous ses services.

Il est donc fondamental de savoir de quelle manière Google indexe les entités d’un site Web, et d’être en capacité d’améliorer cette indexation si celle-ci s’avère insuffisante.

Comment mesurer l’état de l’indexation des entités de son site ?

De façon à pouvoir mesurer l’état de l’indexation des entités d’un site, il est nécessaire de disposer de deux outils:

  • l’API d’analyse du langage naturel de Google (disponible ici)
  • d’une API de référence, permettant une identification de toutes les entités présentes dans un texte.

(Vous pouvez également utiliser un outil tout en un comme InLinks)

A propos de l’API de Google, il est intéressant d’en connaitre quelques caractéristiques:

  • Cette API est particulièrement performante pour détecter les personnes, sociétés, lieux et points d’intérêts que l’on peut trouver dans un texte. Pour ces types d’entités, son taux de détection est proche de 100%. L’API est également performante pour détecter certains types de produits, comme les modèles de voiture ou les films et séries TV.
  • En revanche, cette API rencontre des difficultés pour détecter correctement les entités liées aux objets et concepts, exprimés sous forme de noms communs (voir ci-dessous)
  • Nous savons également par Google que l’API est basée sur la même technologie que celle utilisée dans son algorithme de recherche

Aperçu des performances de l’API NLP de Google

InLinks publie régulièrement des rapports d’études sur la capacité de Google à détecter les entités. En voici la synthèse:

capacité de détection des entités nommées par Google

Hormis le secteur du tourisme, pour lequel l’API affiche un taux de détection proche de 50% (ce qui s’explique par le grand nombre de lieux et points d’intérêts présent dans les textes), nous constatons que, pour la plupart des secteurs d’activités analysés, le taux de détection se situe sous le seuil des 25%, avec une moyenne tous secteurs confondus de 20.8%

Entrons maintenant dans le vif du sujet: l’indexation des entités au niveau d’une page, puis au niveau d’un site.

Auditer les entités indexées sur une page

Pour connaitre quelles entités ont été détectées par Google sur une page et quelles entités ne l’ont pas été, nous allons utiliser l’outil d’analyse directement disponible sur la page d’accueil d’InLinks. Cet outil compare les résultats de l’API Google avec ceux renvoyés par l’API d’InLinks.

Dans l’exemple ci-dessous est analysé le contenu de la page d’accueil d’un logiciel SEO bien connu.

audit d'entités sur une page web

A première vue, les 4 entités détectées par Google sont assez satisfaisantes. Cependant, plusieurs entités importantes n’ont pas été détectées, notamment:

  • Software
  • Content Marketing
  • Inbound marketing
  • ainsi que Keyword research (affiché plus bas dans la liste des résultats)

Ces entités sont importantes car elles permettent soit de caractériser le produit proposé sur le site (Software), soit de mettre en avant les cas d’utilisation du logiciel.

On constate ainsi que l’indexation des entités de cette page est insuffisante et nécessite d’être renforcée.

Comme exposé dans la première partie du guide, nous savons que Google utilise aussi des facteurs off-page pour l’indexation des entités. Il est donc important de savoir si ces entités manquantes ont été détectées au niveau du site global.

Auditer les entités indexées au niveau du site

En répétant la même opération au niveau des principales pages du site (pages générant le plus de trafic ou stratégiques en terme de génération de revenu), la compilation des résultats permet d’obtenir une vue d’ensemble des entités indexées et non indexées au niveau du site.

Voici le résultat de cette analyse, réalisée sur les 130 premières pages génératrices de trafic du même site que précédemment. Les entités détectées par Google sont en vert.

audit des entités présentes dans le contenu d'un site
Knowledge Graph généré par InLinks (site level) – Les entités détectées par Google sont en vert, avec le pourcentage de détection associé

En analysant les résultats, on peut constater que les entités Content Marketing et Software n’ont pas été détectées au niveau du site. Il est donc nécessaire d’améliorer l’indexation de ces deux entités.

D’autre part, certaines entités importantes ne sont également pas détectées. C’est notamment le cas des entités Competitor Analysis, ou Local Search Engine Optimization, qui représentent des cas d’utilisation de ce logiciel. Là encore, cette absence de détection nécessite la mise en place d’actions correctives.

Comment améliorer la façon dont Google détecte les entités ?

Pour améliorer la détection des entités par Google, nous disposons essentiellement de 3 possibilités:

  1. la manière d’écrire
  2. les facteurs on page hors contenu (schema.org)
  3. les facteurs off-page (entités indexées sur d’autres pages du site)

Il est clair depuis longtemps qu’il faut avant tout écrire pour le lecteur et non pour les moteurs de recherche. Cependant, il est intéressant de connaitre quelles formulations auront le plus de chance d’être comprises par Google.

Nous listons ici plusieurs conseils pour favoriser la détection des entités par Google.

(Pour rappel, les entités détectées par Google NLP sont visibles via les liens Wikipédia associés aux mots-clés listés)

Comment écrire pour être compris par Google ?

Insister sur l’entité principale de la page

Considérons par exemple une page comportant la phrase suivante:

Vous voulez acheter un collier en argent ? Vous êtes au bon endroit

Google ne détectera aucune entité pour cette phrase (absence de lien Wikipédia associé aux mots)

Google NLP API - résultats

Si on met maintenant des majuscules aux deux entités principales:

Vous voulez acheter un Collier en Argent ? Vous êtes au bon endroit

Dans ce cas, Google identifiera bien les entités Collier et Argent (présence de lien Wikipédia associé à chaque mot)

Google NLP API - résultats avec mots en majuscules

Le problème est que l’utilisation des majuscules peut ne pas suffire.

L’API de Google est particulièrement dépendante de l’utilisation des majuscules. Cependant, mettre les sujets importants en majuscule n’est pas suffisant pour garantir une bonne détection.

Ainsi, pour la phrase Tous nos Bijoux sont en Argent massif, Google ne détectera aucune entité.

Mettons alors la même phrase au singulier:

Ce Bijou est en Argent massif

Google détectera bien l’entité Bijou, mais pas l’entité Argent.

Google NLP API - résultats avec détection partielle

Enfin, que se passe-t-il en mettant des majuscules à chaque mot ?

Ce Bijou Est En Argent Massif

Le résultat est catastrophique: Google n’est plus capable de faire la différence entre les mots importantes du texte et les mots secondaires, et plus aucune entité n’est détectée.

Google NLP API - résultats avec tous les mots en majuscules

Tip N°1: Mettez si possible vos entités principales en majuscules (même si cela peut ne pas suffire). N’utilisez pas les majuscules dans vos mots secondaires (notamment pour les titres)

De façon à maximiser le potentiel de détection des entités principales, il est également nécessaire de développer leur contexte.

Développer le contexte autour des entités principales

Restons dans le domaine de la bijouterie avec l’exemple suivant, tiré d’une page de catégorie d’un site marchand.

Google NLP API - texte source

En soumettant ce texte tel quel à l’API de Google, celle-ci identifie 7 entités (Collier, Pendentif, Argent, Gourmette, Palladium, Titane et Tungstène).

On voit ici que l’apport de contexte finit par permettre à Google de détecter correctement l’entité Argent, qu’il n’avait pu détecter plus haut.

A présent, si l’on soumet à Google le même texte, mais amputé de l’une des parties 1 à 4 ci-dessus, l’API n’identifiera plus qu’une seule entité: Gourmette.

On peut tirer de cet exemple plusieurs enseignements:

L’apport de contexte est crucial pour Google. Dans l’exemple ci-dessus, 4 types de contexte sont apportés:

  • les produits similaires,
  • la matière des produits,
  • les destinataires des produits (Homme, femme, …),
  • les marques des produits.

Si un seul de ces éléments contextuels manque, la capacité de Google à détecter les entités du texte chute drastiquement.

Enfin, l’apport de contexte permet à Google de détecter les entités pour les mots au pluriel.

Tip N°2: ajoutez des entités contextuelles, liées à votre entité principale.

Désambiguïser les entités essentielles au texte

Prenons à présent un exemple en Anglais: il s’agit d’une page Web présentant des services de SEO pour les dentistes aux US (oui, là-bas, les dentistes ont de vrais sites Web !)

Voici le résultat de l’analyse des entités pour cette page. En bleu, les premières entités détectées par InLinks, en marron, celles détectées par Google.

Désambiguïsation d'entités au niveau d'une page

Alors que le texte compte près de 1500 mots et qu’il aborde la plupart des grandes thématiques du SEO (recherche de mots-clés, marketing en ligne, SEO local, média sociaux, etc.), il n’en résulte pas moins que Google n’a détecté ni l’entité Search Engine Optimization, ni l’entité Dentistry (pour dentiste).

Pourquoi ce résultat désastreux alors que le rédacteur de la page a pris soin de développer le contexte autour de toutes les activités liées au SEO ?

La raison est simple: la page aborde deux thèmes distincts, le SEO et la médecine dentaire. Pour Google, ces deux thèmes n’ont pas grand-chose à voir l’un avec l’autre et l’algorithme de NLP finit par se perdre et n’y plus rien comprendre.

A présent, si l’on prend le même texte, et que l’on supprime toutes les occurrences du mot dental, que se passe-t-il ? Google détecte à présent l’entité SEO. C’est donc bien l’influence du mot dental qui empêche Google de bien comprendre le sens de la page.

Evidemment, il n’est pas possible dans une page de ce type de supprimer un mot aussi important. Alors que faire?

La solution: désambiguïser explicitement les entités importantes du texte.

Par exemple en ajoutant simplement en fin de texte la phrase : SEO signifie Search Engine Optimization (en anglais évidemment), Google détectera correctement l’entité correspondante.

Malheureusement, cette astuce ne fonctionne pas pour tout type d’entité (notamment dentiste). Il faut alors recourir à une désambiguïsation via Schema.org, que nous allons voir plus loin.

Tip N°3: Les textes abordant plusieurs thèmes différents au sein d’une même page auront plus de difficultés à être « compris » par les moteurs de recherche que les textes se focalisant sur un seul sujet.

Utiliser Schema.org pour déclarer les entités principales d’une page

Nous venons de voir qu’il peut être vraiment difficile de faire en sorte que les entités d’un texte soient correctement détectées par Google en ne comptant que sur la qualité rédactionnelle. En cas de manque de contexte, de multiplicité des thèmes abordés dans la page, voire de la présence ou de l’absence de certains mots, la capacité de détection de Google peut varier considérablement.

Il existe heureusement une solution miracle pour déclarer explicitement les entités importantes d’un contenu web: il s’agit de Schema.org.

Schema.org pour déclarer les entités présentes dans une page web

Ce type de Schema utilise deux balises particulières:

  • la balise About, qui permet de déclarer les entités principales du texte (typiquement celles que l’on trouve dans le titre de la page)
  • la balise Mentions, qui permet de déclarer les entités secondaires, celles qui apparaissent dans les premiers paragraphes, ou qui sont signifiantes par rapport au reste du site.

Dans chaque balise, il va être ainsi possible de préciser, pour chaque mot important l’entité qui lui correspond, à l’aide du lien Wikipédia correspondant.

De cette manière, les moteurs de recherche (et particulièrement Google), vont savoir exactement quelles sont les entités importantes de la page et ainsi mieux l’indexer et la catégoriser.

Tip N°4: Pour sécuriser l’indexation de vos entités par Google, utilisez Schema.org avec les balises About et Mentions sur les pages les plus importantes de votre site.

Pour en savoir davantage sur la mise en place de ce balisage (mise en place qui peut être entièrement automatisée par InLinks), l’article suivant vous donnera un aperçu de ses bénéfices SEO:

Conclusion

Comment rédiger ses contenus SEO pour optimiser la détection d’entités ?

1. Mettez si possible vos entités principales en majuscules (même si cela peut ne pas suffire). N’utilisez pas les majuscules dans vos mots secondaires (notamment pour les titres)

2. Ajoutez des entités contextuelles, liées à votre entité principale.

3. Les textes abordant plusieurs thèmes différents au sein d’une même page auront plus de difficultés à être “compris” par les moteurs de recherche que les textes se focalisant sur un seul sujet.

4. Pour sécuriser l’indexation de vos entités par Google, utilisez Schema.org avec les balises About et Mentions sur les pages les plus importantes de votre site.

Share this entry

Replies

0 réponses

Laisser un commentaire

Rejoindre la discussion?
N’hésitez pas à contribuer !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *