7 Min.

Une entité nommée c'est quoi ? - Ep. 6 - LPHS Les Petites Histoires Du SEO

    • Neues aus der Technik

En réalité, il n’existe pas de consensus réel sur la définition d’entité nommée, puisqu’elle est souvent dépendante de son champ d’application, qui peut être multiple et varié. Toutefois, lorsqu’il s’agit de traitement automatique du langage naturel et de recherche du sens d’un texte ou d’une requête (puisque c’est bien de ça dont nous souhaitons parler dans cet épisode), on peut définir une entité nommée comme un objet textuel (c’est à dire un mot ou un groupe de mots) catégorisable dans des classes qui peuvent être par exemple des lieux, des personnes ou des organisations, auxquelles nous pouvons rattacher des caractéristiques ou attributs.

Le concept de reconnaissance et d’exploitation des entités nommées au sein d’un document textuel est apparu dans le milieu des années 90. Il est aujourd’hui un élément incontournable dans le traitement automatique du langage naturel.

Selon une étude menée par Microsoft en 2010, entre 20 et 30% des requêtes soumises dans Bing, son moteur de recherche, étaient des entités nommées à parts entières, et 71% d’entre elles contenaient au moins une entité nommée dans la question posée. On comprend alors tout l’intérêt pour un moteur de recherche de constituer une gigantesque base de données d’entités nommées permettant de catégoriser des requêtes et des pages web afin de simplifier l’extraction de la bonne information et d’améliorer la pertinence des résultats.

2010, c’est également l’année où Google rachète Metaweb, une société connue pour avoir développé Freebase, une base de données de plusieurs millions d’entités nommées.

C’est avec cette base de données, qui rassemble aujourd’hui 500 milliards de faits au sujet de 5 milliards d’entités selon les dernières informations données par Google en 2020, que le moteur de recherche a déployé son knowledge graph, ou arbre de connaissances, à partir de 2012.

Il faut cependant savoir que la reconnaissance des entités nommées se heurte à plusieurs défis de taille, parmi lesquels nous pouvons en citer 2.

Le premier défi est celui de la désambiguïsation sémantique lexicale. Un même terme peut en effet avoir plusieurs sens différents. On dit alors qu’il est polysémique. L’exemple classique qu’on donne en SEO est le terme jaguar, qui peut à la fois désigner l’animal sauvage mais également la marque de voiture de luxe. Dans le cadre d’une recherche d’information sur un moteur de recherche, lorsque l’utilisateur utilise le terme jaguar (qui est donc une entité qui peut soit avoir pour type “le nom d’une organisation”, soit avoir pour type “le nom d’un animal”) dans sa requête, le moteur de recherche va devoir analyser le contexte dans lequel se trouve le terme (qui peut être les mots entourant jaguar, mais également l’historique des recherches de l’utilisateur ou encore sa position géographique au moment où il effectue sa recherche) pour comprendre le véritable besoin de l’internaute et lui renvoyer les résultats les plus pertinents. Un scoring sera par ailleurs mis en place afin de déterminer la probabilité qu’un utilisateur recherche plutôt telle ou telle information lorsqu’il tape une requête de type “jaguar” dans le moteur de recherche.

Etc.

Retrouvez ce podcast SEO sur mon site :

https://julien-gourdon.fr/podcast-seo/c-est-quoi-une-entite-nommee

Ou retrouvez le podcast Une entité nommée c'est quoi sur YouTube :

https://www.youtube.com/watch?v=DzCTpHNIC-o

En réalité, il n’existe pas de consensus réel sur la définition d’entité nommée, puisqu’elle est souvent dépendante de son champ d’application, qui peut être multiple et varié. Toutefois, lorsqu’il s’agit de traitement automatique du langage naturel et de recherche du sens d’un texte ou d’une requête (puisque c’est bien de ça dont nous souhaitons parler dans cet épisode), on peut définir une entité nommée comme un objet textuel (c’est à dire un mot ou un groupe de mots) catégorisable dans des classes qui peuvent être par exemple des lieux, des personnes ou des organisations, auxquelles nous pouvons rattacher des caractéristiques ou attributs.

Le concept de reconnaissance et d’exploitation des entités nommées au sein d’un document textuel est apparu dans le milieu des années 90. Il est aujourd’hui un élément incontournable dans le traitement automatique du langage naturel.

Selon une étude menée par Microsoft en 2010, entre 20 et 30% des requêtes soumises dans Bing, son moteur de recherche, étaient des entités nommées à parts entières, et 71% d’entre elles contenaient au moins une entité nommée dans la question posée. On comprend alors tout l’intérêt pour un moteur de recherche de constituer une gigantesque base de données d’entités nommées permettant de catégoriser des requêtes et des pages web afin de simplifier l’extraction de la bonne information et d’améliorer la pertinence des résultats.

2010, c’est également l’année où Google rachète Metaweb, une société connue pour avoir développé Freebase, une base de données de plusieurs millions d’entités nommées.

C’est avec cette base de données, qui rassemble aujourd’hui 500 milliards de faits au sujet de 5 milliards d’entités selon les dernières informations données par Google en 2020, que le moteur de recherche a déployé son knowledge graph, ou arbre de connaissances, à partir de 2012.

Il faut cependant savoir que la reconnaissance des entités nommées se heurte à plusieurs défis de taille, parmi lesquels nous pouvons en citer 2.

Le premier défi est celui de la désambiguïsation sémantique lexicale. Un même terme peut en effet avoir plusieurs sens différents. On dit alors qu’il est polysémique. L’exemple classique qu’on donne en SEO est le terme jaguar, qui peut à la fois désigner l’animal sauvage mais également la marque de voiture de luxe. Dans le cadre d’une recherche d’information sur un moteur de recherche, lorsque l’utilisateur utilise le terme jaguar (qui est donc une entité qui peut soit avoir pour type “le nom d’une organisation”, soit avoir pour type “le nom d’un animal”) dans sa requête, le moteur de recherche va devoir analyser le contexte dans lequel se trouve le terme (qui peut être les mots entourant jaguar, mais également l’historique des recherches de l’utilisateur ou encore sa position géographique au moment où il effectue sa recherche) pour comprendre le véritable besoin de l’internaute et lui renvoyer les résultats les plus pertinents. Un scoring sera par ailleurs mis en place afin de déterminer la probabilité qu’un utilisateur recherche plutôt telle ou telle information lorsqu’il tape une requête de type “jaguar” dans le moteur de recherche.

Etc.

Retrouvez ce podcast SEO sur mon site :

https://julien-gourdon.fr/podcast-seo/c-est-quoi-une-entite-nommee

Ou retrouvez le podcast Une entité nommée c'est quoi sur YouTube :

https://www.youtube.com/watch?v=DzCTpHNIC-o

7 Min.