Recherche et Indexation

L’indexation de données textuelles consiste à répertorier les termes présents dans un ensemble de documents dans le but de créer un "index inversé" i.e. une structure de données performante qui mémorise, pour chaque terme, ses références dans le texte. Les moteurs de recherche utilisent l’index inversé afin de fournir des résultats pertinents face à une requête de l’utilisateur.
Ce processus, simple à appréhender, n’est pas toujours trivial à mettre en oeuvre. Différentes étapes sont nécessaires pour réaliser la création d’un index inversé. La tokenisation scinde le texte initial en termes, le filtrage élimine certains termes jugés non-pertinents (les termes usuels, les termes trop courts, la ponctuation, ...), la standardisation transforme les termes en une forme conventionnelle (suppression des majuscules, ...) et enfin, le stockage dans un format rapide d’accès.
L’analyse et l’indexation de texte est une technique utilisée dans de multiples applications : les moteurs de recherche, les outils de veille ou de traduction.