Extraction et indexation de texte

Le CETIC propose ses services dans les domaines de l’extraction sémantique de données semi-structurées et de l’indexation de contenus . Cette expertise nous permet de proposer la mise en place de moteurs de recherche sur mesure, l’automatisation de la migration de sites Internet et la réalisation de systèmes de veille sur mesure. A la recherche d’un prestataire de services ou d’un partenaire technologique à la pointe dans ces domaines ? N’hésitez pas à nous contacter !

Extraction sémantique de données semi-structurées

Concrètement, cela signifie que le CETIC est à même d’extraire de manière automatisée le contenu de pages Internet, par rétroingénierie, en conservant la signification des données. Dès lors, la migration de sites devient plus rapide ; le suivi de pages Internet (communiqués de presse, catalogues de produits, actualités, etc), plus simple.

En pratique, le CETIC peut intervenir comme partenaire technologique, en vue d’accompagner un processus de migration, ou pour réaliser des tableaux de bord sur mesure.

Création de moteurs de recherche sur mesure

Le CETIC peut réaliser des outils de recherche sur mesure. La personnalisation permet de disposer d’une base de données de pages à la fois plus complète et plus fraîche, de traiter des types de fichier spécifiques ou, encore, d’intégrer des capacités de recherche sémantique.

Le CETIC a développé une expertise dans toutes les étapes de création d’un moteur de recherche :

  • le crawl, c’est-à-dire le parcours et la découverte des pages/fichiers
  • l’indexation, c’est-à-dire la transformation de l’information en une structure cherchable
  • l’interface de recherche pour l’utilisateur

Quelques applications

  • la création de moteurs de recherche sectoriels
  • la recherche sur Intranet
  • la recherche dans des catalogues de produits
  • la création de moteurs de recherche grand public (plusieurs millions de pages)