CRAQ - Reverse

CRAQ - Reverse

Objectifs

Le projet CRAQ-Reverse développe une méthodologie et des outils pour l’extraction de données sémantiques à partir de documents complexes et peu structurés, tels que les pages Web. L’équipe conçoit Retroweb, un outil permettant de générer de manière semi-automatique des règles d’extraction pour des données très ciblées au sein de pages Web.

Notre approche se distingue par son haut niveau de généricité qui permet, alors, de proposer une large gamme d’applications aux entreprises : création de moteurs de recherche sémantique, migration de sites statiques dans un système de gestion de contenu (CMS, Content Management System) ou mise en place d’outils de veille automatique sur Internet. Cette activité consiste à extraire et surveiller périodiquement des informations stratégiques publiées sur un ensemble restreint de sites jugés pertinents par rapport à une problématique ou une stratégie d’entreprise.

L’équipe développe aussi une expertise en matière de moteurs de recherche pour Internet ou pour systèmes documentaires. Un moteur de recherche documentaire est un composant logiciel qui parcourt un système de fichiers, extrait et indexe le contenu des documents électroniques afin de les rendre facile à retrouver, sur base de mots-clés. Les différents composants d’une telle application sont le butineur (qui récolte les documents), l’indexeur (qui stocke le contenu des documents dans un index) et l’interface de recherche (qui permet de retrouver et de classer les documents).

Résultats

Durant cette année, l’équipe a poursuivi, finalisé et documenté le développement de son outil Retroweb. Afin d’alléger la taille du code source et ainsi pouvoir assurer une meilleure maintenabilité et évolutivité, nous avons implémenté, au sein de Retroweb, une architecture de type MVC (Modèle-Vue-Contrôleur). Ce type d’architecture sépare les données (le modèle), l’interface-utilisateur (la vue) et la logique de flux et de contrôle (le contrôleur). L’interface-utilisateur a également été complètement revue afin d’améliorer l’ergonomie de l’outil. Ces récentes avancées ont pu être montrées à la communauté scientifique lors de la conférence EGC’2007 (« Extraction et Gestion de la Connaissance ») qui se tenait, cette année, à Namur.

Le CETIC a aussi développé son propre moteur de recherche documentaire sur base de composants Open Source. Celui-ci peut être déployé au sein d’entreprises pour répondre à des besoins spécifiques, par exemple en vue d’améliorer leur efficacité dans la gestion documentaire. L’outil est doté d’un module de statistiques qui permet d’évaluer l’efficacité du processus d’indexation, et d’un module de détection automatique de la langue d’un document sur base de critères statistiques.

Les technologies Retroweb, développées par l’équipe, intègrent de puissants outils d’analyse et d’extraction de données sur Internet. Une application concrète de ces technologies est la veille automatique sur Internet. L’équipe a réalisé une étude de faisabilité dans ce domaine, pour la Société DocLedge. Cette prestation concernait l’aide au développement d’un logiciel innovant. Basé sur les technologies Retroweb, le prototype développé consiste en un outil de veille sur Internet à destination des PME.

Les travaux de l’équipe ont été présentés à différentes entreprises, universités ou centres de recherche dans la perspective de projets communs.