CRAQ - Reverse

Expertises

Science des données

Fiche projet

Type de projet: Fonds structurels en Wallonie
Statut: Terminé
Collaboration: Wallonie
Rôle: Coordinateur
Démarrage: 1er septembre 2001

Objectifs

Le projet CRAQ-Reverse développe une méthodologie et des outils pour l’extraction de données sémantiques à partir de documents complexes et peu structurés, tels que les pages Web. L’équipe conçoit Retroweb, un outil permettant de générer de manière semi-automatique des règles d’extraction pour des données très ciblées au sein de pages Web.

Notre approche se distingue par son haut niveau de généricité qui permet, alors, de proposer une large gamme d’applications aux entreprises : création de moteurs de recherche sémantique, migration de sites statiques dans un système de gestion de contenu (CMS, Content Management System) ou mise en place d’outils de veille automatique sur Internet. Cette activité consiste à extraire et surveiller périodiquement des informations stratégiques publiées sur un ensemble restreint de sites jugés pertinents par rapport à une problématique ou une stratégie d’entreprise.

L’équipe développe aussi une expertise en matière de moteurs de recherche pour Internet ou pour systèmes documentaires. Un moteur de recherche documentaire est un composant logiciel qui parcourt un système de fichiers, extrait et indexe le contenu des documents électroniques afin de les rendre facile à retrouver, sur base de mots-clés. Les différents composants d’une telle application sont le butineur (qui récolte les documents), l’indexeur (qui stocke le contenu des documents dans un index) et l’interface de recherche (qui permet de retrouver et de classer les documents).

Résultats

Durant cette année, l’équipe a poursuivi, finalisé et documenté le développement de son outil Retroweb. Afin d’alléger la taille du code source et ainsi pouvoir assurer une meilleure maintenabilité et évolutivité, nous avons implémenté, au sein de Retroweb, une architecture de type MVC (Modèle-Vue-Contrôleur). Ce type d’architecture sépare les données (le modèle), l’interface-utilisateur (la vue) et la logique de flux et de contrôle (le contrôleur). L’interface-utilisateur a également été complètement revue afin d’améliorer l’ergonomie de l’outil. Ces récentes avancées ont pu être montrées à la communauté scientifique lors de la conférence EGC’2007 (« Extraction et Gestion de la Connaissance ») qui se tenait, cette année, à Namur.

Le CETIC a aussi développé son propre moteur de recherche documentaire sur base de composants Open Source. Celui-ci peut être déployé au sein d’entreprises pour répondre à des besoins spécifiques, par exemple en vue d’améliorer leur efficacité dans la gestion documentaire. L’outil est doté d’un module de statistiques qui permet d’évaluer l’efficacité du processus d’indexation, et d’un module de détection automatique de la langue d’un document sur base de critères statistiques.

Les technologies Retroweb, développées par l’équipe, intègrent de puissants outils d’analyse et d’extraction de données sur Internet. Une application concrète de ces technologies est la veille automatique sur Internet. L’équipe a réalisé une étude de faisabilité dans ce domaine, pour la Société DocLedge. Cette prestation concernait l’aide au développement d’un logiciel innovant. Basé sur les technologies Retroweb, le prototype développé consiste en un outil de veille sur Internet à destination des PME.

Les travaux de l’équipe ont été présentés à différentes entreprises, universités ou centres de recherche dans la perspective de projets communs.

Partenaires et liens

CETIC

UNamur

Agenda

Nos événements sur ce sujet

15.12.2005

15.12.2005

Groupes de Discussion

Technologies de recherche sur Internet

jeudi 15 décembre 2005

25.06.2003

Retrouvez la maîtrise de votre système d'information

25.06.2003

Groupes de Discussion

Retrouvez la maîtrise de votre système d’information

Le CETIC vous invite à participer à un débat autour de la réingénierie des systèmes d’information. Cette rencontre aura lieu le mercredi 25 juin 2003,...

Voir plus d'événements

22.01.2004

Automatiser la restructuration de sites

Rétro-ingénierie web

25.09.2003

Outil de reverse engineering de sites Web

Le CETIC développe une méthodologie outillée de support au processus de transformation de schémas vers le modèle XML. La méthode mise au point est...

08.09.2003

Retrouvez la maîtrise de votre système d’information

Bases de données

Blog

Découvrez nos
actualités

Voir toutes les nouvelles

Publications

Découvrez nos publications

03.04.2006

Semi-automated Extraction of Targeted Data from Web Pages

03.04.2006

Publications scientifiques

Semi-automated Extraction of Targeted Data from Web Pages

Estiévenart F., Meurisse J.-R., Hainaut J.-L., Thiran P., Semi-automated Extraction of Targeted Data from Web Pages, Proc. of the 22nd...

01.01.2005

A Generic Framework For Extracting XML Data From Legacy Databases

01.01.2005

Publications scientifiques

A Generic Framework For Extracting XML Data From Legacy Databases

Thiran P., Estiévenart F., Hainaut J.-L., Houben G.-J, A Generic Framework For Extracting XML Data From Legacy Databases, Journal of Web...

08.06.2004

Exporting Databases in XML : a Conceptual and Generic Approach

08.06.2004

Publications scientifiques

Exporting Databases in XML : a Conceptual and Generic Approach

Thiran P., Estiévenart F., Hainaut J-L., Houben G-J., Exporting Databases in XML : a Conceptual and Generic Approach, WISM’04 : Web Information...

22.09.2003

A tool-supported method to extract data and schema from web sites

22.09.2003

Publications scientifiques

A tool-supported method to extract data and schema from web...

Estiévenart F., François A., Henrard J., Hainaut J-L., A tool-supported method to extract data and schema from web sites, Proc. of the 5th...

Voir toutes les publications

CRAQ - Reverse

Objectifs

Résultats

Partenaires et liens

CETIC

UNamur

Nos événements sur ce sujet

Technologies de recherche sur Internet

Retrouvez la maîtrise de votre système d’information

Automatiser la restructuration de sites

Outil de reverse engineering de sites Web

Retrouvez la maîtrise de votre système d’information

Découvrez nos actualités

Découvrez nos publications

Semi-automated Extraction of Targeted Data from Web Pages

A Generic Framework For Extracting XML Data From Legacy Databases

Exporting Databases in XML : a Conceptual and Generic Approach

A tool-supported method to extract data and schema from web...

Découvrez nos
actualités