Retroweb

Extraction de données sur Internet

Développé dans le cadre du projet Région Wallone CETIC-CEIQS, Retroweb est un outil pour l’extraction de données sur Internet. A l’heure où l’Internet est devenu une source inestimable d’information, ce genre d’outil devient vite indispensable pour toute entreprise.

Date: 16 juin 2009

Expertises

Science des données

A propos du projet

CE-IQS

L’Internet, une source de données inestimable mais difficile à exploiter

Incontestablement, l’Internet est devenu, aujourd’hui, une source inestimable d’information pour toute entreprise. Cependant, l’Internet affiche quelques propriétés qui rendent son exploitation peu efficace. En effet, l’Internet est :

vaste : face à un besoin précis, nous sommes souvent submergés d’informations qu’il faut ensuite filtrer, trier, réorganiser,... Gérer cette abondance d’information prend du temps !!!
bruité : la quantité d’information pertinente sur une page Web est souvent minime par rapport à la quantité globale d’information affichée au sein de la page. En effet, les pages sont fréquemment inondées d’encarts publicitaires ou (plus pratique) de menus de navigation.
orienté-utilisateur : les pages Web sont rédigées en HTML, un langage de formattage de l’information dont la finalité est d’afficher de manière claire les données à un utilisateur. Ce langage est dépourvu de toute sémantique et donc difficilement exploitable, de manière automatique, par des programmes.
mouvant : sur Internet, les données changent très rapidement et, si elle souhaite rester compétitive, l’entreprise doit pouvoir réagir immédiatement face à ces changements.

Retroweb, en bref...

Développé dans le cadre du projet Région Wallone CETIC-CEIQS, Retroweb est un outil pour l’extraction de données sur Internet. Avec Retroweb, vous pouvez, très rapidement et de manière visuelle, créer des programmes d’extraction de données. Exécutés de manière périodique, ces programmes peuvent ensuite alimenter votre outil de gestion documentaire ou n’importe quelle base de données interne à votre entreprise.
Retroweb peut être utilisé dans le cadre de moteurs de recherche, d’outils de veille technologique ou pour la migration de votre site Web vers une base de données ou un outil de gestion de contenu (Content Management System).


Extraction des données d’un forum avec Retroweb

Quelles autres solutions ?

Retroweb n’est évidemment pas la seule solution pour l’extraction de données sur Internet. De nombreux projets scientifiques, quelques entreprises connues étudient et mettent en place des solutions similaires. Retroweb se distingue de ses concurrents par ces différents avantages :

facilité d’utilisation : l’utilisateur sélectionne les données à extraire directement dans un rendu graphique des pages ; il ne doit donc pas connaître le code HTML des pages pour générer ses propres règles d’extraction.
flexibilité : uniquement les données pertinentes sont extraites et la structure des données extraites est paramétrable de sorte que ces données puissent être utilisées par n’importe quelle application en amont.
robustesse : les règles d’extraction sont générées à partir d’un échantillon de plusieurs pages afin de créer des règles robustes à tout changement dans le code HTML des pages.
interopérabilité : Retroweb est basé sur des standards ouverts définis par le W3C (XML, XPath, XML Schema, ...) afin d’assurer une parfaite intéropérabilité avec d’éventuels autres outils en amont ou en aval du processus d’extraction.
portabilité : Retroweb a été testé sous MS-Windows et GNU-Linux.

Juste un peu de technique

Retroweb se compose de deux modules complémentaires :

Retroweb-Browser est une interface visuelle pour la création des règles d’extraction.
Retroweb-Wrapper utilise les règles pour extraire les données vers un format structuré et interprété. Ce processus peut, éventuellement, être répété de manière périodique.

Retroweb-Browser est une application Java 6 basée sur le framework Eclipse-RCP, le moteur de rendu des pages Web est Gecko (également utilisé dans le navigateur Firefox), les règles d’extraction sont basées sur le langage XPath, standard du W3C. L’architecture logicielle de Retroweb est de type Modèle-Vue-Contrôleur (MVC) afin de réduire la taille du code et faciliter le développement de nouvelles fonctionnalités.

Retroweb-Wrapper est un application Java 6 qui peut être exécutée sur un serveur, en ligne commande. Elle utilise les règles d’extraction générées par Retroweb-Browser afin d’extraire les données en XML, format de données structuré et interprété.

Retroweb a été testé, avec succès, sous MS-Windows et Linux Ubuntu.

Quel futur pour Retroweb ?

Dans sa forme actuelle, Retroweb remplit efficacement son rôle d’outil d’extraction sur Internet. Il est toutefois amené à évoluer selon l’apparition de nouvelles technologies ou de nouveaux besoins d’entreprises. Ainsi, nous pouvons, déjà acuellement, avancer les pistes de recherche suivantes :

L’interopérabilité avec les langages du Web Sémantique
L’un des grands challenge de l’Internet de demain sera d’être exploitable aussi bien par des êtres humains (en améliorant l’ergonomie des sites, par exemple) que par des machines.
Le Web Sémantique répond à ce dernier objectif en proposant des langages et des techniques pour associer un sens, une signification aux données du Web. En tant qu’outil d’annotation sémantique de pages Web, Retroweb a clairement un rôle à jouer pour surmonter ces défis.

La réparation automatique des règles d’extraction
Suite à une modification majeure du code HTML d’une page, une règle d’extraction peut ne plus être valide. Dans ce cas, il faut pouvoir, évidemment, détecter l’erreur lors de l’extraction et adapter automatiquement la règle au nouveau cas.

L’intégration de Retroweb dans une architecture de moteur de recherche
Un moteur de recherche traditionnel collecte des documents, en extrait le contenu textuel et le stocke sous la forme d’un index i.e. une représentation compressée des termes et des documents dans lesquels ils apparaissent. Ce processus d’indexation est dit "full-text" car il ne gère que le contenu syntaxique des documents. A l’inverse, Retroweb-Wrapper peut permettre une indexation sémantique car ce module est capable de comprendre le sens des données qu’il extrait. Une intégration de Retroweb-Wrapper au sein d’un moteur de recherche semble donc pouvoir apporter une réelle plus-value aux architectures des moteurs traditionnels.