Outil de reverse engineering de sites Web

Outil de reverse engineering de sites Web

Le CETIC développe une méthodologie outillée de support au processus de transformation de schémas vers le modèle XML. La méthode mise au point est implémentée au sein de l’outil CASE DB-Main.

Date: 25 septembre 2003

Expertises:

Science des données 

A propos du projet: CRAQ - Reverse 

Outil de conception XML

Après avoir importé un schéma conceptuel dans DB-Main, l’utilisateur déclenche une série de processus qui vont agir sur le schéma en exécutant des scripts de transformation spécifiques au modèle XML. Certaines étapes de la méthode sont entièrement automatiques alors que d’autres requièrent l’intervention de l’utilisateur via des boites de dialogue.

Au final, le schéma transformé est conforme au modèle-cible (DTD ou XML Schema) choisi au cours du processus de transformation.

La conception XML dans l’outil CASE DB-Main

Outil de génération de code XML

Le générateur de code XML est un outil intégré à l’outil CASE DB-Main. A partir d’un schéma conforme au modèle XML (DTD ou XML Schema), il est possible de générer automatiquement le code XML correspondant.

La génération de code XML dans DB-Main

Extraction sémantique de données

La méthode d’extraction de données par rétro-ingénierie de sites Web, permettant d’extraire d’un site les données et leurs structures, est supportée par de multiples outils, dont certains sont mis au point par le CETIC. Elle sert à la migration semi-automatique de sites Internet et au suivi de données volatiles (actualités en ligne, catalogues de prix, cours de la bourse,...)

L’outillage développé par le CETIC comprend un navigateur sémantique. Il s’agit d’une extension au navigateur Mozilla permettant de sélectionner et d’assigner un nom à certaines zones d’une page internet. Sur base des informations fournies par l’intermédiaire de cet outil, un fichier définissant des règles d’extraction peut être généré automatiquement.

Ce schéma d’extraction est ensuite utilisé pour extraire les données de pages Internet. L’extracteur sauvegarde ces données dans un fichier XML. Ce document XML extrait est alors vérifié grâce à un document XML Schema, également généré par l’outil.

Finalement, l’outil CASE DB-Main est utilisé pour intégrer les différents XML Schemas extraits des pages Internet et transformer ces structures en un schéma conceptuel modélisant le domaine du site analysé.