Un site web peut être considéré comme un système d’information comprenant des milliers de lignes de code (HTML) divisées en modules (pages). Les pages HTML statiques sont des programmes dans lesquels les données ont été encapsulées, ce qui est contraire à toute bonne pratique de développement de logiciels.
Notre équipe propose une méthodologie et des outils permettant d’extraire et de séparer de ces pages statiques les données (et leurs structures) de la présentation. Par exemple, si nous analysons une page décrivant un client, nous devons retrouver qu’elle contient un nom, un ou deux numéros de téléphone et une adresse (elle même décomposée en rue, code postal et localité). Lorsque la structure de chaque page aura été découverte, on pourra extraire les données et les stocker dans une nouvelle base de données bien structurée. Plus tard, cette base de donnée pourra être utilisée pour générer dynamiquement les nouvelles pages.
Réaliser la rétro-ingénierie d’un site web consiste entre autres à comprendre la sémantique des informations que le site contient. Un domaine de recherche annexe à cette problématique est le Web Sémantique.
