Retroweb, un logiciel open-source pour l’extraction de données sur Internet

Retroweb, un logiciel open-source pour l’extraction de données sur Internet

Fabrice Estiévenart, Retroweb, un logiciel open-source pour l’extraction de données sur Internet, Rencontres Mondiales du Logiciel Libre (RMLL), Bordeaux, Juillet 2010.

Retroweb est un logiciel open-­source pour l’extraction de données sur Internet. Il permet de construire, rapidement et de façon visuelle, des extracteurs robustes et performants. Ces programmes, aussi appelés wrappers, sont capables de convertir les données enfouies au sein des pages HTML en données structurées et interprétées (i.e. dont la sémantique est définie).

Les extracteurs peuvent ensuite être utilisés pour alimenter un outil de gestion documentaire ou toute autre base de données interne à l’entreprise. Retroweb peut être intégré dans des moteurs de recherche, des outils de veille technologique ou être utilisé pour la migration d’un site Web vers une base de données ou un outil de gestion de contenu (CMS).

PDF - 1.7 Mo
Retroweb, un logiciel open-source pour l’extraction de données sur Internet