Lancement @rcheweb

Lancement @rcheweb

L’Internet constitue une mine d’informations pour les entreprises de toute taille, à condition d’en faire une utilisation efficace. Utiliser efficacement l’information consiste principalement à trouver ce que l’on cherche rapidement. Or, sur Internet, l’information est abondante et changeante. Le CETIC a contribué à l’élaboration d’un prototype de logiciel de veille par Internet : Archeweb. Cet outil a fait l’objet d’une démonstration le 20 décembre 2007.

Date: 20 décembre 2008

Evènement: Autres activités 

Expertises:

Science des données 

ArcheWeb s’inscrit dans la suite de logiciels « Arche ». Ces logiciels sont complémentaires l’un de l’autre, garantissant ensemble, une solution complète quant à l’analyse, le traitement et la détection d’informations issus des courriels (y compris leurs pièces jointes), des documents papier ou électronique, ainsi que les informations contenues sur certains sites web. Ce progiciel est composé de 3 logiciels : ArcheDoc (analyse de documents), ArcheMail (analyse de courriels) et ArcheWeb (analyse des sites Internet).

Comme son nom l’indique, ArcheWeb est un logiciel permettant de découvrir, surveiller, stocker et traiter de l’information provenant du Web. ArcheWeb permettra donc de surveiller des sites Internet précisés, de capturer les pages intéressantes, de classer, d’indexer et de retrouver tous les mots contenus dans les pages.

L’obtention d’informations via des requêtes peut être complexe. Une requête donnant des résultats corrects est souvent difficile à réaliser. Une des premières préoccupations d’ArcheWeb est donc d’essayer de faciliter la création de celles-ci. Pour ce faire, une approche incrémentale a été adoptée : l’utilisateur crée sa requête en la combinant avec plusieurs requêtes simples. Ce type d’approche permet au fil des combinaisons de requêtes, de restreindre la quantité d’informations à traiter et d’augmenter la pertinence du résultat obtenu.

Un mécanisme de sauvegarde des requêtes est également implémenté, facilitant ainsi la ré-exécution d’une requête. Par conséquent, le travail d’élaboration d’une bonne requête ne sera jamais perdu. De plus une requête sauvegardée pourra à tout moment être ré-exécutée, ouvrant ainsi la porte à des comparaisons de résultats pour une même requête exécutée à des dates différentes.

La difficulté de création d’une requête est également liée à la distinction des bon termes/mots clefs. Afin d’aider la recherche de bons termes, ArcheWeb propose de lier une liste de suggestion de mots clefs pour chaque requête effectuée. Dans le but d’étendre le plus possible les résultats obtenus via les requêtes, ArcheWeb offre la possibilité de création de dictionnaires. Ces dictionnaires, couplés aux requêtes, s’efforceront de réaliser une requête la plus exhaustive possible quant aux termes utilisés dans celle-ci.

Dès qu’une page web/un site est identifié(e) comme contenant une information cruciale, ArcheWeb permet de déclencher un processus de veille sur celui-ci. Ce processus de veille comporte 3 grandes fonctions :

  • Il structure l’information se trouvant dans les pages web.
  • Il détecte un changement survenu sur une page web surveillée.
  • Il archive les anciennes versions des pages web surveillées.

Ce système de veille permettra donc à l’utilisateur de ne visiter un site que s’il existe un réel intérêt ; surveiller certains sites Web, par exemple un concurrent, d’en extraire les pages publiques, les comparer avec les précédentes, afin d’en analyser l’évolution.

La démonstration du 20 décembre a mis en avant les avantages de cet outil pour les entreprises, centres de recherche et laboratoires spécialisés en informatique. Celle-ci a suscité un réel intérêt de la part du public et de nombreuses pistes d’évolution ont été discutées.