Extraction de données biographiques depuis Wikipedia

Extraction de données biographiques depuis Wikipedia

Robert Viseur, Extraction de données biographiques depuis Wikipedia, 31ème congrès InforSID, Paris (France), 29-31 mai 2013.

Résumé

L’utilisation du contenu des articles de Wikipedia est fréquente dans les recherches
académiques. Les modalités pratiques d’exploitation sont cependant rarement analysées. Notre recherche porte sur l’extraction de données biographiques relatives à des personnalités originaires de Belgique. Notre recherche sera organisée en trois sections. Une première section proposera un état de l’art en matière d’extraction de données dans l’encyclopédie Wikipedia. Une seconde section présentera le cas pratique de l’extraction de données biographiques de personnalités belges. Différentes solutions seront discutées et la solution retenue sera mise en œuvre. Dans une troisième section, la qualité de l’extraction sera discutée. Des recommandations pratiques à destination des chercheurs souhaitant exploiter Wikipedia seront en outre proposées sur la base de notre cas pratique.

Abstract

Using the content of Wikipedia articles is common in academic research. However the practicalities are rarely analyzed. Our research focuses on extracting biographical information about personalities from Belgium. Our research is organized into three sections. The first section provides a state of the art for data retrieval in Wikipedia. A
second section presents the case study about data mining for biographical Belgian
personalities. Different solutions are discussed and the adopted solution is implemented. In the third section, the quality of the extraction is discussed. Practical recommendations for researchers wishing to use Wikipedia are also proposed on the basis of our case study.