Système de recommandation pour les références bibliographiques

Proposition de stage ou de mémoire

Système de recommandation pour les références bibliographiques

Proposition de stage ou de mémoire

Profil Etudiant(e) niveau fin de bac ou master.
Prérequis Connaissances en développement Web en Python.
Connaissances des principes fondamentaux de machine learning.
Connaissances en Python ou en Scala.
Des connaissances relatives framework Apache Spark sont un plus, mais peuvent être substituées par une volonté de les acquérir.
NB : Ces prérequis couvrent plusieurs objectifs ; un stage ne pourra couvrir que certains de ces objectifs qui seront choisis en fonction des intérêts et des compétences du stagiaire.
Durée Minimum 10 semaines.

Contexte

La publication scientifique fait l’objet d’une activité très importante et sans cesse croissante, à tel point qu’il est difficile aujourd’hui de suivre l’actualité de la recherche, ne serait-ce que sur une thématique précise. Une veille de la littérature doit cependant être réalisée par les chercheurs afin que ceux-ci puisse mener à bien un travail d’innovation.

Une problématique connexe à celle de la veille scientifique concerne la nécessité d’établir des relations entre le travail d’un chercheur et celui de ses collègues. En particulier, lors de la rédaction d’un article scientifique, l’usage veut qu’une partie de cet article soit consacrée à l’exposition d’un état de l’art dans lequel les travaux similaires à ceux présentés dans l’article sont présentés et discutés. Cela permet de situer l’article dans un contexte de recherche et de mettre en perspective la contribution des auteurs. Lorsque l’article couvre une thématique pour laquelle les auteurs ont peu d’expérience, il peut s’avérer difficile de mettre en évidence les publications pertinentes dans le cadre de leur travail.

Des travaux récents contribuent à la gestion de ces problèmes en proposant des outils analysant automatiquement des corpus de publications dans le but de présenter une information pertinente et utile aux chercheurs. Il est alors possible de procéder à une exploration ciblée de la littérature.

Travail à réaliser

Cette proposition de stage comportent deux objectifs complémentaires. De part leur ampleur, un stagiaire ne pourra, a priori, travailler que sur un seul de ceux-ci.

Le premier objectif consiste en l’installation au sein de l’infrastructure du Cetic d’une application de gestion des publications similaire à Arxiv-Sanity. Nous nous intéresserons principalement à son module de recommandations capable de sélectionner, parmi l’ensemble des publications récentes, les plus susceptibles d’intéresser un utilisateur. Après avoir réalisé un état de l’art des solutions existantes, le stagiaire déploiera l’une de ces solutions, de sorte qu’il soit possible de consulter des publications intéressantes dans une ou des thématique(s) donnée(s), ou encore de recevoir régulièrement par e-mail des recommandations de lecture.

Le second objectif consiste en la réalisation d’un système distribué capable de recommander aux auteurs rédigeant un article scientifique un ensemble de publications pertinentes sur base des publications déjà citées dans l’article rédigé. Le système devra extraire, à partir d’un corpus de publications, les informations pertinentes pour l’établissement d’un système de recommandation. Le système recommandera alors des publications à citer en temps réel. Le stage sera finalisé par la réalisation d’un prototype d’application Web offrant à l’utilisateur la possibilité de soumettre une ébauche d’article scientifique et d’obtenir en retour les publications recommandées par le système.

Encadrement

L’entièreté du travail sera encadré. Le stagiaire utilisera une plateforme de développement permettant le suivi constant de ses progrès. Il devra également faire preuve d’autonomie et d’esprit critique lorsque des choix techniques et technologiques devront être opérés.

Contact : Mathieu Goeminne (mathieu.goeminne@cetic.be)