Accueil > FR > Informations générales > Stages > Système de recommandation pour les références bibliographiques

Système de recommandation pour les références bibliographiques

Proposition de stage ou de mémoire

Profil Etudiant niveau fin de bac ou master.
Prérequis Connaissances des principes fondamentaux de machine learning. Connaissances en Python ou en Scala. Des connaissances relatives framework Apache Spark sont un plus, mais peuvent être substituées par une volonté de les acquérir.
Durée Minimum 10 semaines.

Contexte

Lors de la rédaction d’un article scientifique, l’usage veut qu’une partie de cet article soit consacrée à l’exposition d’un état de l’art dans lequel les travaux similaires à ceux présentés dans l’article sont présentés et discutés. Cela permet de situer l’article dans un contexte de recherche et de mettre en perspective la contribution des auteurs.

Lorsque l’article couvre une thématique pour laquelle les auteurs ont peu d’expérience, il peut s’avérer difficile de mettre en évidence les publications pertinentes dans le cadre de leur travail. De plus, de nombreux articles présentent le résultat de travaux intégrant des techniques et méthodes issues de différents domaines, dont l’expertise ne peut systématiquement être assurée par les auteurs. Par ailleurs, il est fréquent que la littérature relative à une thématique, technique ou méthode soit très abondante, de sorte qu’il n’est pas raisonnable d’espérer en avoir une connaissance exhaustive. Il est alors nécessaire de recourir à un processus d’exploration ciblée de la littérature. Ce processus est typiquement en grande partie manuel et repose principalement sur l’exploitation d’un moteur de recherche par mot-clé et ainsi que la prise en compte itérative des publications citées par un article parcouru.

L’objectif de ce stage est de proposer un système capable de recommander aux auteurs rédigeant un article scientifique un ensemble de publications pertinentes sur base des publications déjà citées dans l’article rédigé.

Travail à réaliser

Le système à réaliser se compose de deux modules principaux. Le premier module devra extraire, à partir d’un corpus de publications, les informations pertinentes pour l’établissement d’un système de recommandation. Ce module étant amené à traiter un très grand volume de données en un temps limité, il sera basé sur un environnement distribué mettant en œuvre Apache Spark [1]. Ce module sera mis en œuvre périodiquement afin de prendre en compte de nouvelles publications.

Le second module exploitera l’analyse réalisée par le premier pour recommander des publications en temps réel. Le stage sera finalisé par la réalisation d’un prototype d’application Web offrant à l’utilisateur la possibilité de soumettre un article scientifique et d’obtenir en retour les publications recommandées par le système.

Encadrement

L’entièreté du travail sera encadré. Le stagiaire utilisera une plateforme de développement permettant le suivi constant de ses progrès. Il devra également faire preuve d’autonomie et d’esprit critique lorsque des choix techniques et technologiques devront être opérés.

Contact : Mathieu Goeminne (mathieu.goeminne@cetic.be)

[1] http://spark.apache.org