Traitement automatique de la langue avec de grands volumes de texte (Big Data)

Proposition de stage, ou de mémoire

Traitement automatique de la langue avec de grands volumes de texte (Big Data)

Proposition de stage, ou de mémoire

Profil Étudiant(e) niveau fin de bac ou master.
Prérequis Expérience fonctionnelle sous Debian/Ubuntu.
Connaissances des principes de fonctionnement d’une infrastructure de Cloud Computing.
Durée Minimum 10 semaines.

Contexte

Les technologies open source de traitement automatique de la langue ont bien évolué, et fournissent aujourd’hui des ressources pour annoter, étiqueter (POST) et traiter du texte (extraction de terminologie, extraction d’entités nommées,...). Les volumes de texte à traiter tendent cependant à augmenter, ce qui pose la question du passage à l’échelle avec les outils existants.

Travail à réaliser

L’étudiant(e) évaluera un ensemble d’outils open source permettant le traitement, l’analyse, le classement et l’indexation de documents en grands volumes : Mahout, OpenNLP, UIMA, Hadoop,... Seront spécialement visés des projets comme Behemoth (voir http://uima.apache.org/external-resources.html).

Encadrement

Tout le travail sera encadré, mais nécessitera un minimum d’autonomie. L’acquisition de connaissances est aussi important que la mise en place de la solution.

Contact : Robert Viseur (robert.viseur@cetic.be)