Mini projet 2
Programmation, 1ère année, 2010-2011
Mini-Projet n° 2 Un peu de traitement automatique des langues (à rendre au plus tard le mardi 16 novembre 2010 à midi) On peut aborder le traitement automatique des langues, sujet vaste de recherche, par de petits programmes simples qui donnent néanmoins des résultats intéressants. L’idée du mini-projet est la suivante : on souhaite écrire un programme qui soit capable d’identifier automatiquement la langue dans laquelle un texte est écrit. Pour cela, on commence par étudier des textes dans les différentes langues possibles (ici, vous disposez d’un même texte issu des transcriptions des débats du parlement européen en 4 langues : allemand, anglais, espagnol, francais). Cette étude (qui consiste à effectuer différents comptages sur les textes) permet ensuite de déterminer des critères distinctifs entre ces langues. Il ne reste plus qu’à écrire un programme capable d’identifier automatiquement les critères sur un texte de langue inconnue pour en déduire la langue dans laquelle il est écrit. ________________________________ Travail demandé 1. Avant toutes choses, il faut prétraiter le texte pour qu’il soit facile à manipuler. Dans la première partie du mini-projet, vous devez donc écrire un programme qui lit un texte à partir de l’entrée standard jusqu'au caractère STOP='$', place les caractères dans un tableau, et qui, dans ce tableau : – remplace tous les caractères de ponctuation par un espace. – remplace les fins de ligne par un espace. – remplace toute suite de plusieurs espaces par un seul. NB : pour lire une suite de caractères à partir de l’entrée standard, utiliser une lecture caractère par caractère avec cin.get(c). 2. Ensuite vous devrez effectuer les comptages suivant : – nombre total de caractères du texte, – nombre de caractères majuscules, – nombre de mots, – longueur moyenne et maximale des mots du texte. 3. Par la suite, le programme devra indiquer le nombre d’occurrences