TreeTagger
Le traitement lexical
L’ettiquetage morphologique se réalise par le biais d’un catégoriseur- un outil qui a comme input des phrases et comme output les mots accompagnés par des étiquettes qui précisent leur catégorie grammaticale. Les étiquettes applicables sont définis dans des jeux d’étiquettes (tag-set) qui contiennent la liste des categories grammaticale (nom, verbe , adjectif , etc )
TreeTagger
URL http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
TreeTagger est un outil qui permet d'annoter un texte avec des informations sur les parties du discours (genre de mots: noms, verbes, infinitifs et particules) et des informations de lemmatisation. Il a été développé par Helmut Schmid dans le cadre du projet « TC » dans le ICLUS (Institute for Computational Linguistics of the University of Stuttgart). TreeTagger permet l'étiquetage de l'Allemand, l'Anglais, le Français, l'Italien, l'Espagnol, le Bulgare, Le Russe, le Grec, le Portugais, le chinois et les textes français anciens. Il est entrainable, donc adaptable à d'autres langages si des lexiques et des corpus étiquetés manuellement sont disponibles. Il s’agit d’un étiqueteur de type probabiliste, qui utilise un arbre de décision qui a pour feuilles des listes de probabilités et des dictionnaires de reference (un dictionnaire par défaut, un de suffixes et un des mots étiquetés dans la phase d’entrainement.
Son output complet contient trois colonnes :
-Le mot
-L’étiquette- on a deux options: soit la meilleure étiquette (best tag) soit toutes les étiquettes avec une probabilité minimum, paramétrable par l’utilisateur. On peut afficher ou pas la probabilité de ces étiquettes alternatives
-Le lemme : deux options aussi- indiquer le lemme ou utiliser le