TreeTagger

1552 mots 7 pages
L’annotation automatique des textes est réalisée sans l’intervention humaine, à travers des applications TAL basées sur des règles (rule-based parsing ) ou sur l’analyse des probabilités (statistical parsing )
Le traitement lexical
L’ettiquetage morphologique se réalise par le biais d’un catégoriseur- un outil qui a comme input des phrases et comme output les mots accompagnés par des étiquettes qui précisent leur catégorie grammaticale. Les étiquettes applicables sont définis dans des jeux d’étiquettes (tag-set) qui contiennent la liste des categories grammaticale (nom, verbe , adjectif , etc )
TreeTagger
URL http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
TreeTagger est un outil qui permet d'annoter un texte avec des informations sur les parties du discours (genre de mots: noms, verbes, infinitifs et particules) et des informations de lemmatisation. Il a été développé par Helmut Schmid dans le cadre du projet « TC » dans le ICLUS (Institute for Computational Linguistics of the University of Stuttgart). TreeTagger permet l'étiquetage de l'Allemand, l'Anglais, le Français, l'Italien, l'Espagnol, le Bulgare, Le Russe, le Grec, le Portugais, le chinois et les textes français anciens. Il est entrainable, donc adaptable à d'autres langages si des lexiques et des corpus étiquetés manuellement sont disponibles. Il s’agit d’un étiqueteur de type probabiliste, qui utilise un arbre de décision qui a pour feuilles des listes de probabilités et des dictionnaires de reference (un dictionnaire par défaut, un de suffixes et un des mots étiquetés dans la phase d’entrainement.
Son output complet contient trois colonnes :
-Le mot
-L’étiquette- on a deux options: soit la meilleure étiquette (best tag) soit toutes les étiquettes avec une probabilité minimum, paramétrable par l’utilisateur. On peut afficher ou pas la probabilité de ces étiquettes alternatives
-Le lemme : deux options aussi- indiquer le lemme ou utiliser le

en relation

  • L'évolution de la société néozélandaise
    1363 mots | 6 pages
  • Cas croisière
    250 mots | 1 page
  • Petit arbre
    713 mots | 3 pages
  • Courreur des bois
    329 mots | 2 pages
  • L'arbre des voyelles
    3053 mots | 13 pages
  • L'arbre vert
    48272 mots | 194 pages
  • Demande d'inscription après date butoir
    450 mots | 2 pages
  • Alber camus
    574 mots | 3 pages
  • Sujet EP1
    2502 mots | 11 pages
  • Des arbres à abattre
    504 mots | 3 pages
  • Feuilles d'arbres
    277 mots | 2 pages
  • Révision de la constitution de l'espagne et l'italie
    1031 mots | 5 pages
  • bretton woods
    14511 mots | 59 pages
  • Take that
    538 mots | 3 pages
  • Giono
    992 mots | 4 pages