Qu'est ce que le corpus ?

285 mots 2 pages
Corpus

Le corpus en littérature :

Le corpus regroupe un ensemble de textes ayant une visée commune. Un corpus peut être constitué de documents différents (tableau, extrait de texte...) et ces documents divers ont un point en commun. En général c'est le thème qui fait figure de leur ressemblance. Il faut avoir une technique particulière pour le déchiffrer.

Le corpus scientifique :

Les corpus sont des outils indispensables et précieux en traitement automatique du langage naturel. Ils permettent en effet d'extraire un ensemble d'informations utiles pour des traitements statistiques.

D'un point de vue informatif, ils permettent d'extraire des tendances et notamment de construire des ensembles de n-grammes.

D'un point de vue méthodologique, ils apportent une objectivité nécessaire à la validation scientifique en traitement automatique du langage naturel. L'information n'est plus empirique, elle est vérifiée par le corpus. Il est donc possible de s'appuyer sur des corpus (à condition qu'ils soient bien formés) pour formuler et vérifier des hypothèses scientifiques.

Corpus bien formé
Plusieurs caractéristiques sont à prendre en compte pour la création d'un corpus bien formé :

la taille ; le langage du corpus ; le temps couvert par les textes du corpus ; le registre ;
Taille
Le corpus doit évidemment atteindre une taille critique pour permettre des traitements statistiques fiables. Il est impossible d'extraire des informations fiables à partir d'un corpus trop petit (voir Statistique).

Langage
Un corpus bien formé doit nécessairement couvrir un seul langage, et une seule déclinaison de ce langage. Il existe par exemple de subtiles différences entre le français de France et le français parlé en Belgique. Il ne sera donc pas possible de tirer des conclusions fiables à partir d'un corpus franco-belge sur le français de France, ni sur le français de Belgique.

en relation

  • DM de Francais
    1897 mots | 8 pages
  • Corpus Fran Ais
    974 mots | 4 pages
  • Analyse littéraire sur le malade imaginaire
    639 mots | 3 pages
  • Methodologie dossier
    349 mots | 2 pages
  • Pierre et gens
    1084 mots | 5 pages
  • ionesco
    1228 mots | 5 pages
  • corpus première
    969 mots | 4 pages
  • Maison du monde
    539 mots | 3 pages
  • ta mere
    436 mots | 2 pages
  • la merdia del sol
    13391 mots | 54 pages
  • hihi
    476 mots | 2 pages
  • travail
    500 mots | 2 pages
  • Analyse de Phèdre de Jean Racine
    393 mots | 2 pages
  • Intérêt de la littérature pour l'homme
    417 mots | 2 pages
  • Revue de litterature
    1258 mots | 6 pages