« Sac de mots » : différence entre les versions
Contenu supprimé Contenu ajouté
m →Cas des textes : Faute d'orthographe |
|||
Ligne 13 :
=== Cas des textes ===
Le dictionnaire est composé des mots du corpus considéré, pouvant éventuellement recouvrir la totalité de la langue. Il est généralement nécessaire de pré-traiter lesdits mots du dictionnaire afin de les normaliser (un traitement semblable est effectué sur les documents analysés)<ref name="RCP216_bow">{{Lien web |langue=fr |auteur=Michel Crucianu |titre=Cours CNAM RCP216; Fouille de texte -- Représentation vectorielle des textes|url=http://cedric.cnam.fr/vertigo/Cours/RCP216/coursFouilleTexte.html#representation-vectorielle-des-textes |site=http://cedric.cnam.fr |consulté le=30 septembre 2016}}</ref>. Deux normalisations classiques sont la [[Lemmatisation]] et la [[Racinisation]]
Une représentation des textes par sacs de mots aboutit à une représentation vectorielle de grande taille mais très creuse (ou parcimonieuse), du fait qu'un document donné ne contient qu'une infime partie des mots possibles dans le dictionnaire<ref name="RCP216_bow"/>. De même, un mot donné du dictionnaire ne sera représenté généralement que dans un nombre très restreint de document d'un corpus donné. Cette dernière propriété est à la base du schéma de [[recherche d'information]] efficace dans les [[moteurs de recherche]] textuels.
|