« Sac de mots » : différence entre les versions

Contenu supprimé Contenu ajouté
Samuelshang (discuter | contributions)
m Cas des textes : Faute d'orthographe
Nibupac (discuter | contributions)
Ligne 13 :
 
=== Cas des textes ===
Le dictionnaire est composé des mots du corpus considéré, pouvant éventuellement recouvrir la totalité de la langue. Il est généralement nécessaire de pré-traiter lesdits mots du dictionnaire afin de les normaliser (un traitement semblable est effectué sur les documents analysés)<ref name="RCP216_bow">{{Lien web |langue=fr |auteur=Michel Crucianu |titre=Cours CNAM RCP216; Fouille de texte -- Représentation vectorielle des textes|url=http://cedric.cnam.fr/vertigo/Cours/RCP216/coursFouilleTexte.html#representation-vectorielle-des-textes |site=http://cedric.cnam.fr |consulté le=30 septembre 2016}}</ref>. Deux normalisations classiques sont la [[Lemmatisation]] et la [[Racinisation]] (anglais: ''stemming''). Il est aussi assez courant de définir une liste de rejet (''stop words'') de mots à ne pas considérer (tels les pronoms, les articles, etc) car trop nombreux dans les corpus textuels pour être discriminants. En plus des mots du dictionnaire, il est aussi possible de considérer des combinaisons de ceux-ci, autrement dit des [[N-gramme]]s, augmentant alors la taille du dictionnaire.
 
Une représentation des textes par sacs de mots aboutit à une représentation vectorielle de grande taille mais très creuse (ou parcimonieuse), du fait qu'un document donné ne contient qu'une infime partie des mots possibles dans le dictionnaire<ref name="RCP216_bow"/>. De même, un mot donné du dictionnaire ne sera représenté généralement que dans un nombre très restreint de document d'un corpus donné. Cette dernière propriété est à la base du schéma de [[recherche d'information]] efficace dans les [[moteurs de recherche]] textuels.