« Sac de mots » : différence entre les versions

Contenu supprimé Contenu ajouté
Xiawi (discuter | contributions)
Principe général : définition générale : on représente un "document" qui peut être autre chose qu'un texte
Xiawi (discuter | contributions)
Ligne 3 :
 
== Principe général ==
On considère que le monde peut être décrit au moyen d'un dictionnaire (de « mots »). Dans sa version la plus simple, un document particulier est représenté par l'histogramme des occurrences des mots le composant: pour un document donné, chaque mot se voit affecté le nombre de fois qu'il apparaît dans le document (voir la notion de [[Multi ensemble|multi-ensemble]], ''bag''' '''en anglais). Un document est donc représenté par un vecteur de la même taille que le dictionnaire, dont la composante ''i'' indique le nombre d'occurrences du ''i-ème'' mot du dictionnaire dans le document.
 
La constitution du dictionnaire est ainsi une étape critique pour les performances des systèmes utilisant une telle représentation.
 
Selon l'utilisation ultérieure du sac de mot, celui-ci peut être normalisé de différentes manières :
* ramené à une norme unitaire en divisant chaque composante par la [[Norme (mathématiques)|norme]] (à choisir...) du vecteur
* binarisé, ce qui revient à indiquer seulement la présence ou l'absence d'un mot du dictionnaire
* pondéré selon divers schémas, notamment dans le cas d'une utilisation dans un [[modèle vectoriel]] ou un [[modèle probabiliste de pertinence]]
 
=== Cas des textes ===
Le dictionnaire est composé des mots du corpus considéré, pouvant éventuellement recouvrir la totalité de la langue. Il est assez courant de définir une liste de rejet (''stop words'') de mots à ne pas considérer, (tels les pronoms, les articles, etc..).
 
=== Cas des images ===