« Sac de mots » : différence entre les versions
Contenu supprimé Contenu ajouté
→Principe général : définition générale : on représente un "document" qui peut être autre chose qu'un texte |
|||
Ligne 3 :
== Principe général ==
On considère que le monde peut être décrit au moyen d'un dictionnaire (de « mots »). Dans sa version la plus simple, un document particulier est représenté par l'histogramme des occurrences des mots le composant: pour un document donné, chaque mot se voit affecté le nombre de fois qu'il apparaît dans le document (voir la notion de [[Multi ensemble|multi-ensemble]], ''bag
La constitution du dictionnaire est ainsi une étape critique pour les performances des systèmes utilisant une telle représentation.
Selon l'utilisation ultérieure du sac de mot, celui-ci peut être normalisé de différentes manières :
* ramené à une norme unitaire en divisant chaque composante par la [[Norme (mathématiques)|norme]] (à choisir
* binarisé, ce qui revient à indiquer seulement la présence ou l'absence d'un mot du dictionnaire
* pondéré selon divers schémas, notamment dans le cas d'une utilisation dans un [[modèle vectoriel]] ou un [[modèle probabiliste de pertinence]]
=== Cas des textes ===
Le dictionnaire est composé des mots du corpus considéré, pouvant éventuellement recouvrir la totalité de la langue. Il est assez courant de définir une liste de rejet (''stop words'') de mots à ne pas considérer
=== Cas des images ===
|