Sac de mots

Cet article est une ébauche concernant l’informatique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

La représentation par sac de mots (ou bag of words en anglais) est une description de document (texte, image...) très utilisée en recherche d'information.

Principe général

On considère que le monde peut être décrit au moyen d'un dictionnaire (de «mots»). Un document particulier est alors représenté par l'histogramme des occurrences des mots le composant. Il s'agit donc d'un vecteur de la même taille que le dictionnaire, dont la composante i indique le nombre d'occurrences du i-ème mot du dictionnaire dans le document.

La constitution du dictionnaire est ainsi une étape critique pour les performances des systèmes utilisant une telle représentation.

Selon l'utilisation ultérieure du sac de mot, celui-ci peut être normalisé de différentes manières:

ramené à une norme unitaire en divisant chaque composante par la norme (à choisir...) du vecteur
binarisé, ce qui revient à indiquer seulement la présence ou l'absence d'un mot du dictionnaire
pondéré selon divers schémas, notamment dans le cas d'une utilisation dans un modèle vectoriel ou un modèle probabiliste de pertinence

Cas des textes

Le dictionnaire est composé des mots du corpus considéré, pouvant éventuellement recouvrir la totalité de la langue. Il est assez courant de définir une liste de rejet (stop words) de mots à ne pas considérer, tels les pronoms, les articles, etc...

Cas des images

Pour les images, le dictionnaire est généralement composé de caractéristiques locales. On parle alors de sac de mots visuels (ou bag of visterms).

Ce modèle a été proposé en 2003 pour effectuer des recherches dans des grands corpus vidéo^[1].

Notes et références

↑ J. Sivic and A. Zisserman. Video Google : A text retrieval approach to object matching in videos. In Proceedings of the International Conference on Computer Vision, pages 1470–1477, 2003.

Voir aussi

Bibliographie

(en) Gerard Salton et M. J. McGill, Introduction to Modern Information Retrieval, 1983 [détail des éditions]

Articles connexes

Liens externes

Portail de l’imagerie numérique

[sivic03-1] J. Sivic and A. Zisserman. Video Google : A text retrieval approach to object matching in videos. In Proceedings of the International Conference on Computer Vision, pages 1470–1477, 2003.

[1]