« Sac de mots » : différence entre les versions
Contenu supprimé Contenu ajouté
→Principe général : définition générale : on représente un "document" qui peut être autre chose qu'un texte |
m →Cas des textes : Ajoute un saut à la ligne parce que c'est quand même une autre façon de traiter le texte. Et précision entre parenthèse. |
||
(18 versions intermédiaires par 11 utilisateurs non affichées) | |||
Ligne 1 :
{{Ébauche|informatique}}
La représentation par '''sac de mots''' (ou '''bag of words''' en anglais) est une description de document (texte, image...) très utilisée en [[recherche d'information]].▼
{{Infobox Méthode scientifique}}
▲La représentation par '''sac de mots''' (ou '''{{lang|en|bag of words}}''' en anglais) est une description de document (texte, image...) très utilisée en [[recherche d'information]].
== Principe général ==
On considère que le monde peut être décrit au moyen d'un dictionnaire (de « mots »). Dans sa version la plus simple, un document particulier est représenté par l'histogramme des occurrences des mots le composant : pour un document donné, chaque mot se voit affecté le nombre de fois qu'il apparaît dans le document (voir la notion de [[Multi ensemble|multi-ensemble]], ''bag
La constitution du dictionnaire est ainsi une étape critique pour les performances des systèmes utilisant une telle représentation.
Selon l'utilisation ultérieure du sac de
* ramené à une norme unitaire en divisant chaque composante par la [[Norme (mathématiques)|norme]] (à choisir
* binarisé, ce qui revient à indiquer seulement la présence ou l'absence d'un mot du dictionnaire
* pondéré selon divers schémas, notamment dans le cas d'une utilisation dans un [[modèle vectoriel]] ou un [[modèle probabiliste de pertinence]]
=== Cas des textes ===
Le dictionnaire est composé des mots du corpus considéré, pouvant éventuellement recouvrir la totalité de la langue. Il est généralement nécessaire de prétraiter lesdits mots du dictionnaire afin de les normaliser (un traitement semblable est effectué sur les documents analysés)<ref name="RCP216_bow">{{Lien web |langue=fr |auteur=Michel Crucianu |titre=Cours CNAM RCP216; Fouille de texte -- Représentation vectorielle des textes|url=http://cedric.cnam.fr/vertigo/Cours/RCP216/coursFouilleTexte.html#representation-vectorielle-des-textes |site=cedric.cnam.fr |consulté le=30 septembre 2016}}.</ref>. Deux normalisations classiques sont la [[lemmatisation]] et la [[racinisation]]. Il est aussi assez courant de définir une liste de rejet (''stop words'') de mots à ne pas considérer
En plus des mots du dictionnaire, il est aussi possible de considérer des combinaisons de mots (des mots qui se suivent), autrement dit des [[N-gramme]]s, augmentant alors la taille du dictionnaire.
Une représentation des textes par sacs de mots aboutit à une représentation vectorielle de grande taille mais très creuse (ou parcimonieuse), du fait qu'un document donné ne contient qu'une infime partie des mots possibles dans le dictionnaire<ref name="RCP216_bow"/>. De même, un mot donné du dictionnaire ne sera représenté généralement que dans un nombre très restreint de documents d'un corpus donné. Cette dernière propriété est à la base du schéma de [[recherche d'information]] efficace dans les [[Moteur de recherche|moteurs de recherche]] textuels.
=== Cas des images ===
Pour les images, le dictionnaire est généralement composé de [[extraction de caractéristiques visuelles#Caractéristiques locales|caractéristiques locales]]. On parle alors de sac de mots visuels (ou ''{{lang|en|bag of visterms}}'').
Ce modèle a été proposé en 2003 pour effectuer des recherches dans des grands corpus vidéo<ref name="sivic03">J. Sivic and A. Zisserman. ''Video Google : A text retrieval approach to object matching in videos''. In Proceedings of the [[International Conference on Computer Vision]], pages 1470–1477, 2003.</ref>.
Le sac de mots visuels est aussi une représentation des images pouvant être utilisée dans le cadre de la classification supervisée<ref name="csurka2004">G Csurka, C Dance, L Fan, J Willamowski, C Bray, ''Visual categorization with bags of keypoints'', Workshop on statistical learning in computer vision, European Conference on Computer Vision, (1-22), 1-2 </ref>. L'intérêt premier est qu'une image représentée originellement par un nombre variable de caractéristiques locales est ramenée dans un espace vectoriel de dimension fixe, et peut ainsi « alimenter » un algorithme d'apprentissage.
== Notes et références ==
Ligne 24 ⟶ 33 :
== Voir aussi ==
{{Autres projets|wikt=sac de mots}}
=== Bibliographie ===
|