« Sac de mots » : différence entre les versions

Contenu supprimé Contenu ajouté
Xiawi (discuter | contributions)
LesDilam (discuter | contributions)
m Cas des textes : Ajoute un saut à la ligne parce que c'est quand même une autre façon de traiter le texte. Et précision entre parenthèse.
 
(30 versions intermédiaires par 14 utilisateurs non affichées)
Ligne 1 :
{{Ébauche|informatique}}
 
La représentation par '''sac de mots''' (ou '''bag of words''' en anglais) est une description de document (texte, image...) très utilisée en [[recherche d'information]].
{{Infobox Méthode scientifique}}
 
La représentation par '''sac de mots''' (ou '''{{lang|en|bag of words}}''' en anglais) est une description de document (texte, image...) très utilisée en [[recherche d'information]].
 
== Principe général ==
On considère que le monde peut être décrit au moyen d'un dictionnaire (de « mots »). UnDans sa version la plus simple, un document particulier est alors représenté par l'histogramme des occurrences des mots le composant. Il: spour un document donné, chaque mot se voit affecté le nombre de fois qu'agitil doncapparaît dans le document (voir la notion de [[Multi ensemble|multi-ensemble]], d''bag'' en anglais). Un document est donc représenté par un vecteur de la même taille que le dictionnaire, dont la composante ''i'' indique le nombre d'occurrences du ''i-ème'' mot du dictionnaire dans le document (avant une éventuelle normalisation).
 
La constitution du dictionnaire est ainsi une étape critique pour les performances des systèmes utilisant une telle représentation.
 
Selon l'utilisation ultérieure du sac de mots, celui-ci peut être normalisé de différentes manières :
* ramené à une norme unitaire en divisant chaque composante par la [[Norme (mathématiques)|norme]] (à choisir) du vecteur
* binarisé, ce qui revient à indiquer seulement la présence ou l'absence d'un mot du dictionnaire
* pondéré selon divers schémas, notamment dans le cas d'une utilisation dans un [[modèle vectoriel]] ou un [[modèle probabiliste de pertinence]]
 
=== Cas des textes ===
Le dictionnaire est composé des mots du corpus considéré, pouvant éventuellement recouvrir la totalité de la langue. Il est généralement nécessaire de prétraiter lesdits mots du dictionnaire afin de les normaliser (un traitement semblable est effectué sur les documents analysés)<ref name="RCP216_bow">{{Lien web |langue=fr |auteur=Michel Crucianu |titre=Cours CNAM RCP216; Fouille de texte -- Représentation vectorielle des textes|url=http://cedric.cnam.fr/vertigo/Cours/RCP216/coursFouilleTexte.html#representation-vectorielle-des-textes |site=cedric.cnam.fr |consulté le=30 septembre 2016}}.</ref>. Deux normalisations classiques sont la [[lemmatisation]] et la [[racinisation]]. Il est aussi assez courant de définir une liste de rejet (''stop words'') de mots à ne pas considérer, (tels les pronoms, les articles, etc..) car trop nombreux dans les corpus textuels pour être discriminants.
 
En plus des mots du dictionnaire, il est aussi possible de considérer des combinaisons de mots (des mots qui se suivent), autrement dit des [[N-gramme]]s, augmentant alors la taille du dictionnaire.
 
Une représentation des textes par sacs de mots aboutit à une représentation vectorielle de grande taille mais très creuse (ou parcimonieuse), du fait qu'un document donné ne contient qu'une infime partie des mots possibles dans le dictionnaire<ref name="RCP216_bow"/>. De même, un mot donné du dictionnaire ne sera représenté généralement que dans un nombre très restreint de documents d'un corpus donné. Cette dernière propriété est à la base du schéma de [[recherche d'information]] efficace dans les [[Moteur de recherche|moteurs de recherche]] textuels.
 
=== Cas des images ===
Pour les images, le dictionnaire est généralement composé de [[extraction de caractéristiques visuelles#Caractéristiques locales|caractéristiques locales]]. On parle alors de sac de mots visuels (ou ''{{lang|en|bag of visterms}}'').
 
Ce modèle a été proposé en 2003 pour effectuer des recherches dans des grands corpus vidéo<ref name="sivic03">J. Sivic and A. Zisserman. ''Video Google : A text retrieval approach to object matching in videos''. In Proceedings of the [[International Conference on Computer Vision]], pages 1470–1477, 2003.</ref>.
 
Le sac de mots visuels est aussi une représentation des images pouvant être utilisée dans le cadre de la classification supervisée<ref name="csurka2004">G Csurka, C Dance, L Fan, J Willamowski, C Bray, ''Visual categorization with bags of keypoints'', Workshop on statistical learning in computer vision, European Conference on Computer Vision, (1-22), 1-2 </ref>. L'intérêt premier est qu'une image représentée originellement par un nombre variable de caractéristiques locales est ramenée dans un espace vectoriel de dimension fixe, et peut ainsi « alimenter » un algorithme d'apprentissage.
 
== Notes et références ==
{{Références}}
 
== Voir aussi ==
{{Autres projets|wikt=sac de mots}}
 
=== Bibliographie ===
* {{Salton}}
 
=== Articles connexes ===
* [[modèle vectoriel]]
* [[modèle probabiliste de pertinence]]
 
=== Liens externes ===
 
 
Ligne 24 ⟶ 50 :
[[Catégorie:Vision artificielle]]
[[Catégorie:Traitement automatique du langage naturel]]
 
[[en:bag of words model]]