Opinion mining
En informatique, l'opinion mining (aussi appelé sentiment analysis) est l'analyse des sentiments à partir de sources textuelles dématérialisées sur de grandes quantités de données (big data).
Ce procédé apparait au début des années 2000 et connait un succès grandissant dû à l'abondance de données provenant de réseaux sociaux, notamment celles fournies par Twitter.
L'objectif de l’opinion mining est d'analyser une grande quantité de données afin d'en déduire les différents sentiments qui y sont exprimés. Les sentiments extraits peuvent ensuite faire l'objet de statistiques sur le ressenti général d'une communauté.
Source de données
[modifier | modifier le code]Avec le web 2.0, toute page web est susceptible d'être une source de données[1]. Cependant Twitter présente des avantages intéressants comme la brièveté des tweets (140 caractères) ainsi que sa réactivité[2], de plus Twitter est ouvert et les textes qui y sont soumis sont accessibles à tous grâce à un service web[3] ce qui facilite l'exploitation des données.
Cependant plusieurs études ont été faites sur d’autres sources de données telles que des paroles de chansons ou des discours présidentiels[4].
Les réseaux sociaux restent malgré tout une cible privilégiée, car ils représentent une source de donnée riche et assurent un renouvèlement des informations en temps réel.
Outils d'analyse
[modifier | modifier le code]Il existe des outils permettant d'identifier le sentiment dégagé par un texte. Voici une liste des outils les plus connus :
- Nocode functions[5]: application web gratuite d'analyse de sentiment en trois classes (positif, neutre, négatif) basé sur Umigon. Particulièrement adapté à l'analyse de textes de réseaux sociaux, en français ou en anglais, cette application a été évaluée comme la plus performante de sa catégorie.
- AFINN : évalue la positivité/négativité d'un mot à l'aide d'un dictionnaire contenu dans une archive ;
- General Inquirer : lemmatise les mots, effectue une analyse graphique et statistique et produit un rapport contenant des phrases avec les mots les plus significatifs ;
- SenticNet[6] : analyse avancée de la polarité de mots en prenant en compte leurs nuances ;
- WordNet : permet de savoir à l’aide de groupe de synonymes si un mot est positif ou non ;
- SentiWordNet : il s’agit d’une extension à WordNet ; il attribue à chaque groupe de synonymes provenant de WordNet, trois scores de sentiment : la positivité, la négativité, l'objectivité ;
- SentiSense[7] : il s’agit également d’un travail basé sur WordNet permettant de polariser les mots de façon plus précise ;
- Subjectivity Lexicon[8] : permet d’obtenir la polarité d’un mot tout en prenant soin d’analyser son contexte d’utilisation ;
- MicroWNOp : se base à la fois sur General Inquirer et WordNet ; il fournit des ensembles de mots positifs, négatifs et objectifs qui sont synonymes.
Dans le domaine de l'analyse de sentiment, une étude comparative[9] a été effectuée afin de déterminer quels étaient les avantages et inconvénients de chaque source de données. Dans le cadre d'analyse de tweets relatifs à des évènements majeurs, l'étude met en avant le fait que plusieurs de ces tweets n'ont pas pu être reconnus par les sources de données. On peut y voir que SentiWordNet, SenticNet et SentiStrength semblent couvrir un plus grand nombre de tweets. Cependant l'article met également en évidence que le taux de couverture n'est pas synonyme de reconnaissance efficace et que la polarité d'un mot donné n'est pas fiable. C'est pourquoi l'article se propose de combiner plusieurs de ces méthodes afin d'exploiter les avantages de chacun et d'obtenir le résultat le plus proche possible de la réalité.[réf. nécessaire]
Méthodes d'analyse
[modifier | modifier le code]Le but de l'analyse de données est de déterminer si le sentiment dégagé par une phrase est positif ou négatif. La principale difficulté de l'analyse réside au cœur même de l'utilisation de la langue. Le sentiment dégagé par une phrase dépend directement du contexte dans laquelle elle est utilisée, du type de langage, ainsi que de la personne qui l'a écrite... En réalité, il existe une multitude de facteurs de plus ou moins grande influence qui altèrent le sentiment suscité par un propos.
Il existe deux grandes catégories d'analyse : l'analyse lexicale et l'analyse par apprentissage automatique. Cependant, il existe des outils qui tirent profit de ces deux méthodes[10].
Analyse lexicale
[modifier | modifier le code]L'approche fondée sur l’analyse lexicale consiste à déduire l’émotion dégagée par une phrase via une analyse sémantique des mots. Cette approche implique de classifier la phrase via des instances de phrases déjà existantes et pour lesquelles des émotions ont déjà été identifiées. Pour cela, on utilise des dictionnaires qui référencent les mots annotés de la polarité et le contexte pour lequel celle-ci est valable[11].
Apprentissage automatique
[modifier | modifier le code]Les principales méthodes de classification de mots sont basées sur les algorithmes suivants :
- classification naïve bayésienne (Naïve Bayes) ;
- principe d'entropie maximale, employé en tant que fondement derrière un algorithme de classification de texte (MaxEnt) par Nigam et al.[12] ;
- Apprentissage auto-supervisé.
L'algorithme le plus efficace semble être l'apprentissage auto-supervisé[13].
Applications et perspectives
[modifier | modifier le code]L’analyse de sentiments peut trouver de nombreuses applications dans le domaine de la prédiction et de la supervision. En sciences sociales, l'analyse de sentiments permet d'effectuer des analyses médiatiques ou l'analyse des campagnes électorales[14],[15].
Prédiction
[modifier | modifier le code]Évolution des indices boursiers tels que le NASDAQ ou Dow Jones
[modifier | modifier le code]Une étude a montré que le taux d'émotion sur Twitter (espoir, peur, joie) était proportionnel à l'évolution des indices boursiers (plus les internautes sont sereins, plus les indices boursiers montent)[16]. De manière générale l'ensemble des études sur le sujet semble montrer une forte corrélation entre l'analyse des tweets et l'évolution des valeurs boursières.
Résultat d’une élection
[modifier | modifier le code]Plusieurs études ont été menées, certaines avec des résultats prometteurs : une étude montre une forte corrélation entre les estimations basées sur des données provenant de Google Trends et le résultat de plusieurs élections[17].
D'autres études en revanche présentent un bilan plus mitigé : une tentative ratée de prédire l'élection présidentielle pakistanaise de 2013 montre que les mesures, bien que cohérentes, sont souvent trop imprécises pour être fiables[18].
Ces différences sont dues notamment à la non-représentativité démographique des internautes par rapport au total des votants, les jeunes étant plus actifs sur les réseaux sociaux que les séniors[19].
Succès d’un film
[modifier | modifier le code]Pour ce qui concerne le box-office, les analyses montrent une forte précision dans leur modèle de prédiction, pouvant même surpasser les modèles existants[20].
Nouveau produit
[modifier | modifier le code]Enfin, l'opinion mining peut être utilisé afin de prévoir le succès d'un produit avant son lancement[21].
Supervision
[modifier | modifier le code]Utilisation en entreprise
[modifier | modifier le code]Des entreprises ont montré qu’elles mettaient en œuvre des outils permettant de récupérer des informations sur leurs réputations en exploitant les flux de données publics exposés sur les forums, réseaux sociaux et microblogs tels que Twitter[22],[23]. Certaines proposent notamment des outils plus avancés de façon à superviser le sentiment dégagé par leurs clients pour ainsi améliorer leur communication[24].
Références
[modifier | modifier le code]- Dominique Boullier et Audrey Lohard, Opinion mining et Sentiment analysis : méthodes et outils, Marseille, OpenEdition Press, , 234 p. (ISBN 978-2-8218-1226-0, lire en ligne)
- (en) Peter Sheridan Dodds, Isabel M. Kloumann, Kameron Decker Harris, Catherine A. Bliss et Christopher M. Danforth, « Temporal Patterns of Happiness and Information in a Global Social Network : Hedonometrics and Twitter », Plos One, vol. 6, (lire en ligne)
- (en) « The Streaming APIs », sur Twitter.
- (en) Peter Sheridan Dodds et Christopher M. Danforth, « Measuring the Happiness of Large-Scale Written Expression: Songs, Blogs, and Presidents », Journal of Happiness Studies, (lire en ligne)
- (en) Clément Levallois, « Nocode functions », sur nocodefunctions.com, (consulté le ).
- (en) Erik Cambria, Daniel Olsher et Dheeraj Rajagopal, « SenticNet 3:A Common and Common-Sense Knowledge Base for Cognition-Driven Sentiment Analysis », Association for the Advancement of Artificial Intelligence (www.aaai.org), (lire en ligne)
- (en) Jorge Carrillo de Albornoz, Laura Plaza et Pablo Gervas, « SentiSense: An easily scalable concept-based affective lexicon for sentiment analysis », The 8th International Conference on Language Resources and Evaluation (LREC 2012), (lire en ligne)
- (en) Theresa Wilson, Janyce Wiebe et Paul Hoffmann, « Recognizing Contextual Polarity in Phrase-Level Sentiment Analysis », HLT '05 Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, (lire en ligne)
- (en) Pollyanna Gonçalves, Matheus Araújo, Fabrício Benevenuto et Meeyoung Cha, « Comparing and Combining Sentiment Analysis Methods », COSN '13 Proceedings of the first ACM conference on Online social networks, (ISBN 978-1-4503-2084-9, lire en ligne)
- (en) Andrius Mudinas, Dell Zhang et Mark Levene, « Combining lexicon and learning based approaches for concept-level sentiment analysis », WISDOM '12 Proceedings of the First International Workshop on Issues of Sentiment Discovery and Opinion Mining Article No. 5, (ISBN 978-1-4503-1543-2, lire en ligne)
- (en) Prabu Palanisamy, Vineet Yadav et Harsha Elchuri, « Serendio: Simple and Practical lexicon based approach to Sentiment Analysis », Second Joint Conference on Lexical and Computational Semantics (*SEM), vol. Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), no 2, (lire en ligne)
- (en) Kamal Nigam, John Lafferty et Andrew McCallum, « Using maximum entropy for text classification », In IJCAI-99 Workshop on Machine Learning for Information Filtering, , p. 61–67 (lire en ligne, consulté le )
- Jacob Devlin, Ming-Wei Chang, Kenton Lee et Kristina Toutanova, « BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding », arXiv:1810.04805 [cs], (DOI 10.48550/arxiv.1810.04805, lire en ligne, consulté le )
- (en) Dominic Duval et François Pétry, « L'analyse automatisée du ton médiatique : construction et utilisation de la version française du Lexicoder Sentiment Dictionary », Canadian Journal of Political Science/Revue canadienne de science politique, vol. 49, no 2, , p. 197–220 (ISSN 0008-4239 et 1744-9324, DOI 10.1017/S000842391600055X, lire en ligne, consulté le )
- (en) Martin Haselmayer, « Candidates rather than context shape campaign sentiment in French Presidential Elections (1965–2017) », French Politics, (ISSN 1476-3427, DOI 10.1057/s41253-021-00159-5, lire en ligne, consulté le )
- (en) Xue Zhang, Hauke Fuehres et Peter A. Gloor, « Predicting Stock Market Indicators Through Twitter “I hope it is not as bad as I fear” », The 2nd Collaborative Innovation Networks Conference - COINs2010, (lire en ligne)
- (en) Spyros E. Polykalas, George N. Prezerakos et Agisilaos Konidaris, « A General Purpose Model for Future Prediction Based on Web Search Data: Predicting Greek and Spanish Election », 27th International Conference on Advanced Information Networking and Applications Workshops, (lire en ligne)
- (en) Andranik Tumasjan,, Timm O. Sprenger, Philipp G. Sandner et Isabell M. Welpe, « Predicting Elections with Twitter: What 140 Characters Reveal about Political Sentiment », Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media, (lire en ligne)
- (en) Panagiotis T. Metaxas, Eni Mustafaraj et Daniel Gayo-Avello, « How (Not) to Predict Elections », IEEE International Conference on Privacy, Security, Risk, and Trust, and IEEE International Conference on Social Computing, (lire en ligne)
- (en) Asur, S, « Predicting the Future with Social Media », Web Intelligence and Intelligent Agent Technology (WI-IAT), (lire en ligne)
- (en) Alexander Pak et Patrick Paroubek, « Twitter as a Corpus for Sentiment Analysis and Opinion Mining », Language Resources and Evaluation Conference, (lire en ligne)
- (en) Adam Funk, Yaoyong Li, Horacio Saggion, Kalina Bontcheva et Christian Leibold, « Opinion Analysis for Business Intelligence Applications », OBI '08 Proceedings of the first international workshop on Ontology-supported business intelligence Article No. 3, (ISBN 978-1-60558-219-1, lire en ligne)
- David Graceffa, Armelle Ramond, Emmanuelle Dusserre, Ruslan Kalitvianski, Mathieu Ruhlmann et Muntsa Padró, « Notre tweet première fois au DEFT-2018 : systèmes de détection de polarité et de transports (Systems for detecting polarity and public transport discussions in French tweets) », Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT, ATALA, , p. 287–298 (lire en ligne, consulté le )
- (en) Mari Carmen Rodríguez-Gancedo, Javier Caminero, José Relaño et Carlos Picazo, « T-OMT: A Novel Opinion Mining Tool for Improving Global Customer Relationship Management », CASFE'13, (lire en ligne)