Anàlisi de sentiment

De Viquipèdia
Jump to navigation Jump to search
Eina d'anàlisi de sentiment

Anàlisi de sentiment (de l'anglès sentiment analysis o també mineria d'opinió, opinion mining)[1][2] fa referència a l'ús del processament de llenguatge natural, anàlisi de text i lingüística computacional per identificar i extreure informació subjectiva de materials font. L'anàlisi de sentiment es fa servir àmpliament en el camp de les opinions i els mitjans de comunicació socials amb una gran gamma d'aplicacions, des del màrqueting fins al servei al client.

En termes generals, l'anàlisi de sentiment intenta determinar l'actitud un interlocutor, parlant o escrit, respecte a algun tema o a la polaritat contextual global d'un document. L'actitud pot ser el seu judici o avaluació, estat afectiu (és a dir, l'estat emocional de l'autor en el moment de parlar o escriure), o la intenció comunicativa emocional (és a dir, l'efecte emocional que l'autor pretén causar en el lector).

Tipus d'anàlisi de sentiment[modifica]

Una tasca bàsica en l'anàlisi de sentiment és classificar la polaritat d'un text donat a nivell de document, frase, o tret/característica — si l'opinió expressada en un document, una frase o un ret/característica de l'entitat és positiva, negativa, o neutra. La classificació de sentiment més avançada, "més enllà de la polaritat",busca, per exemple, estats emocionals com "enfadat," "trist," i "feliç."

Els primers treballs en aquesta àrea els van dur a terme Turney[3] i Pang[4] que va aplicar diferents mètodes per detectar la polaritat de crítiques de productes i de pel·lículaes respectivament. Aquest treball és a nivell de document. També es pot classificar la polaritat d'un document en una escala de diversos valors. Això ho va intentar Pang[5] i Snyder[6] i altres (Bo and Lilian),[5] expandint la tasca bàsica de classificar una crítica de pel·lícula com positiva o negativa a predir avaluacions en una escala de 3 o 4 estrelles, mentre que Snyder[6] va realitzar una anàlisi en profunditat de crítiques a restaurants. pronosticant avaluacions per a diversos aspectes d'un restaurant donat, com podrien ser el menjar i l'ambient (en una escala de cinc estrelles). Malgrat que en la majoria dels mètodes de classificació estadístics, la classe neutra és ignorada sota la suposició que els textos neutrals es troben molt a prop de la frontera del classificador binari, molts investigadors suggereixen que, de la mateixa manera que pasa amb tot problema de polaritat, s'han de poder identificar tres categories. A més, es pot provar que alguns classiificadors específics com poden ser Max Entropia[7] i el SVMs[8] es poden beneficisr de la introducció de la classe neutra i millorar la precissióglobal de la classificació. millorar la precisió global de la classificació.

Un mètode diferent per determinar el sentiment és l'ús d'un sistema d'escalat on a les paraules generalment associades amb un sentiment negatiu, neutre o positiu se'ls assigna un número associat des de -10 fins a +10 (des del més negatiu fins al més positiu) i quan s'analitza una peça de text no estructurada utilitzant processament de llenguatge natural, els conceptes subsegüents són analitzats per una comprensió d'aquestes paraules i de com es relacionen amb el concepte. A cada concepte se li atorga llavors una puntuació basada en la forma de les paraules associades amb sentiments es relacionen amb el concepte, i la seva puntuació associada. Això ens permet moure'ns cap a un enteniment més sofisticat dels sentiments basat en una escala d'onze punts. Alternativament, als textos se'ls hi pot atorgar una puntuació per la intensitat de sentiments positius i negatius si l'objectiu és determinar el sentiment en un text en lloc de la polaritat i intensitat general del text.[9]

Identificació subjectivitat/objectivitat[modifica]

Una altra direcció de la investigació és la identificació subjectivitat/objectivitat. Aquesta tasca es defineix normalment[10] com classificar un text donat (usulment una oració) en una de dues classes: objectivitiu i subjectiu.[10] Aquest problema de vegades pot ser més difícil que classificació de la polaritat.[11] La subjectivitat de paraules i frases pot dependre del seu context i un document objectiu poden contenir frases subjectives (per exemple, un article de premsa que cita opinions de persones ). A més, tal com esmenta Su,[12] els resultats depenen en gran mesurade la definició de subjectivitat utilitzada a l'analitzar els textos.quan annotating textos. Tanmateix, Pang[13] va mostrar que traient les frases objectives d'un document abans de classificar la seva polaritat ajudava a millorar el seu rendiment.

Anàlisi de sentiment basat en trets/característiques[modifica]

Un model d'anàlisi més detallista és l'anomenat anàlisi de sentiment basat en trets/característiques. Es refereix a determinar les opinions o els sentiments expressats sobre diferents trets o característiques d'entitats. Per exemple, d'un telèfon mòbil, una càmera digital o un restaurant.[14] Un tret o característica és un atribut o component d'una entitat. Per exemple, la pantalla d'un telèfon mòbil, la qualitat de fotografia d'una càmera o el servei d'un resturant. L'avantatge de l'anàlisi basat en trets/característiques és la possibilitat per contemplar matisos sobre objectes d'interès. Diferents característiques poden generar diferents respostes de sentiment. Per exemple un hotel pot tenir una ubicació molt còmoda, però el menjar ser mediocre.[15] Aquest problema implica diversos sub-problemes. Caldrà identificar entitats rellevants, extreure els seus trets i característiques, i determinar si una opinió expressada sobre cada tret/característica és positiu, negatiu o neutre.[16] La identificació automàtica de característiques pot ser dut a terme amb mètodes sintàctics o amb modelat de tema.[17][18] Més informació sobre aquest nivell d'anàlisi de sentiment es pot trobar en el treball de Liu.[19]

Mètodes i característiques[modifica]

Els enfocaments existents en anàlisi de sentiment es poden agrupar en quatre categories principalsː[20] localització de paraules clau, afinitat lèxica, mètodes estadístics, i tècniques a nivell de concepte. La localització de paraules clau classifica el text en categories d'afecte no ambigües com són feliç, trist, espantat, i avorrit.[21] L'afinitat lèxica no només detecta paraules d'afecte òbvies, també assigna a paraules arbitràries una afinitat “probable” a emocions particulars.[22] Els mètodes estadístics treuen avantatge d'elements d'aprenentatge de màquina tals com anàlisi de semàntica latent, màquines de vector de suport, "bossa de paraules" i Orientació Semàntica — Informació Mútua Puntual (Vegeu el treball de Peter Turney feina aquesta àrea).[3] Mètodes més sofisticats intenten detectar el posseïdor d'un sentiment (o sigui, la persona que manté aquest estat afectiu) i l'objectiu (és a dir, l'entitat sobre la que se sent l'afecte).[23] Per minar l'opinió en context i aconseguir la característica sobre la qual es va opinar s'usen les relacions gramaticals de les paraules. les relacions de dependència gramatical s'obtenen mitjançant una anàlisi gramatical profund del text[24] A diferència de les tècniques purament sintàctiques, els enfocaments a nivell de concepte treuen avantatge d'elements de representació de coneixement com les ontologies i les xarxes semàntiques i, per això, són també capaços de detectar semàntiques expressades d'una forma subtil, per exemple, mitjançant l'anàlisi de conceptes que no transmeten explícitament informació rellevant, però que implícitament estan lligats a altres conceptes que sí que ho fan.[25]

Hi ha eines de programari de codi obert que despleguen tècniques d'aprenentatge de màquina, estadístiques i de processament de llenguatge natural per automatitzar l'anàlisi de sentiment en grans col·leccions de textos, incloent pàgines de web, notícies en línia, grups de discussió a internet, crítiques en línia, blogs i mitjans de comunicació socials.[26] Els sistemes basats en el coneixement, en comptes d'això, fan ús de recursos d'accés públic. Per exemple, WordNet-Affect,[27] SentiWordNet,[28] i SenticNet,[29][30]per extreure la informació semàntica i afectiva associada amb conceptes de llenguatge natural. L'anàlisi de sentiment també pot ser realitzat sobre contgut visual, o sigui, imatges i vídeos. Un dels primers enfocaments en aquesta direcció és SentiBank[31] que utilitza una parella de substantiu i adjectiu per a la representació del contingut visual.

L'anàlisi de sentiment requereix d'un component d'anàlisi humà, atès que els sistemes automatitzats no són capaços d'analitzar tendències històriques del comentador individual o de la plataforma;i sovint els sentiments expressats es classifiquen incorrectament.. L'automatització aconsegueix aproximadament un 23% dels comentaris que són classificats correctament per éssers humans.[32]

De vegades, l'estructura de sentiments i temes és força complexa. A més, el problema de l'anàlisi de sentiment és no-monotònic amb respecte a l'extensió i substitució de stop-word. Només cal comparar les frases en anglèsː THEY would not let my dog stay in this hotel amb I would not let my dog stay (ELLS no deixarien tenir el meu gos a l'hotel amb Jo no deixaria tenir el meu gos a l'hotel). Per encarar aquesta qüestió s'han aplicat a l'anàlisi de sentiments diversos enfocments basats en regles i basatsen, inclouent Programació Lògica Refutable. raonament-va basar les aproximacions han estat aplicades a sentiment anàlisi, incloent Programació Lògica Refutable.[33] També, hi ha divereses regles de recorregut d'arbres aplicades a arbres d'anàlisi sintàctic per extreure en condicions de domini obert.[34][35]

Avaluació[modifica]

La precisió d'un sistema d'anàlisi de sentiment és, en principi, avaluable en funció del grau d'acord amb els judicis humans. Això és mesura normalment per la precisió i el record. Tanmateix, però, segons les investigacions es considera que els avaluadors himans solen estar d'acord un 79% de les vegades.[36] (Veu Inter-rater reliability). Per tant, un programa que tingués un grau d'acord del 70% es podria dir que es comporta tan bé com els humans, malgrat que tal precisió no pot sonar impressionant. Si un programa fos "d'acord" el 100% de les vegades, els éssers humans encara discreparien amb ell aproximadament un 20% de les vegades, atès que estan en desacord sempre una xifra com aquesta per a qualsevol resposta.[37] Es poden aplicar mesures més sofisticades, però l'avaluació de sistemes d'anàlisi de sentiment seguei sent un assumpte complex. Pel que fa a les tasques d'anàlisi de sentiment susceptibles de ser avaluades per una escala més que per un judici binari, la correlació ésdevé millor mesura que precisió perquè té en compte quant a la vora està el valor predit del valor objectiu.

Anàlisi de sentiment i Web 2.0[modifica]

El creixement dels mitjans de comunicació socials com els blogs i les xarxes socials han alimentat l'interès per a l'anàlisi de sentiment. Amb la proliferació de les crítiques, qualificacions, recomanacions i altres formes d'expressió a la xarxa, l'opinió en línia s'ha convertit en una espècie de divisa virtual pels negocis que busquen comercialitzar els seus productes, identificar noves oportunitats i gestionar les seves reputacions. Com que les empreses de negocis intenten automatitzar el procés de filtrar el soroll, entendre les conversacions, identificar el contingut rellevant i actuar apropiadament, molts agents estan posant el seu interès en el camp de l'anàlisi de sentiment.[38] Un altre factor a tenir en compte també és l'ascens de les plataformes anònimes de mitjans de comunicació socials com 4chan i Reddit.[39] Si la web 2.0 consistia en democratitzar la publicació, llavors la pròxima etapa de la web bé podria estar basada en la mineria de dades de tot el contingut que es publica.[40]Un pas cap a aquest objectiu s'assoleix mitjançant la recerca. Diversos equips de recerca d'universitats arreu del món centren actualment el seu interès en la dinàmica dels sentiments en les e-comunitats a través de l'anàlisi de sentiment.[41] El projecte CyberEmotions, per exemple, ha identificat el paper de les emocions negatives en la conducció de les discussionsen les xarxes socials.[42]

El problema és que la majoria dels algoritmes d'anàlisi de sentimentfan servir termes simples per expressar sentiments sobre un producte o servei. Tanmateix, factors culturals, matisos lingüístics i diferints contextes fan extremadament difícil convertir una cadena de text escrit en un simple sentiment a favor o en contra.[38] El fet que els éssers humans sovint discrepen en el sentiment d'un text il·lustra que difícil que és que els ordinadors ho aconsegueixin fer correctament. Com més curta és la cadena, més difícil esdevé.

Malgrat les cadenes curtes de text puguin ser un problema, l'anàlisi de sentiment aplicat al microblogging ha mostrat que Twitter pot ser vist com a indicador en línia vàlid de sentiment polític Els sentiments polítics dels tuits demostren una correspondència estreta amb les posicions polítiques dels partits i els polítics, indicant que el contingut dels missatges de Twitter reflecteixen plausiblement el paisatge polític en línia.[43]

Recursos per a anàlisi de sentiment[modifica]

Vocabularis de sentiment llistes anotades de paraules.

Analitzadors de sentiment en líniaː

  • AlchemyAPI (anunci comercial)[48]
  • BitextAPI (anunci comercial)[49]
  • Semantria (anunci comercial)[50]
  • Sentiment140 (anunci comercial per Twitter)[51]
  • Stanford NLP (anunci acadèmic)[52]
  • Twinword (anunci comercial, lliure / i·limitat)[53]
  • Werfamous anunci lliure)[54]
  • WordStat (anunci comercial)[55]
  • Buzzlogix (anunci comercial i lliure)[56]

Corpus anotat (Documents amb manual d'anotacions de sentiment que poden servir per avaluar algoritmes):

  • Twitter dataset en 4 llengües (12,500 tweets)[57]

Vegeu també[modifica]

Referències[modifica]

  1. Villena-Román, Julio. «Introducción al análisis de sentimientos (minería de opiniones)». Meaning cloud, 13 oct. 2015. [Consulta: 28 febrer 2016].
  2. Delgado Tenorio, Manuel. «¿Qué es el análisis del sentimiento?». https://plus.google.com/+ManuelDelgadoTenorio/posts, 14 gen. 2015. [Consulta: 28 febrer 2016].
  3. 3,0 3,1 Turney, Peter. «Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews». A: ACL '02 Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2002, p. 417-424. DOI 10.3115/1073083.1073153. 
  4. Pang, Bo; Lee, Lilian; Vaithyanathan,Shivakumar. «Thumbs up? Sentiment classification using machine learning techniques». A: Proceedings of EMNLP, 2002, p. 79-86. 
  5. 5,0 5,1 Pang, Bo; Lee, Lillian. «Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales». A: Proceedings of ACL, 2005, p. 115-124. http://arxiv.org/abs/cs/0506075. 
  6. 6,0 6,1 Benjamin Snyder; Barzilay, Regina. «Multiple Aspect Ranking Using the Good Grief Algorithm». A: Proceedings of the Joint Human Language Technology/North American Chapter of the ACL Conference (HLT-NAACL)., p. 300-377. 
  7. Vryniotis, Vasilis (2013). "The importance of Neutral Class in Sentiment Analysis".  
  8. (2006) "The Importance of Neutral Examples for Learning Sentiment". Computational Intelligence 22: 100–109. Plantilla:Citeseerx 
  9. Thelwall, Mike; Buckley, Kevan; Paltoglou, Georgios; Cai, Di; Kappas, Arvid «Sentiment strength detection in short informal text». Journal of the American Society for Information Science and Technology, 61, 12, 2010, pàg. 2544–2558. DOI: 10.1002/asi.21416.
  10. 10,0 10,1 Pang, Bo; Lee, Lillian. «4.1.2 Subjectivity Detection and Opinion Identification». A: Opinion Mining and Sentiment Analysis. Now Publishers Inc, 2008. 
  11. (2007) "Learning Multilingual Subjective Language via Cross-Lingual Projections". Proceedings of the Association for Computational Linguistics (ACL): 976–983 
  12. (2008) "From Words to Senses: a Case Study in Subjectivity Recognition". Proceedings of Coling 2008, Manchester, UK 
  13. (2004) "A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts". Proceedings of the Association for Computational Linguistics (ACL): 271–278 
  14. (2004) "Mining and Summarizing Customer Reviews". Proceedings of KDD 2004. 
  15. Cataldi, Mario; Ballatore, Andrea; Tiddi, Ilaria; Aufaure, Marie-Aude «Good location, terrible food: detecting feature sentiment in user-generated reviews». Social Network Analysis and Mining, 3, 4, 22-06-2013, pàg. 1149–1163. DOI: 10.1007/s13278-013-0119-7. ISSN: 1869-5450.
  16. (2005) "Opinion Observer: Analyzing and Comparing Opinions on the Web". Proceedings of WWW 2005. 
  17. Zhai, Zhongwu; Liu, Bing; Xu, Hua; Jia, Peifa. Constrained LDA for Grouping Product Features in Opinion Mining. Springer Berlin Heidelberg, 2011, p. 448–459. DOI 10.1007/978-3-642-20841-6_37. ISBN 978-3-642-20840-9. 
  18. Titov, Ivan; McDonald, Ryan «Modeling Online Reviews with Multi-grain Topic Models». Proceedings of the 17th International Conference on World Wide Web. ACM [New York, NY, USA], 01-01-2008, pàg. 111–120. DOI: 10.1145/1367497.1367513.
  19. Liu, Bing (2010). "Sentiment Analysis and Subjectivity". Handbook of Natural Language Processing, Second 
  20. Cambria, Erik; Schuller, Björn; Xia, Yunqing; Havasi, Catherine «New Avenues in Opinion Mining and Sentiment Analysis». IEEE Intelligent Systems, 28, 2, 2013, pàg. 15–21. DOI: 10.1109/MIS.2013.30.
  21. Ortony, Andrew; Clore, G; Collins, A. The Cognitive Structure of Emotions. Cambridge Univ. Press, 1988. 
  22. Stevenson, Ryan; Mikels, Joseph; James, Thomas «Characterization of the Affective Norms for English Words by Discrete Emotional Categories». Behavior Research Methods, 39, 4, 2007, pàg. 1020–1024.
  23. (2006) "Identifying and Analyzing Judgment Opinions.". Proceedings of the Human Language Technology / North American Association of Computational Linguistics conference (HLT-NAACL 2006). New York, NY. 
  24. (2008) "Opinion Mining from Noisy Text Data". Proceedings of the second workshop on Analytics for noisy unstructured text data, p.83-90 
  25. Cambria, Erik; Hussain, Amir. Sentic Computing: Techniques, Tools, and Applications. Springer, 2012. 
  26. (2010) "Identifying breakpoints in public opinion". SigKDD, Proceedings of the First Workshop on Social Media Analytics 
  27. 27,0 27,1 (2004) "WordNet-Affect: An affective extension of WordNet". Proceedings of LREC: 1083–1086 
  28. 28,0 28,1 (2010) "Sentiwordnet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining". Proceedings of LREC: 2200–2204 [Consulta: 5 abril 2014] 
  29. 29,0 29,1 (2014) "SenticNet 3: A common and common-sense knowledge base for cognition-driven sentiment analysis". Proceedings of AAAI: 1515–1521 
  30. 30,0 30,1 «Case Study: Advanced Sentiment Analysis». [Consulta: 18 octubre 2013].
  31. (2013) "Large-scale Visual Sentiment Ontology and Detectors Using Adjective Noun Pairs". Proceedings of ACM Int. Conference on Multimedia: 223–232 
  32. ; McKenna, Eugene William«Sentiment Extraction from Consumer Reviews for Providing Product Recommendations». [Consulta: 18 novembre 2013].
  33. Galitsky, Boris; Dobrocsi, Gabor; de la Rosa, Josep Lluís «Inverting Semantic Structure Under Open Domain Opinion Mining». FLAIRS Conference, 2010.
  34. Galitsky, Boris; Chen, Huanjin; Du, Shaobin «Inversion of Forum Content Based on Authors' Sentiments on Product Usability». AAAI Spring Symposium: Social Semantic Web: Where Web 2.0 Meets Web 3.0, 2009, pàg. 33–38.
  35. Ogneva, M. «How Companies Can Use Sentiment Analysis to Improve Their Business». Mashable [Consulta: 13 desembre 2012].
  36. Roebuck, K. Sentiment Analysis: High-impact Strategies - What You Need to Know: Definitions, Adoptions, Impact, Benefits, Maturity, Vendors. 
  37. Wright, Alex.
  38. 38,0 38,1 «Sentiment Analysis on Reddit». [Consulta: 10 octubre 2014].
  39. Kirkpatrick, Marshall.
  40. CORDIS.
  41. Condliffe, Jamie.
  42. Tumasjan, Andranik; O.Sprenger, Timm; G.Sandner, Philipp; M.Welpe, Isabell (2010).
  43. «generating the Affective Norms for English Words (ANEW) dataset». tomlee.wtf.
  44. Stevenson, Ryan A.; Mikels, Joseph A.; James, Thomas W. «Characterization of the Affective Norms for English Words by discrete emotional categories». Behavior Research Methods, 39, 4, 01-11-2007, pàg. 1020–1024. DOI: 10.3758/BF03192999. ISSN: 1554-351X.
  45. «SenticNet». sentic.net.
  46. «SentiWordNet». cnr.it.
  47. Manuela Speranza, FBK. «WordNet Domains». fbk.eu.
  48. http://www.alchemyapi.com/
  49. https://www.bitext.com/
  50. «Semantria Web Demo - semantria.com». semantria.com.
  51. «API - Sentiment140 - A Twitter Sentiment Analysis Tool». sentiment140.com.
  52. «Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank». Deeply Moving: Deep Learning for Sentiment Analysis.
  53. «Twinword Sentiment Analysis API Web Demo». twinword.com.
  54. «A Twitter and web sentiment analysis tool». werfamous.com.
  55. «Content analysis software for sentiment analysis». provalisresearch.com.
  56. «Text Analysis & Sentiment Analysis API | Buzzlogix» (en en-us). Buzzlogix.com. [Consulta: 23 novembre 2015].
  57. «DAI-Labor > Competence Centers > CC IRML > Datasets > Annotated Sentiment Dataset». dai-labor.de.

Lectures complementàries[modifica]