Anàlisi de sentiment: diferència entre les revisions

De la Viquipèdia, l'enciclopèdia lliure
Contingut suprimit Contingut afegit
Creada per traducció de la pàgina «Sentiment analysis»
(Cap diferència)

Revisió del 19:55, 21 feb 2016

Sentiment Eina d'anàlisi

Sentiment Anàlisi (també sabut tan l'opinió minera) refereix a l'ús de processament de llengua natural, anàlisi de text i lingüística computacional per identificar i extreure informació subjectiva dins materials de font. Sentiment L'anàlisi és àmpliament aplicat a revisions i mitjans de comunicació socials per una varietat d'aplicacions, variant de màrqueting a servei de client.

En general, sentiment objectius d'anàlisi per determinar l'actitud d'un parlant o un escriptor amb respectar a algun tema o la polaritat contextual global d'un document. L'actitud pot ser seva o el seu judici o avaluació (veu appraisal teoria), estat afectiu (és a dir, l'estat emocional de l'autor quan escriptura), o la comunicació emocional pretesa (és a dir, l'efecte emocional els desitjos d'autor per tenir en el lector).

Tipus de sentiment anàlisi

Una tasca bàsica en sentiment l'anàlisi està classificant la polaritat d'un text donat al document, frase, o nivell/d'aspecte de la característica — si l'opinió expressada en un document, una frase o un aspecte de característica/de l'entitat és positius, negatiu, o neutre. Avançat, "més enllà polaritat" sentiment aspectes de classificació, per cas, a estats emocionals com "enfadat," "trist," i "feliç."

La feina primerenca en aquella àrea inclou Turney i Pang que va aplicar mètodes diferents per detectar la polaritat de revisions de producte i revisions de pel·lícula respectivament.[1][2] Aquesta feina és al nivell de document. Un també pot classificar la polaritat d'un document en un multi-escala de manera, el qual va ser intentat per Pang i Snyder entre altres: Pang i Lee va expandir la tasca bàsica de classificar una revisió de pel·lícula com qualsevol positiu o negatiu a pronosticar índexs d'estrella en qualsevol un 3 o una 4 escala d'estrella, mentre Snyder va actuar un dins-anàlisi de profunditat de revisions de restaurant, pronosticant índexs per diversos aspectes del restaurant donat, com l'alimentari i atmosfera (en una escala de cinc estrelles).[3][4][3][4] Fins i tot encara que dins classificació més estadística mètodes, la classe neutra és ignorada sota la suposició que mentida de textos neutres a prop la frontera del binari classifier, diversos investigadors suggereixen que, mentre en cada problema de polaritat, tres categories han de ser identificades. A més pugui ser provat que específic classifiers com el Max Entropia[5] i el SVMs[6] pot beneficiar de la introducció de classe neutra i millorar la precisió global de la classificació.

Un mètode diferent per determinar sentiment és l'ús d'un scaling sistema whereby les paraules generalment associades amb havent-hi un negatiu, neutre o positiu sentiment amb ells són donats un número associat en un -10 a +10 escala (la majoria negatiu fins a més positiu) i quan una peça de unstructured el text és analitzat utilitzant processament de llengua natural, els conceptes subsegüents són analitzats per una comprensió d'aquestes paraules i com relacionen al concepte.[citation Necessitat] Cada concepte és llavors donat una puntuació va basar en el camí sentiment les paraules relacionen al concepte, i la seva puntuació associada. Això permet moviment a una comprensió més sofisticada de sentiment basat en una 11 escala de punt. Alternativament, els textos poden ser donats un positiu i negatiu sentiment puntuació de força si l'objectiu és per determinar el sentiment en un text més que la polaritat global i força del text.[7]

Identificació/d'objectivitat de la subjectivitat

Aquesta tasca és generalment definit mentre classificant un text donat (normalment una frase) a un de dues classes: objectiu o subjectiu.[8] Aquest problema de vegades pot ser més difícil que classificació de polaritat.[9] La subjectivitat de paraules i frases pot dependre en el seu context i un document objectiu poden contenir frases subjectives (p. ex., un article de notícia que cita les opinions de les persones ). A més, mentre esmentat per Su, els resultats són en gran part dependent en la definició de la subjectivitat utilitzada quan annotating textos.[10] Tanmateix, Pang va mostrar que traient frases objectives d'un document abans de classificar la seva polaritat va ajudar millorar actuació.[11]

Aspecte/de característica-basat sentiment anàlisi

Refereix a determinar les opinions o sentiments va expressar en aspectes o característiques diferents d'entitats, p. ex., d'un telèfon mòbil, una càmera digital, o un banc.[12] Una característica o l'aspecte és un atribut o component d'una entitat, p. ex., la pantalla d'un telèfon mòbil, el servei per un restaurant, o la qualitat de fotografia d'una càmera. L'avantatge de característica-basat sentiment l'anàlisi és la possibilitat per capturar matisos sobre objectes d'interès. Les característiques diferents poden generar diferents sentiment respostes, per exemple un hotel pot tenir una ubicació convenient, però menjar mediocre.[13] Aquest problema implica diversos sub-problemes, p. ex., identificant entitats pertinents, extraient els seus aspectes/de característiques, i determinant si una opinió expressada en cada aspecte/de característica és positiu, negatiu o neutre.[14] La identificació automàtica de característiques pot ser actuada amb mètodes sintàctics o amb modelat de tema.[15][16] Més va detallar discussions sobre aquest nivell de sentiment l'anàlisi pot ser trobada en Liu feina.[17]

Mètodes i característiques

Existint aproximacions a sentiment l'anàlisi pot ser agrupada a quatre categories principals: keyword spotting, afinitat lèxica, mètodes estadístics, i concepte-tècniques de nivell.[18] Keyword spotting Classifica text per afectar les categories van basar en la presència d'inequívoc afectar paraules com feliç, trist, temorós, i va avorrir.[19] L'afinitat lèxica no només detecta òbvia afectar paraules, també assigna paraules arbitràries una afinitat “probable” a emocions particulars.[20] Mètodes estadístics leverage en elements d'aprenentatge de màquina com anàlisi semàntica latent, màquines de vector del suport, "bossa de paraules" i Orientació Semàntica — Pointwise Informació Mútua (Veu Peter Turney feina en aquesta àrea).[1] Mètodes més sofisticats intenten detectar el titular d'un sentiment (i.e. la persona que manté que estat afectiu) i l'objectiu (i.e. l'entitat sobre quin l'afectar és sentit).[21] A mina l'opinió en context i aconseguir la característica que ha estat opinionated, les relacions gramaticals de paraules són utilitzades. Relacions de dependència gramatical són obtingudes per profund parsing del text.[22] Diferent purament syntactical tècniques, concepte-aproximacions de nivell leverage en elements de representació de coneixement com ontologies i xarxes semàntiques i, per això, és també capaç de detectar semantics que són expressades en una manera subtil, p. ex., a través de l'anàlisi de conceptes que no explícitament transportar informació pertinent, però que és implicitly enllaçat a altres conceptes que fan tan.[23]

Eines de programari del codi obert despleguen aprenentatge de màquina, estadística, i tècniques de processament de llengua naturals per automatitzar sentiment anàlisi en col·leccions grans de textos, incloent pàgines de web, notícia en línia, grups de discussió de la internet, revisions en línia, blogs de web, i mitjans de comunicació socials.[24] Coneixement-va basar sistemes, en comptes d'això, ús de marca de públicament recursos disponibles, p. ex., WordNet-Afectar, SentiWordNet, i SenticNet, per extreure la informació semàntica i afectiva associada amb conceptes de llengua natural.[25][26][27][28] Sentiment L'anàlisi també pot ser actuada en contingut visual i.e. imatges i vídeos. Un de la primera aproximació en aquesta direcció és SentiBank utilitzant una representació de parell de substantiu d'adjectiu de contingut visual.[29]

Un component d'anàlisi humà és requerit en sentiment anàlisi, mentre va automatitzar els sistemes no són capaços d'analitzar tendències històriques de l'individual commenter, o la plataforma i és sovint classificat incorrectament en el seu expressat sentiment. Impactes d'automatització aproximadament 23% de comentaris que són correctament classificat per éssers humans.[30]

De vegades, l'estructura de sentiments i els temes és força complexos. També, el problema de sentiment l'anàlisi és no-monotonic dins respecte per sentenciar extensió i aturada-substitució de paraula (compara no deixarien la meva estada de gos en aquest hotel vs no deixaria la meva estada de gos en aquest hotel). Per adreçar això emet un número de basat en regles i raonament-va basar les aproximacions han estat aplicades a sentiment anàlisi, incloent Defeasible Programació de Lògica.[31] També, hi ha un número d'arbre traversal governa aplicat a sintàctic parse arbre per extreure el topicality de sentiment en enquadrament d'àmbit obert.[32][33]

Avaluació

La precisió d'un sentiment sistema d'anàlisi és, en principi, com bé està d'acord amb judicis humans. Això és normalment mesurat per precisió i recordar. Tanmateix, segons investigar humà raters típicament acordar 79% del temps (veu Inter-rater fiabilitat).[34]

Per això, un 70% programa acurat està fent gairebé així com éssers humans, fins i tot encara que tal precisió no pot sonar impressionant. Si un programa era "correcte" 100% del temps, els éssers humans encara discreparien amb ell aproximadament 20% del temps, de llavors ençà discrepen que molt sobre qualsevol resposta .[35] Mesures més sofisticades poden ser aplicades, però avaluació de sentiment sistemes d'anàlisi queda un assumpte complex. Per sentiment tasques d'anàlisi que retornen una escala més que un judici binari, la correlació és una mesura millor que precisió perquè té en compte que proper el valor pronosticat és al valor d'objectiu.

Sentiment Anàlisi i Web 2.0

L'augment de mitjans de comunicació socials com els blogs i les xarxes socials ha fueled interès en sentiment anàlisi. Amb la proliferació de revisions, índexs, recomanacions i altres formes d'expressió en línia, l'opinió en línia ha convertit en una classe de moneda virtual pels negocis que miren a mercat els seus productes, identifica oportunitats noves i dirigir les seves reputacions. Tan aspecte de negocis per automatitzar el procés de filtrar fora del soroll, entenent les converses, identificant el contingut pertinent i actioning ell apropiadament, molts ara estan mirant al camp de sentiment anàlisi.[36] Més enllà complicant l'assumpte, és l'augment de plataformes de mitjans de comunicació socials anònimes com 4chan i Reddit.[37] Si web 2.0 era tot aproximadament democratitzant editorial, llavors l'etapa pròxima del web bé pot ser basat damunt democratitzant la dada minera de tot el contingut que està aconseguint va publicar.[38]

Un fa un pas cap a aquest objectiu és acomplert dins recerca. Diversos equips de recerca en universitats al voltant del món actualment enfoca damunt entenent la dinàmica de sentiment en e-comunitats a través de sentiment anàlisi.[39] El CyberEmotions projecte, per cas, recentment identificat la funció d'emocions negatives dins conduint discussions de xarxes socials.[40]

El problema és que més sentiment algoritmes d'anàlisi utilitzen termes senzills per expressar sentiment sobre un producte o servei. Tanmateix, factors culturals, matisos lingüístics i diferint els contextos el fan extremadament difícil de girar una corda de text escrit a un senzill pro o contra sentiment.[36] El fet que els éssers humans sovint discrepen en el sentiment del text il·lustra que gran una tasca és per ordinadors per aconseguir aquest correcte. El més curt la corda de text, el més dur esdevé.

Fins i tot encara que cordes de text curt podrien ser un problema, sentiment anàlisi dins de microblogging ha mostrat que Twitter pot ser vist com a indicador en línia vàlid de polític sentiment. Tweets' Polític sentiment demostra correspondència propera a partits i les posicions polítiques dels polítics , indicant que el contingut de missatges de Twitter plausibly reflecteix el paisatge polític offline.[41]

Recursos per sentiment anàlisi

Sentiment Vocabularis i annotated llistes de paraula:

  • AlchemyAPI (Comercial)[46]
  • BitextAPI (Comercial)[47]
  • Semantria (Comercial)[48]
  • Sentiment140 (anunci, per Twitter)[49]
  • Stanford NLP (acadèmic)[50]
  • Twinword (Anunci, lliure / unlimited)[51]
  • Werfamous (Lliure)[52]
  • WordStat (Comercial)[53]
  • Buzzlogix (Versions lliures i comercials)[54]

Annotated corpora (Documents amb manual annotations de sentiment que poden soler avaluar algoritmes):

  • Twitter dataset dins 4 llengües (12,500 tweets)[55]

Veure també

  • Johan Bollen

References

  1. 1,0 1,1 Turney, Peter (2002). "Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews". Proceedings of the Association for Computational Linguistics: 417–424 
  2. (2002) "Thumbs up? Sentiment Classification using Machine Learning Techniques". Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP): 79–86 
  3. 3,0 3,1 (2005) "Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales". Proceedings of the Association for Computational Linguistics (ACL): 115–124 
  4. 4,0 4,1 (2007) "Multiple Aspect Ranking using the Good Grief Algorithm". Proceedings of the Joint Human Language Technology/North American Chapter of the ACL Conference (HLT-NAACL): 300–307 
  5. Vryniotis, Vasilis (2013). "The importance of Neutral Class in Sentiment Analysis".  
  6. (2006) "The Importance of Neutral Examples for Learning Sentiment". Computational Intelligence 22: 100–109. Plantilla:Citeseerx 
  7. Thelwall, Mike; Buckley, Kevan; Paltoglou, Georgios; Cai, Di; Kappas, Arvid «Sentiment strength detection in short informal text». Journal of the American Society for Information Science and Technology, vol. 61, 12, 2010, pàg. 2544–2558. DOI: 10.1002/asi.21416.
  8. Pang, Bo; Lee, Lillian. «4.1.2 Subjectivity Detection and Opinion Identification». A: Opinion Mining and Sentiment Analysis. Now Publishers Inc, 2008. 
  9. (2007) "Learning Multilingual Subjective Language via Cross-Lingual Projections". Proceedings of the Association for Computational Linguistics (ACL): 976–983 
  10. (2008) "From Words to Senses: a Case Study in Subjectivity Recognition". Proceedings of Coling 2008, Manchester, UK 
  11. (2004) "A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts". Proceedings of the Association for Computational Linguistics (ACL): 271–278 
  12. (2004) "Mining and Summarizing Customer Reviews". Proceedings of KDD 2004. 
  13. Cataldi, Mario; Ballatore, Andrea; Tiddi, Ilaria; Aufaure, Marie-Aude «Good location, terrible food: detecting feature sentiment in user-generated reviews». Social Network Analysis and Mining, vol. 3, 4, 22-06-2013, pàg. 1149–1163. DOI: 10.1007/s13278-013-0119-7. ISSN: 1869-5450.
  14. (2005) "Opinion Observer: Analyzing and Comparing Opinions on the Web". Proceedings of WWW 2005. 
  15. Zhai, Zhongwu; Liu, Bing; Xu, Hua [et al.].. Constrained LDA for Grouping Product Features in Opinion Mining. Springer Berlin Heidelberg, 2011, p. 448–459 (Lecture Notes in Computer Science). DOI 10.1007/978-3-642-20841-6_37. ISBN 978-3-642-20840-9. 
  16. Titov, Ivan; McDonald, Ryan «Modeling Online Reviews with Multi-grain Topic Models». Proceedings of the 17th International Conference on World Wide Web. ACM [New York, NY, USA], 01-01-2008, pàg. 111–120. DOI: 10.1145/1367497.1367513.
  17. Liu, Bing (2010). "Sentiment Analysis and Subjectivity". Handbook of Natural Language Processing, Second 
  18. Cambria, Erik; Schuller, Björn; Xia, Yunqing; Havasi, Catherine «New Avenues in Opinion Mining and Sentiment Analysis». IEEE Intelligent Systems, vol. 28, 2, 2013, pàg. 15–21. DOI: 10.1109/MIS.2013.30.
  19. Ortony, Andrew; Clore, G; Collins, A. The Cognitive Structure of Emotions. Cambridge Univ. Press, 1988. 
  20. Stevenson, Ryan; Mikels, Joseph; James, Thomas «Characterization of the Affective Norms for English Words by Discrete Emotional Categories». Behavior Research Methods, vol. 39, 4, 2007, pàg. 1020–1024.
  21. (2006) "Identifying and Analyzing Judgment Opinions.". Proceedings of the Human Language Technology / North American Association of Computational Linguistics conference (HLT-NAACL 2006). New York, NY. 
  22. (2008) "Opinion Mining from Noisy Text Data". Proceedings of the second workshop on Analytics for noisy unstructured text data, p.83-90 
  23. Cambria, Erik; Hussain, Amir. Sentic Computing: Techniques, Tools, and Applications. Springer, 2012. 
  24. (2010) "Identifying breakpoints in public opinion". SigKDD, Proceedings of the First Workshop on Social Media Analytics 
  25. 25,0 25,1 (2004) "WordNet-Affect: An affective extension of WordNet". Proceedings of LREC: 1083–1086 
  26. 26,0 26,1 (2010) "Sentiwordnet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining". Proceedings of LREC: 2200–2204 [Consulta: 5 abril 2014] 
  27. 27,0 27,1 «SenticNet». sentic.net.
  28. 28,0 28,1 (2014) "SenticNet 3: A common and common-sense knowledge base for cognition-driven sentiment analysis". Proceedings of AAAI: 1515–1521 
  29. (2013) "Large-scale Visual Sentiment Ontology and Detectors Using Adjective Noun Pairs". Proceedings of ACM Int. Conference on Multimedia: 223–232 
  30. «Case Study: Advanced Sentiment Analysis». [Consulta: 18 octubre 2013].
  31. Galitsky, Boris; McKenna, Eugene William. «Sentiment Extraction from Consumer Reviews for Providing Product Recommendations». [Consulta: 18 novembre 2013].
  32. Galitsky, Boris; Dobrocsi, Gabor; de la Rosa, Josep Lluís «Inverting Semantic Structure Under Open Domain Opinion Mining». FLAIRS Conference, 2010.
  33. Galitsky, Boris; Chen, Huanjin; Du, Shaobin «Inversion of Forum Content Based on Authors' Sentiments on Product Usability». AAAI Spring Symposium: Social Semantic Web: Where Web 2.0 Meets Web 3.0, 2009, pàg. 33–38.
  34. Ogneva, M. «How Companies Can Use Sentiment Analysis to Improve Their Business». Mashable [Consulta: 13 desembre 2012].
  35. Roebuck, K. Sentiment Analysis: High-impact Strategies - What You Need to Know: Definitions, Adoptions, Impact, Benefits, Maturity, Vendors. 
  36. 36,0 36,1 Wright, Alex.
  37. «Sentiment Analysis on Reddit». [Consulta: 10 octubre 2014].
  38. Kirkpatrick, Marshall.
  39. CORDIS.
  40. Condliffe, Jamie.
  41. Tumasjan, Andranik; O.Sprenger, Timm; G.Sandner, Philipp; M.Welpe, Isabell (2010).
  42. «generating the Affective Norms for English Words (ANEW) dataset». tomlee.wtf.
  43. Stevenson, Ryan A.; Mikels, Joseph A.; James, Thomas W. «Characterization of the Affective Norms for English Words by discrete emotional categories». Behavior Research Methods, vol. 39, 4, 01-11-2007, pàg. 1020–1024. DOI: 10.3758/BF03192999. ISSN: 1554-351X.
  44. «SentiWordNet». cnr.it.
  45. Manuela Speranza, FBK. «WordNet Domains». fbk.eu.
  46. http://www.alchemyapi.com/
  47. https://www.bitext.com/
  48. «Semantria Web Demo - semantria.com». semantria.com.
  49. «API - Sentiment140 - A Twitter Sentiment Analysis Tool». sentiment140.com.
  50. «Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank». Deeply Moving: Deep Learning for Sentiment Analysis.
  51. «Twinword Sentiment Analysis API Web Demo». twinword.com.
  52. «A Twitter and web sentiment analysis tool». werfamous.com.
  53. «Content analysis software for sentiment analysis». provalisresearch.com.
  54. «Text Analysis & Sentiment Analysis API | Buzzlogix» (en anglès americà). Buzzlogix | Text Analysis API. Buzzlogix.com. [Consulta: 23 novembre 2015].
  55. «DAI-Labor > Competence Centers > CC IRML > Datasets > Annotated Sentiment Dataset». dai-labor.de.

Lectura més llunyana

  • 2008 Article d'Enquesta - l'opinió minera i sentiment anàlisi (Pang & Lee)
  • 2011 Article d'Enquesta - Revisió Comprensible D'Opinió Summarization (Kim et al)
  • 2013 Article d'Enquesta - Avingudes Noves dins l'opinió Minera i Sentiment Anàlisi (Cambria et al)
  • Sentiment Article d'anàlisi - Sentiment Anàlisi 101