Mineria de textos

De la Viquipèdia, l'enciclopèdia lliure
Procés d'extracció de textos

La mineria de text, la mineria de dades de text (TDM) o l'anàlisi de text és el procés d'obtenció d'informació d'alta qualitat a partir del text. Implica "la descoberta per ordinador d'informació nova, prèviament desconeguda, mitjançant l'extracció automàtica d'informació de diferents recursos escrits".[1] Els recursos escrits poden incloure llocs web, llibres, correus electrònics, ressenyes i articles. La informació d'alta qualitat s'obté normalment mitjançant l'elaboració de patrons i tendències mitjançant mitjans com l'aprenentatge de patrons estadístics. Segons Hotho et al. (2005) podem distingir entre tres perspectives diferents de la mineria de textos: extracció d'informació, mineria de dades i un procés de descobriment de coneixement en bases de dades (KDD). La mineria de textos sol implicar el procés d'estructurar el text d'entrada (generalment anàlisi, juntament amb l'addició d'algunes característiques lingüístiques derivades i l'eliminació d'altres, i la posterior inserció en una base de dades), la derivació de patrons dins de les dades estructurades i, finalment, l'avaluació i la interpretació. de la sortida. "Alta qualitat" en la mineria de text normalment es refereix a alguna combinació de rellevància, novetat i interès. Les tasques típiques d'extracció de text inclouen la categorització de text, l'agrupació de text, l'extracció de conceptes/entitats, la producció de taxonomies granulars, l'anàlisi de sentiments, el resum de documents i el modelatge de relacions d'entitats (és a dir, relacions d'aprenentatge entre entitats amb nom).

L'anàlisi de text implica la recuperació d'informació, l'anàlisi lèxica per estudiar les distribucions de freqüència de les paraules, el reconeixement de patrons, l'etiquetatge / anotació, l'extracció d'informació, tècniques de mineria de dades que inclouen l'anàlisi d'enllaços i associacions, la visualització i l'anàlisi predictiva. L'objectiu general és, essencialment, convertir el text en dades per a l'anàlisi, mitjançant l'aplicació del processament del llenguatge natural (PNL), diferents tipus d'algorismes i mètodes analítics. Una fase important d'aquest procés és la interpretació de la informació recollida.

Una aplicació típica és escanejar un conjunt de documents escrits en un llenguatge natural i modelar el conjunt de documents amb finalitats de classificació predictiva o omplir una base de dades o cercar un índex amb la informació extreta. El document és l'element bàsic a l'hora de començar amb la mineria de text. Aquí, definim un document com una unitat de dades textuals, que normalment existeix en molts tipus de col·leccions.

Analítica de textos[modifica]

L'anàlisi de textos descriu un conjunt de tècniques lingüístiques, estadístiques i d'aprenentatge automàtic que modelen i estructuren el contingut d'informació de les fonts textuals per a la intel·ligència empresarial, l'anàlisi exploratòria de dades, la investigació o la investigació. El terme és aproximadament sinònim de mineria de text; de fet, Ronen Feldman va modificar una descripció del 2000 de "extracció de textos" [2] el 2004 per descriure "anàlisi de textos". Aquest darrer terme s'utilitza ara amb més freqüència en entorns empresarials, mentre que la "mineria de textos" s'utilitza en algunes de les primeres àrees d'aplicació, que data de la dècada de 1980, [3] en particular la investigació en ciències de la vida i la intel·ligència governamental.

El terme anàlisi de text també descriu l'aplicació de l'anàlisi de text per respondre a problemes empresarials, ja sigui de manera independent o conjuntament amb la consulta i l'anàlisi de dades numèriques de camp. És una veritat que el 80 per cent de la informació rellevant per a l'empresa s'origina en forma no estructurada, principalment text.[4] Aquestes tècniques i processos descobreixen i presenten coneixements (fets, regles empresarials i relacions) que d'altra manera estan bloquejats en forma textual, impenetrables per al processament automatitzat.

Processos d'anàlisi de textos[modifica]

Les subtasques (components d'un esforç d'anàlisi de text més gran) solen incloure:

  • La reducció de la dimensionalitat és una tècnica important per al preprocessament de dades. La tècnica s'utilitza per identificar la paraula arrel de les paraules reals i reduir la mida de les dades del text.
  • La recuperació d'informació o la identificació d'un corpus és un pas preparatori: recopilació o identificació d'un conjunt de materials textuals, a la web o guardats en un sistema de fitxers, una base de dades o un gestor de corpus de contingut, per a l'anàlisi.
  • Tot i que alguns sistemes d'anàlisi de textos apliquen exclusivament mètodes estadístics avançats, molts altres apliquen un processament del llenguatge natural més extens, com ara l'etiquetatge de la parla, l'anàlisi sintàctica i altres tipus d'anàlisi lingüística.
  • El reconeixement d'entitats anomenades és l'ús de nomenclatures o tècniques estadístiques per identificar característiques del text amb nom: persones, organitzacions, noms de llocs, símbols de valors, determinades abreviatures, etc.
  • La desambiguació (l'ús de pistes contextuals ) pot ser necessària per decidir on, per exemple, "Ford" es pot referir a un antic president dels Estats Units, un fabricant de vehicles, una estrella de cinema, un pas de riu o alguna altra entitat.
  • Reconeixement d'entitats identificades per patró: característiques com ara números de telèfon, adreces de correu electrònic, quantitats (amb unitats) es poden distingir mitjançant expressions regulars o altres coincidències de patrons.
  • Agrupació de documents: identificació de conjunts de documents de text similars.
  • Correferència: identificació de locucions nominals i altres termes que fan referència al mateix objecte.
  • Relació, fet i esdeveniment Extracció: identificació d'associacions entre entitats i altra informació en textos.
  • L'anàlisi de sentiments implica discernir material subjectiu (en lloc del factual) i extreure diverses formes d'informació actitudinal: sentiment, opinió, estat d'ànim i emoció. Les tècniques d'anàlisi de text ajuden a analitzar els sentiments a nivell d'entitat, concepte o tema i distingir els que tenen opinions i objectes.
  • L'anàlisi quantitativa de textos és un conjunt de tècniques derivades de les ciències socials on un jutge humà o un ordinador extreu relacions semàntiques o gramaticals entre paraules per tal d'esbrinar el significat o els patrons estilístics d'un text personal casual amb la finalitat de perfils psicològics, etc.
  • El preprocessament sol implicar tasques com ara tokenització, filtratge i stemming.

Aplicacions[modifica]

La tecnologia de mineria de text s'aplica ara àmpliament a una gran varietat de necessitats governamentals, de recerca i empresarials. Tots aquests grups poden utilitzar la mineria de text per a la gestió de registres i cercar documents rellevants per a les seves activitats diàries. Els professionals del dret poden utilitzar la mineria de text per al descobriment electrònic, per exemple. Els governs i els grups militars utilitzen la mineria de text amb finalitats de seguretat nacional i intel·ligència. Els investigadors científics incorporen enfocaments de mineria de text als esforços per organitzar grans conjunts de dades de text (és a dir, abordar el problema de les dades no estructurades), per determinar idees comunicades a través del text (per exemple, anàlisi de sentiments a les xarxes socials [5][6][7]) i donar suport al descobriment científic en camps com les ciències de la vida i la bioinformàtica. A les empreses, les aplicacions s'utilitzen per donar suport a la intel·ligència competitiva i la col·locació d'anuncis automatitzada, entre moltes altres activitats.

Referències[modifica]

  1. «Marti Hearst: What is Text Mining?» (en anglès).
  2. «KDD-2000 Workshop on Text Mining – Call for Papers» (en anglès). Cs.cmu.edu. [Consulta: 23 febrer 2015].
  3. Hobbs, Jerry R. «Natural language access to structured text». A: Proceedings of the 9th conference on Computational linguistics (en anglès). 1, 1982, p. 127–32. DOI 10.3115/991813.991833. 
  4. «Unstructured Data and the 80 Percent Rule» (en anglès). Breakthrough Analysis, August 2008. [Consulta: 23 febrer 2015].
  5. Pang, Bo; Lee, Lillian Foundations and Trends in Information Retrieval, 2, 1–2, 2008, pàg. 1–135. DOI: 10.1561/1500000011. ISSN: 1554-0669.
  6. Paltoglou, Georgios; Thelwall, Mike ACM Transactions on Intelligent Systems and Technology, 3, 4, 01-09-2012, pàg. 66. DOI: 10.1145/2337542.2337551. ISSN: 2157-6904.
  7. «Sentiment Analysis in Twitter < SemEval-2017 Task 4» (en anglès). alt.qcri.org. [Consulta: 2 octubre 2018].