Model temàtic

De la Viquipèdia, l'enciclopèdia lliure
Animació del procés de detecció de tema en una matriu document-paraula. Cada columna correspon a un document, cada fila a una paraula. Una cel·la emmagatzema la freqüència d'una paraula en un document, les cel·les fosques indiquen freqüències de paraules altes. Els models temàtics agrupen tant documents, que utilitzen paraules semblants, com paraules que apareixen en un conjunt similar de documents. Els patrons resultants s'anomenen "temes".[1]

En estadística i processament del llenguatge natural, un model temàtic és un tipus de model estadístic per descobrir els "temes" abstractes que es produeixen en una col·lecció de documents. El modelatge de temes és una eina d'extracció de text que s'utilitza amb freqüència per descobrir estructures semàntiques amagades en un cos de text. Intuïtivament, atès que un document tracta d'un tema en concret, s'esperaria que en el document apareguessin paraules concretes amb més o menys freqüència: "gos" i "os" apareixeran més sovint en documents sobre gossos, "gat" i "miau". apareixerà en documents sobre gats, i "el" i "és" apareixeran aproximadament per igual en tots dos. Normalment, un document tracta diversos temes en diferents proporcions; així, en un document que tracta un 10% de gats i un 90% de gossos, probablement hi hauria unes 9 vegades més paraules de gossos que de gats. Els "temes" produïts per les tècniques de modelització de temes són grups de paraules similars. Un model temàtic recull aquesta intuïció en un marc matemàtic, que permet examinar un conjunt de documents i descobrir, a partir de les estadístiques de les paraules de cadascun, quins podrien ser els temes i quin és el balanç de temes de cada document.

Els models temàtics també es coneixen com a models probabilístics de tema, que es refereixen a algorismes estadístics per descobrir les estructures semàntiques latents d'un cos de text extens. En l'era de la informació, la quantitat de material escrit que ens trobem cada dia està simplement més enllà de la nostra capacitat de processament. Els models temàtics ens poden ajudar a organitzar i oferir informació per entendre grans col·leccions de cossos de text no estructurats. Desenvolupats originalment com una eina de mineria de text, s'han utilitzat models temàtics per detectar estructures instructives en dades com ara informació genètica, imatges i xarxes. També tenen aplicacions en altres camps com la bioinformàtica [2] i la visió per computador.[3]

A la pràctica, els investigadors intenten ajustar els paràmetres de model adequats al corpus de dades utilitzant una de les diverses heurístiques per a un ajust de màxima probabilitat. Una enquesta recent de Blei descriu aquest conjunt d'algorismes.[4] Diversos grups d'investigadors començant per Papadimitriou i altres [5] han intentat dissenyar algorismes amb garanties probables. Suposant que les dades realment van ser generades pel model en qüestió, intenten dissenyar algorismes que probablement trobin el model que es va utilitzar per crear les dades. Les tècniques utilitzades aquí inclouen la descomposició de valors singulars (SVD) i el mètode dels moments. El 2012 es va introduir un algorisme basat en la factorització matricial no negativa (NMF) que també es generalitza als models de temes amb correlacions entre temes.

Referències[modifica]

  1. [enllaç sense format] http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html
  2. Blei, David Communications of the ACM, 55, 4, April 2012, pàg. 77–84. DOI: 10.1145/2133806.2133826.
  3. Cao, Liangliang, and Li Fei-Fei. "Spatially coherent latent topic model for concurrent segmentation and classification of objects and scenes." 2007 IEEE 11th International Conference on Computer Vision. IEEE, 2007.
  4. Blei, David M. (PDF) Comm. ACM, 55, 4, April 2012, pàg. 77–84. DOI: 10.1145/2133806.2133826.
  5. Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh «Còpia arxivada» (Postscript). Proceedings of ACM PODS, 1998, pàg. 159–168. Arxivat de l'original el 2013-05-09. DOI: 10.1145/275487.275505 [Consulta: 17 març 2023].