Anàlisi semàntica latent probabilística

De la Viquipèdia, l'enciclopèdia lliure
Notació de plaques que representa el model PLSA (formulació "asimètrica"). és la variable d'índex del document, és el tema d'una paraula extret de la distribució de temes del document, , i és una paraula extreta de la distribució de paraules del tema d'aquesta paraula, . El i són variables observables, el tema és una variable latent.

L'anàlisi semàntica latent probabilista (PLSA), també coneguda com a indexació semàntica latent probabilista (PLSI, especialment en cercles de recuperació d'informació) és una tècnica estadística per a l'anàlisi de dades de dos modes i de co-ocurrència. En efecte, es pot derivar una representació de dimensions baixes de les variables observades en termes de la seva afinitat amb determinades variables ocultes, igual que en l'anàlisi semàntica latent, a partir de la qual va evolucionar PLSA.[1]

En comparació amb l'anàlisi semàntica latent estàndard que prové de l'àlgebra lineal i redueix la mida de les taules d'ocurrències (normalment mitjançant una descomposició de valors singulars), l'anàlisi semàntica latent probabilística es basa en una descomposició de mescles derivada d'un model de classe latent.[2]

Model[modifica]

Tenint en compte les observacions en forma de co-ocurrències de paraules i documents, PLSA modela la probabilitat de cada co-ocurrència com una barreja de distribucions multinomials condicionalment independents:

amb sent el tema de les paraules. Tingueu en compte que el nombre de temes és un hiperparàmetre que s'ha de triar amb antelació i que no s'estima a partir de les dades. La primera formulació és la formulació simètrica, on i tots dos es generen a partir de la classe latent de maneres similars (utilitzant les probabilitats condicionals i ), mentre que la segona formulació és la formulació asimètrica, on, per a cada document , una classe latent s'escull condicionalment al document segons , i després es genera una paraula a partir d'aquesta classe segons . Tot i que hem utilitzat paraules i documents en aquest exemple, la co-ocurrència de qualsevol parell de variables discretes es pot modelar exactament de la mateixa manera.

Per tant, el nombre de paràmetres és igual a . El nombre de paràmetres creix linealment amb el nombre de documents. A més, tot i que PLSA és un model generatiu dels documents de la col·lecció en què es calcula, no és un model generatiu de nous documents.

Els seus paràmetres s'aprenen mitjançant l'algorisme EM.[3]

Aplicació[modifica]

PLSA es pot utilitzar en un entorn discriminatiu, mitjançant nuclis de Fisher.

PLSA té aplicacions en recuperació i filtratge d'informació, processament del llenguatge natural, aprenentatge automàtic a partir de text, bioinformàtica i àrees relacionades.

S'informa que el model d'aspecte utilitzat en l'anàlisi semàntica latent probabilística té problemes greus d'ajustament excessiu.[4]

Referències[modifica]

  1. Hofmann, Thomas «Probabilistic latent semantic analysis». Probabilistic latent semantic analysis. Morgan Kaufmann Publishers Inc. [San Francisco, CA, USA], 30-07-1999, pàg. 289–296. DOI: 10.5555/2073796.2073829.
  2. «Probabilistic Latent Semantic Analysis» (en anglès).
  3. «Probabilistic Latent Semantic Analysis» (en anglès). [Consulta: 14 octubre 2023].
  4. Blei, David M.; Andrew Y. Ng; Michael I. Jordan Journal of Machine Learning Research, 3, 2003, pàg. 993–1022. DOI: 10.1162/jmlr.2003.3.4-5.993.