Bigrama: diferència entre les revisions

Contingut suprimit Contingut afegit

En línia

Revisió del 08:15, 3 maig 2021

Un bigrama o digrama és un grup de dues lletres, dues síl·labes, o dues paraules. Els bigrames són utilitzats comunment com a base per a l'anàlisi estadística de text simple. S'utilitzen en un dels models de llenguatge més exitosos per al reconeixement de veu.^[1] Es tracta d'un cas especial del N-grama.

Els Bigrames ajuden a proporcionar la probabilitat condicional d'una paraula donada la paraula precedent, quan la relació de la probabilitat condicional s'aplica:

$P(W_{n}|W_{n-1})={P(W_{n-1},W_{n}) \over P(W_{n-1})}$

És a dir, la probabilitat $P()$ d'una paraula $W_{n}$ , donada la paraula precedent $W_{n-1}$ , és igual a la probabilitat del seu bigrama, o la co-ocurrència de les dues paraules $P(W_{n-1},W_{n})$ , dividit per la probabilitat de la paraula precedent.

Aplicacions

Els bigrames de paraules s'usen en models de llenguatge per a reconeixement de llenguatge natural.

Els bigrames de lletres es poden usar per a la identificació de l'idioma d'un text. També poden ser usats per a fer un criptoanàlisi d'un text xifrat.

Referències

↑ Michael Collins. A new statistical parser based on bigram lexical dependencies. In Proceedings of the 34th Annual Meeting of the Association of Computational Linguistics, Santa Cruz, CA. 1996. pp.184-191.

Vegeu també

N-grama

[1] Michael Collins. A new statistical parser based on bigram lexical dependencies. In Proceedings of the 34th Annual Meeting of the Association of Computational Linguistics, Santa Cruz, CA. 1996. pp.184-191.

[1]

@@ Línia 1: / Línia 1: @@
-Un '''bigrama''' o '''digrama''' és un grup de dues lletres, dues síl·labes, o dues paraules. Els bigrames són utilitzats comunment com a base per a l'anàlisi estadística de text simple. S'utilitzen en un dels models de llenguatge més exitosos per al [[Reconeixement de la parla|reconeixement de veu]].<ref>Michael Collins. ''A new statistical parser based on bigram lexical dependencies''. In Proceedings of the 34th Annual Meeting of the Association of Computational Linguistics, Santa Cruz, CA. 1996. pp.184-191.</ref> Es tracta d'un cas especial del [[N-grama]].
+Un '''bigrama''' o '''digrama''' és un grup de dues lletres, dues síl·labes, o dues paraules. Els bigrames són utilitzats comunment com a base per a l'anàlisi estadística de text simple. S'utilitzen en un dels [[Model de llenguatge|models de llenguatge]] més exitosos per al [[Reconeixement de la parla|reconeixement de veu]].<ref>Michael Collins. ''A new statistical parser based on bigram lexical dependencies''. In Proceedings of the 34th Annual Meeting of the Association of Computational Linguistics, Santa Cruz, CA. 1996. pp.184-191.</ref> Es tracta d'un cas especial del [[N-grama]].
 Els Bigrames ajuden a proporcionar la probabilitat condicional d'una paraula donada la paraula precedent, quan la relació de la [[Probabilitat condicionada|probabilitat condicional]] s'aplica:
@@ Línia 6: / Línia 6: @@
 És a dir, la probabilitat <math> P() </math> d'una paraula <math>W_n</math>, donada la paraula precedent <math>W_{n-1}</math>, és igual a la probabilitat del seu bigrama, o la co-ocurrència de les dues paraules <math>P(W_{n-1},W_n)</math>, dividit per la probabilitat de la paraula precedent.
+== Aplicacions ==
+Els bigrames de paraules s'usen en [[Model de llenguatge|models de llenguatge]] per a reconeixement de llenguatge natural.
+Els bigrames de lletres es poden usar per a la identificació de l'idioma d'un text. També poden ser usats per a fer un criptoanàlisi d'un text xifrat.
 == Referències ==