Freqüència de les lletres

De la Viquipèdia, l'enciclopèdia lliure

L'anàlisi de freqüència de les lletres consisteix a comptar, per a cada lletra diferent, quin percentatge d'aparició té en un text respecte al total. La freqüència varia més si es compara entre textos curts, mentre que tendeix a estabilitzar-se entre textos quan s'amplia la llargària d'aquests. Aquesta freqüència estabilitzada és molt variable entre diferents idiomes.

Tant la freqüència de lletres en un text com en el conjunt de paraules d'un diccionari segueixen una distribució similar a la descrita en la Llei de Zipf, i més acuradament, en la Distribució de Yule-Simon.[1]

Utilitats[modifica]

La freqüència relativa de les lletres d'un determinat idioma és útil en criptoanàlisi pel desxiframent de codis basats en la substitució de cada caràcter.[2] A la novel·la Els ballarins de Arthur Conan Doyle, Sherlock Holmes utilitza aquesta variació entre freqüències d'ús de cada lletra per desxifrar-ne els codis. En informàtica el mateix mètode pot ser utilitzat per desencriptar dades en què només s'hagi passat per un procés d'encriptació bàsic.[3] La mateixa idea també s'utilitza en tècniques modernes de compressió de dades, per exemple en la codificació de Huffman.[4]

També es pot utilitzar per desxifrar criptogrames, cosa que pot resultat útil en determinats jocs de paraules, per exemple l'Scrabble o el joc del penjat. Al llibre L'escarbat d'or de Edgar Allan Poe s'utilitza per desxifrar un criptograma amb instruccions sobre on trobar un tresor.[5]

Els lingüistes també ho utilitzen com una tècnica rudimentària per identificar un determinat llenguatge d'un text desconegut. A més, atès que entre diversos autors també hi ha certes diferències en l'estil i l'ús de determinades paraules, es pot utilitzar, juntament amb anàlisis de N-grames, freqüència i longitud de paraules, longitud de les frases i altres paràmetres similars, per demostrar o rebatre l'autoria d'un text.

El codi Morse es va crear fent servir de base la freqüència de les lletres en anglès. És per això que la lletra més comuna "E" només requereix un punt, i la segona més comuna, la "T", només una línia. Aquest concepte també s'utilitzava en telègrafs i teletips, i n'és un clar exemple el Codi Baudot.[6] Les linotips també utilitzen les lletres ordenades per freqüència d'ús per agilitar el procés manual.

La freqüència de lletres es va tenir en compte al dissenyar algunes disposicions de teclats, per exemple el teclat Dvorak.[7]

Paràmetres que influeixen en la freqüència[modifica]

El càlcul de la freqüència de lletres en una llengua és difícil i està subjecte a una certa interpretació. Es compta la freqüència de les lletres d'un text arbitràriament llarg, però en els resultats influeixen diversos paràmetres:

  • L'estil narratiu. Si hi ha molts verbs en infinitiu, hi haurà moltes "R".
  • El vocabulari específic del document. Si es parla de rius, hi haurà moltes "i", si un dels protagonistes es diu Wenceslao, augmentarà el nombre de "W".
  • El tipus de document. En petits anuncis es poden trobar molts símbols de monedes (€, $, etc.), que és possible que estiguin absents en la major part d'un altre tipus de documents.
  • Llargària del text. Si s'analitza la freqüència d'ús de cada lletra al diccionari, en català la més freqüent és la "E".[8] Com que no totes les paraules del diccionari s'utilitzen amb la mateixa freqüència, en analitzar la freqüència de lletres en textos (especialment si són textos curts), la freqüència d'ús de les partícules "que", "el", "es", "em", "se", "me", etc. generalment fa que la "E" sigui encara més freqüent.
  • L'autor. Es poden apreciar diferències en la freqüència d'ús de les lletres entre determinats autors, atès que sovint també utilitzaran una freqüència de paraules diferent.
  • Dialecte. Per exemple, en català l'ús del salat implicarà un augment de freqüència de les "S" degut a les partícules "es", "se", "ses", etc.
  • Els paràmetres tècnics. Es poden calcular fàcilment estadístiques sobre textos informatitzats, però sovint, el programes no tenen en compte l'ús de certs caràcters especials o accentuats (que a vegades són complicats de teclejar). Referent als accents, per alguns autors simplement "no existeixen", tot i que en alguns idiomes són cabdals.
  • La presència de caràcters no alfabètics (signes de puntuació, xifres, parèntesis, símbols matemàtics corrents, etc.) es poden o no tenir en compte. La coma o el punt són per exemple més freqüents que més de la meitat de les lletres.
  • Restriccions artificials en l'ús de determinades lletres imposades per l'autor. Per exemple, el 1969 l'autor francès Georges Perec va escriure un lipograma de 20 pàgines titulat La disparition, en el qual no apareix cap paraula amb la lletra "E".

Percentatge d'aparició de lletres[modifica]

Percentatge d'ús de lletres en català:[8]

Lletra Freqüència de cada lletra en textos catalans
A 14.47% 1447
 
B 1.15% 115
 
C 3.19% 319
 
Ç 0.10% 10
 
D 3.47% 347
 
E 16.01% 1601
 
F 0.90% 90
 
G 1.15% 115
 
H 0.65% 65
 
I 8.08% 808
 
J 0.25% 25
 
K 0.02% 2
 
L 5.94% 594
 
M 2.79% 279
 
N 5.84% 584
 
O 6.58% 658
 
P 2.39% 239
 
Q 1.20% 120
 
R 5.99% 599
 
S 7.43% 743
 
T 5.44% 544
 
U 4.84% 484
 
V 1.25% 125
 
W 0.01% 1
 
X 0.45% 45
 
Y 0.35% 35
 
Z 0.05% 5
 

A partir de les dades anteriors, es pot dir que:

  • Les vocals ocupen el 50% del total.
  • Les lletres E i A són les més utilitzades, amb un 30% del total.
  • Les consonants més freqüents són: S, R, L, N, T (en conjunt apareixen amb una freqüència d'un 30%)
  • Les lletres menys freqüents són: W, K, Z, Ç (cadascuna amb una freqüència per sota del 0,2%)

Referències[modifica]

  1. Shannon, Claude E. «A Mathematical Theory of Communication». The Bell System Technical Journal, 27, 1948, pàg. 379-423, 623-656.
  2. Bauer, Friedrich L. Decrypted Secrets: Methods and maxims of cryptology, 2006, p. 57. 
  3. Lee, E. Stewart. «Essays about Computer Security». University of Cambridge Computer Laboratory, pàg. 181.
  4. Ohlman, Herbert Marvin. Subject-Word Letter Frequencies with Applications to Superimposed Coding. Proceedings of the International Conference on Scientific Information, 1959. 
  5. Poe, Edgar Allan. «The works of Edgar Allan Poe in five volumes». Project Gutenberg.
  6. Telegraph and Telephone Age, 1921. «I allocated the most frequently used letters in English language to the signals represented by the fewest holes in the perforated tape, and so on in proportion.» 
  7. Noyes, Jan «The QWERTY keyboard: a review». International Journal of Man-Machine Studies, 18, 3, agost 1988, pàg. 265–281. DOI: 10.1016/S0020-7373(83)80010-8.
  8. 8,0 8,1 Enciclopèdia de la Llengua Catalana. Barcelona: Edicions 62, 2001.  Dades elaborades a partir del Diccionari de freqüències de l'IEC.

Enllaços externs[modifica]