Freqüència de les lletres

De Viquipèdia
Dreceres ràpides: navegació, cerca

El càlcul de la freqüència de lletres en una llengua és difícil i està subjecte a una certa interpretació. Es compta la freqüència de les lletres d'un text arbitràriament llarg, però en els resultats influeixen diversos paràmetres:

  • L'estil narratiu. Si hi ha molts verbs en infinitiu, hi haurà moltes "R".
  • El vocabulari específic del document. Si es parla de rius, hi haurà moltes "i", si un dels protagonistes es diu Wenceslao, augmentarà el nombre de "W".
  • El tipus de document. En petits anuncis es poden trobar molts símbols de monedes (€, $, Bs, etc.), que és possible que estiguin absents en la major part d'un altre tipus de documents.
  • En el diccionari de la RAE la lletra més freqüent és l'A, però en qualsevol text català, la freqüència de les partícules "que", "el", "es", "em", "se", "me", etc. fa que la "e" sigui més freqüent.
  • Els paràmetres tècnics. Es poden calcular fàcilment estadístiques sobre textos informatitzats, però sovint, el programes no tenen en compte l'ús de certs caràcters especials o accentuats (que a vegades són complicats de teclejar). Referent als accents, per alguns autors simplement "no existeixen", tot i que en algun idioma són cabdals.
  • La presència de caràcters no alfabètics (signes de puntuació, xifres, parèntesis, símbols matemàtics corrents, etc.) Poden o no tenir en compte. La coma, punt són per exemple més freqüents que més de la meitat de les lletres.

Si aquests paràmetres tenen un impacte espectacular en els símbols menys freqüents, també és sensible fins i tot per les lletres més freqüents.

Percentatge d'aparició de lletres[modifica | modifica el codi]

Freqüència relativa d'aparició de lletres al castellà.

Percentatge d'ús de lletres en català:[1]

Lletra Percentatge
A 14,47
B 1,15
C 3,19
Ç 0,10
D 3,47
E 16,01
F 0,90
G 1,15
H 0,65
I 8,08
J 0,25
K 0,02
L 5,94
M 2,79
N 5,84
O 6,58
P 2,39
Q 1,20
R 5,99
S 7,43
T 5,44
U 4,84
V 1,25
W 0,01
X 0,45
Y 0,35
Z 0,05

A partir de les dades anteriors, es pot dir que:

  • Les vocals ocupen el 50% del total.
  • Les lletres E i A són les més utilitzades, amb un 30% del total.
  • Les consonants més freqüents són: S, R, L, N, T (en conjunt apareixen amb una freqüència d'un 30%)
  • Les lletres menys freqüents són: W, K, Z, Ç (cadascuna amb una freqüència per sota del 0,2%)

Exemple concret: el Quixot[modifica | modifica el codi]

El text del Quixot[2] conté 1.640.502 lletres:

Lletra Quantitat Percentatge
e 229.188 14,0%
a 200.492 12,2%
o 162.512 9,9%
s 125.726 7,7%
n 108.440 6,6%
r 100.953 6,2%
i 90.070 5,5%
l 89.141 5,4%
d 87.237 5,3%
o 79.471 4,8%
t 61.749 3,8%
c 59.435 3,6%
m 44.658 2,7%
p 35.464 2,2%
q 32.483 2,0%
i 25.115 1,5%
b 24.146 1,5%
h 19.920 1,2%
v 17.855 1,1%
g 17.225 1,0%
j 10.530 0,6%
f 7.581 0,5%
z 6.491 0,4%
ñ 4.241 0,3%
x 377 0,0%
w 2 0,0%
k 0 0,0%

Altres sistemes[modifica | modifica el codi]

Si es compta la freqüència d'aparició en un diccionari, la lletra més freqüent resulta ser la A, però en el llenguatge escrit hi ha una gran quantitat de paraules curtes ( que , li , es , etc.) Que contenen la E, de manera que el recompte en textos, dóna preeminència a l'aparició d'aquesta lletra.

Referències[modifica | modifica el codi]

  1. Enciclopèdia de la Llengua Catalana. Barcelona: Edicions 62, 2001.  Dades elaborades a partir del Diccionari de freqüències de l'IEC.
  2. «www.gutenberg.org». [Enllaç no actiu]

Enllaços externs[modifica | modifica el codi]