Taula de freqüències

De Viquipèdia
Salta a la navegació Salta a la cerca

En Estadística descriptiva una taula de freqüències [1][2][3]o distribució de freqüències és una taula que mostra els valors d'una variable estadística (individualment o agrupats en classes) juntament amb el comptatge del nombre de vegades de cada valor o classe (freqüència absoluta) o les freqüències relatives, o els percentatges, o similars


Exemples introductoris[modifica]

En un estudi estadístic, després de la recollida de dades, el primer que es fa és presentar les dades de manera que siguin fàcilment comprensibles mitjançant taules i gràfiques adients. Ens ocuparem de la presentació més habitual que és la de les taules de freqüències.

Començarem comentant alguns exemples. La següent taula mostra els 10 noms posats a nadons (nenes i nens) més freqüents a Catalunya durant l'any 2018 (font: https://www.idescat.cat/nadons/, consultada el 5/05/20):

En aquesta taula, freqüència es refereix al nombre de nadons amb el nom corresponent, que s'anomena la freqüència absoluta. La següent columna mostra el nombre de nadons amb aquell nom per cada 1000 nadons.

Com a segon exemple, considerem el resultat de les notes d'un examen d'un grup de 25 estudiants. A la següent hi ha les freqüències absolutes i relatives (freqüència absolutes dividides per 25) i ens permet obtenir una primera idea de com ha anat l'examen:

Quan tenim una variable estadística discreta amb molts valors diferents o una variable contínua cal agrupar els valors de la variable en intervals o classes: La taula següent  dóna la superfície útil (en ) dels habitatges principals de Catalunya el 2011. Font: Idescat,  https://www.idescat.cat/pub/?id=censph&n=311 consultada el 5/05/20).

Freqüències absolutes i relatives. Percentatges o similars. Freqüències acumulades[modifica]

En una taula de freqüències es troben una o més de les següents quantitats:

  • Freqüència absoluta de cada possible valor de la variable, o grup de valors (classes o intervals): és el nombre de vegades que es repeteix aquell valor (o d'observacions que estan en una classe). Si hi ha valors possibles o classes, designarem les freqüències absolutes per . Designarem per el nombre total de dades:
  • Freqüència relativa de cada valor (o tant per u), que és la freqüència absoluta dividia pel nombre total de dades. Les designarem per . Tenim que
    i
  • Percentatge de cada valor: és la freqüència relativa multiplicada per 100. Els designarem per :

i

  • De manera similar es defineixen el tant per mil (denotat per ), el tant per deu mil, etc., i cadascun té notacions diferents segons el context; per exemple, a la indústria s'escriu ppm per <<parts per milió>>, o en epidemiologia pmh que vol dir <<per milió d'habitants>>.
  • Freqüències absolutes acumulades, designades per definides per



Anàlogament es defineixen les freqüències relatives acumulades, o els percentatges acumulats, etc. Per exemple, la taula de la superfície dels habitatges amb els percentatges acumulats és la següent:

Intervals o classes[modifica]

Tal com hem dit, quan s'estudia una variable discreta amb molts possibles valors diferents o una variable contínua els valors de la variable s'agrupen en classes o intervals (en anglès es diuen bins). Ens ocuparem ara de les notacions i dels convenis que normalment es prenen. A part del llenguatge autoexplicatiu, com a l'exemple de la superfície dels habitatges (menys de 29 , etc.) normalment es fan servir els Intervals (matemàtiques). Recordem que:

  • L'interval tancat designa el conjunt de nombres (reals) que estan entre i incloent ambdós i , que s'anomenen els extrems de l'interval.

  • L'interval obert (notació que utilitzarem), o , designa el conjunt de nombres (reals) que estan entre i excloent ambdós extrems i :


  • Els intervals semioberts (o semitancats) i amb definicions evidents.

Construcció de taules de freqüències[modifica]

No hi ha regles precises per construir una taula de freqüències, ja que depèn molt de les dades que estem analitzant, però unes directrius són les següents:

  1. És convenient (quan es pugui!) que tots els intervals tinguin la mateixa amplada (bin width).
  2. Els intervals no s'han de superposar.
  3. Totes les dades han de caure en un i només un dels intervals.
  4. És convenient que hi hagi un total d'entre 5 i 15 intervals (però vegeu més avall uns criteris basats en la construcció d'histogrames)

Aleshores:

  • Primer s'estableix provisionalment el nombre d'intervals que es vol tenir, suposant que tots els intervals tindran la mateixa amplada.
  • Després, s'ha de determinar l'amplada comuna dels intervals (bin width). Per això, es calcula la diferència entre la dada major i la dada menor, i es divideix entre el nombre d'intervals desitjats. Aquest resultat s'arrodoneix a un nombre més gran amb pocs (o cap) decimal.
  • Es calculen els extrems dels intervals que s'utilitzaran, tenint en compte que han de ser nombres el més senzill possible (amb pocs o cap decimal).
  • Es decideix com han de ser els intervals (semioberts per la dreta, etc.) i si el primer i últim interval han de ser diferents.
  • Si hi ha intervals amb freqüència absoluta petita, ens replantegem el nombre d'intervals a utilitzar, provant amb un nombre més petit.
  • Molt sovint els intervals amb les dades més petites o més grans tenen freqüències absolutes molt petites (potser 0), i llavors s'agrupen en intervals més grans


Exemple: Preparem la taula de freqüències de cinc intervals per al conjunt dels següents 20 dades:

Dada major = 10, Dada menor = 1. Llavors, per calcular l'amplada, (10-1)/5=1,8, i prenem 2 com a amplada dels intervals.

Com la dada menor és 1, seleccionarem a 2 com la límit superior del primer interval. Llavors, la límit superior del segon interval serà 2+2 = 4, el del tercer serà 4+2 = 6 i així successivament.

Prendrem els intervals oberts per la dreta i tancats per l'esquerra, excepte el primer que el prendrem tancat; així, els intervals seran: [0,2], (2,4], (4,6], (6,8] i [8,10]. Noteu que els intervals són disjunts dos a dos i que no hi ha cap ambigüitat amb les dades que prenen un valor que sigui un extrem de l'interval, per exemple, el nombre 4 està a l'interval (2,4] i no al (4,6].

Construcció d'una taula de freqüències amb EXCEL[modifica]

L'Excel pot calcular de manera automàtica la taula de freqüència d'un conjunt de dades. Il·lustrem els passos amb les dades de l'exemple anterior.

Pas 1: entrem els nombres a la columna A, començant a A1. Premeu la tecla "ENTER" després de cadascun.

Pas 2: Calculeu l'ample comú dels cinc intervals i les límits superiors de cada un:

Dada major = 10, dada menor = 1.
Els límits superiors són: 2, 4, 6, 8, 10.

Pas 3: A la columna B, començant a B1 entrem 2, 4, 6, 8.

No cal posar l'extrem inferior del primer interval (el 0), ja que l'EXCEL posa tots els valors menors o iguals a 2 al primer interval. Després, utilitza el mateix conveni que hem adaptat pels extrems dels intervals (oberts per l'esquerra i tancats per la dreta). Finalment, no cal entrar la límit superior de l'últim interval, ja que l'últim interval contindrà tots els valors més grans (estrictament) que el límit superior de l'interval anterior (el 8).

Pas 4: Com que la taula tindrà 5 intervals (bins), seleccions 5 cel.les contigües, per exemple C3: C7.


Pas 5: Feu un clic a la barra de fórmula i entreu la fórmula (vigileu si el vostre EXCEL té les fórmules en català o castellà)

Frecuencia (a1: a20; b1: b4) 

Observeu que la primera part conté la llista de dades entre A1 i A20. La segona conté la llista de límits superiors de cada interval (excepte l'últim, segons hem comentat)

Pas 6: Premeu simultàniament les tecles Control-Majúscules-Enter, ja que es tracta d'una fórmula vectorial.

Veureu que es desplegaran una llista de cinc números que corresponen a la freqüència de cada interval.


Elecció del nombre d'intervals[modifica]

A partir de les propietats dels histogrames es tenen unes regles orientatives per a l'elecció del nombre d'intervals. La primera regla, i una de les que més s'utilitza, és la regla de Sturges [4] (els paquets estadístics la utilitzen a menys que es digui una altra cosa): per a observacions, el nombre de classes recomanat és

on el logaritme de la dreta és en base 10. Una altra regla que s'utilitza és de Terrell and Scott [5]

que justifiquen sobre la base de propietats asimptòtiques. També és important la regla de Scott [6]

on és una estimació de la desviació típica de la població, per exemple, la desviació típica modificada de les dades.

  1. Calot, Gérard. Curso de Estadística Descriptiva. Madrid: Paraninfo, 1970. 
  2. Lobez Urquia, J.. Estadística intermedia : descriptiva, probabilidades y teórica, muestreo, actuarial. 3. ed. Barcelona: Vicens-Vives, 1972. ISBN 84-316-1236-3. 
  3. Moore, David S.. Estadística aplicada básica. Barcelona: Antonio Bosch, 1995. ISBN 84-85855-80-9. 
  4. Sturges, Herbert A. «The Choice of a Class Interval». Journal of the American Statistical Association, 21, 153, 01-03-1926, pàg. 65–66. DOI: 10.1080/01621459.1926.10502161. ISSN: 0162-1459.
  5. Terrell, George R.; Scott, David W. «Oversmoothed nonparametric density estimates.». J. Amer. Statist. Assoc. 80 (1985), no. 389, 209–214.
  6. Scott, David W. «On optimal and data-based histograms» (en anglès). Biometrika, 66, 3, 01-12-1979, pàg. 605–610. DOI: 10.1093/biomet/66.3.605. ISSN: 0006-3444.





A Wikimedia Commons hi ha contingut multimèdia relatiu a: Taula de freqüències