Paràmetre estadístic

De Viquipèdia
Dreceres ràpides: navegació, cerca
La mitjana aritmètica com a resum de l'edat dels habitants d'un país i, indirectament, del seu nivell de desenvolupament.

En estadística s'anomena paràmetre estadístic, mesura estadística o paràmetre poblacional a un valor representatiu d'una població,[1] com per exemple la mitjana aritmètica, la proporció d'individus que presenten determinada característica, o la desviació típica.[2] Un paràmetre és un nombre que resumeix la gran quantitat de dades que poden recollir-se en l'estudi d'una variable estadística.[3] El càlcul d'aquest nombre està ben definit, usualment, mitjançant una fórmula aritmètica obtinguda a partir de dades de la població.[4][5]Els paràmetres estadístics són una conseqüència del propòsit de l'estadística: modelitzar la realitat.[6] L'estudi d'una gran quantitat de dades individuals d'una població pot ser confús i inoperant, pel que es fa necessari realitzar un resum que permeti tenir una idea global de la població, comparar-la amb d'altres, comprovar el seu ajust a un model ideal, realitzar estimacions sobre dades desconegudes de la mateixa i, en definitiva, prendre decisions. Els paràmetres estadístics contribueixen a aquestes tasques.

Per exemple: es pot fer servir com a mesura i resum de la "joventut" d'una població, la mitjana aritmètica de les edats dels seus membres, és a dir, la suma de les edats, dividida entre el total d'individus que componen la població.

Enfocament descriptiu[modifica | modifica el codi]

Gràfiques de distribucions normals per a diferents valors dels seus dos paràmetres

Un paràmetre estadístic és un nombre que resumeix una quantitat de dades. Aquest enfocament és el tradicional de l'Estadística descriptiva.[7][8][9] En aquest sentit, el seu significat s'apropa al de mesura o valor que es fa servir per comparar amb altres, prenent una unitat d'una determinada magnitud com a referència.

Per altra banda, l'Estadística matemàtica i també la Inferència estadística fan servir el concepte de paràmetre com a variable que defineix una família d'objectes matemàtics en determinats models. Així, per exemple, una distribució normal de paràmetres μ i σ és una distribució de probabilitat d'expressió coneguda, en la que aquests paràmetres defineixen aspectes concrets com l'esperança matemàtica, la variància, la curtosi, etc. Un altre exemple és el de la distribució de Poisson determinada per un paràmetre, λ; o la Distribució binomial, determinada per dos paràmetres, n i p. Des del punt de vista de l'Estadística matemàtica el fet que aquestes distribucions descriguin situacions reals i els esmentats paràmetres signifiquin un resum d'un determinat conjunt de dades és indiferent.

Propietats desitjables en un paràmetre[modifica | modifica el codi]

Segons Yule[10] és desitjable que un paràmetre estadístic tingui les següents propietats:

  • Estar definit de manera objectiva , és a dir, s'ha de poder calcular sense ambigüitats, generalment, mitjançant una fórmula matemàtica. Per exemple: la mitjana aritmètica es defineix com la suma de totes les dades, dividida entre el nombre de dades. No hi ha ambigüitat: si es fa aquest càlcul, s'obté la mitjana. Tanmateix, la definició de moda com el "valor més freqüent", pot donar lloc a confusió quan hi ha diversos valors diferents amb la mateixa freqüència màxima.
  • No malgasta, a priori, cap de les observacions . Amb caràcter general, un paràmetre serà més representatiu d'una determinada població, com més valors de la variable estiguin implicats al seu càlcul. Per exemple: per mesurar la dispersió pot calcular-se el recorregut, que només fa servir dos valors de la variable objecte d'estudi, els extrems; o la desviació típica, en el càlcul de la qual intervenen totes les dades.
  • És interpretable , significa alguna cosa. La mediana, per exemple, deixa per sota del seu valor a la meitat de les dades, està just al mig de totes quan estan ordenades. Aquesta és una interpretació clara del seu significat.
  • És senzill de calcular i es presta amb facilitat a manipulacions algebraiques . Es veurà més endavant que una mesura de la dispersió és la desviació mitjana. Tanmateix, en estar definida mitjançant un valor absolut, funció definida a trossos i no derivable, no és útil en gran part dels càlculs en què podria estar implicada, encara que la seva interpretació sigui molt clara.
  • És poc sensible a les fluctuacions mostrals . Si petites variacions en una mostra de dades estadístiques influeixen en gran manera en un determinat paràmetre, és perquè tal paràmetre no representa amb fiabilitat la població. Així doncs és desitjable que el valor d'un paràmetre amb aquesta propietat es mantingui estable davant de les petites oscil·lacions que amb freqüència poden presentar les diferents mostres estadístiques. Aquesta propietat és més interessant en el cas de l'estimació de paràmetres. D'altra banda, els paràmetres que no varien amb els canvis d'origen i escala o la variació dels quals està controlada algebraicament, són apropiats en determinades circumstàncies com la tipificació.

Principals paràmetres[modifica | modifica el codi]

Habitualmente s'agrupen els paràmetres en les següents categories:

Mesures de posició.[11]

Es tracta de valors de la variable estadística que es caracteritzen per la posició que ocupen dins del rang de valors possibles d'aquesta. Entre ells es distingeixen:

  • Les mesures de tendència central: mitjanes, moda i mediana.
  • Les mesures de posició no central: quantils (quartils, decils i percentils).
Mesures de dispersió.[12]

Resumeixen l'heterogeneïtat de les dades, com de separades que estan entre elles. Bàsicament n'hi ha de dos tipus:

  • Mesures de dispersió absolutes: que vénen donades en les mateixes unitats en les quals es mesura la variable: recorreguts, desviacions mitjanes, variància, desviació típica i mediana de les desviacions.
  • Mesures de dispersió relativa: que informen de la dispersió en termes relatius, com un percentatge. S'inclouen entre aquestes el coeficient de variació, el coeficient d'obertura, els recorreguts relatius i l'índex de desviació respecte de la mitjana.
Mesures de forma.[13]

El seu valor informa sobre l'aspecte que té la gràfica de la distribució. Entre elles hi ha els coeficients d'asimetria i els de curtosi.

Altres paràmetres.

A més a més, i amb propòsits més específics, hi ha altres paràmetres d'ús en situacions molt concretes, com són les proporcions, els nombres índex, les taxes i el coeficient de Gini.

Mesures de posició[modifica | modifica el codi]

Les mesures de posició són les més utilitzades per resumir les dades d'una distribució estadística. Es tracta de valors de la mateixa variable[14] que, en certa manera, substitueixen la informació proveïda per les dades.

Mesures de posició central[modifica | modifica el codi]

Article principal: Mesures de posició central
Són valors que solen situar-se cap al centre de la distribució de dades. Els més destacats són la mitjana aritmètica, la mediana i la moda.

Altres mesures de posició central són la mitjana geomètrica i la mitja harmònica que, tot i que tenen determinades propietats algebraiques que podrien fer-les útils en determinades circumstàncies, la seva interpretació no és tan intuïtiva com la dels paràmetres anteriors.[15]

Mitjana aritmètica[modifica | modifica el codi]
L'estatura mitjana com a resum d'una població homogènia (a baix) o heterogènia (a dalt).
Article principal: Mitjana aritmètica

La mitjana aritmètica és, probablement, un dels paràmetres estadístics més estesos.[16] Donat un conjunt numèric de dades, 'x1, 'x2..., 'xn, es defineix la seva mitjana aritmètica com a

 \overline{x} = \frac{x_1 + x_2 +... + x_n}{n} = \frac{\sum_{i=1}^n x_i}{n}

Aquesta definició varia, encara que no de manera substancial, quan es tracta de variables contínues.

Les seves propietats són:[17]

  • El seu càlcul és molt senzill i hi intervenen totes les dades.
  • S'interpreta com "punt d'equilibri" o "centre de masses" del conjunt de dades, ja que té la propietat d'equilibrar les desviacions de les dades respecte del seu propi valor:
 \frac{\sum_{i=1}^n (x_i-\overline{x})}{n} = \frac{\sum_{i=1}^n x_i}{n} - \frac{\sum_{i=1}^n \overline{x}}{n} = \overline{x} - \overline{x} =0
  • Minimiza les desviacions quadràtiques de les dades respecte de qualsevol valor prefixat, això és, el valor de  \frac{\sum_{i=1}^n (x_i-k)^2}{n} és mínim quan k = \overline{x}. Aquest resultat es coneix com Teorema de König. Aquesta propietat permet interpretar un dels paràmetres de dispersió més importants: la variància.
  • Es veu afectada per transformacions afins (canvis d'origen i escala), això és, si: x_i' = ax_i+b llavors \overline{x'} = a \overline{x} + b, on \overline{x'} és la mitjana aritmètica dels x_i', per a i' ' =1..., 'n' i 'a' i 'b' nombres reals.

Aquest paràmetre, encara que té múltiples propietats que aconsellen el seu ús en situacions molt diverses, té també alguns inconvenients, com ara:

  • Per a dades agrupades en intervals (variables contínues) el seu valor oscil·la en funció de la quantitat i amplitud dels intervals que es consideri.
  • La dispersió afecta sobre manera al significat de la mitjana, de manera que com menys homogènies són les dades, menys informació proporciona. Dit d'una altra manera, poblacions molt diferents en la seva composició poden tenir la mateixa mitjana.[18] Per exemple, un equip de bàsquet amb cinc jugadors d'igual estatura, 1,95, tindria una estatura mitjana d'1,95, evidentment, valor que representa fidelment a aquesta homogènia població. Tanmateix, un equip d'estatures més heterogènies, 2,20, 2,15, 1,95, 1,75 i 1,70, per exemple, tindria també una estatura mitjana d'1,95, valor que no representa a gairebé cap dels seus components.
  • És sensible als valors extrems de la variable. Per exemple, en el càlcul del salari mitjà d'una empresa, el salari d'un alt directiu que guanyi 1.000.000 de té tant de pes com el de mil empleats "normals" que guanyin 1.000 €, sent la mitjana d'aproximadament 2.000 €.
Moda[modifica | modifica el codi]
Article principal: Moda (estadística)

La moda és la dada més repetida, el valor de la variable amb major freqüència absoluta.[19] En cert sentit es correspon la seva definició matemàtica amb la locució " estar de moda ", això és, ser el que més es porta.

El seu càlcul és extremadament senzill, ja que només necessita un recompte. En variables contínues, expressades en intervals, hi ha l'interval denominat modal o, en el seu defecte, si és necessari obtenir un valor concret de la variable, es recorre a la interpolació.

Les seves principals propietats són:

  • Càlcul senzill.
  • Interpretació molt clara.
  • Com que depèn només de les freqüències, pot calcular-se per a variables qualitatives. És per això el paràmetre més utilitzat quan no és possible fer altres càlculs per resumir una població, per exemple, quan s'enumeren en mitjans periodístics les característiques més freqüents de determinat sector social. Això es coneix informalment com a "retrat robot".[20]

Inconvenients.

  • El seu valor és independent de la major part de les dades, la qual cosa la fa molt sensible a variacions mostrals. D'altra banda, en variables agrupades en intervals, el seu valor depèn excessivament del d'intervals i de la seva amplitud.
  • Fa servir molt poques observacions, de manera que grans variacions en les dades fora de la moda, no afecten en cap manera al seu valor.
  • No sempre se situa cap al centre de la distribució.
  • Pot haver-hi més d'una moda en el cas en què dos o més valors de la variable presentin la mateixa freqüència (distribucions bimodals o multimodals).
Mediana[modifica | modifica el codi]
Article principal: Mediana

La mediana és un valor de la variable que deixa per sota seu a la meitat de les dades quan es presenten ordenades de menor a major.[21] Per exemple, la mediana del nombre de fills d'un conjunt de tretze famílies, si els seus respectius fills són: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 i 1, és 2, ja que, una vegada ordenades les dades: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posició central és 2:

 \underbrace{1,\ 1,\ 1,\ 1,\ 1,\ 1, }_{Meitat \; inferior} \;
 \underbrace{\color{Red} 2, }_{Mediana \;} \;
 \underbrace{2,\ 2,\ 2,\ 3,\ 3,\ 4}_{Meitat \; superior}

En cas d'un nombre parell de dades, la mediana no correspondria a cap valor de la variable, per la qual cosa, per convenció, es pren com a mediana el valor intermedi entre els dos valors centrals. Per exemple, en el cas de dotze dades com les anteriors:

 \underbrace{1,\ 1,\ 1,\ 1,\ 1, }_{Valors \; inferiors} \;
 \underbrace{\color{Red} 1,\ 2, }_{Valors \; intermedis} \;
 \underbrace{2,\ 2,\ 3,\ 3,\ 4}_{Valors \; superiors}

Es pren com a mediana  1,5 = \frac{{\color{Red}1}+{\color{Red}2}}{2}

En aquest exemple basat en una taula real de percentils usada en pediatria, pot comprovar-se que una nena de 24 mesos amb un pes de 13 kg estaria en el percentil 75è, això és, el seu pes és superior al 75% de les nenes de la seva edat. La mediana correspondria, aproximadament, a 12 kg (intersecció de la línia corba més fosca amb la línia horitzontal corresponent al valor 12 en l'eix vertical, per a aquesta mateixa edat).

Hi ha mètodes de càlcul més ràpids per a dades més nombroses. De la mateixa manera, per a valors agrupats en intervals, es troba l'"interval mitjà" i, dins d'aquest, s'obté un valor concret per interpolació.

Propietats de la mediana com a paràmetre estadístic:[22]

  • És menys sensible que la mitjana a oscil·lacions dels valors de la variable. Un error de transcripció en la sèrie de l'exemple anterior en l'últim nombre, deixa la mediana inalterada.
  • Pot calcular-se per a dades agrupades en intervals, fins i tot quan algun d'ells no està delimitat.
  • No es veu afectada per la dispersió. De fet, és més representativa que la mitjana aritmètica quan la població és bastant heterogènia. Sol donar-se aquesta circumstància quan es resumeix la informació sobre els salaris d'un país o una empresa. Hi ha uns quants salaris molt alts que eleven la mitjana aritmètica fent que perdi representativitat respecte al gruix de la població. Tanmateix, algú amb un salari igual a la "mediana" sabria que hi ha tanta gent que guanya més diners que ell, com que en guanya menys.

Els seus principals inconvenients són que en el cas de dades agrupades en intervals, el seu valor varia en funció de l'amplitud d'aquests. D'altra banda, no es presta a càlculs algebraics tan bé com la mitjana aritmètica.

Mesures de posició no central[modifica | modifica el codi]

Les mesures de posició no central, també conegudes com a quantils, són valors de la variable estadística que deixen per sota de si determinada quantitat de les dades. Són, en definitiva, una generalització del concepte de la mediana. Mentre que la mediana deixa per sota al 50% de la distribució, els quantils poden fer-ho amb qualsevol altre porcentaje.[23] Es denominen mesurades de posició perquè informen, precisament, de la posició que ocupa un valor dins de la distribució de dades.

Tradicionalment es distingeix entre quartils, si es divideix la quantitat de dades en quatre parts abans de procedir al càlcul dels valors que ocupen cada posició; decils, si es divideix les dades en deu parts; o percentils, que divideix la població en cent parts.

Exemples: si es diu que una persona, després d'un test d'intel·ligència, ocupa el percentil 75, això vol dir que el 75% de la població té un quocient intel·lectual amb un valor inferior al d'aquesta persona.

L'exemple que es mostra en la imatge de la dreta és el corresponent al càlcul invers, això és, quan es desitja conèixer el percentil corresponent a un valor de la variable, en lloc del valor que correspon a un determinat percentil.

Comentaris sobre les mesures de posició[modifica | modifica el codi]

Aquest tipus de paràmetres no tenen per què coincidir amb un valor exacte de la variable i, per tant, tampoc no poden fer-se servir amb caràcter general per fer pronòstics. Per exemple: si es diu que la mitjana aritmètica dels fills de les famílies d'un país és d'1,2, no és possible trobar famílies amb aquest valor en concret. Un segon exemple: a cap fàbrica de sabates no se li ocorreria fabricar els seus amb talles únicament corresponents al valor de la mitjana, ni tan sols tenen per què ser aquestes talles les més fabricades, ja que en tal cas seria més apropiat atendre a la moda de la distribució de talles dels eventuals clients.

L'elecció d'un o un altre paràmetre dependrà de cada cas particular, dels valors de la variable i dels propòsits de l'estudi. El seu ús indiscriminat pot ser deliberadament tendenciós o involuntàriament esbiaixat, convertint-se, de fet, en un abús.[24] Pot pensar-se, per exemple, en la següent situació: un empresari publica que el salari mitjà en la seva empresa és de 1600 €. Aquesta dada, que en determinades circumstàncies podria considerar-se molt bona, podria resultar que l'empresa tingués quatre empleats amb salaris de 1000 € mensuals i el salari del cap, inclòs a la mitjana, fos de 4000 € al mes:[25] < math>\bar{x} = \frac{1000+1000+1000+1000+4000}{5} = 1600</math> Amb caràcter general i a com a resum podria dir-se que la mitjana aritmètica és un paràmetre representatiu quan la població en segueix una distribució normal o és bastant homogènia; en altres situacions de forta dispersió, caldria decantar-se per la mitjana. La moda és l'últim recurs (i l'únic) quan es tracta de descriure variables qualitatives.

Mesures de dispersió[modifica | modifica el codi]

Article principal: Dispersió (matemàtiques)
Diagrama de caixa que mostra la dispersió gràficament, usant els quartils com a referència. Entre Q1 i Q3 (rang interquartilic) es troben el 50% de les observacions.

Les mesures de posició resumeixen la distribució de les dades, però resulten insuficients i simplifiquen excessivament la informació. Aquestes mesures adquireixen verdader significat quan van acompanyades d'altres que informin sobre l'heterogeneïtat de les dades. Els paràmetres de dispersió mesuren això precisament, generalment, calculant en quina mesura les dades s'agrupen entorn d'un valor central. Indiquen, d'una manera ben definida, com d'homogènies són aquestes dades. Hi ha mesures de dispersió absolutes, entre les quals es troben la variància, la desviació típica o la desviació mitjana, encara que també n'hi ha altres menys utilitzades com els recorreguts o la mediana de les desviacions; i mesures de dispersió relatives, com el coeficient de variació, el coeficient d'obertura o els recorreguts relatius. En moltes ocasions les mesures de dispersió s'ofereixen acompanyant a un paràmetre de posició central per indicar en quina mesura les dades s'agrupen entorn seu.[26]

Mesures de dispersió absolutes[modifica | modifica el codi]

Recorreguts[modifica | modifica el codi]

El recorregut o rang d'una variable estadística és la diferència entre el major i el menor valor que pren la variable. És la mesura de dispersió més senzilla de calcular, encara que és una mica basta perquè només pren en consideració un parell d'observacions. N'hi ha prou que una d'aquestes dues dades variï perquè el paràmetre també ho faci, encara que la resta de la distribució continuï sent, essencialment, la mateixa.

Hi ha altres paràmetres dins d'aquesta categoria, com els recorreguts o rangs interquantílics, que tenen en compte més dades i, per tant, que permeten afinar en la dispersió. Entre els més usats hi ha el rang interquartílic que es defineix com la diferència entre el quartil tercer i el quartil primer. En aquest rang hi ha, per la mateixa definició dels quartils, el 50% de les observacions. Aquest tipus de mesures també es fan servir per determinar valors atípics. En el diagrama de caixa que apareix a la dreta es marquen com valors atípics tots aquells que cauen fora de l'interval ['Li', 'Ls '] = [Q1 - 1,5·Rs, Q3 + 1,5·Rs], on 'Q1 i Q3 són els quartils 1r i 3r, respectivament, i Rs representa la meitat del recorregut o rang interquartilic, també conegut com a recorregut semiinterquartilic.[27]

Desviacions mitjanes[modifica | modifica el codi]
Article principal: Desviació mitjana

Donada una variable estadística X i un paràmetre de tendència central, c, s'anomena desviació d'un valor de la variable, xi, respecte de c, al nombre |xi - c|. Aquest nombre mesura la llunyania de cada dada del valor central c, per això una mitjana d'aquestes mesures podria resumir el conjunt de desviacions de totes les dades.

Així doncs, es denomina desviació mitjana respecte de c a la mitjana aritmètica de les desviacions dels valors de la variable respecte de c, això és, si X = {x_1, \, x_2, \, ...,\, x_n}, llavors  DM_c = \frac{\sum_{i=1}^n \left| x_i - c \right|}{n} D'aquesta manera es defineixen la desviació mitjana respecte de la mitjana (c = \overline{x}) o la desviació mitjana respecte de la mediana (c = \overline{Me}), la interpretació de la qual és senzilla en virtut del significat de la mitjana aritmètica.[26] Tanmateix, malgrat la seva clara interpretació, l'ús de valors absoluts impedeix determinats càlculs algebraics que obliguen a rebutjar aquests paràmetres en favor dels que s'expliquen tot seguit.

Variància i desviació típica[modifica | modifica el codi]
Article principal: Variància
Conjunt de dades estadístiques de mitjana aritmètica 50 (línia blava) i desviació típica 20 (línies vermelles).

Tal com es va explicar més amunt, la suma de totes les desviacions respecte a la mitjana aritmètica, és zero. Per tant si es desitja una mesura de la dispersió sense els inconvenients per al càlcul que tenen les desviacions mitjanes, una solució és elevar al quadrat tals desviacions abans de calcular la mitjana. Així, es defineix la variància com:[28]

 {\sigma^2} = \frac{ \sum\limits_{i=1}^n \left( x_i - \overline{x} \right) ^ 2 }{n},

és a dir, la mitjana de les desviacions respecte de la mitjana, elevades cada una al quadrat.

La desviació típica , es defineix com l'arrel quadrada de la variància, és a dir,

 {\sigma} = \sqrt{\sigma ^2}

Per a variables agrupades en intervals, s'usen les marques de classe (un valor apropiat de l'interior de cada interval) en aquests càlculs.

Propietats:[28]

  • Cap dels dos paràmetres no s'alteren amb els canvis d'origen.
  • Si tots els valors de la variable es multipliquen per una constant, 'b', la variància queda multiplicada per 'b2.
  • En l'interval (\overline{x} - k\sigma, \, \overline{x} + k\sigma) es troben, almenys, el 100(1-\frac{1}{k^2})% de les observacions (vegeu Desigualtat de Tchebyschev).[29] Aquesta última propietat mostra la potència de l'ús conjunt de la mitjana i la desviació típica com a paràmetres estadístics, ja que per a valors de 'k' iguals a 1 i 2, respectivament, s'obté que:
  • En l'interval (\overline{x} - \sigma, \, \overline{x} + \sigma) hi ha, pel capbaix, el 75% de les dades.
  • En l'interval (\overline{x} - 2\sigma, \, \overline{x} + 2\sigma) hi ha, pel capbaix, el 89% de les dades.

Es compleix la següent relació entre els paràmetres de dispersió:

D_{Me} \leq D_{\overline{x}} \leq \sigma on D_{Me}, \, D_{\overline{x}}, i \sigma són, respectivament, la desviació mitjana respecte de la mitjana, la desviació mitjana respecte de la mediana i la desviació típica (vegeu Desviació mitjana).
Mediana de les desviacions[modifica | modifica el codi]

És una mesura de dispersió que té, per la seva pròpia definició, les mateixes propietats que la mitjana. Per exemple, no es veu afectada per valors extrems o atípicos.[30] No s'utilitza massa en estadística.

Mesures de dispersió relativa[modifica | modifica el codi]

Són paràmetres que mesuren la dispersió en termes relatius, un percentatge o una proporció, de manera que permeten una comparació senzilla entre la dispersió de diferents distribucions.[31]

Coeficient de variació de Pearson[modifica | modifica el codi]
Article principal: Coeficient de variació

Es defineix com  C_V = \frac{\sigma}{\bar{x}} , on σ és la desviació típica i \bar{x} és la mitjana aritmètica.

S'interpreta com el nombre de vegades que la mitjana està continguda en la desviació típica. Sol donar-se el seu valor en tant per cent, multiplicant el resultat anterior per 100. D'aquesta manera, s'obté un percentatge de la variabilitat.

El seu principal inconvenient és que en el cas de distribucions en què la mitjana s'apropa a zero, el seu valor tendeix a infinit i fins i tot resulta impossible de calcular quan la mitjana és zero. Per això no pot fer-se servir per a variables tipificades.

Coeficient d'obertura[modifica | modifica el codi]

Es defineix com el quocient entre els valors extrems de la distribució de dades, és a dir, donada una distribució de dades estadístiques x1, x2..., xn, el seu coeficient d'obertura, CA és C_A = \frac{m\acute{a}x(x_i)}{m\acute{\imath}n(x_i)}, \; i =1 ..., n. Es fa servir per a comparar salaris d'empreses.

Recorreguts relatius[modifica | modifica el codi]

Donat el recorregut d'una distribució de dades estadístiques Re, el recorregut relatiu, RR és R_R = \frac{R_e}{\bar{x}}, on {\bar{x}} és la mitjana aritmètica de la distribució.

Donada una distribució de dades estadístiques amb quartils Q1, Q2 i Q3, el recorregut interquartílic relatiu, RIQR es defineix com[32] R_{IQR} = \frac{Q_3 - Q_1}{Q_2} d'altra banda, es defineix el recorregut semiinterquartílic relatiu, RSIR, com R_{SIR} = \frac{Q_3 - Q_1}{Q_3 + Q_1}

Índex de desviació respecte a la mitjana[modifica | modifica el codi]

Es defineix com V_{Me} = \frac{D_{Me}}{Me}, on DMe és la desviació mitjana respecte de la mitjana i Me és la mitjana d'una distribució de dades estadístiques donada.

Mesures de forma[modifica | modifica el codi]

La campana de Gauss. Corba que serveix de model per a l'estudi de la forma d'una distribució.

Les mesures de forma caracteritzen la forma de la gràfica d'una distribució de dades estadístiques. La majoria d'aquests paràmetres tenen un valor que sol comparar-se amb la campana de Gauss, això és, la gràfica de la distribució normal, una de les que amb més freqüència s'ajusta a fenòmens reals.

Mesures d'asimetria[modifica | modifica el codi]

Article principal: Asimetria estadística

Es diu que una distribució de dades estadístiques és simètrica quan la línia vertical que passa per la seva mitjana, divideix a la seva representació gràfica en dues parts simètriques. Això equival a dir que els valors equidistants de la mitjana, a una banda i a l'altra, presenten la mateixa freqüència.

En les distribucions simètriques els paràmetres mitjana, mediana i moda coincideixen, mentre que si una distribució presenta certa asimetria, d'un tipus o d'un altre, els paràmetres se situen com mostra el següent gràfic:

Posicions relatives dels paràmetres centrals segons la simetria

Això es pot demostrar fàcilment si es té en compte l'atracció que la mitjana aritmètica té pels valors extrems, que ja s'ha comentat més amunt i les definicions de mediana (just en el centre de la distribució, prenent l'eix d'abscisses com a referència) i moda (valor que presenta una ordenada més alta).

Per tant, la posició relativa dels paràmetres de centralització poden servir com una primera mesura de la simetria d'una distribució.

Altres mesures més precises són el coeficient d'asimetria de Fisher, el coeficient d'asimetria de Bowley i el coeficient d'asimetria de Pearson.

Mesures d'aplatament o curtosi[modifica | modifica el codi]

Tres distribucions amb diferents graus d'aplatament.
Article principal: Curtosi

Amb aquests paràmetres es pretén mesurar com es reparteixen les freqüències relatives de les dades entre el centre i els extrems, prenent com comparació la campana de Gauss.

El paràmetre emprat amb més freqüència per a aquesta mesura és el coeficient de curtosi de Fisher definit com:

\gamma_2 = \frac{\sum_{i=1}^n (x_i-\bar{x})^4}{n\sigma^4}-3

encara que n'hi ha d'altres com el coeficient de curtosis de Kelley o el coeficient de curtosis percentilic.

La comparació amb la distribució normal permet parlar de distribucions platicúrtiques o més aixafades que la normal; distribucions mesocurtiques, amb igual aplatament que la normal; i distribucions leptocúrtiques, això és, més apuntades que la normal.[33]

Hi ha altres mesures per decidir sobre la forma d'una distribució amb ajust a models menys usuals com els que es mostren en les següents gràfiques:

Forma d'una distribució

Altres paràmetres[modifica | modifica el codi]

Hi ha altres paràmetres que tenen aplicació en situacions molt concretes, que troben ús freqüent en mitjans de comunicació i tenen la facultat de resumir grans quantitats de dades.

Proporció[modifica | modifica el codi]

Article principal: Proporció

La proporció d'una dada estadística és el nombre de vegades que es presenta aquesta dada respecte al total de dades. Es coneix també com freqüència relativa i és un dels paràmetres de càlcul més senzill. Té l'avantatge que pot calcular-se per a variables qualitatives.

Per exemple: si s'estudia el color dels ulls d'un grup de 20 persones, on 7 els tenen blaus, la proporció d'individus amb ulls blaus és del 35%.

La dada amb major proporció és la moda (vegeu més amunt).

En inferència estadística es determinen intervals de confiança per a l'estimació d'aquest paràmetre.

Nombre índex[modifica | modifica el codi]

Article principal: Nombre índex

Un nombre índex és una mesura estadística que permet estudiar les fluctuacions o variacions d'una magnitud o de més d'una en relació amb el temps o a l'espai. Els índexs més habituals són els que realitzen les comparacions en el temps. Alguns exemples d'ús quotidià d'aquest paràmetre són: l'índex de preus o l'IPC[34]

Taxa[modifica | modifica el codi]

Article principal: Taxa (matemàtiques)
Coeficient de Gini en el món (2007-2008)

La taxa és un coeficient que expressa la relació entre la quantitat i la freqüència d'un fenomen o un grup de fenòmens. Es fa servir per indicar la presència d'una situació que no es pot mesurar de forma directa.[34] Aquesta raó es fa servir en àmbits variats, com la demografia o l'economia, on es fa referència a la taxa d'interès.

Alguns dels més usats són: taxa de natalitat, taxa de mortalitat, taxa de creixement demogràfic, taxa de fertilitat o taxa de desocupació.

Coeficient de Gini[modifica | modifica el codi]

Article principal: Coeficient de Gini

L'índex o coeficient de Gini és un paràmetre de dispersió usat per mesurar desigualtats entre les dades d'una variable o la seva major o menor concentració.

Aquest coeficient mesura de quina forma està distribuïda la suma total dels valors de la variable. Se sol utilitzar per descriure salaris. Els casos extrems de concentració serien aquells en els que una sola persona acapara el total dels diners disponibles per a salaris i aquells en els que aquest total està uniformement repartit entre tots els assalariats.[35]

Moments[modifica | modifica el codi]

Articles principals: Moment estàndard i Moment central

Els moments són una forma de generalitzar tota la teoria relativa als paràmetres estadístics i guarden relació amb una bona part d'ells.

Donada una distribució de dades estadístiques 'x1, 'x2... 'xn, es defineix el moment central d'ordre kk com

\mu_k = \frac{\sum_{i=1}^n (x_i - \bar{x})^k}{n}

Per a variables contínues la definició canvia les sumes discretes per integrals, encara que la definició és, essencialment, la mateixa.[36]

D'aquesta definició i les propietats dels paràmetres implicats que s'han vist més amunt, es dedueix immediatament que:

\mu_0 =1; \; \mu_1 =0; \; \mu_2 = \sigma^2; \;

i que

\gamma_1 = \frac{\mu_3}{\mu_2^3}; \; \; \gamma_2 = \frac{\mu_4}{\mu_2^4}

s'anomena moment no centrat d'ordre k a la següent expressió:

m_k = \frac{\sum_{i=1}^n (x_i)^k}{n}

De la definició es dedueix que:

m_0 =1; \; m_1 = \bar{x}; \; m_2 - m_1^2 = \sigma^2;

Emprant el Binomi de Newton pot obtenir-se la següent relació entre els moments centrats i no centrats:

\mu_k = \sum_{i=1}^n (-1)^k {k\choose i} m_{k-i} m_1 ^i

Els moments d'una distribució estadística la caracteritzen unívocament.[37]

Paràmetres bidimensionals[modifica | modifica el codi]

Article principal: Estadística bidimensional

A l'estadística de vegades s'estudien característiques d'una població per comparar-les, estudiar la seva dependència o correlació o realitzar qualsevol altre estudi conjunt. El cas més comú de dues variables es coneix com estadística bidimensional.[38]

Un exemple típic: és el d'un estudi que reculli l'estatura (notada per X) i el pes (sigui I) dels n individus d'una determinada població. En aquest cas, fruit de la recollida de dades, s'obtindria una sèrie de parelles de dades ('xi', 'yi'), amb i =1..., 'n', cada una de les quals estaria composta respectivament per l'estatura i el pes de l'individu i.

En els estudis bidimensionals, cada una de les dues variables que entren en joc, estudiades individualment, poden resumir-se mitjançant els paràmetres que s'han vist fins ara. Així, tindria sentit parlar de la mitjana de les estatures (\bar{X}) o la desviació típica dels pesos (Y). Fins i tot per a un determinat valor de la primera variable, xk, es pot fer estudis condicionats. Per exemple, la mitjana condicionada a l'estatura xk seria la mitjana dels pesos de tots els individus que tenen aquesta estatura. Es nota Mi/x=xk.

Tanmateix, existeixen altres paràmetres que resumeixen característiques d'ambdues distribucions en el seu conjunt. Els més destacats són el centre de gravetat, la covariància i el coeficient de correlació lineal.

Centre de gravetat[modifica | modifica el codi]

Donades dues variables estadístiques X i I, es defineix el centre de gravetat (\bar{X}, \bar{Y}), on \bar{X} i \bar{Y} són, respectivament, les mitjanes aritmètiques de les variables X i I.

El nom d'aquest paràmetre prové del fet que en una representació de les parelles de l'estudi en un núvol de punts, en la que cada punt tingués un pes proporcional a la seva freqüència absoluta, les coordenades (\bar{X}, \bar{Y}) correspondrien, precisament, al centre de gravetat com a concepte físic.[39]

Covariància[modifica | modifica el codi]

Article principal: Covariància

La covariància o variància conjunta es defineix com:

\sigma_{xy} = \frac 1 n \sum_{i=1}^n { (x_i - \overline{x})(y_i - \overline{y})}

La interpretació d'aquest paràmetre té a veure amb l'eventual correlació lineal de les dues variables. Una covariància positiva implica una correlació directa i una negativa, una correlació inversa.[40] d'altra banda, és un paràmetre imprescindible per al càlcul del coeficient de correlació lineal o els coeficients de regressió, com es veurà més a baix.

En contra seu té que es veu excessivament influïda, igual com succeïa amb la mitjana aritmètica, pels valors extrems de les distribucions i els canvis d'escala.

Coeficient de correlació lineal[modifica | modifica el codi]

Article principal: Coeficient de correlació
Variación del coeficient de correlació lineal en funció del núvol de punts associat.

És un coeficient que permet determinar la bondat de l'ajust del núvol de punts a una recta.

Es defineix com a: r = \frac{\sigma_{xy}}{\sigma_x \sigma_y}, on xy és la covariància i x i y, les desviacions típiques respectives de les distribucions implicades.

El coeficient de correlació lineal pren valors entre -1 i 1. En aquesta escala, mesura la correlació de la següent manera:

  • La correlació lineal és més forta com més a prop estigui de -1 o 1.
  • La correlació lineal és més feble com més pròxim a zero estigui r. [41]

El diagrama de la dreta il·lustra com pot variar r en funció del núvol de punts associat:

Altres paràmetres bidimensionals són: el coeficient de correlació de Spearman, els coeficients de correlació no paramètrics, el coeficient de determinació o els coeficients de regressió lineal.

Igual que en distribucions unidimensionals, existeix una forma equivalent de desenvolupar la teoria relativa als paràmetres estadístics bidimensionals fent servir els moments.

Els paràmetres en la inferència estadística[modifica | modifica el codi]

De vegades, els paràmetres d'una determinada població no es poden conèixer amb certesa. Generalment, això succeïx perquè és impossible l'estudi de la població completa per qüestions com que el procés sigui destructiu (per exemple la vida mitjana d'una bombeta) o molt car (p. ex., audiències de televisió). En tals situacions es recorre a les tècniques de la inferència estadística per fer estimacions d'aquests paràmetres a partir dels valors obtinguts d'una mostra de la població.[42]

Es distingeix llavors entre paràmetres i estadístics. Mentre que un paràmetre és una funció de les dades de la població l'estadístic ho és de les dades d'una mostra. D'aquesta manera, poden definir-se la mitjana mostral, la variància mostral o qualsevol altre paràmetre dels que s'han vist més amunt.

Per exemple, donada una mostra estadística de mida n, (x_1,\ x_2,\ ...,\ x_n), d'una variable aleatòria X amb distribució de probabilitat F(x,), on θ és un conjunt de paràmetres de la distribució, es definiria la mitjana mostral n-èssima com a:

\bar{X}_n = T(x_1,x_2,...,x_n) = \frac{1}{n} \sum_{i=1}^n x_i = \frac{x_1+x_2+...+x_n}{n}

En el cas concret de la variància mostral, s'acostuma a prendre, per les seves millors propietats com estimador, el següent:

 S_n^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i-\bar{X_n})^2

on s'ha pres com a denominador n-1, en lloc de n. A aquest paràmetre també se l'anomena quasivariància.[43]

Vegeu també[modifica | modifica el codi]

Referències[modifica | modifica el codi]

  1. Clapham, Christopher; Traducció: De Ds. Madariaga, Juan Mª L. Diccionari de Matemàtiques. Primera. Oxford-Complutense, setembre 1998, p. 266. ISBN 84-89784-56-6. 
  2. «Paràmetre estadístic». Enciclopedia Microsoft® Encarta® Online 2009. Microsoft Corporation, 2009. [Consulta: 19 d'abril de 2009].
  3. Ross, Sheldon M.; trad. Valdés Sánchez, Teófilo. «3. Ús de l'Estadística per sintetitzar conjunts de dades.». A: Introducció a l'Estadística. Reverte, 2007, p. 69. ISBN 8429150390 [Consulta: 5 abril 2009]. 
  4. Fernández Gordillo, Juan Carlos. «Paràmetres estadístics». Ditutor, Diccionari de Matemáticas, 2008. [Consulta: 19 d'abril de 2009].
  5. Serret Morenor-Gil, Jaime. «4. Paràmetres Estadísticos». A: Procediments estadístics. ESIC, 1998, p. 71. ISBN 8473561716 [Consulta: 19 abril 2009]. 
  6. Pascual, José; Dissenyadora: Galbiati, Paola. «Conceptos bàsics: Model». A: Exploració de dades: Introducció a l'Estadística Descriptiva. Instituto d'Estadística. Universitat Catòlica de Valparaíso [Consulta: 16 abril 2009]. 
  7. «Paràmetre estadístic». Enciclopedia Microsoft® Encarta® Online 2009. Microsoft Corporation, 2009. [Consulta: 19 d'abril de 2009].
  8. Clapham, Christopher; Traducció: De Ds. Madariaga, Juan Mª L. Diccionari de Matemàtiques. Primera. Oxford-Complutense, setembre 1998, p. 266. ISBN 84-89784-56-6. «Parámetro (en estadística): Certa quantitat que caracteritza d'alguna forma a la població, com la seva mitjana o el seu mediana» 
  9. Serret Morenor-Gil, Jaime. «4. Paràmetres Estadístics». A: Procediments estadístics. ESIC, 1998, p. 71. ISBN 8473561716 [Consulta: 19/04/2009]. «En estadística descriptiva tenim una sèrie d'expressions (...) que permeten disposar d'uns valors numèrics que reflecteixen el comportament global de l'esdeveniment estadístic, calculats a partir de les dades individuals. Aquestes expressions són els paràmetres estadístics» 
  10. citado per Calot (1985, pàg. 55, 56) i MAD-Eduforma (2006, p. 160)
  11. Romero Villafranca, Rafael; Zúnica Ramajo, Luisa Rosa. «2.6. Paràmetres de posición». A: Mètodes estadístics en Enginyeria. València: Univ. Politéc. València, 2005, p. 39-41. ISBN 8497057279 [Consulta: 20 d'abril de 2009]. 
  12. «Mesures de Dispersió». Enciclopèdia Microsoft® Encarta® Online. Microsoft Corporation, 2009. [Consulta: 20 d'abril de 2009].
  13. Serret Morenor-Gil, Jaime. «4.3. Paràmetres de forma.». A: Procediments estadístics. ESIC, 1998, p. 81. ISBN 8473561716 [Consulta: 20 abril 2009]. 
  14. Això vol dir que si es registren edats, per exemple, la mesura de posició corresponent també és una edat, està mesurada en aquestes mateixes unitats i podria ser igual a una de les dades.
  15. Chaves, Bernardo. «La mitjana geomètrica i la mitja harmònica». Bioestadística per a postgrau. Universitat Nacional de Colombia, 2004. [Consulta: 7 d'abril de 2009].
  16. Wackerly, Dennis D; Mendenhall, William; Scheaffer, Richard L.. «1.3. Descripció d'un conjunt de mesures: mètodes numèrics». A: Estadística matemàtica amb aplicacions. 6a ed.. Cengage Learning Editores, 2002, p. 8. ISBN 9706861947. «La mesura central que més s'usa en estadística és la mitjana aritmètica» 
  17. Rius Díaz, Francisca. «2.3.2 La mitjana». A: Bioestadística. Mètodes i aplicacions. Màlaga: Universitat de Màlaga, octubre 1997. ISBN 84-7496-653-1 [Consulta: 7 abril 2009]. 
  18. Wackerly, Dennis D; Mendenhall, William; Scheaffer, Richard L.. «1.3. Descripció d'un conjunt de mesuraments: mètodes numèrics». A: Estadística matemàtica amb aplicacions. 6a ed.. Cengage Learning Editores, 2002, p. 8. ISBN 9706861947. «Dos conjunts de mesuraments podrien tenir distribucions de freqüències molt diferents, però amb la mateixa mitjana» 
  19. Rius Díaz, Francisca. «2.3.6 La moda». A: Bioestadística. Mètodes i aplicacions. 
  20. «Retrat robot de l'alcalde metropolità». Falta indicar la publicació, abril 2009 [Consulta: 7 abril 2009].
  21. Serret Morenor-Gil, Jaime. Procediments estadístics. ESIC, 1998, p. 75. ISBN 8473561716 [Consulta: 17 abril 2009]. 
  22. Rius Díaz, Francisca. «2.3.4 La mediana». A: Bioestadística. Mètodes i aplicacions. 
  23. Martín Andrés, Antonio; Lluna del Castell, Juan de Dios. Bioestadística per a les ciències de la Salud. Capitell Editores, 2004, p. 28. ISBN 8484510182 [Consulta: 17 abril 2009]. 
  24. Error de citació: Etiqueta <ref> no vàlida; no s'ha proporcionat text per les refs amb l'etiqueta huff
  25. Johnson, Robert; Kuby, Patricia. «2.8. L'art de l'engany estadístico». A: Estadística elemental. 3a ed.. Cengage Learning Editores, 2003, p. 94. ISBN 9706862870. 
  26. 26,0 26,1 Rius Díaz, Francisca. «2.7. Mesures de variabilitat o dispersió». A: Bioestadística. Mètodes i aplicacions [Consulta: 17 abril 2009]. 
  27. Férnandez Fernández, Santiago; Alejandro Córdoba, José María Cordero Sánchez, Alejandro Córdoba. «4.2. Mesures absolutas». A: Estadística Descriptiva. 2a ed.. ESIC Editorial, 2002, p. 192. ISBN 8473563069. 
  28. 28,0 28,1 Rius Díaz, Francisca. «2.7.4. Variància i desviació típica». A: Bioestadística. Mètodes i aplicacions [Consulta: 7 abril 2009]. 
  29. Wackerly, Dennis D. «3.11. Teorema de Chebyshev». A: Estadística matemàtica amb aplicacions, p. 139. 
  30. Férnandez Fernández, Santiago. «4.2.3.4. Mediana de les desviacions». A: Estadística Descriptiva, p. 200. 
  31. Férnandez Fernández, Santiago. «4.3. Mesures relativas». A: Estadística Descriptiva, p. 201. 
  32. Férnandez Fernández, Santiago. «4.3. Mesures relatives». A: Estadística Descriptiva, p. 202. 
  33. Sotomayor Velasco, Gabriel; Wisniewski, Piotr Marian. «8.7. Moments i altres característiques». A: Probabilitat i estadística per a enginyeria i ciències. Cengage Learning Editores, 2001, p. 196. ISBN 970686136 X [Consulta: 7 abril 2009]. 
  34. 34,0 34,1 Malléa, Adriana, Adriana; Herrera, Myriam; Ruiz, Ana María. «3. Paràmetres estadístics no convencionals». A: Estadística en el nivell polimodal. San Juan: effha, 2003, p. 67. ISBN 9872084920 [Consulta: 17 abril 2009]. 
  35. Llorente Galera, Francisco; Staff, VV; Marín Feria, Susana; Torra Porras, Salvador. «2.6. Mesures de concentració». A: Principios d'estadística descriptiva aplicada a l'empresa. Ramón Areces, 2000, p. 53-54. ISBN 8480044276 [Consulta: 17 abril 2009]. 
  36. Wackerly, Dennis D. «3.9. Moments i funcions generadores de momentos». A: Estadística matemàtica amb aplicacions, p. 131. 
  37. Cases Sánchez, J.M; Sants Penya, Julián. «2.6. Moments». A: Introducció a l'estadística per a economía. 2a ed.. Ramón Areces, 2002, p. 95. ISBN 848004523 X. «Si els moments coincideixen en dues distribucions, direm que són iguales» 
  38. Cáceres Hernández, Juan José. «4.1. Variable estadística multidimensional i distribució de frecuencias». A: Conceptes bàsics d'Estadística per a Ciències Socials. Delta Publicacions, 2007, p. 62. ISBN 8496477436. 
  39. Àries Rodríguez, Jose Carlos. «Distribucions bidimensionals». Projecte Descarts. Madrid: Ministeri d'Educació, Política Social i Esport, 2004. [Consulta: 7 d'abril de 2009].
  40. Rius Díaz, Francisca. «3.10.2. Una interpretació geomètrica de la covariància». A: Bioestadística. Mètodes i aplicacions. Màlaga: Universitat de Màlaga, octubre 1997. ISBN 84-7496-653-1 [Consulta: 7 abril 2009]. 
  41. Baró López, Francisco Javier. «Bioestadística». Málaga: Universitat de Màlaga. [Consulta: 18 d'abril de 2009].
  42. Cases Sánchez, Jose M.; Manzano Arrondo, Vicente; Zamora Sanz, Ana Isabel;. «2. Estimació puntual». A: Inferència Estadística. 2a ed.. Ramón Areces, 1997, p. 89-162. ISBN 848004263 X [Consulta: 17 abril 2009]. 
  43. Álvarez Leiva, Juan Antonio. «Mesures de dispersió». Projecte CICA Thales. Societat Andalusa d'Educació Matemàtica "Thales", desembre 1997. [Consulta: 7-4-2009].

Bibliografia[modifica | modifica el codi]

Enllaços externs[modifica | modifica el codi]

Calculadores de paràmetres estadístics:

  • Les tres mitjanes Calcula la mitjana aritmètica, geomètrica i harmònica d'una sèrie de 80 dades o menys.
  • La calculadora web descriptiva Calcula mitjana, moda, variància, desviació típica, coeficient de variació, coeficients de forma, índex Gini, mitja harmònica.
  • Calculadora estadística Incluye paràmetres bidimensionals i altres càlculs d'utilitat en probabilitat.

Cursos complets d'estadística descriptiva: