Inferència estadística

De Viquipèdia
Dreceres ràpides: navegació, cerca
Distribució normal N(μ,σ)

La inferència estadística és una part de l'estadística matemàtica, que es dedica a deduir possibles resultats d'una població sotmesa a estudi, a partir de l'anàlisi de mostres diverses d'aquesta població. Un exemple molt típic seria un sondeig electoral, a partir del qual es vol conèixer quin seria el resultat de la votació de tota la població (evidentment amb el seu marge d'error associat).

Existeixen diferents maneres de treballar la inferència estadística. Entre aquestes destaquen:

La primera d'elles consisteix en l'estudi d'un paràmetre estadístic, com per exemple la mitjana aritmètica. En aquest sentit hi ha diferents tipus d'inferència mitjançant l'estimació de paràmetres:

  • Distribució mostral de les mitjanes
  • Distribució mostral de les proporcions
  • Distribució mostral de la diferència de mitjanes
  • Intervals de confiança

Distribució mostral de les mitjanes[modifica | modifica el codi]

En aquest cas, com el seu propi nom indica, el paràmetre que s'utilitza de referència és la mitjana.

Suposem una població en la qual estem estudiant un paràmetre caracteritzat per una mitjana (μ) i una desviació típica (σ). Podria ser, per exemple, l'estudi de les alçades d'un grup de persones. Doncs bé, en aquest cas, si agafem mostres de mida (n), essent n≥30, es pot considerar que la distribució de mostres segueix una distribució normal caracteritzada per una mitjana igual a la de la població, i una desviació típica igual a la de la població dividida per l'arrel quadrada de n. És a dir:

N\left(\mu,{\frac{\sigma}{\sqrt{n}}}\right)

D'aquesta manera, qualsevol càlcul de probabilitat que s'hagi de fer per a la distribució de les mostres, es pot fer dins el marc d'una distribució normal.

Distribució mostral de les proporcions[modifica | modifica el codi]

En aquest cas considerem una població que es pot representar mitjançant una distribució binomial B(n,p). El paràmetre en aquest cas és una proporció (tant per cent). Un exemple podria ser una màquina que fabrica peces de precisió, amb un percentatge determinat de peces defectuoses. Si com en el cas anterior agafem mostres de grandària (n), podem considerar que la distribució mostral segueix una normal, caracteritzada per una mitjana (p) i una desviació típica l'arrel quadrada de pq dividit per n. És a dir:

N\left(p,\sqrt{\frac{pq}{n}}\right)

Com en el cas anterior, tenim l'avantatge que els càlculs de probabilitat per a la distribució de les mostres, els podem fer per a una distribució normal.

Distribució mostral de la diferència de mitjanes[modifica | modifica el codi]

Suposem que estem fent un estudi comparatiu entre dues poblacions utilitzant la mitjana com a paràmetre. Si agafem mostres de cada població per fer aquest estudi, representarem amb subíndex 1 una de les dues poblacions i amb 2 l'altra. Si \mu_1 representa la mitjana de les mostres de la primera població, amb mida de mostra n1, i \mu_2 la mitjana de les mostres de la segona població, amb mida n2, podem considerar que la distribució de les mostres segueix una normal caracteritzada per:

N\left(\mu_1-\mu_2,\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}\right)

de tal manera que, com en els casos anteriors, podem fer tots els càlculs de probabilitat utilitzant una distribució normal.

Continuant amb el tema de la inferència estadística des de diferents punts de vista, tractarem ara el cas en el qual volem inferir resultats sobre el conjunt d'una població a partir dels resultats obtinguts de mostres preses d'aquesta població. Dins aquest marc hem de dir, que les mostres sempre han de ser prou significatives perquè l'estudi tengui sentit. És a dir, si agafem mostres d'una població de persones per conèixer la intenció de vot a unes eleccions generals, hauríem de fer enquestes a totes les comunitats autònomes, i a més a més amb un rang d'edats ample, quantes més persones d'edats i comunitats diferents millor. Si no és així, els resultats inferits posteriorment sobre la població no tenen molt sentit.

Doncs bé, dins el marc de la inferència estadística mitjançant l'estimació de paràmetres, veurem ara els intervals de confiança. Un interval de confiança és un interval de valors dins el qual estimam que es troba el paràmetre de la població sotmesa a estudi, amb una certa probabilitat fixada prèviament que anomenam Nc (nivell de confiança). Segons el paràmetre estudiat podem considerar els següents intervals:


Interval de confiança de la mitjana[modifica | modifica el codi]

És el següent interval per a la mitjana de la població:


\left(\mu-z_c\frac{\sigma}{\sqrt{n}}; \mu+z_c\frac{\sigma}{\sqrt{n}}\right)

on μ és la mitjana d'una mostra de mida n i zc un coeficient que té un valor associat al nivell de confiança considerat (veure taula més abaix).


Interval de confiança per a la proporció[modifica | modifica el codi]

És el següent interval per a la proporció de la població:


\left(p-z_c\sqrt{\frac{pq}{n}};p+z_c\sqrt{\frac{pq}{n}}\right)


on p representa el valor de la proporció en una mostra de mida n, i q=1 - p

Interval de confiança de la diferència de mitjanes[modifica | modifica el codi]

És el cas de l'estudi comparatiu de dues poblacions (població 1 i població 2), en les quals agafem mostres de mitjanes μ1, μ2 i mides n1, n2. L'interval de confiança per a l'estudi comparatiu de les dues poblacions és:


\left((\mu_1-\mu_2)-z_c\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}};(\mu_1-\mu_2)+z_c\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}\right)


que representa l'interval a on es trobarà la diferència de mitjanes poblacionals per a un nivell de confiança donat.

En els tres casos, com hem comentat abans, l'interval està referit a un cert nivell de confiança (probabilitat) que té associat un valor del coeficient zc. Els més usuals es poden veure a la següent taula:


Valors de zc corresponents a diferents valors de Nc[modifica | modifica el codi]

Nc(%) zc
99,73 3,000
99,00 2,580
98,00 2,330
96,00 2,050
95,45 2,000
95,00 1,960
90,00 1,645

(En aquesta taula, la zc és la z més petita per la qual el percentatge de probabilitat acumulada és igual a 1 - (1 - Nc) / 2, segons la distribució normal estandarditzada.)

Relacionat amb els intervals de confiança, fixem-nos com hi ha un error associat en cada cas, que està representat per l'amplada de l'interval. Una pregunta que ens podem plantejar és: quin ha de ser la mida mínima d'una mostra, perquè l'error sigui inferior a un cert valor?

Mida de mostra (mida mostral)[modifica | modifica el codi]

Podem deduir fàcilment una fórmula, per exemple en el cas de l'interval per a la mitjana, igualant a E (error) el valor de l'amplada de l'interval, i aïllant posteriorment el valor de n, amb la qual cosa obtindrem:


n=\frac{z_c^2\sigma^2}{E^2}


que hauria de ser la mida mínima de la mostra, perquè l'error no superi un valor fixat E.

De la mateixa manera, en el cas de l'interval per a la proporció obtindrem:


n=\frac{z_c^2pq}{E^2}
Distribució de Poisson

Test d'hipòtesi[modifica | modifica el codi]

Una altra manera de tractar el tema de la inferència estadística són els test d'hipòtesi. La idea és formular una suposició (hipòtesi) sobre el valor d'un paràmetre poblacional, per a posteriorment comprovar amb un marge d'error fixat, i amb dades preses d'una mostra, si la hipòtesi formulada l'acceptem o la rebutjam. Estudiarem el contrast d'hipòtesi per a la mitjana poblacional i també per a la proporció.


a) Contrast d'hipòtesi per a la mitjana.

Suposem que tenim una població en la qual estem estudiant com a paràmetre la mitjana μ. Formulam la hipòtesi que la mitjana de la població té el valor μ0. Ara agafem una mostra de mida n≥30 (per garantir que la distribució mostral segueix una normal), i obtenim com a valor de la mitjana d'aquesta mostra x. Amb un nivell de confiança fixat Nc, calcularem els valors extrems de l'interval de confiança, de tal manera que si el valor de la mitjana de la mostra es troba dins aquest interval, afirmarem que la hipòtesi és certa. En cas contrari la rebutjarem. En això consisteix essencialment aquest mètode. Ara sistematitzarem el procediment per fer-ho en els diferents casos de la mitjana, i després per a la proporció.

La hipòtesi inicial s'anomena hipòtesi nul·la (H0), i la hipòtesi contrària (H1) hipòtesi alternativa. Es poden presentar els casos següents:


a1) Contrast bilateral.

En aquest cas la hipòtesi nul·la i l'alternativa són: H0: μ=μ0; H1: μ≠μ0

El pas següent seria calcular l'interval de confiança per a la mitjana poblacional per al valor considerat del Nc, és a dir:


(\mu-z_c\frac{\sigma}{\sqrt{n}}; \mu+z_c\frac{\sigma}{\sqrt{n}})


i per acabar, comprovar si el valor de la mitjana d'una mostra de mida n es troba dins aquest interval. Si és així acceptarem la hipòtesi H0. En cas contrari la rebutjarem i acceptarem la H1.


a2) Contrast unilateral.

En aquest cas se suposa que la mitjana poblacional és major o menor que un cert valor. És a dir, el contrast bilateral inclou els subcasos:


a21) H0: μ≥μ0; H1: μ<μ0


a22) H0: μ≤μ0; H1: μ>μ0


En ambdós casos tornariem agafar una mostra per fer la comprovació corresponent. Emperò l'interval no és pas ara el mateix d'abans, sinó:


a21)


(\mu_0-z_c\frac{\sigma}{\sqrt{n}};\,\, +\propto)


a22)


(-\propto;\,\, \mu_0+z_c\frac{\sigma}{\sqrt{n}})


aquests intervals igual que en el cas bilateral representen la zona dins la qual és vàlida la H0 amb el nivell de confiança considerat. S'anomenan "zona o regió d'acceptació".

Tant en el cas bilateral com en els unilaterals, si la mitjana de la mostra analitzada es troba dins la zona d'acceptació, es considera vàlida la hipòtesi nul·la. En cas contrari es pren com a vàlida la hipòtesi alternativa.

Podem fer un estudi alternatiu completament equivalent per a la proporció. És a dir, en el cas que el paràmetre poblacional considerat sigui una proporció en lloc d'una mitjana, l'anàlisi seria el següent:


b)Contrast d'hipòtesi per a la proporció.


b1) Contrast bilateral.

Anàlogament al cas de la mitjana: H0: p=p0; H1: p≠p0

i la zona d'acceptació és:


(p_0-z_c\sqrt{\frac{p_0q_0}{n}};p_0+z_c\sqrt{\frac{p_0q_0}{n}})


b2) Contrast unilateral.


Com en el cas de la mitjana podem considerar dos subcasos:


b21) H0: p≥p0; H1: p<p0


i la zona d'acceptació és:


(p_0-z_c\sqrt{\frac{p_0q_0}{n}};\,\,+ \propto)


b22) H0: p≤p0; H1: p>p0


en aquest subcas la zona d'acceptació és:


(-\propto\,\, ;\, p_0+z_c\sqrt{\frac{p_0q_0}{n}})


En tots els casos, si el valor de la proporció de la mostra considerada es troba dins la zona d'acceptació, llavors considerarem que la hipòtesi nul·la és vàlida (amb el marge d'error fixat prèviament). Si no és així, s'accepta la hipòtesi alternativa.

Nota: els valors de zc corresponents als casos unilaterals, no són pas els mateixos utilitzats a la taula de més amunt per als intervals de confiança, sinó els que hi figuren a continuació:

Ns 0,10 0,05 0,01
zc 1,28 1,645 2,33

essent Ns el nivell de significació (marge d'error considerat). Recordem que la relació entre el nivell de confiança Nc i el de significació és:

Nc + Ns = 1

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Inferència estadística Modifica l'enllaç a Wikidata