Funció de distribució

De la Viquipèdia, l'enciclopèdia lliure
(S'ha redirigit des de: Funció de distribució acumulada)
Figura 1. Funció de distribució de la distribució normal.
Figura 2. Funció de densitat de probabilitat per a diverses distribucions normals. La corba vermella segueix la distribució normal estàndard, amb mitjana zero i variància la unitat.

En teoria de la probabilitat i estadística, la funció de distribució (també funció de distribució acumulada, o CDF pel seu acrònim en anglès cumulative distribution function) d'una variable aleatòria real, avaluada en , és la probabilitat que prengui un valor inferior o igual a . La funció de distribució determina totes les probabilitats relatives a la variable aleatòria. Les funcions de distribució són importants perquè són funcions ordinàries, en contrast amb les probabilitats, que són funcions de conjunts, i llavors les eines de l'Anàlisi matemàtica clàssica poden aplicar-se a estudiar les probabilitats corresponents a les variables aleatòries.

En el cas de les distribucions absolutament contínues, la funció de distribució en el punt és igual a l'àrea sota la funció de densitat de probabilitat de menys infinit a . Les funcions de distribució multidimensionals o multivariants serveixen per especificar les probabilitats dels vectors aleatoris o variables aleatòries multivariades.

Definició[modifica]

Considerem un espai de probabilitat .

Definició. La funció de distribució[1] d'una variable aleatòria real és la funció definida per:

Observació. Alguns autors[2] defineixen la funció de distribució canviant a l'expressió (*) el menor o igual per un menor estricte: . El conveni que hem adoptat és el més habitual actualment. Cal tenir-ho present, ja que l'ús correcte de les taules de les variables discretes com les de la distribució binomial o la de Poisson depèn d'aquest conveni. És més, fórmules importants com la fórmula d'inversió de Paul Lévy per a la funció característica també es basen en aquesta formulació.

Si es tracta amb diverses variables aleatòries , , etc. aleshores s'escriu , , etc. per indicar les funcions de distribució respectives. El conveni marca l'ús de la majúscula per a la funció de distribució, en contrast amb la minúscula usada per a les funcions de densitat de probabilitat (cas absolutament continu) i les funcions de probabilitat o de repartiment de massa de probabilitat (cas discret). Això s'aplica quan es treballa amb distribucions generals: algunes distribucions específiques tenen la seva pròpia notació, com és el cas de la distribució normal, on la funció de distribució d'una variable normal estàndard s'acostuma a designar per

Figura 3. De dalt a baix:la funció de distribució d'una distribució de probabilitat discreta, d'una distribució de probabilitat contínua i d'una distribució que té una part discreta i una de contínua.

Propietats[modifica]

Totes aquestes propietats es troben demostrades, per exemple, a[3]

1. és una funció monòtona no decreixent (també es diu creixent): si aleshores .
2. és contínua per la dreta.
3.

Observacions

(a) Aquestes tres propietats són importants perquè caracteritzen les funcions de distribució de les variables aleatòries: Donada una funció que compleixi aquestes tres propietats, llavors és la funció de distribució d'una variable aleatòria, és a dir, es pot construir un espai de probabilitat i definir-hi una variable aleatòria que tingui aquesta funció com a funció de distribució.
(b) Quan la funció de distribució es defineix per , aleshores la funció és contínua per l'esquerra.[2]


4. Com que és monòtona, en tot punt existeix el límit per l'esquerra[4]. El límit per l'esquerra en el punt el designarem per :

5. Probabilitat que pertanyi a diversos tipus d'intervals:
(a)
(b)

on és el límit per l'esquerra de en el punt .

(c)

és a dir, té una discontinuïtat al punt si només si .

(d)

(e)


6. La funció té, com màxim, un nombre numerable de punts de discontinuïtat.

Funcions de distribució de variables discretes, absolutament contínues i mixtes[modifica]

Funció de distribució d'una variable discreta[modifica]

Si X és una variable aleatòria discreta, que pren valors amb probabilitats (funció de probabilitat), llavors la funció de distribució de X serà discontínua en els punts xi i

Es diu que és una funció de distribució discreta,[5] o una funció de salts o purament discontínua.

Exemple.

Suposem que llencem dues monedes a l'aire. Indiquem una cara amb c i una creu amb s. Els possibles resultats de l'experiment són observar dues cares (cc), una cara seguida d'una creu (cs), una creu seguida d'una cara (sc) i dues creus (ss). Així,

Sigui X la variable aleatòria que compta el nombre de cares obtingudes en el llançament. És a dir, X és la següent funció:

donada per

És una variable discreta, ja que només pot prendre els valors 0, 1 i 2.

Exemple de la funció de probabilitat d'una variable aleatòria discreta
Figura 4. Funció de probabilitat

La funció de probabilitat és . Vegeu la Figura 4.

La funció de distribució ve donada per

.

Exemple de la funció de distribució d'una variable discreta
Figura 5. Funció de distribució.

Vegeu la Figura 5.

Observació. A l'exemple anterior, així com en els casos més habituals, com la distribució binomial o la de Poisson, la funció de distribució és esglaonada, però en general no és així. El següent exemple és de Loeve:[6] sigui una ordenació dels nombres racionals, i sigui una variable aleatòria tal que

Aleshores la corresponent funció de distribució no és esglaonada; de fet, ni tan sols es pot dibuixar. (Recordeu que , on és la funció zeta de Riemann[7].)

Funció de distribució d'una variable absolutament contínua[modifica]

Recordem que una variable aleatòria es diu que és absolutament contínua o que té densitat (també que és contínua), si existeix una funció que compleix

1.


2. és integrable i és a dir, l'àrea total entre la gràfica de la funció de densitat i l'eix d'abscisses és 1. Vegeu la Figura 6.
L'àrea sota la corba de la funció de densitat és 1
Figura 6. L'àrea entre la corba de la funció de densitat i l'eix d'abscisses és 1.


3. Per a ,

És a dir, la probabilitat que la variable prengui un valor de l'interval és l'àrea de la zona limitada pel gràfic de la funció, l'eix de les x i l les rectes x=a i x=b.Vegeu la Figura 7.

Relació entre la probabilitat i l'àrea sota la corba de la funció de densitat
Figura 7. Relació entre la probabilitat i l'àrea sota la corba de la funció de densitat

Llavors,

Vegeu a la Figura 1 quatre funcions de distribució de variables normals i a la Figura 2 les corresponents funcions de densitat.

Funció de distribució d'una variable aleatòria de tipus mixt[modifica]

Mecanisme aleatori que genera una variable aleatòria mixta
Figura 8. Mecanisme aleatori que genera una variable aleatòria mixta

Hi ha variables aleatòries que són una combinació dels dos tipus anteriors. Per exemple, considerem un mecanisme aleatori com el de la Figura 8: si l'agulla va a parar a la zona de l'esquerra (àrea grisa) aleshores s'obté un 0; si va a parar a la zona de la dreta, aleshores s'obté un nombre decimal entre 0 i 1 amb distribució uniforme. Anomenen el resultat, que és una variable aleatòria que pot prendre un nombre no numerable de valors, i per tant no és discreta, però d'altra banda , i tampoc és contínua. La funció de distribució valdrà:

Funció de distribució d'una variable de tipus mixt
Figura 9. Funció de distribució d'una variable de tipus mixt

Vegeu la Figura 9.


Més exemples[modifica]

Suposem que és una distribució uniforme en l'interval unitat [0, 1]. Llavors la seva funció de distribució serà:

Suposem ara que pren només els valors discrets 0 i 1, amb igual probabilitat, és a dir una distribució de Bernoulli amb probabilitat d'èxit de 0.5. Llavors la funció de distribució de vindrà donada per:

Descomposició de funcions de distribució[modifica]

En aquesta secció estudiarem l'estructura de les funcions de distribució, però partint directament d'aquestes funcions, és a dir, de les funcions que compleixen les propietats 1,2 i 3 de la secció Propietats, i recuperarem, des d'un punt de vista més general, allò que hem estudiat a la secció Funcions de distribució de variables discretes, absolutament contínues i mixtes.

Primera descomposició[modifica]

Tal com hem comentat, una funció de distribució només té un nombre finit o infinit numerable de punts de discontinuïtat; sigui , amb el conjunt de punts de discontinuïtat de la funció de distribució , i designem per el salt de la funció en el punt :

Definim

La funció compleix les propietats 1,2 i 3 de la definició de funcions de distribució, excepte que

Quan aleshores es diu que la funció de distribució és discreta; concretament,

Definició. Es diu que una funció de distribució és discreta o de salts o purament discontínua si , és a dir, si

Quan direm que és una funció de distribució defectiva (o impròpia). Definim ara

Llavors també és una funció de distribució, defectiva, si . Però, a més, com que hem eliminat totes les discontinuïtats de , tenim que és contínua: en tot punt ,
Propietat. Tota funció de distribució es descompon de forma única en suma de dues funcions de distribució (potser defectives),
on és contínua i una funció discreta.


Podem normalitzar les funcions i per tal d'obtenir una descomposició amb funcions de distribució: Suposem que Definim

que són ambdues funcions de distribució. Quan llavors prenem , i quan llavors prenem .

Teorema[8][9]. Sigui una funció de distribució. Aleshores es descompon de forma única com a suma d'una funció de distribució contínua i una funció de distribució discreta:

on .

Funcions de distribució singulars[modifica]

Considerem una funció monòtona creixent. Aleshores un conegut teorema de Lebesgue[10] afirma que es pot derivar en quasi tots els punts (Lebesgue), la funció derivada és mesurable (Lebesgue) i per qualsevol ,

on a l'integral és una integral de Lebesgue.

Llavors, una funció de distribució té derivada en quasi tots punts.

Definició. Direm que una funció de distribució és singular si en quasi tots els punts.

Observació. Qualsevol funció de distribució esglaonada (per exemple, la d'una variable binomial o Poisson) és singular. El que és interessant és que existeixen distribucions contínues singulars: per exemple, la distribució de Cantor construïda a partir de la funció de Cantor té una funció de distribució que és contínua, però la seva derivada és zero quasi en tots els punts. Es tracta d'una funció de distribució singular.

Funcions de distribució absolutament contínues[modifica]

Recordem que una funció es diu que és absolutament contínua[11] si donat qualsevol existeix tal que per qualsevol família finita d'intervals oberts disjunts dos a dos tals que

es té que
Les funcions de distribució que compleixen la propietat anterior es poden identificar amb les integrals indefinides de Lebesgue. Concretament tenim

Teorema[12]. Una funció de distribució és absolutament contínua si i només sí

per a una funció integrable (Lebesgue), que s'anomena una funció de densitat. La funció de densitat és única quasi en tot punt (Lebesgue); en altres paraules, si és mesurable, i quasi per tot (Lebesgue), aleshores també és una funció de densitat de . Es pot prendre

Evidentment, aquest teorema també val per funcions de distribució defectives.

Segona descomposició[modifica]

Continuant amb les notacions de la primera descomposició, suposem que la part contínua no és nul·la: i considerem la seva derivada . Definim la component absolutament contínua de per

Finalment, definim la component singular per
Cal notar que és contínua singular. Ajuntant-ho amb la primera descomposició tenim:


Propietat. Tota funció de distribució es descompon de forma única en suma de tres funcions de distribució (potser defectives),

on és una funció discreta, absolutament contínua i és contínua singular.

Igual que hem fet amb la primera descomposició, si suposem i podem definir

i llavors tenim
on
Fem uns convenis anàlegs als de la primera descomposició quan i són 0 o 1. Tenim:

Teorema[13][14]. Sigui una funció de distribució. Aleshores es descompon de forma única com a suma de tres funcions de distribució, una discreta, una absolutament contínua i una singular contínua:

amb i .

Llavors: 
  • Si (i naturalment els altres paràmetres 0) llavors és una funció de distribució discreta.
  • Si llavors és una funció de distribució contínua.
- Si llavors és una funció de distribució absolutament contínua.
- Si llavors és una funció de distribució singular contínua.


Exemple. Considerem de nou l'exemple que hem vist de la variable aleatòria de tipus mixt. La seva funció de distribució és

(vegeu la Figura 9). Aquesta funció té una discontinuïtat en el punt 0, amb un salt d'altura 1/2. Llavors,

Notem que es tracta d'una funció de distribució defectiva ja que . La part absolutament contínua és definida per la densitat (defectiva, ja que la seva integral sobre tot no és 1)
Normalitzant aquestes funcions defectives tenim
on
i té funció de densitat

Així,

Interpretació probabilística de la descomposició. La funció de distribució discreta correspon a una variable aleatòria degenerada en el zero. La funció correspon a una variable uniforme en l'interval . Sigui una variable aleatòria uniforme en l'interval i sigui una variable aleatòria que utilitzarem per triar a l'atzar entre 0 i , independent d' ; concretament, sigui de Bernoulli de paràmetre p=1/2, independent de  :
Aleshores la variable aleatòria
té funció de distribució .

Interpretació probabilística de la descomposició en el cas general[modifica]

Considerem una funció de distribució que es descompon de la forma

amb (recordem que ). Siguin i tres variables independents, (respectivament i ) amb funció de distribució (resp. i ), i una altra variable aleatòria independent de les anteriors, tal que
Aleshores la variable aleatòria

té funció de distribució .[15]

Funcions construïdes a partir de la funció de distribució[modifica]

Funció de distribució acumulada complementària (distribució cua)[modifica]

Sovint, és útil estudiar la qüestió oposada i preguntar-se amb quina probabilitat la variable aleatòria està per sobre un nivell en particular. Això s'anomena funció de distribució complementària o simplement distribució cua o excedència, i es defineix com:

Això té aplicacions en contrast d'hipòtesis estadístiques, per exemple, perquè el valor p d'un costat és la probabilitat d'observar un estadístic test com a mínim tan extrem com l'observat. Llavors, sempre que l'estadístic, T, té una distribució contínua, el valor p d'un costat ve simplement donat per la funció de distribució complementària: per un valor t observat en l'estadístic test:

En anàlisi de supervivència, s'anomena la funció de supervivència i es denota , mentre que el terme funció de fiabilitat és habitual en enginyeria.

Propietats
  • Com que quan , i de fet sempre que sigui finit.
Demostració: assumeixi's que la variable aleatòria X té una funció de densitat f, per tot
Llavors, reconeixent i reordenant els termes queda:
tal com s'havia dit.

Distribució acumulada plegada[modifica]

Figura 8. Exemple de la funció de distribució acumulada plegada per a una distribució normal amb una esperança de 0 i una desviació tipus de 1.

Mentre la gràfica d'una distribució acumulada sovint té una forma de S, una il·lustració alternativa és la distribució acumulada plegada o gràfica muntanya, que plega la meitat superior cap a baix,[17][18] que utilitza dues escales, una pel tram inferior i una pel superior. Aquesta forma emfasitza la mediana i la dispersió (específicament, la desviació mitjana respecte la mediana[19]) de la distribució o dels resultats empírics.

Funció de distribució inversa (funció quantil)[modifica]

Si la CDF F és estrictament creixent i contínua, llavors és l'únic nombre real tal que . En aquest cas, això defineix la funció de distribució inversa o la funció quantil.

Algunes distribucions no tenen una única funció inversa (per exemple en el cas en què per tot , fent que sigui constant). Aquest problema es pot solucionar definint, per , la funció de distribució inversa generalitzada:

  • Exemple 1: la mediana és .
  • Exemple 2: Sigui . S'anomena el 95è percentil.

Algunes propietats útils de la cdf inversa (que també es preserven en la definició de la funció de distribució inversa generalitzada) són:

  1. és creixent
  2. si i només si
  3. If té una distribució llavors és distribuïda com . Això s'usa en generació de nombres aleatoris usant el mètode de mostreig de la transformada inversa.
  4. Si és una col·lecció de variables aleatòries independents distribuïdes segons definides en el mateix espai de mostreig, llavors existeixen variables aleatòries tals que es distribueixen segons i que amb probabilitat 1 per tot .

Es pot usar la inversa de la cdf per traduir els resultat obtinguts per a la distribució uniforme a altres distribucions.

Cas multivariable[modifica]

Quan es treballa simultàniament amb més d'una variable aleatòria, també es pot definir la funció de distribució acumulada conjunta. Per exemple, per una parella de variables aleatòries X,Y, la CDF conjunta ve donada per:

on la part dreta de l'equació representa la probabilitat que la variable aleatòria X prengui un valor inferior o igual a x i que Y prengui un valor inferior o igual a y.

Més generalment, la funció de distribució d'un vector aleatori[20] és la funció definida per

on, com és habitual amb els vectors aleatoris, les comes s'interpreten com interseccions:
Té les següents propietats:

1. Per a qualsevol parell tenim que

on

Noteu que per a , la propietat diu que si ,
és a dir, que , que és la propietat que havíem vist al cas de dimensió 1.

2. És contínua per la dreta: per qualsevol
3.
i

Ús en anàlisi estadística[modifica]

El concepte de funció de distribució acumulada apareix explícitament en anàlisis estadístiques de dues maneres similars. L'anàlisi de freqüències acumulades és l'anàlisi de la freqüència d'ocurrència de valors d'un fenomen menor que un valor de referència. La funció de distribució empírica és una estimació directa formal de la funció de distribució acumulada de la qual es poden derivar propietats estadístiques simples i que poden ser la base de diversos contrastos d'hipòtesi. Aquests testos serveixen per establir si hi ha proves que una certa mostra de dades ha sorgit d'una determinada distribució, o que dues determinades mostres de dades han sorgit de la mateixa distribució de població desconeguda.

Proves de Kolmogorov–Smirnov i Kuiper[modifica]

La prova de Kolmogórov-Smirnov es base en les funcions de distribució acumulades i es poden usar per veure si dues distribucions empíriques són diferents o si una distribució empírica és diferent d'una distribució ideal. La prova de Kuiper és útil si el domini de la distribució és cíclic com els dies de la setmana. Per exemple, es pot usar la prova de Kuiper per veure si el nombre de tornados varia durant l'any o si les vendes d'un producte varien segons el dia de la setmana o segons el dia del mes.

Bibliografia[modifica]

Notes[modifica]

  1. Sanz, 1999, p. 42.
  2. 2,0 2,1 Loeve, 1976, p. 167.
  3. Sanz, 1999, p. 43-47.
  4. Chung, 2001, p. 2.
  5. Chung, 2001, p. 9.
  6. Loeve, 1976, p. 177.
  7. Olver, 2010, p. 605, Fórmula 25.6.1.
  8. Chung, 2001, p. 10.
  9. Athreya, 2006, p. 47.
  10. Royden.
  11. Billingsley, 1986, p. 433.
  12. Billingsley, 1986, p. 434, Theorem 31.8.
  13. Chung, 2001, p. 12.
  14. Athreya, 2006, p. 134.
  15. Athreya, 2006, p. 215.
  16. Zwillinger, Daniel; Kokoska, Stephen. CRC Standard Probability and Statistics Tables and Formulae. CRC Press, 2010, p. 49. ISBN 978-1-58488-059-2. 
  17. Gentle, J.E.. Computational Statistics. Springer, 2009. ISBN 978-0-387-98145-1 [Consulta: 6 agost 2010]. [Pàgina?]
  18. Monti, K.L. «Folded Empirical Distribution Function Curves (Mountain Plots)». The American Statistician, 49, 1995, pàg. 342–345. DOI: 10.2307/2684570. JSTOR: 2684570.
  19. Xue, J. H.; Titterington, D. M. «The p-folded cumulative distribution function and the mean absolute deviation from the p-quantile». Statistics & Probability Letters, 81, 8, 2011, pàg. 1179–1182. DOI: 10.1016/j.spl.2011.03.014.<
  20. Sanz, 1999, p. 66-68.

Vegeu també[modifica]

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Funció de distribució