Funció de distribució acumulada

De Viquipèdia
Salta a la navegació Salta a la cerca
Funció de distribució acumulada per a la distribució normal.
Funció de densitat de probabilitat per a diverses distribucions normals. La corba vermella segueix la distribució normal estàndard, amb mitjana zero i variància la unitat.

En teoria de la probabilitat i estadística, la funció de distribució acumulada (funció de distribució o funció de densitat acumulada, o CDF pel seu acrònim en anglès cumulative distribution function) d'una variable aleatòria X de valors reals, evaluada en x, és la probabilitat que X prengui un valor inferior o igual a x.

En el cas de les distribucions contínues, dóna l'àrea sota la funció de densitat de probabilitat de menys infinit a x. Les funcions de distribució acumulada també serveixen per especificar la distribució de variables aleatòries multivariades.

Definició[modifica]

La funció de distribució acumulada d'una vairable X de valor real és la funció donada per:

on l'expressió a la dreta de l'igual representa la probabilitat que la variable aleatòria X prengui un valor inferior o igual a x. La probabilitat que X es trobi en l'interval (ab], on a  <  b, és doncs

En la definició de dalt, el signe "menor o igual a", "≤", és un conveni, no s'utilitza universalment (per exemple en la literatura acadèmica hungaresa s'utilitza el signe "<"), però és important en les distrucions discretes. L'ús correcte de les taules de la distribució binomial i la de Poisson depèn d'aquest conveni. És més, fórmules importants com la fórmula d'inversió de Paul Lévy per a la funció característica també es basen en aquesta formulació.

Si es tracta amb diverses variables aleatòries X, Y... les lletres corresponents que les designen s'utilitzen com a subíndexs, mentre que si només hi ha una variable aleatòria, el subíndex se sol obviar. El conveni marca l'ús de la F majúscula per a la funció de distribució acumulada, en contrast amb la f minúscula usada per a les funcions de densitat de probabilitat i les funcions de massa de probabilitat. Això aplica quan es treballa amb distribucions generals: algunes distribucions específiques tenen la seva pròpia notació, com és el cas de la distribució normal.

La CDF d'una variable aleatòria contínua X pot ser expressada com la integral de la seva funció de densitat de probabilitat ƒX com segueix:

En el cas de la variable aleatòria X que té una distribució amb una component discreta per x=b,

Si FX és contínua en b, això serà igual a zero i voldrà dir que que no hi ha component discret en b.

Propietats[modifica]

De dalt a baix:la funció de distribució acumulada d'una distribució de probabilitat discreta, d'una distribució de probabilitat contínua i d'una distribució que té una part discreta i una de contínua.

Tota funció de distribució acumulada F és una funció monòtonament creixent i contínua, cosa que la fa ser una funció càdlàg. És més:

Tota funció que reuneixi aquestes quatre propietats és una CDF, és a dir per tota funció d'aquest tipus, es pot definir una variable aleatòria que tingui aquesta funció com a funció de distribució acumulada.

Si X és una variable aleatòria purament discreta, llavors pren valors x1, x2, ... amb probabilitats pi = P(xi), llavors la CDF de X serà discontínua en els punts xi i constant entre aquests punts:

Si la CDF F de la variable aleatòria amb valors reals X és contínua, llavors X és una variable aleatòria contínua; si a més F és absolutament contínua, llavors existeix una funció Lebesgue-integrable f(x) tal que:

per tot valor real da i b. La funció f és igual a la derivada dF gairebé pertot, i rep el nom de funció de densitat de probabilitat de la distribució de X.

Exemples[modifica]

Com a exemple, suposi's que és una distribució uniforme en l'interval unitat [0, 1]. Llavors la seva CDF serà:

Suposi's ara que pren només els valors discrets de 0 i 1, amb igual probabilitat, és a dir una distribució de Bernoulli amb probabilitat d'èxit de 0.5. Llavors la CDF de vindrà donada per:

Funcions derivades[modifica]

Funció de distribució acumulada complementària (distribució cua)[modifica]

Sovint, és útil estudiar la qüestió oposada i preguntar-se amb quina probabilitat la variable aleatòria està per sobre un nivell en particular. Això s'anomena funció de distribució acumulada complementària o simplement distribució cua o excedència, i es defineix com:

Això té aplicacions en contrast d'hipòtesis estadístiques, per exemple, perquè el valor p d'un costat és la probabilitat d'observar un estadístic test com a mínim tan extrem com l'observat. Llavors, sempre que l'estadístic, T, té una distribució contínua, el valor p d'un costat ve simplement donat per la funció de distribució acumulada complementària: per un valor t observat en l'estadístic test:

En anàlisi de supervivència, s'anomena la funció de supervivència i es denota , mentre que el terme funció de fiabilitat és habitual en enginyeria.

Propietats
  • Com que quan , i de fet sempre i quan sigui finit.
Demostració: assumeixi's que la variable aleatòria X té una funció de denistat f, per tot
Llavors, reconeixent i reordenant els termes queda:
tal com s'havia dit.

Distribució acumulada plegada[modifica]

Exemple de la funció de distribució acumulada plegada per a una distribució normal amb una esperança de 0 i una desviació tipus de 1.

Mentre la gràfica d'una distribució acumulada sovint té una forma de S, una il·lustració alternativa és la distribució acumulada plegada o gràfica muntanya, que plega la meitat superior cap a baix,[2][3] que utilitza dues escales, una pel tram inferior i una pel superior. Aquesta forma emfasitza la mediana i la dispersió (específicament, la desviació mitjana respecte la mediana[4]) de la distribució o dels resultats empírics.

Funció de distribució inversa (funció quantil)[modifica]

Si la CDF F és estrictament creixent i contínua, llavors és l'únic nombre real tal que . En aquest cas, això defineix la funció de distribució inversa o la funció quantil.

Algunes distribucions no tenen una única funció inversa (per exemple en el cas en què per tot , fent que sigui constant). Aquest problema es pot solucionar definint, per , la funció de distribució inversa generalitzada:

  • Exemple 1: la mediana és .
  • Exemple 2: Sigui . S'anomena el 95è percentil.

Algunes propietats útils de la cdf inversa (que també es preserven en la definició de la funció de distribució inversa generalitzada) són:

  1. és creixent
  2. si i només si
  3. If té una distribució llavors és distribuïda com . Això s'usa en generació de nombres aleatoris usant el mètode de mostreig de la transformada inversa.
  4. Si és una col·lecció de variables aleatòries independents distribuïdes segons definides en el mateix espai de mostreig, llavors existeixen variables aleatòries tals que es distribueixen segons i que amb probabilitat 1 per tot .

Es pot usar la inversa de la cdf per traduir els resultat obtinguts per a la distribució uniforme a altres distribucions.

Cas multivariable[modifica]

Quan es treballa simultàniament amb més d'una variable aleatòria, també es pot definir la funció de distribució acumulada conjunta. Per exemple, per una parella de variables aleatòries X,Y, la CDF conjunta ve donada per:

on la part dreta de l'equació representa la probabilitat que la variable aleatòria X prengui un valor inferior o igual a x i que Y prengui un valor inferior o igual a y.

Tota CDF multivariables és:

  1. Monòticament ascendent per cadascuna de les variables,
  2. contínua cap a la dreta en cadascuna de les variables,

Ús en anàlisi estadística[modifica]

El concepte de funció de distribució acumulada apareix explícitament en anàlisis estadístiques de dues maneres similars. L'anàlisi de freqüències acumulades és l'anàlisi de la freqüència d'ocurrència de valors d'un fenomen menor que un valor de referència. La funció de distribució empírica és una estimació directa formal de la funció de distribució acumulada de la qual es poden derivar propietats estadístiques simples i que poden ser la base de diversos contrastos d'hipòtesi. Aquests testos serveixen per establir si hi ha proves que una certa mostra de dades ha sorgit d'una determinada distribució, o que dues determinades mostres de dades han sorgit de la mateixa distribució de població desconeguda.

Testos de Kolmogorov–Smirnov i Kuiper[modifica]

Article principal: Prova de Kolmogórov-Smirnov

La prova de Kolmogórov-Smirnov es base en les funcions de distribució acumulades i es poden usar per veure si dues distribucions empíriques són diferents o si una distribució empírica és diferent d'una distribució ideal. La prova de Kuiper és útil si el domini de la distribució és cíclic com els dies de la setmana. Per exemple, es pot usar la prova de Kuiper per veure si el nombre de tornados varia durant l'any o si les vendes d'un producte varien segons el dia de la setmana o segons el dia del mes.

Vegeu també[modifica]

Referències[modifica]

  1. Zwillinger, Daniel; Kokoska, Stephen. CRC Standard Probability and Statistics Tables and Formulae. CRC Press, 2010, p. 49. ISBN 978-1-58488-059-2. 
  2. Gentle, J.E.. Computational Statistics. Springer, 2009. ISBN 978-0-387-98145-1 [Consulta: 6 agost 2010]. [Pàgina?]
  3. Monti, K.L. «Folded Empirical Distribution Function Curves (Mountain Plots)». The American Statistician, 49, 1995, pàg. 342–345. DOI: 10.2307/2684570. JSTOR: 2684570.
  4. Xue, J. H.; Titterington, D. M. «The p-folded cumulative distribution function and the mean absolute deviation from the p-quantile». Statistics & Probability Letters, 81, 8, 2011, pàg. 1179–1182. DOI: 10.1016/j.spl.2011.03.014.<

Enllaços externs[modifica]

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Funció de distribució acumulada Modifica l'enllaç a Wikidata