Distribució hipergeomètrica

De Viquipèdia
Dreceres ràpides: navegació, cerca
Distribució hipergeomètrica
Funció de distribució de probabilitat
Paràmetres \begin{align}N&\in 1,2,\dots \\
 m&\in 0,1,2,\dots,N \\
 n&\in 1,2,\dots,N\end{align}\,
Domini \scriptstyle{k\, \in\, \max{(0,\, n+m-N)},\, \dots,\, \min{(m,\, n )}}\,
Funció de probabilitat (fp) {{{m \choose k} {{N-m} \choose {n-k}}}\over {N \choose n}}
Funció de distribució (cdf)
Mitjana n m\over N
Mediana
Moda \left \lfloor \frac{(n+1)(m+1)}{N+2} \right \rfloor
Variància nm(N-n)(N-m)\over N^2(N-1)
Coeficient de simetria \frac{(N-2m)(N-1)^\frac{1}{2}(N-2n)}{[nm(N-m)(N-n)]^\frac{1}{2}(N-2)}
Curtosi  \left[\frac{N^2(N-1)}{n(N-2)(N-3)(N-n)}\right]

\cdot\left[\frac{N(N+1)-6N(N-n)}{m(N-m)}\right. +\left.\frac{3n(N-n)(N+6)}{N^2}-6\right]

Entropia
Funció generadora de moments (mgf) \frac{{N-m \choose n} \scriptstyle{\,_2F_1(-n, -m; N - m - n + 1; e^{t}) } }
 {{N \choose n}} \,\!
Funció característica \frac{{N-m \choose n} \scriptstyle{\,_2F_1(-n, -m; N - m - n + 1; e^{it}) }}
{{N \choose n}}

La distribució hipergeomètrica, en estadística i teoria de probabilitat, és una distribució de probabilitat que descriu el nombre d'èxits en una seqüència de n extraccions d'una població finita sense reposició, això és el contrari de la distribució binomial, que descriu el nombre d'èxits d'extraccions amb reposició.[1]

Il·lustrem la notació en aquesta taula:

drawn not drawn total
white k mk m
black nk N + k − n − m N − m
total n N − n N


Segurament, la forma més fàcil d'entendre aquesta distribució és en termes d'un models d'urnes. Suposeu que heu d'extreure "n" boles sense reposició d'una urna que conté "N" boles en total, "m" de les quals són blanques. La distribució hipergeomètrica descriu la distribució del nombre de boles blanques de l'urna.

Una variable aleatòria X segueix la distribució hipergeomètrica amb paràmetres N, m i n si la probabilitat s'expressa per

 P(X=k) = {{{m \choose k} {{N-m} \choose {n-k}}}\over {N \choose n}},

on el coeficient binomial \tbinom{a}{b} es defineix per ser el coeficient de xb a l'expansió del polinomi (1 + x)a.

La probabilitat és positiva quan max(0, n + m − N) ≤ k ≤ min(mn).

La fórmula es pot entendre així: Hi ha \tbinom{N}{n} extraccions possibles (sense reposició). Hi ha \tbinom{m}{k} formes d'obtenir k boles blanques i \tbinom{N-m}{n-k} formes d'emplenar la resta de la mostra amb boles negres.

La suma de probabilitats per a tots els valors possibles de k és igual a 1, com es pot esperar; this is essentially Vandermonde's identity from combinatorics. Also note that the following identity holds:

 {{{m \choose k} {{N-m} \choose {n-k}}}\over {N \choose n}} = {{{n \choose k} {{N-n} \choose {m-k}}}\over {N \choose m}}

Distribució hipergeomètrica multivariable[modifica | modifica el codi]

Distribució hipergeomètrica multivariable, o multigeomètrica
Funció de distribució de probabilitat
Paràmetres c \in \mathbb{N}

(m_1,\ldots,m_c) \in \mathbb{N}^c N = \sum_{i=1}^c m_in \in [0,N]

Domini \left\{ \mathbf{k} \in \mathbb{Z}_{0+}^c \, : \, \sum_{i=1}^{c} k_i = n \right\}
Funció de densitat (pdf) \frac{\prod_{i=1}^{c} \binom{m_i}{k_i}}{\binom{N}{n}}
Funció de distribució (cdf)
Mitjana E(X_i) = \frac{n m_i}{N}
Mediana
Moda
Variància var(X_i) = \frac{m_i}{N} \left(1-\frac{m_i}{N}\right) n \frac{N-n}{N-1}

cov(X_i,X_j) = -\frac{n m_i m_j}{N^2} \frac{N-n}{N-1}

Coeficient de simetria
Curtosi
Entropia
Funció generadora de moments (mgf)
Funció característica

El model d'una urna amb boles blanques i negres es pot generalitzar al cas on hi ha més de dos colors de boles. Si hi ha mi boles de color i a l'urna i s'extreuen n boles aleatòriament sense reposició, aleshores el nombre de boles de cada color de la mostra (k1,k2,...,kc) segueix la distribució hipergeomètrica multivariable, també anomenada multigeomètrica. Aquesta té la mateixa relació amb la distribució multinomial que la distribució hipergeomètrica té amb la distribució binomial. La distribució multinomial és la distribució "amb reposició" i la hipergeomètrica multivariable és la distribució "sense reposició".

Les propietats d'aquesta distribució es mostren a la taula següent, on c és el nombre de colors diferents i N=\sum_{i=1}^{c} m_i és el nombre total de boles.

Exemple[modifica | modifica el codi]

Suposeu que hi ha 5 boles negres, 10 blanques i 15 vermelles en una urna. Les remeneu i agafeu aleatòriament sis boles sense reposició. Quina és la probabilitat que agafeu exactament dues de cada color?

 \Pr(2\text{ black}, 2\text{ white}, 2\text{ red}) = {{{5 \choose 2}{10 \choose 2} {15 \choose 2}}\over {30 \choose 6}} = .079575596816976

Nota: Quan agafeu sis boles sense reposició, el nombre esperat de boles negres és 6*(5/30) = 1, el nombre esperat de boles blanques és 6*(10/30) = 2, i el nombre esperat de boles vermelles és 6*(15/30) = 3.

Vegeu també[modifica | modifica el codi]

Referències[modifica | modifica el codi]

  1. Alberto Luceño Vázquez, Francisco Javier González, Francisco Javier González Ortiz [et al]. Métodos estadísticos para medir, describir y controlar la variabilidad. Universidad de Cantabria, January 2005, p. 144–. ISBN 9788481023756 [Consulta: 18 juny 2011].