Teorema del límit central

De Viquipèdia
Dreceres ràpides: navegació, cerca

En matemàtiques, el Teorema del límit central (o Teorema central del límit) indica que la distribució de la suma estandarditzada de variables aleatòries independents que tenen una variància finita tendeix a una distribució normal estàndard quan el nombre de termes de la suma creix indefinidament. Com a conseqüència d'aquest teorema, s'explica el fet que moltes variables aleatòries siguin aproximadament normals i justifica la importància teòrica i pràctica de la distribució normal.

Aquest teorema, pertanyent a la Teoria de la probabilitat, troba aplicació en molts camps relacionats, com ara l'Estadística inferencial o la Teoria de renovació.

Teorema[modifica | modifica el codi]

Enunciat[modifica | modifica el codi]

Existeixen diverses versions del teorema (segons les hipòtesis escollides). L'enunciat més simple és aquest:

Teorema de Lindeberg-Lévy:

Donada una successió (X_n)_{\,n\, \in\, \mathbb{N}^\ast} de variables aleatòries (definides sobre el mateix espai de probabilitat) independents i idènticament distribuïdes (abreujadament i.i.d), amb variància finita, es posa:

\ \mu = \operatorname{E}(X_n) i \sigma = \sqrt{\operatorname{Var}(X_n)}, on se suposa que \sigma és diferent de 0.

Si es defineix per a tot n:

\overline{X_n} = \frac{X_1 + \cdots + X_n}{n} i
\overline{X_n}\,^\ast =\frac{\overline{X_n} - \operatorname{E}\left(\overline{X_n}\right)}{\sqrt{\operatorname{Var}\left(\overline{X_n}\right)}} = \frac{\overline{X_n} - \mu}{\left(\frac{\sigma}{\sqrt{n}}\right)} (variable aleatòria estandarditzada associada a \overline{X_n} )

aleshores la successió \Big(\overline{X_n}\,^\ast\Big)_{\,n\, \in\, \mathbb{N}^\ast} convergeix en distribució cap a una variable aleatòria normal estàndard.
Altrament dit:

\forall\, t \in \mathbb{R}, \mathbb{P}\left(\overline{X_n}\,^\ast \leq t\right) \to \Phi(t) quan n \to +\infty (vegeu límit d'una successió),

on \Phi és la funció de distribució normal: per a tot real t,

\ \Phi(t) = \int_{-\infty}^{\,t}\frac{1}{\sqrt{2\,\pi}}\,\mathrm{e}^{-\frac{u^2}{2}}\, du .

Remarca: un enunciat lleugerament diferent (però equivalent) és aquest, amb les mateixes hipòtesis:

Si es defineix per a tot n:

S_n = X_1 + \cdots + X_n i
S_n^\ast =\frac{S_n - \operatorname{E}\left(S_n\right)}{\sqrt{\operatorname{Var}\left(S_n\right)}} = \frac{S_n - n\,\mu}{\sigma\, \sqrt{n}} (variable aleatòria estandarditzada associada a S_n )

aleshores la successió \left(S_n^\ast\right)_{\,n\, \in\, \mathbb{N}^\ast} convergeix en distribució cap a una variable aleatòria normal estàndard.

Altrament dit:

\forall\, t \in \mathbb{R}, \mathbb{P}\left(S_n^\ast \leq t\right) \to \Phi(t) quan n \to +\infty.

(en efecte, és clar que per a tot n, S_n^\ast = \overline{X_n}\,^\ast ).

Interpretació[modifica | modifica el codi]

En estadística, el teorema del límit central s'interpreta i s'utilitza així: sigui X_1, X_2, ..., X_n una mostra aleatòria de mida n d'una distribució amb mitjana μ i variància σ2 finites (σ ≠ 0).

Llavors, si n és suficientment gran (una condició freqüent és: n \geq 30):

  • la variable aleatòria \overline{X} =\frac{1}{n}\sum_{i=1}^{n}X_i (mitjana mostral) té aproximadament una distribució normal amb mitjana \mu_{\overline{X}} = \mu i variància \sigma_{\overline{X}}^2 = \sigma^2 / n;
  • també es compleix que la variable aleatòria S = X_1 + \cdots + X_n té aproximadament una distribució normal amb mitjana \mu_S = n\, \mu i variància {\sigma_S}^2 = n \sigma^2.

Com més gran sigui el valor de n, millor serà l'aproximació. L'aproximació entre les dues distribucions és, en general, major en el centre que en els extrems o cues, motiu pel qual s'anomena "Teorema del límit central" ("central" fa referència al límit de la successió estandarditzada, més que no al teorema).

Importància pràctica[modifica | modifica el codi]

Aquesta propietat d'aproximació té aplicacions pràctiques importants. Sovint, no es coneix la distribució "exacta" d'una variable aleatòria, però es pot aproximar per una distribució normal; fins i tot quan es coneix la distribució exacta, pot resultar més senzill aproximar-la per una distribució normal — sempre que sigui justificat.

Demostració del teorema de Lindeberg-Lévy[modifica | modifica el codi]

Per demostrar aquest teorema, s'utilitza les funcions característiques i el teorema de continuïtat de Lévy.


Il·lustració gràfica[modifica | modifica el codi]

Una densitat de probabilitat

Densitat de probabilitat inicial[modifica | modifica el codi]

La densitat de probabilitat f_1 representada aquí és discontínua i no té cap simetria. Si una variable aleatòria segueix la distribució definida per aquesta densitat, aleshores la seva mitjana és 0 i la seva variància és 1.

Considerem aquí variables aleatòries independents i idènticament distribuïdes X_1, X_2, X_3 ... que segueixen la distribució definida per aquesta densitat.


Densitat de la suma de dues variables

Suma de dues variables aleatòries[modifica | modifica el codi]

Després determinem la densitat f_2 de S_2 = X_1 + X_2 (per convolució de f_1 per f_1).

La densitat de probabilitat representada és la de la variable aleatòria estandarditzada S_2^\ast associada a S_2.

Aquesta densitat ja és més regular (més "llisa") que la densitat inicial. Tanmateix, s'hi veuen punts angulosos.


Densitat de la suma de tres variables

Suma de tres variables aleatòries[modifica | modifica el codi]

Després determinem la densitat f_3 de S_3 = X_1 + X_2 + X_3 (per convolució de f_1 per f_2).

La densitat de probabilitat representada és la de la variable aleatòria estandarditzada S_3^\ast associada a S_3.

Aquesta densitat és encara més regular que la precedent.


Densitat de la suma de quatre variables

Suma de quatre variables aleatòries[modifica | modifica el codi]

Finalment, determinem la densitat f_4 de S_4 = X_1 + X_2 + X_3 + X_4 (per convolució de f_1 per f_3).

La densitat de probabilitat representada és la de la variable aleatòria estandarditzada S_4^\ast associada a S_4.

A ull nu, no es pot distingir aquesta densitat de la densitat normal estàndard.

Cas particular: el teorema de De Moivre-Laplace[modifica | modifica el codi]

Aquest cas particular del teorema del límit central en va ser històricament la primera atestació.

S'enuncia així:

Sigui una successió (X_n)_{\,n\, \in\, \mathbb{N}^\ast} de variables aleatòries de Bernoulli independents amb paràmetre (comú) p, on 0 < p < 1. Per a tot n,

\operatorname{E}(X_n) = p\, \text{ i }\,\operatorname{Var}(X_n) = p\, (1 - p) són finites.

El teorema del límit central és aplicable. Si es defineix per a tot n:

\overline{X_n} = \frac{X_1 + \cdots + X_n}{n} i
\overline{X_n}\,^\ast =\frac{\overline{X_n} - \operatorname{E}\left(\overline{X_n}\right)}{\sqrt{\operatorname{Var}\left(\overline{X_n}\right)}} = \frac{\overline{X_n} - p}{\sqrt{\frac{p\, (1 - p)}{n}}} (variable aleatòria estandarditzada associada a \overline{X_n} )

aleshores la successió \Big(\overline{X_n}\,^\ast\Big)_{\,n\, \in\, \mathbb{N}^\ast} convergeix en distribució cap a una variable aleatòria normal estàndard.


O encara, si es defineix per a tot n:

S_n = X_1 + \cdots + X_n i
S_n^\ast =\frac{S_n - \operatorname{E}(S_n)}{\sqrt{\operatorname{Var}(S_n)}} = \frac{S_n - n\,p}{\sqrt{n\,p\,(1 -p)}} (variable aleatòria estandarditzada associada a S_n )

aleshores la successió (S_n^\ast)_{\,n\, \in\, \mathbb{N}^\ast} convergeix en distribució cap a una variable aleatòria normal estàndard.

De Moivre va estudiar el cas de les variables aleatòries de Bernoulli amb paràmetre p = \frac{1}{2} (joc de cara o creu) i Laplace el va generalitzar ulteriorment.

Interpretació[modifica | modifica el codi]

Si n és suficientment gran, la variable aleatòria

S = X_1 + \cdots + X_n

aproximadament una distribució normal amb mitjana \mu_S = n\, p i variància {\sigma_S}^2 = n\, p\, (1 -p) .

Com que S segueix exactament la distribució binomial de paràmetres n i p, el teorema de De Moivre-Laplace es pot interpretar en termes d'aproximació de la distribució binomial \mathcal{B}(n,\, p) per la distribució normal \mathcal{N}(n\, p,\, n\, p\, (1 - p)) .

Remarca:
Si n és suficientment gran, la variable aleatòria \overline{X_n} té aproximadament una distribució normal amb mitjana \ p i variància \frac{p\, (1 - p)}{n}.

En estadística inferencial, es pot utilitzar aquesta aproximació per construir intervals de confiança per a una proporció desconeguda p.

Aplicació: simulació de la distribució normal estàndard[modifica | modifica el codi]

Sigui una successió (X_n)_{\,n\, \in\, \mathbb{N}^\ast} de variables aleatòries independents i idènticament distribuïdes amb distribució uniforme contínua sobre l'interval [0, 1]. Se sap que per a tot n,

\operatorname{E}(X_n) = \frac{1}{2}\, \text{ i }\,\operatorname{Var}(X_n) = \frac{1}{12} són finites.

El teorema del límit central és aplicable. Si es defineix per a tot n:

S_n = X_1 + \cdots + X_n i
T_n = S_n^\ast =\frac{S_n - \operatorname{E}\left(S_n\right)}{\sqrt{\operatorname{Var}\left(S_n\right)}} = \frac{S_n - \frac{n}{2}}{\sqrt{\frac{n}{12}}} ,

aleshores la successió (T_n)_{\,n\, \in\, \mathbb{N}^\ast} convergeix en distribució cap a una variable aleatòria normal estàndard. Tenint en compte la simetria de la distribució uniforme contínua sobre l'interval [0, 1], la convergència és molt ràpida: es considera que a partir del valor n = 12, l'aproximació de la distribució de T_n per la distribució normal estàndard és excel·lent; en particular, es pot considerar que la distribució de

T_{12} = S_{12} - 6 = X_1 + \cdots + X_{12} - 6

és pràcticament normal estàndard.

En un llenguatge de programació on existeix un generador de nombres pseudoaleatoris (sovint anomenat "random") simulant una variable aleatòria amb distribució uniforme contínua sobre l'interval [0, 1], és fàcil simular una variable aleatòria (pràcticament) normal estàndard. Heus aquí un algorisme en Pascal:

T := - 6.0;
for k := 1 to 12 do T : = T + random;

La variable T, que simula la variable aleatòria T_{12}, és (pràcticament) normal estàndard.

Contraexemple[modifica | modifica el codi]

En totes les versions del teorema del límit central, se suposa l'existència de la variància (finita) de cadascuna de les variables aleatòries de la successió.

Sigui una successió (X_n)_{\,n\, \in\, \mathbb{N}^\ast} de variables aleatòries independents i idènticament distribuïdes amb distribució de Cauchy simètrica \mathcal{C}(0,\, \gamma); no tenen ni mitjana ni variància.

Aleshores, per a tot n, la variable aleatòria

\overline{X_n} = \frac{X_1 + \cdots + X_n}{n}

segueix la mateixa distribució de Cauchy \mathcal{C}(0,\, \gamma) que cadascuna de les variables aleatòries X_1,\, X_2, \dots (és fàcil demostrar-ho mitjançant les funcions característiques): no hi ha convergència cap a una distribució normal.

Bibliografia[modifica | modifica el codi]

  • De Moivre (Abraham) — The Doctrine of Chances, or a Method of Calculating the Probabilities of Events in Play. — London, 1756
  • Laplace (Pierre-Simon) — Théorie analytique des probabilités. — Paris, 1812
  • Feller (William) — An Introduction to Probability Theory and Its Applications. (vol. 2) — New York, 1971. John Wiley & Sons

Enllaços externs[modifica | modifica el codi]

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Teorema del límit central Modifica l'enllaç a Wikidata