Desviació tipus
La desviació tipus (σ o S), també coneguda com desviació estàndard o desviació típica i abreviada Desv, SD o StDev (de l'anglès Standard Deviation) és una mesura de variabilitat o diversitat que s'usa en estadística i teoria de la probabilitat.[1][2] Mostra quanta variació o "dispersió" hi ha respecte la mitjana. Una desviació tipus baixa indica que els punts de dades tendeixen a ser propers a la mitjana, mentre que una desviació tipus alta indica que les dades s'estenen al llarg d'un gran rang de valors.
Tècnicament, la desviació estàndard d'una població estadística, conjunt de dades o distribució de probabilitat és l'arrel quadrada de la seva variància. És algebraicament més simple tot i que menys robusta que la desviació mitjana absoluta.[3][4] Una propietat útil de la desviació tipus és que, a diferència de la variància, està expressada en les mateixes unitats que les de les dades.
A part d'usar-se per expressar la variabilitat d'una població, la desviació estàndard també s'usa per mesurar la confiança en conclusions estadístiques. Per exemple, el marge d'error en una enquesta de dades es determina calculant la desviació estàndard esperada dels resultats si la mateixa enquesta fos duta a terme múltiples vegades. El marge d'error és normalment cap al doble de la desviació estàndard: el radi d'un interval de confiança al 95%. En ciència, els investigadors solen donar la desviació estàndard de les dades experimentals. També és important en finances, en les quals la desviació estàndard de la taxa de retorn d'una inversió econòmica és la mesura de la volatilitat d'aquesta.
Quan la desviació estàndard es refereix a una distribució de probabilitats, una variable aleatòria o una població se l'anomena desviació estàndard poblacional i es representa amb la lletra σ. Quan es refereix a un conjunt de dades (mostra) se l'anomena desviació estàndard mostral o estimador de la desviació estàndard, ja que s'empra com a estimador de la desviació estàndard poblacional, i es representa per la lletra S.
Exemple bàsic [modifica]
A continuació es mostra el procés per calcular la desviació estàndard d'un conjunt de dades en forma d'exemple. Es considera una població estadística amb els següents valors:
Aquestes vuit dades tenen una mitjana de 5:
Per a calcular la desviació estàndard de la població, primer es calcula la diferència de cada dada respecte la mitjana i després s'eleva al quadrat el resultat de cadascun:
Per acabar, es calcula la mitjana d'aquests valors i se'n fa l'arrel quadrada:
Aquesta quantitat és la desviació estàndard poblacional, i és igual a l'arrel quadrada de la variància. La fórmula és vàlida només si els vuit valors amb els quals s'ha començat conformen la població completa; si, pel contrari, fossin una mostra aleatòria extreta d'una de més gran, llavors s'hauria d'haver usat un valor de 8-1 = 7 al denominador, i la quantitat obtinguda seria la desviació estàndard mostral. Vegeu la secció Estimació per a més detalls.
Definició [modifica]
Sigui X una variable aleatòria de valor mitjà μ:
Aquí l'operador E denota la mitjana o esperança matemàtica de X. La desviació estàndard de X és la quantitat
Això és, la desviació estàndard σ (sigma) és l'arrel quadrada de la variància de X o, dit d'una altra manera, és l'arrel quadrada del valor mitjà de (X − μ)2.
La desviació estàndard d'una distribució de probabilitat és la mateixa que aquella d'una variable aleatòria que segueix aquesta distribució. No totes les variables aleatòries tenen desviació estàndard, ja que l'esperança no té per què existir sempre. Per exemple, la desviació estàndard d'una variable aleatòria que segueix una distribució de Cauchy no està definida perquè el seu valor esperat μ no està definit.
Variable aleatòria discreta [modifica]
En el cas que X agafi valors aleatoris d'un conjunt de dades finit x1, x2, …, xN,en el qual cada valor té la mateixa probabilitat, la desviació estàndard és:
O bé, fent servir la notació de sumatori:
Si en comptes de tenir iguals probabilitats els valors tenen diferents probabilitats (x1 té probabilitat p1, x2 té probabilitat p2, ..., xN té probabilitat pN) la desviació estàndard és:
Variable aleatòria contínua [modifica]
La desviació estàndard d'una variable aleatòria contínua X amb una funció de densitat de probabilitat p(x) és:
Les integrals són integrals definides amb la x variant al llarg del conjunt de possibles valors de la variable aleatòria X.
En el cas d'una família paramètrica de distribucions, la desviació estàndard pot ser expressada en termes de paràmetres. Per exemple, en el cas de la distribució log-normal amb paràmetres μ i σ2 la desviació estàndard és [(exp(σ2) − 1)exp(2μ + σ2)]1/2.
Estimació [modifica]
Es pot trobar la desviació estàndard per una població sencera en casos (com en el test estandarditzat) en els quals cada membre d'una població està mostrat. En casos en els quals això no es pot fer, la desviació estàndard σ s'estima examinant una mostra aleatòria extreta de la població. Alguns estimadors es llistes a continuació.
Amb la desviació estàndard de la mostra [modifica]
Un estimador per σ que de vegades s'usa és la desviació estàndard de la mostra, denotada per sN i definida així:
On
són els valors observats dels elements de la mostra i
és el valor mitjà d'aquestes observacions, mentre que el denominador N és la mida de la mostra.
Aquest estimador té un error quadràtic mitjà uniforme més petit que el de la desviació estàndard mostral i és l'estimador de màxima versemblança quan la població està distribuïda de manera normal; tanmateix, quan s'aplica a una mostra petita o mitjana tendeix a ser massa petit i és un estimador esbiaixat.
La desviació estàndard de la mostra és la mateixa que la desviació estàndard poblacional per una variable aleatòria discreta que assumeix els seus valors precisament del conjunt de dades, en el qual la probabilitat per cada valor és proporcional a la seva multiplicitat dins del propi conjunt.
Amb la desviació estàndard mostral [modifica]
L'estimador més comú per a σ és una versió ajustada anomenada desviació estàndard mostral, denotat per s i definit així:
On
són els valors observats dels objectes de la mostra i
és el valor mitjà d'aquestes observacions. Aquesta correcció (l'ús de N − 1 en comptes de N) es coneix com correcció de Bessel; la raó per aquesta correcció és que s2 és un estimador sense biaix per la variància σ2 de la població, si aquesta variància existeix i els valors mostrals són extrets independentment i amb substitució. De totes maneres, s no és un estimador sense biaix per la desviació estàndard σ; tendeix a sobreestimar la desviació estàndard poblacional.
El terme desviació estàndard de la mostra s'usa per l'estimador sense corregir (que usa N al denominador) mentre que el terme desviació estàndard mostral s'usa per l'estimador corregit (que usa N − 1). El denominador N − 1 és el nombre de graus de llibertat al vector de residuals,
.[5]
Altres estimadors [modifica]
- Vegeu també: Estimació sense biaix de la desviació estàndard i Biaix estadístic
Tot i que es coneix un estimador sense biaix per a σ quan la variable aleatòria és normal, la fórmula és complicada i necessita correccions menors.
Identitats i propietats matemàtiques [modifica]
La desviació estàndard és invariant sota canvis en localització, i s'escala directament amb l'escala de la variable aleatòria. Per tant, per una constant c i dues variables aleatòries X i Y:
La desviació estàndard de la suma de dues variables aleatòries es pot relacionar amb les seves desviacions estàndard individuals i la covariància entre elles:
On
i
signifiquen variància i covariància respectivament.
El càlcul de la suma de desviacions al quadrat es pot relacionar als moments calculats directament de les dades. La desviació estàndard de la mostra es pot computar com:
La desviació estàndard mostral es pot calcular com:
Per una població finita amb igual probabilitat a tots els punts, es té:
Per tant, la desviació estàndard és igual a l'arrel quadrada de la mitjana dels quadrats menys el quadrat de la mitjana.
Interpretació i aplicació [modifica]
La desviació estàndard és una mesura del grau de dispersió de les dades respecte al valor mitjà; dit d'una altra manera, la desviació estàndard és simplement el "promig" o variació esperada respecte a la mitjana aritmètica.
Per exemple, les tres mostres {0, 0, 14, 14}, {0, 6, 8, 14} i {6, 6, 8, 8} tenen cada una una mitjana de 7. Les seves desviacions estàndard són 7, 5 i 1 respectivament. La tercera població té una desviació estàndard molt més petita que les altres dues perquè tots els seus valors són propers a 7. Dit de manera planera, la desviació estàndard diu com de lluny tendeixen a estar els punts dades de la mitjana. Tindrà, a més, les mateixes unitats que els punts de dades mateixos. Si, per exemple, el conjunt de dades {0, 6, 8, 14} representa les edats d'una població de quatre familiars en anys, la desviació mitjana és de 5 anys. Com un altre exemple, la població {1000, 1006, 1008, 1014} pot representar la distància recorreguda per quatre atletes mesurada en metres; llavors, la mitjana de distància recorreguda és de 1007 metres, i la desviació estàndard és de 5 metres.
La desviació estàndard es pot interpretar com una mesura d'incertesa. La desviació estàndard d'un grup repetit de mesures dóna la precisió d'aquestes. Quan es vol determinar si un grup de mesures està d'acord amb un model teòric, la desviació estàndard d'aquestes mesures és de vital importància: si la mitjana de les mesures està massa allunyada de la predicció (amb la distància mesurada en desviacions estàndard), llavors es considera que les mesures experimentals contradiuen la teoria, la qual cosa és coherent ja que les mesures cauen fora del rang de valors en el qual seria raonable esperar que estiguessin si el model teòric fos correcte.
La desviació estàndard és un dels tres paràmetres de tendència central: mostra l'agrupació de les dades al voltant d'un valor central (la mitjana).
Desigualtat de Txebixev [modifica]
Una observació no sol estar més lluny que unes poques desviacions estàndard de la mitjana. La desigualtat de Txebixev assegura que, per totes les distribucions per les quals està definida la desviació estàndard, la quantitat de dades dins un nombre de desviacions estàndard de la mitjana és com a mínima tant com està establert en la taula següent:
| Població mínima | Distància de la mitjana |
|---|---|
| 50% | √2 |
| 75% | 2 |
| 89% | 3 |
| 94% | 4 |
| 96% | 5 |
| 97% | 6 |
[6] |
![]() |
Regles per dades distribuïdes normalment [modifica]
El teorema del límit central postula que la distribució d'una mitjana de moltes variables aleatòries independents i idènticament distribuïdes tendeix cap a la famosa distribució en forma de campana (distribució normal) amb una funció de densitat de probabilitat de:
On μ és l'esperança matemàtica de les variables aleatòries i σ equival a la desviació estàndard de la seva distribució divida per n1/2 i n és el nombre de variables aleatòries. La desviació estàndard és doncs només una variable d'escala que ajusta com d'ampla serà la corba, tot i que apareix en la constant normalitzant.
Si una distribució de dades és aproximadament normal llavors la proporció de dades dins de z desviacions estàndard de la mitjana és definida per:
- Proporció =

On
és la funció error. Si la distribució de dades és aproximadament normal llavors prop del 68% dels valors de les dades estan dins d'una desviació estàndard de la mitjana (matemàticament, μ ± σ, on μ és la mitjana aritmètica), prop del 95% estan dins dues desviacions estàndard (μ ± 2σ) i prop del 99.7% cauen dins tres desviacions estàndard (μ ± 3σ). Això es coneix com la regla 68-95-99,7.
Per diversos valors de z, el percentatge de valors esperats en caure dins i fora l'interval simètric CI = (−zσ, zσ) són els següents:
| zσ | Percentatge dins el CI | Percentatge fora el CI | Fracció fora el CI |
|---|---|---|---|
| 0,674σ | 50% | 50% | 1 / 2 |
| 1σ | 68,2689492% | 31,7310508% | 1 / 3,1514872 |
| 1,645σ | 90% | 10% | 1 / 10 |
| 1,960σ | 95% | 5% | 1 / 20 |
| 2σ | 95,4499736% | 4,5500264% | 1 / 21,977895 |
| 2,576σ | 99% | 1% | 1 / 100 |
| 3σ | 99,7300204% | 0,2699796% | 1 / 370,398 |
| 3,2906σ | 99,9% | 0,1% | 1 / 1000 |
| 4σ | 99,993666% | 0,006334% | 1 / 15.787 |
| 5σ | 99,9999426697% | 0,0000573303% | 1 / 1744278 |
| 6σ | 99,9999998027% | 0,0000001973% | 1 / 506.800.000 |
| 7σ | 99,999 999 999 7440% | 0,0000000002560% | 1 / 390700000000 |
Relació entre la desviació estàndard i la mitjana [modifica]
La mitjana i la desviació estàndard d'un conjunt de dades normalment es donen conjuntament. En cert sentit, la desviació estàndard és la mesura "natural" de la dispersió estadística si el centre de les dades es mesura sobre la mitjana; això passa perquè la desviació estàndard des de la mitjana és menor que des de qualsevol altre punt. L'enunciat precís és el següent: es suposa que x1, ..., xn són nombres reals i es defineix la funció:
Usant càlcul o completant el quadrat és possible demostrar que σ(r) té un mínim únic a la mitjana:
La variabilitat també pot ser mesurada pel coeficient de variació, que és la proporció de la desviació estàndard respecte la mitjana. És un nombre adimensional.
Sovint es vol alguna informació sobre la precisió de la mitjana obtinguda. La desviació estàndard de la mitjana està relacionada amb la desviació estàndard de la distribució per:
On N és el nombre d'observacions a la mostra usada per estimar la mitjana. Això es pot provar fàcilment amb:
Per la qual cosa:
I com a resultat:
Mètodes ràpids de càlcul [modifica]
- Vegeu també: Algorismes per calcular la variància
Les dues següents fórmules poden representar una desviació estàndard contínua. Un conjunt de tres sumes de potències s0, s1, s2 són cadascuna computada sobre un conjunt de N valors de x, denotat com x1, ..., xN:
Cal notar que s0 eleva x a la potència zero, i com que x0 és sempre 1, s0 s'evalua a N.
Donats els valors d'aquests tres sumatoris, els valors s0, s1, s2 poden ser usats en qualsevol moment per calcular la desviació estàndard actual:
De manera similar, per la desviació estàndard mostral:
En implementació en ordinadors, quan les tres sumes sj esdevenen molt gran es necessita considerar l'error d'arrodoniment i el desbordament aritmètic. El mètode a continuació calcula el mètode de les sumes amb errors d'arrodoniment reduïts:
On A és el valor mitjà.
Variància mostral:
Variància estàndard:
Càlcul ponderat [modifica]
Quan els valors xi estan ponderats amb pesos desigual wi, les sumesde potències s0, s1, s2 són computades cadascuna com:
I les equacions de desviació estàndard romanen sense canviar. Cal notar que s0 és ara la suma dels pesos i no el nombre de mostres N.
El mètode incremental amb errors d'arrodoniment reduïts també pot ser aplicat, però amb alguna complexitat addicional. S'ha de computar una suma de pesos:
I els llocsm on s'usa 1/i a sobre han de ser reemplaçats per wi/Wi:
En la divisió final:
I:
On n és el nombre total d'elements i n' és el nombre d'elements amb pesos diferents de zero.
Les fórmules de sobre esdevenen iguals que les fórmules simplificades de seccions anteriors si els pesos s'assumeixen tots iguals a la unitat.
Combinació de desviacions estàndard [modifica]
Estadístiques basades en la població [modifica]
Les poblacions de conjunts, que es poden sobreposar, es poden calcular de manera simple de la manera següent:
Les desviacions estàndard de sub-poblacions que no es sobreposen (X ∩ Y = ∅) poden ser agregades de la següent manera si la mida (actual o relativa a un altre) i les mitjanes de cadascuna són conegudes:
Per un cas més general de M poblacions que no es sobreposen, X1 fins a XM, i la població agregada
:
On:
Si la mida (actual o relativa a un altre), la mitjana i la desviació estàndard de les dues poblacions que es sobreposen són conegudes per les poblacions i també per la seva intersecció, llavors la desviació estàndard de la població general pot ser calculada de la següent manera:
Si dos o més conjunts de dades són afegits punt per punt, la desviació estàndard del resultat pot ser calculada si es coneix la desviació estàndard de cada conjunt de dades i la covariància de cada parell de conjunts de dades:
Pel cas especial en el qual no existeix correlació entre cap parell de conjunts de dades, la relació es redueix al valor eficaç:
Estadístiques basades en la mostra [modifica]
Les desviacions estàndard de sub-mostres que no es sobreposen (X ∩ Y = ∅) poden ser agregades com segueix si es coneixen les seves mides i mitjanes:
Pel cas més general de M conjunts de dades que no es sobreposen, X1 fins a XM, i el conjunt de dades agregades
:
On:
Si es coneixen la mida, mitjana i desviació estàndard de dos mostres que se sobreposen per les mostres i també per la seva intersecció, llavors la desviació estàndard de la mostra agregada encara pot ser calculada. En general:
Història [modifica]
El terme desviació estàndard va ser usat per primera vegada[7] per Karl Pearson[8] l'any 1894; aquest l'usava sovint en les seves conferències. Fou un reemplaçament per noms alternatius més antics per la mateixa idea: per exemple, Gauss usava error mitjà.[9]
Referències [modifica]
- ↑ «Desviació tipus». L'Enciclopèdia.cat. Barcelona: Grup Enciclopèdia Catalana.
- ↑ Concise Encyclopedia of Mathematics: p. 1721
- ↑ Gauss, Carl Friedrich. «Bestimmung der Genauigkeit der Beobachtungen». Zeitschrift für Astronomie und verwandt Wissenschaften, 1, 1816, p. 187–197.
- ↑ Walker, Helen. Studies in the History of the Statistical Method. Baltimore, MD: Williams & Wilkins Co, 1931, p. 24–25.
- ↑ «UsableStats: Population vs Sample Standard Deviation» (en anglès).
- ↑ Ghahramani, Saeed (2000). Fundamentals of Probability (2a ed). Prentice Hall: New Jersey. p. 438.
- ↑ Dodge, Yadolah. The Oxford Dictionary of Statistical Terms. Oxford University Press, 2003. ISBN 0-19-920613-9.
- ↑ Pearson, Karl. «On the dissection of asymmetrical frequency curves». Phil. Trans. Roy. Soc. London, Series A, 185, 1894, p. 719–810.
- ↑ Miller, Jeff. «Earliest Known Uses of Some of the Words of Mathematics».
Bibliografia [modifica]
- Weisstein, Eric W. Chapman&Hall. CRC Concise Encyclopedia of Mathematics (en anglès), 1999. ISBN 0-8493-9640-9.
Vegeu també [modifica]
Enllaços externs [modifica]
| A Wikimedia Commons hi ha contingut multimèdia relatiu a: Desviació tipus |
- «Glossari d'estadística». Edu365.cat.
- «A simple way to understand Standard Deviation» (en anglès).
- «Online Standard Deviation Calculator» (en anglès).
- «A Guide to Understanding & Calculating Standard Deviation» (en anglès).
- «C++ Source Code» (en anglès). (llicència lliure). Implementació en C++ del càlcul de la mitjana, variància i desviació estàndard.
- «Interactive Demonstration and Standard Deviation Calculator» (en anglès).
- «Standard Deviation – an explanation without maths» (en anglès).
- «Standard Deviation, an elementary introduction» (en anglès).
- «Standard Deviation, a simpler explanation for writers and journalists» (en anglès).
- «Standard Deviation Calculator» (en anglès).
- «Texas A&M Standard Deviation and Confidence Interval Calculators» (en anglès).
- «The concept of Standard Deviation is shown in this 8 m. tall Probability Machine (named Sir Francis) comparing stock market returns to the randomness of the beans dropping through the quincunx pattern. de Index Funds Advisors IFA.com]» (en anglès).
|
|||||||||||||||||||||||||





![\operatorname{E}[X] = \mu.\,\!](http://upload.wikimedia.org/math/c/b/9/cb960cd03bc3c0752361436ef10978f4.png)
![\sigma = \sqrt{\operatorname{E}\left[(X - \mu)^2\right]}](http://upload.wikimedia.org/math/2/4/c/24cc25d1aa6d93fada2333ba6163c29a.png)
![\sigma = \sqrt{\frac{1}{N}\left[(x_1-\mu)^2 + (x_2-\mu)^2 + \cdots + (x_N - \mu)^2\right]}, {\rm \ \ on\ \ } \mu = \frac{1}{N} (x_1 + \cdots + x_N),](http://upload.wikimedia.org/math/2/a/a/2aae6ec4be599ad50d5f47a55a02f666.png)








![\operatorname{Desv}(X) = \sqrt{E[X-E(X)]^2} = \sqrt{E[X^2] - (E[X])^2}.](http://upload.wikimedia.org/math/6/f/2/6f2ca31d71bd0f7f951fa44c00168d6d.png)
![\operatorname{Desv}(X) = \sqrt{\frac{N}{N-1}} \sqrt{E[X-E(X)]^2}.](http://upload.wikimedia.org/math/2/c/a/2ca1d3d256e0c669ee979664f84b7c7a.png)



![\frac{1}{\sigma\sqrt{2\pi}} \exp\!\left(-\frac{[x-\mu]^2}{2\sigma^2} \right)](http://upload.wikimedia.org/math/0/d/4/0d494acac2c32448b2ea8cc60062c430.png)























![\begin{align}
\mu_{X \cup Y} &= \frac{1}{N_{X \cup Y}}\left(N_X\mu_X + N_Y\mu_Y - N_{X \cap Y}\mu_{X \cap Y}\right)\\
\sigma_{X \cup Y} &= \sqrt{\frac{1}{N_{X \cup Y}}\left(N_X[\sigma_X^2 + \mu _X^2] + N_Y[\sigma_Y^2 + \mu _Y^2] - N_{X \cap Y}[\sigma_{X \cap Y}^2 + \mu _{X \cap Y}^2]\right) - \mu_{X\cup Y}^2}
\end{align}](http://upload.wikimedia.org/math/d/f/b/dfbfeabd367bd1e8a84bce1baf6d3fd7.png)


![\begin{align}
\mu_{X \cup Y} &= \frac{1}{N_{X \cup Y}}\left(N_X\mu_X + N_Y\mu_Y\right)\\
\sigma_{X \cup Y} &= \sqrt{\frac{1}{N_{X \cup Y} - 1}\left([N_X - 1]\sigma_X^2 + N_X\mu_X^2 + [N_Y - 1]\sigma_Y^2 + N_Y\mu _Y^2 - [N_X + N_Y]\mu_{X \cup Y}^2\right) }
\end{align}](http://upload.wikimedia.org/math/7/5/5/755b6644b38e95d5e77a35786ca73079.png)
![\begin{align}
\mu_X &= \frac{1}{\sum_i { N_{X_i}}} \left(\sum_i { N_{X_i} \mu_{X_i}}\right)\\
\sigma_X &= \sqrt{\frac{1}{\sum_i {N_{X_i} - 1}} \left( \sum_i { \left[(N_{X_i} - 1) \sigma_{X_i}^2 + N_{X_i} \mu_{X_i}^2\right] } - \left[\sum_i {N_{X_i}}\right]\mu_X^2 \right) }
\end{align}](http://upload.wikimedia.org/math/8/4/3/8432914c7d3c1734e55daf3cbbe0365d.png)

![\begin{align}
\mu_{X \cup Y} &= \frac{1}{N_{X \cup Y}}\left(N_X\mu_X + N_Y\mu_Y - N_{X\cap Y}\mu_{X\cap Y}\right)\\
\sigma_{X \cup Y} &= \scriptstyle{ \sqrt{ \frac{1}{N_{X \cup Y} - 1}\left([N_X - 1]\sigma_X^2 + N_X\mu_X^2 + [N_Y - 1]\sigma_Y^2 + N_Y\mu _Y^2 - [N_{X \cap Y}-1]\sigma_{X \cap Y}^2 - N_{X \cap Y}\mu_{X \cap Y}^2 - [N_X + N_Y - N_{X \cap Y}]\mu_{X \cup Y}^2\right) } }
\end{align}](http://upload.wikimedia.org/math/3/7/a/37a0afe1efa52887ea11e071b9bab32d.png)