Ajust de distribució de probabilitat

De la Viquipèdia, l'enciclopèdia lliure
Diferents formes de la distribució normal simètrica segons la mitjana μ i la variància σ 2

L'ajust de distribució de probabilitat o simplement l'ajust de distribució és l'ajust d'una distribució de probabilitat a una sèrie de dades relatives a la mesura repetida d'un fenomen variable. L'objectiu de l'ajust de distribució és predir la probabilitat o pronosticar la freqüència d'ocurrència de la magnitud del fenomen en un interval determinat.[1]

Inclinació a esquerra i dreta

Hi ha moltes distribucions de probabilitat (vegeu la llista de distribucions de probabilitat) de les quals algunes es poden ajustar més a la freqüència observada de les dades que d'altres, depenent de les característiques del fenomen i de la distribució. Se suposa que la distribució que dóna un ajustament ajustat condueix a bones prediccions. En l'ajust de la distribució, per tant, cal seleccionar una distribució que s'adapti bé a les dades.[2]

Selecció de distribució[modifica]

La selecció de la distribució adequada depèn de la presència o absència de simetria del conjunt de dades respecte a la tendència central.[3]

Distribucions simètriques

Quan les dades es distribueixen simètricament al voltant de la mitjana mentre la freqüència d'ocurrència de dades més allunyades de la mitjana disminueix, es pot, per exemple, seleccionar la distribució normal, la distribució logística o la distribució t de Student. Els dos primers són molt semblants, mentre que l'últim, amb un grau de llibertat, té "cues més pesades", el que significa que els valors més allunyats de la mitjana es produeixen relativament més sovint (és a dir, la curtosi és més alta). La distribució de Cauchy també és simètrica.

Inclineu les distribucions cap a la dreta

Quan els valors més grans tendeixen a estar més allunyats de la mitjana que els valors més petits, es té una distribució sesgada a la dreta (és a dir, hi ha una asimetria positiva), es pot seleccionar, per exemple, la distribució log-normal (és a dir, els valors logarítmics de la les dades es distribueixen normalment), la distribució log-logística (és a dir, els valors logarítmics de les dades segueixen una distribució logística), la distribució de Gumbel, la distribució exponencial, la distribució de Pareto, la distribució de Weibull, la distribució de Burr o la distribució de Fréchet. Les quatre darreres distribucions estan limitades a l'esquerra.

Esbiaixar les distribucions cap a l'esquerra

Quan els valors més petits tendeixen a estar més allunyats de la mitjana que els valors més grans, es té una distribució sesgada a l'esquerra (és a dir, hi ha una asimetria negativa), es pot, per exemple, seleccionar la distribució quadrat-normal (és a dir, la distribució normal aplicada a el quadrat dels valors de les dades), la distribució de Gumbel invertida (reglada), la distribució de Dagum (distribució de Burr reflectida) o la distribució de Gompertz, que està limitada a l'esquerra.

Tècniques d'encaix[modifica]

Existeixen les següents tècniques d'ajust de distribució: [4]

Referències[modifica]

  1. «Cap. 8: Estimation of Parameters and Fitting of Probability Distributions» (PDF) (en anglès). UCLA. Statics & Data Science.
  2. «Fitting probability distributions to data» (PDF) (en anglès). [Consulta: 10 juliol 2023].
  3. «Fit probability distributions to data - MATLAB» (en anglès). Mathworks. [Consulta: 10 juliol 2023].
  4. Turney, Shaun. «Probability Distribution. Formula, Types, & Examples» (en anglès). Scribbrm, 09-06-2022. [Consulta: 10 juliol 2023].