Estimació de la densitat del nucli

De la Viquipèdia, l'enciclopèdia lliure
Estimació de la densitat del nucli de 100 números aleatoris distribuïts normalment utilitzant diferents amplades de banda de suavització.

En estadística, l'estimació de la densitat del nucli (amb acrònim anglès KDE) és l'aplicació de suavització del nucli per a l'estimació de la densitat de probabilitat, és a dir, un mètode no paramètric per estimar la funció de densitat de probabilitat d'una variable aleatòria basada en nuclis com a pesos. KDE respon a un problema fonamental de suavització de dades on es fan inferències sobre la població, a partir d'una mostra de dades finita. En alguns camps com el processament del senyal i l'econometria també s'anomena mètode de la finestra Parzen–Rosenblatt, després d'Emanuel Parzen i Murray Rosenblatt, als quals se'ls atribueix normalment la creació independent en la seva forma actual.[1][2] Una de les famoses aplicacions de l'estimació de la densitat del nucli és en estimar les densitats marginals condicionals de classe de dades quan s'utilitza un classificador Bayes primari,[3][4] que pot millorar la seva precisió de predicció.[3]

Definició[modifica]

Siguin (x 1, x ₂, ..., x n) mostres independents i distribuïdes de manera idèntica extretes d'alguna distribució univariada amb una densitat desconeguda ƒ en qualsevol punt x donat. Ens interessa estimar la forma d'aquesta funció ƒ. El seu estimador de densitat de nucli és

on K és el nucli —una funció no negativa— i h > 0 és un paràmetre de suavització anomenat ample de banda. Un nucli amb subíndex h s'anomena nucli escalat i es defineix com Kh(x) = 1/h K(x/h). Intuïtivament, es vol triar h tan petit com ho permetin les dades; tanmateix, sempre hi ha una compensació entre el biaix de l'estimador i la seva variància. L'elecció de l'ample de banda es discuteix amb més detall a continuació.

S'utilitzen habitualment una sèrie de funcions del nucli: uniforme, triangular, bipes, tripes, Epanechnikov, normal i altres. El nucli d'Epanechnikov és òptim en un sentit d'error quadrat mitjà,[5] encara que la pèrdua d'eficiència és petita per als nuclis enumerats anteriorment.[6] A causa de les seves propietats matemàtiques convenients, s'utilitza sovint el nucli normal, que significa K(x) = ϕ(x), on ϕ és la funció de densitat normal estàndard.

La construcció d'una estimació de la densitat del nucli troba interpretacions en camps fora de l'estimació de la densitat.[7] Per exemple, en termodinàmica, això és equivalent a la quantitat de calor generada quan els nuclis de calor (la solució fonamental de l'equació de calor) es col·loquen a cada punt de dades xi. S'utilitzen mètodes similars per construir operadors de Laplace discrets sobre núvols de punts per a l'aprenentatge múltiple (per exemple, mapa de difusió).

Referències[modifica]

  1. Rosenblatt, M. The Annals of Mathematical Statistics, 27, 3, 1956, pàg. 832–837. DOI: 10.1214/aoms/1177728190 [Consulta: free].
  2. Parzen, E. The Annals of Mathematical Statistics, 33, 3, 1962, pàg. 1065–1076. DOI: 10.1214/aoms/1177704472. JSTOR: 2237880 [Consulta: free].
  3. 3,0 3,1 Piryonesi S. Madeh; El-Diraby Tamer E. Journal of Transportation Engineering, Part B: Pavements, 146, 2, 01-06-2020, pàg. 04020022. DOI: 10.1061/JPEODX.0000175.
  4. Hastie, Trevor. The Elements of Statistical Learning : Data Mining, Inference, and Prediction : with 200 full-color illustrations (en anglès). Nova York: Springer, 2001. ISBN 0-387-95284-5. OCLC 46809224. 
  5. Epanechnikov, V.A. Theory of Probability and Its Applications, 14, 1969, pàg. 153–158. DOI: 10.1137/1114019.
  6. Wand, M.P. Kernel Smoothing (en anglès). Londres: Chapman & Hall/CRC, 1995. ISBN 978-0-412-55270-0. 
  7. «UQ eSpace» (en anglès). https://espace.library.uq.edu.au.+[Consulta: 27 febrer 2023].