Estimació de la densitat del nucli

En estadística, l'estimació de la densitat del nucli (amb acrònim anglès KDE) és l'aplicació de suavització del nucli per a l'estimació de la densitat de probabilitat, és a dir, un mètode no paramètric per estimar la funció de densitat de probabilitat d'una variable aleatòria basada en nuclis com a pesos. KDE respon a un problema fonamental de suavització de dades on es fan inferències sobre la població, a partir d'una mostra de dades finita. En alguns camps com el processament del senyal i l'econometria també s'anomena mètode de la finestra Parzen–Rosenblatt, després d'Emanuel Parzen i Murray Rosenblatt, als quals se'ls atribueix normalment la creació independent en la seva forma actual.^[1]^[2] Una de les famoses aplicacions de l'estimació de la densitat del nucli és en estimar les densitats marginals condicionals de classe de dades quan s'utilitza un classificador Bayes primari,^[3]^[4] que pot millorar la seva precisió de predicció.^[3]

Definició[modifica]

Siguin (x ₁, x ₂, ..., x _n) mostres independents i distribuïdes de manera idèntica extretes d'alguna distribució univariada amb una densitat desconeguda ƒ en qualsevol punt x donat. Ens interessa estimar la forma d'aquesta funció ƒ. El seu estimador de densitat de nucli és

${\widehat {f}}_{h}(x)={\frac {1}{n}}\sum _{i=1}^{n}K_{h}(x-x_{i})={\frac {1}{nh}}\sum _{i=1}^{n}K{\Big (}{\frac {x-x_{i}}{h}}{\Big )},$

on K és el nucli —una funció no negativa— i h > 0 és un paràmetre de suavització anomenat ample de banda. Un nucli amb subíndex h s'anomena nucli escalat i es defineix com K_h(x) = 1/h K(x/h). Intuïtivament, es vol triar h tan petit com ho permetin les dades; tanmateix, sempre hi ha una compensació entre el biaix de l'estimador i la seva variància. L'elecció de l'ample de banda es discuteix amb més detall a continuació.

S'utilitzen habitualment una sèrie de funcions del nucli: uniforme, triangular, bipes, tripes, Epanechnikov, normal i altres. El nucli d'Epanechnikov és òptim en un sentit d'error quadrat mitjà,^[5] encara que la pèrdua d'eficiència és petita per als nuclis enumerats anteriorment.^[6] A causa de les seves propietats matemàtiques convenients, s'utilitza sovint el nucli normal, que significa K(x) = ϕ(x), on ϕ és la funció de densitat normal estàndard.

La construcció d'una estimació de la densitat del nucli troba interpretacions en camps fora de l'estimació de la densitat.^[7] Per exemple, en termodinàmica, això és equivalent a la quantitat de calor generada quan els nuclis de calor (la solució fonamental de l'equació de calor) es col·loquen a cada punt de dades x_i. S'utilitzen mètodes similars per construir operadors de Laplace discrets sobre núvols de punts per a l'aprenentatge múltiple (per exemple, mapa de difusió).

Referències[modifica]

↑ Rosenblatt, M. The Annals of Mathematical Statistics, 27, 3, 1956, pàg. 832–837. DOI: 10.1214/aoms/1177728190 [Consulta: free].
↑ Parzen, E. The Annals of Mathematical Statistics, 33, 3, 1962, pàg. 1065–1076. DOI: 10.1214/aoms/1177704472. JSTOR: 2237880 [Consulta: free].
↑ ^3,0 ^3,1 Piryonesi S. Madeh; El-Diraby Tamer E. Journal of Transportation Engineering, Part B: Pavements, 146, 2, 01-06-2020, pàg. 04020022. DOI: 10.1061/JPEODX.0000175.
↑ Hastie, Trevor. The Elements of Statistical Learning : Data Mining, Inference, and Prediction : with 200 full-color illustrations (en anglès). Nova York: Springer, 2001. ISBN 0-387-95284-5. OCLC 46809224.
↑ Epanechnikov, V.A. Theory of Probability and Its Applications, 14, 1969, pàg. 153–158. DOI: 10.1137/1114019.
↑ Wand, M.P. Kernel Smoothing (en anglès). Londres: Chapman & Hall/CRC, 1995. ISBN 978-0-412-55270-0.
↑ «UQ eSpace» (en anglès). https://espace.library.uq.edu.au.+[Consulta: 27 febrer 2023].

[Ros1956-1] Rosenblatt, M. The Annals of Mathematical Statistics, 27, 3, 1956, pàg. 832–837. DOI: 10.1214/aoms/1177728190 [Consulta: free].

[Par1962-2] Parzen, E. The Annals of Mathematical Statistics, 33, 3, 1962, pàg. 1065–1076. DOI: 10.1214/aoms/1177704472. JSTOR: 2237880 [Consulta: free].

[:0-3] 3,0 ^3,1 Piryonesi S. Madeh; El-Diraby Tamer E. Journal of Transportation Engineering, Part B: Pavements, 146, 2, 01-06-2020, pàg. 04020022. DOI: 10.1061/JPEODX.0000175.

[4] Hastie, Trevor. The Elements of Statistical Learning : Data Mining, Inference, and Prediction : with 200 full-color illustrations (en anglès). Nova York: Springer, 2001. ISBN 0-387-95284-5. OCLC 46809224.

[5] Epanechnikov, V.A. Theory of Probability and Its Applications, 14, 1969, pàg. 153–158. DOI: 10.1137/1114019.

[WJ1995-6] Wand, M.P. Kernel Smoothing (en anglès). Londres: Chapman & Hall/CRC, 1995. ISBN 978-0-412-55270-0.

[7] «UQ eSpace» (en anglès). https://espace.library.uq.edu.au.+[Consulta: 27 febrer 2023].

[1]

[2]

[3]

[4]

[5]

[6]

[7]