Regressió lineal bayesiana

De la Viquipèdia, l'enciclopèdia lliure

La regressió lineal bayesiana és un tipus de modelització condicional en què la mitjana d'una variable es descriu mitjançant una combinació lineal d'altres variables, amb l'objectiu d'obtenir la probabilitat posterior dels coeficients de regressió (així com altres paràmetres que descriuen la distribució de la regressió y) i permet, finalment, la predicció fora de la mostra del regressand (sovint etiquetat ) condicional als valors observats dels regressors (normalment ). La versió més senzilla i més utilitzada d'aquest model és el model lineal normal, en el qual donat Es distribueix gaussià. En aquest model, i sota una elecció particular de probabilitats a priori per als paràmetres —els anomenats priors conjugats—, el posterior es pot trobar analíticament. Amb anteriors escollits de manera més arbitrària, els posteriors generalment s'han d'aproximar.[1][2]

Configuració del model[modifica]

Considereu un problema de regressió lineal estàndard, en el qual for especifiquem la mitjana de la distribució condicional de donat a vector predictor : [3]

on és un vector, i el són variables aleatòries independents i de distribució normal idèntica:
Això correspon a la funció de probabilitat següent:
La solució de mínims quadrats ordinària s'utilitza per estimar el vector de coeficients utilitzant el pseudoinvers de Moore-Penrose:
on és el matriu de disseny, cada fila de la qual és un vector predictor ; i és la columna -vector .

Aquest és un enfocament freqüentista i suposa que hi ha prou mesures per dir alguna cosa significativa . En l'enfocament bayesià, les dades es complementen amb informació addicional en forma d'una distribució de probabilitat prèvia. La creença prèvia sobre els paràmetres es combina amb la funció de probabilitat de les dades segons el teorema de Bayes per produir la creença posterior sobre els paràmetres. i . El prior pot adoptar diferents formes funcionals segons el domini i la informació disponible a priori.

Atès que les dades comprenen tots dos i , el focus només en la distribució de condicionat a necessita justificació. De fet, una anàlisi bayesiana "completa" requeriria una probabilitat conjunta juntament amb un prior , on simbolitza els paràmetres de la distribució per . Només sota el supòsit d'exogeneïtat (feble) es pot tenir en compte la probabilitat conjunta . L'última part normalment s'ignora sota el supòsit de conjunts de paràmetres disjunts. Més encara, sota supòsits clàssics es consideren escollits (per exemple, en un experiment dissenyat) i per tant té una probabilitat coneguda sense paràmetres.[4]

Referències[modifica]

  1. Koehrsen, Will. «Introduction to Bayesian Linear Regression» (en anglès), 20-04-2018. [Consulta: 6 febrer 2024].
  2. «CSC 411 Lecture 19: Bayesian Linear Regression» (en anglès). [Consulta: 6 febrer 2024].
  3. «An Introduction to Bayesian Linear Regression» (en anglès). [Consulta: 6 febrer 2024].
  4. Clyde, Merlise; Çetinkaya-Rundel, Mine; Rundel, Colin; Banks, David; Chai, Christine. Chapter 6 Introduction to Bayesian Regression | An Introduction to Bayesian Thinking (en anglès).