Criteri d'informació Akaike

De la Viquipèdia, l'enciclopèdia lliure
Representació gràfica i criteris d'informació Akaike dels models demogràfics comparats per coalescents

El criteri d'informació d'Akaike (AIC) és un estimador de l'error de predicció i, per tant, de la qualitat relativa dels models estadístics per a un conjunt de dades donat.[1][2] Donada una col·lecció de models per a les dades, AIC estima la qualitat de cada model, en relació amb cadascun dels altres models. Així, AIC proporciona un mitjà per a la selecció de models.[3]

AIC es basa en la teoria de la informació. Quan s'utilitza un model estadístic per representar el procés que ha generat les dades, la representació gairebé mai no serà exacta; per tant, es perdrà part de la informació utilitzant el model per representar el procés. L'AIC estima la quantitat relativa d'informació perduda per un model donat: com menys informació perd un model, més alta serà la qualitat d'aquest model.

En estimar la quantitat d'informació perduda per un model, l'AIC s'ocupa de la compensació entre la bondat d'ajust del model i la senzillesa del model. En altres paraules, l'AIC tracta tant el risc d' ajustament excessiu com el risc d'ajustament insuficient.

El criteri d'informació Akaike rep el nom de l'estadístic japonès Hirotsugu Akaike, que el va formular. Ara constitueix la base d'un paradigma per als fonaments de l'estadística i també s'utilitza àmpliament per a la inferència estadística.[4]

Definició[modifica]

Suposem que tenim un model estadístic d'algunes dades. Sigui k el nombre de paràmetres estimats en el model. Deixar ser el valor maximitzat de la funció de probabilitat per al model. Aleshores, el valor AIC del model és el següent.

Donat un conjunt de models candidats per a les dades, el model preferit és el que té el valor AIC mínim. Així, l'AIC premia la bondat d'ajust (tal com s'avalua per la funció de probabilitat), però també inclou una penalització que és una funció creixent del nombre de paràmetres estimats. La penalització desincentiva l'ajustament excessiu, cosa que es desitja perquè augmentar el nombre de paràmetres del model gairebé sempre millora la bondat de l'ajust.

AIC es basa en la teoria de la informació. Suposem que les dades són generades per algun procés desconegut f. Considerem dos models candidats per representar f : g1 i g2. Si sabéssim f, llavors podríem trobar la informació perduda en utilitzar g 1 per representar f calculant la divergència Kullback-Leibler, DKL(fg1) ; de la mateixa manera, la informació perduda en utilitzar g 2 per representar f es podria trobar calculant DKL(fg2). Aleshores, en general, escolliríem el model candidat que minimitzi la pèrdua d'informació.

No podem triar amb certesa, perquè no sabem f. Akaike (1974) va demostrar, però, que podem estimar, mitjançant AIC, quanta més (o menys) informació es perd per g 1 que per g 2. L'estimació, però, només és vàlida asimptòticament; si el nombre de punts de dades és petit, sovint cal fer alguna correcció (vegeu AICc, a continuació).

Cal tenir en compte que l'AIC no diu res sobre la qualitat absoluta d'un model, només la qualitat relativa a altres models. Així, si tots els models candidats encaixen malament, l'AIC no avisarà d'això. Per tant, després de seleccionar un model mitjançant AIC, sol ser una bona pràctica validar la qualitat absoluta del model. Aquesta validació normalment inclou comprovacions dels residus del model (per determinar si els residus semblen aleatoris) i proves de les prediccions del model. Per obtenir més informació sobre aquest tema, vegeu validació de models estadístics.[5]

Com utilitzar l'AIC a la pràctica[modifica]

Per aplicar l'AIC a la pràctica, comencem amb un conjunt de models candidats i després trobem els valors AIC corresponents dels models. Gairebé sempre es perdrà informació a causa de l'ús d'un model candidat per representar el "model real", és a dir, el procés que va generar les dades. Volem seleccionar, entre els models candidats, el model que minimitzi la pèrdua d'informació. No podem triar amb certesa, però podem minimitzar la pèrdua d'informació estimada.

Suposem que hi ha R models candidats. Denoteu els valors AIC d'aquests models per AIC1, AIC2, AIC3,... , AICR. Sigui AICmin el mínim d'aquests valors. Aleshores, la quantitat exp((AICmin − AICi)/2) es pot interpretar com a proporcional a la probabilitat que l'i-è model minimitzi la pèrdua d'informació (estimada).

Referències[modifica]

  1. McElreath, Richard. Statistical Rethinking: A Bayesian Course with Examples in R and Stan (en anglès). CRC Press, 2016, p. 189. ISBN 978-1-4822-5344-3. 
  2. Taddy, Matt. Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions (en anglès). Nova York: McGraw-Hill, 2019, p. 90. ISBN 978-1-260-45277-8. 
  3. Bevans, Rebecca. «Akaike Information Criterion | When & How to Use It (Example)» (en anglès americà), 26-03-2020. [Consulta: 11 febrer 2024].
  4. «[https://harvard-iacs.github.io/2018-CS109A/a-sections/a-section-2/presentation/a-sec2-MLEtoAIC.pdf Model Selection & Information Criteria: Akaike Information Criterion]» (en anglès). [Consulta: 11 febrer 2024].
  5. «Akaike’s Information Criterion: Definition, Formulas» (en anglès). [Consulta: 11 febrer 2024].