Model generatiu

En la classificació estadística, dos enfocaments principals s'anomenen enfocament generatiu i enfocament discriminatiu. Aquests calculen classificadors per diferents enfocaments, que difereixen en el grau de modelització estadística. La terminologia és inconsistent, però es poden distingir tres tipus principals, seguint Jebara (2004):

Un model generatiu és un model estadístic de la distribució de probabilitat conjunta $P(X,Y)$ sobre la variable observable X donada i la variable objectiu Y; ^[1]
Un model discriminatiu és un model de probabilitat condicional $P(Y\mid X=x)$ de l'objectiu Y, donada una observació x; i
Els classificadors calculats sense utilitzar un model de probabilitat també s'anomenen "discriminatius".

La distinció entre aquestes dues últimes classes no es fa de manera coherent; ^[2] Jebara (2004) es refereix a aquestes tres classes com a aprenentatge generatiu, aprenentatge condicional i aprenentatge discriminatiu, però Ng & Jordan (2002) només distingeixen dues classes, anomenant-les classificadors generatius (distribució conjunta) i classificadors discriminatius (distribució condicional o sense distribució), sense distingir entre les dues últimes classes.^[3] De manera anàloga, un classificador basat en un model generatiu és un classificador generatiu, mentre que un classificador basat en un model discriminatiu és un classificador discriminatiu, encara que aquest terme també es refereix a classificadors que no es basen en un model.

Exemples estàndard de cadascun, tots ells classificadors lineals, són:

classificadors generatius:
- classificador Bayes ingenu i
- anàlisi discriminant lineal
model discriminatiu:
- regressió logística

Amb l'auge de l'aprenentatge profund, es forma una nova família de mètodes, anomenats models generatius profunds (DGM),^[4]^[5]^[6] mitjançant la combinació de models generatius i xarxes neuronals profundes. Un augment de l'escala de les xarxes neuronals sol anar acompanyat d'un augment de l'escala de les dades d'entrenament, que són necessàries per a un bon rendiment.

Els DGM populars inclouen codificadors automàtics variacionals (VAE), xarxes adversàries generatives (GAN) i models autorregressius. Recentment, hi ha hagut una tendència a construir models generatius profunds molt grans.^[7] Per exemple, GPT-3, i el seu precursor GPT-2,^[8] són models de llenguatge neuronal autorregressius que contenen milers de milions de paràmetres, BigGAN i VQ-VAE que s'utilitzen per a la generació d'imatges que poden tenir centenars de milions de paràmetres, i Jukebox és un model generatiu molt gran per a àudio musical que conté milers de milions de paràmetres.^[9]

Referències[modifica]

↑ Ng & Jordan (2002): "Generative classifiers learn a model of the joint probability, $p(x,y)$ , of the inputs x and the label y, and make their predictions by using Bayes rules to calculate $p(y\mid x)$ , and then picking the most likely label y.
↑ Jebara 2004: "This distinction between conditional learning and discriminative learning is not currently a well established convention in the field."
↑ Ng & Jordan 2002: "Discriminative classifiers model the posterior $p(y|x)$ directly, or learn a direct map from inputs x to the class labels."
↑ «Scaling up—researchers advance large-scale deep generative models» (en anglès). Microsoft, 09-04-2020.
↑ «Generative Models» (en anglès). OpenAI, 16-06-2016.
↑ Tomczak, Jakub. Deep Generative Modeling. Cham: Springer, 2022, p. 197. DOI 10.1007/978-3-030-93158-2. ISBN 978-3-030-93157-5.
↑ «Scaling up—researchers advance large-scale deep generative models». Microsoft, 09-04-2020.
↑ «Better Language Models and Their Implications» (en anglès). OpenAI, 14-02-2019.
↑ «Jukebox» (en anglès). OpenAI, 30-04-2020.

[ngjordan2002generative-1] Ng & Jordan (2002): "Generative classifiers learn a model of the joint probability, $p(x,y)$ , of the inputs x and the label y, and make their predictions by using Bayes rules to calculate $p(y\mid x)$ , and then picking the most likely label y.

[2] Jebara 2004: "This distinction between conditional learning and discriminative learning is not currently a well established convention in the field."

[3] Ng & Jordan 2002: "Discriminative classifiers model the posterior $p(y|x)$ directly, or learn a direct map from inputs x to the class labels."

[auto1-4] «Scaling up—researchers advance large-scale deep generative models» (en anglès). Microsoft, 09-04-2020.

[auto-5] «Generative Models» (en anglès). OpenAI, 16-06-2016.

[auto2-6] Tomczak, Jakub. Deep Generative Modeling. Cham: Springer, 2022, p. 197. DOI 10.1007/978-3-030-93158-2. ISBN 978-3-030-93157-5.

[auto12-7] «Scaling up—researchers advance large-scale deep generative models». Microsoft, 09-04-2020.

[8] «Better Language Models and Their Implications» (en anglès). OpenAI, 14-02-2019.

[9] «Jukebox» (en anglès). OpenAI, 30-04-2020.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]