Predicció estructurada

La predicció estructurada o l'aprenentatge estructurat (de sortida) és un terme paraigua per a tècniques d'aprenentatge automàtic supervisat que implica predir objectes estructurats, en lloc de valors escalars discrets o reals.^[1]

De manera similar a les tècniques d'aprenentatge supervisat d'ús habitual, els models de predicció estructurada s'entrenen normalment mitjançant dades observades en què s'utilitza el valor de predicció real per ajustar els paràmetres del model. A causa de la complexitat del model i de les interrelacions de les variables predites, el procés de predicció utilitzant un model entrenat i el propi entrenament sovint és computacionalment inviable i s'utilitzen mètodes d'aprenentatge i inferència aproximats.^[2]

Aplicacions

Per exemple, el problema de traduir una frase de llenguatge natural a una representació sintàctica com un arbre d'anàlisi es pot veure com un problema de predicció estructurada^[3] en què el domini de sortida estructurat és el conjunt de tots els arbres d'anàlisi possibles. La predicció estructurada també s'utilitza en una gran varietat de dominis d'aplicació, com ara la bioinformàtica, el processament del llenguatge natural, el reconeixement de la parla i la visió per ordinador.^[4]

Exemple: etiquetatge de seqüències

L'etiquetatge de seqüències és una classe de problemes predominants en el processament del llenguatge natural, on les dades d'entrada solen ser seqüències (per exemple, frases de text). El problema de l'etiquetatge de seqüències apareix de diverses maneres, per exemple , l'etiquetatge de part de la parla i el reconeixement d'entitats amb nom. En l'etiquetatge POS, per exemple, cada paraula d'una seqüència ha de rebre una "etiqueta" (etiqueta de classe) que expressi el seu "tipus" de paraula:

This	DT
is	VBZ
a	DT
tagged	JJ
sentence	NN

El principal repte d'aquest problema és resoldre l'ambigüitat: la paraula "sentence" també pot ser un verb en anglès, i també pot ser "tagged".

Tot i que aquest problema es pot resoldre simplement realitzant la classificació de fitxes individuals, aquest enfocament no té en compte el fet empíric que les etiquetes no es produeixen de manera independent; en canvi, cada etiqueta mostra una forta dependència condicional de l'etiqueta de la paraula anterior. Aquest fet es pot explotar en un model de seqüència com un model de Markov ocult o un camp aleatori condicional ^[5] que prediu tota la seqüència d'etiquetes per a una frase, en lloc de només etiquetes individuals, mitjançant l'algorisme de Viterbi.

Tècniques

Els models gràfics probabilistes formen una gran classe de models de predicció estructurada. En particular, són populars les xarxes bayesianes i els camps aleatoris. Altres algorismes i models per a la predicció estructurada inclouen programació lògica inductiva, raonament basat en casos, SVM estructurats, xarxes lògiques de Markov, lògica suau probabilística i models condicionals restringits. Tècniques principals: ^[6]

Camp aleatori condicional.
Màquina vectorial de suport estructurat.
k-Veïns més propers estructurats.
Xarxa neuronal recurrent, en particular la xarxa Elman.

Referències

↑ Gökhan BakIr, Ben Taskar, Thomas Hofmann, Bernhard Schölkopf, Alex Smola and SVN Vishwanathan (2007), Predicting Structured Data, MIT Press.
↑ «Papers with Code - Structured Prediction» (en anglès). https://paperswithcode.com.+[Consulta: 16 març 2023].
↑ (2001) "Conditional random fields: Probabilistic models for segmenting and labeling sequence data". : 282–289 Arxivat 2013-06-07 a Wayback Machine.
↑ «Structured Prediction Models for High-level Computer Vision Tasks» (en anglès). https://www.microsoft.com.+[Consulta: 16 març 2023].
↑ (2001) "Conditional random fields: Probabilistic models for segmenting and labeling sequence data". : 282–289 Arxivat 2013-06-07 a Wayback Machine.
↑ Collins, Michael (2002). "Discriminative training methods for hidden Markov models: Theory and experiments with perceptron algorithms" a Proc. EMNLP. 10

[1] Gökhan BakIr, Ben Taskar, Thomas Hofmann, Bernhard Schölkopf, Alex Smola and SVN Vishwanathan (2007), Predicting Structured Data, MIT Press.

[2] «Papers with Code - Structured Prediction» (en anglès). https://paperswithcode.com.+[Consulta: 16 març 2023].

[Laf:McC:Per01-3] (2001) "Conditional random fields: Probabilistic models for segmenting and labeling sequence data". : 282–289 Arxivat 2013-06-07 a Wayback Machine.

[4] «Structured Prediction Models for High-level Computer Vision Tasks» (en anglès). https://www.microsoft.com.+[Consulta: 16 març 2023].

[Laf:McC:Per012-5] (2001) "Conditional random fields: Probabilistic models for segmenting and labeling sequence data". : 282–289 Arxivat 2013-06-07 a Wayback Machine.

[6] Collins, Michael (2002). "Discriminative training methods for hidden Markov models: Theory and experiments with perceptron algorithms" a Proc. EMNLP. 10

[1]

[2]

[3]

[4]

[5]

[6]