Funcions de pèrdua per a la classificació

(Vermell) estàndard Pèrdua logística ( $\gamma =1,\mu =2$ ) i (Blau) augment del marge Pèrdua logística ( $\gamma =0.2$

En l'aprenentatge automàtic i l'optimització matemàtica, les funcions de pèrdua per a la classificació són funcions de pèrdua computacionalment factibles que representen el preu pagat per la imprecisió de les prediccions en problemes de classificació (problemes per identificar a quina categoria pertany una observació particular).^[1] Donat ${\mathcal {X}}$ com l'espai de totes les entrades possibles (normalment ${\mathcal {X}}\subset \mathbb {R} ^{d}$ ), i ${\mathcal {Y}}=\{-1,1\}$ com el conjunt d'etiquetes (sortides possibles), un objectiu típic dels algorismes de classificació és trobar una funció $f:{\mathcal {X}}\to {\mathcal {Y}}$ que prediu millor una etiqueta $y$ per a una entrada determinada ${\vec {x}}$ .^[2] Tanmateix, a causa de la informació incompleta, el soroll en la mesura o els components probabilístics en el procés subjacent, és possible que el mateix ${\vec {x}}$ per generar diferents $y$ .^[3] Com a resultat, l'objectiu del problema d'aprenentatge és minimitzar la pèrdua esperada (també coneguda com a risc), definida com:

$I[f]=\displaystyle \int _{{\mathcal {X}}\times {\mathcal {Y}}}V(f({\vec {x}}),y)p({\vec {x}},y)\,d{\vec {x}}\,dy$

on $V(f({\vec {x}}),y)$ és una funció de pèrdua donada, i $p({\vec {x}},y)$ és la funció de densitat de probabilitat del procés que ha generat les dades, que de manera equivalent es pot escriure com:

$p({\vec {x}},y)=p(y\mid {\vec {x}})p({\vec {x}}).$

Dins de la classificació, diverses funcions de pèrdua d'ús habitual s'escriuen únicament en termes del producte de l'etiqueta veritable $y$ i l'etiqueta prevista $f({\vec {x}})$ . Per tant, es poden definir com a funcions d'una sola variable $\upsilon =yf({\vec {x}})$ , i que $V(f({\vec {x}}),y)=\phi (yf({\vec {x}}))=\phi (\upsilon )$ amb una funció adequadament escollida $\phi :\mathbb {R} \to \mathbb {R}$ . Aquestes s'anomenen funcions de pèrdua basades en marges. Escollir una funció de pèrdua basada en el marge equival a triar $\phi$ . La selecció d'una funció de pèrdua en aquest marc afecta l'òptima $f_{\phi }^{*}$ que minimitza el risc esperat.

Exemples: ^[4]

Nom de la pèrdua	$\phi (v)$	$C(\eta )$	$f^{-1}(v)$
Exponencial	$e^{-v}$	$2{\sqrt {\eta (1-\eta )}}$	${\frac {e^{2v}}{1+e^{2v}}}$
Logística	${\frac {1}{\log(2)}}\log(1+e^{-v})$	${\frac {1}{\log(2)}}[-\eta \log(\eta )-(1-\eta )\log(1-\eta )]$	${\frac {e^{v}}{1+e^{v}}}$
Quadrat	$(1-v)^{2}$	$4\eta (1-\eta )$	${\frac {1}{2}}(v+1)$
Salvatge	${\frac {1}{(1+e^{v})^{2}}}$	$\eta (1-\eta )$	${\frac {e^{v}}{1+e^{v}}}$
Tangent	$(2\arctan(v)-1)^{2}$	$4\eta (1-\eta )$	$\arctan(v)+{\frac {1}{2}}$