Escalat de característiques

L'escalat de característiques és un mètode utilitzat per normalitzar el rang de variables independents o característiques de les dades. En el processament de dades, també es coneix com a normalització de dades i generalment es realitza durant el pas de preprocessament de dades.^[1]

Motivació[modifica]

Com que el rang de valors de les dades en brut varia àmpliament, en alguns algorismes d'aprenentatge automàtic, les funcions objectives no funcionaran correctament sense la normalització. Per exemple, molts classificadors calculen la distància entre dos punts per la distància euclidiana. Si una de les característiques té un ampli rang de valors, la distància es regirà per aquesta característica en particular. Per tant, el rang de totes les característiques s'hauria de normalitzar de manera que cada característica contribueixi aproximadament proporcionalment a la distància final.

Un altre motiu pel qual s'aplica l'escala de característiques és que el descens del gradient convergeix molt més ràpidament amb l'escala de característiques que sense.^[2]

També és important aplicar l'escala de característiques si la regularització s'utilitza com a part de la funció de pèrdua (perquè els coeficients es penalitzin adequadament).

Mètodes[modifica]

Reescala (normalització min-max)[modifica]

També conegut com a escala min-max o normalització min-max, el reescala és el mètode més senzill i consisteix a reescalar el rang de característiques per escalar el rang en [0, 1] o [−1, 1]. La selecció de l'interval objectiu depèn de la naturalesa de les dades. La fórmula general per a un min-max de [0, 1] es dóna com: ^[3]

$x'={\frac {x-{\text{min}}(x)}{{\text{max}}(x)-{\text{min}}(x)}}$ [modifica]

Normalització mitjana[modifica]

$x'={\frac {x-{\bar {x}}}{{\text{max}}(x)-{\text{min}}(x)}}$

on $x$ és un valor original, $x'$ és el valor normalitzat, ${\bar {x}}={\text{average}}(x)$ és la mitjana d'aquest vector característica. Hi ha una altra forma de normalització de mitjans que divideix per la desviació estàndard que també s'anomena estandardització.

Normalització (normalització de la puntuació Z)[modifica]

En l'aprenentatge automàtic, podem gestionar diversos tipus de dades, per exemple, senyals d'àudio i valors de píxels per a dades d'imatge, i aquestes dades poden incloure diverses dimensions. L'estandardització de les característiques fa que els valors de cada característica de les dades tinguin una mitjana zero (en restar la mitjana al numerador) i una variància unitària. Aquest mètode s'utilitza àmpliament per a la normalització en molts algorismes d'aprenentatge automàtic (per exemple, màquines vectorials de suport, regressió logística i xarxes neuronals artificials).^[4] El mètode general de càlcul és determinar la mitjana de distribució i la desviació estàndard per a cada característica. A continuació, restem la mitjana de cada característica. A continuació, dividim els valors (la mitjana ja està restada) de cada característica per la seva desviació estàndard.

$x'={\frac {x-{\bar {x}}}{\sigma }}$ On $x$ és el vector de característiques original, ${\bar {x}}={\text{average}}(x)$ és la mitjana d'aquest vector característica, i $\sigma$ és la seva desviació estàndard.

Escala a unitat de longitud[modifica]

Una altra opció que s'utilitza àmpliament en l'aprenentatge automàtic és escalar els components d'un vector de característiques de manera que el vector complet tingui una longitud. Això normalment significa dividir cada component per la longitud euclidiana del vector:

$x'={\frac {x}{\left\|{x}\right\|}}$

Aplicacions[modifica]

En el descens del gradient estocàstic, l'escala de característiques de vegades pot millorar la velocitat de convergència de l'algorisme.^[5] A les màquines de vectors de suport,^[6] pot reduir el temps per trobar vectors de suport. Tingueu en compte que l'escala de les funcions canvia el resultat de l'SVM.

Referències[modifica]

↑ «Importance of Feature Scaling» (en anglès). https://scikit-learn.+[Consulta: 2 abril 2023].^{[Enllaç no actiu]}
↑ Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift.
↑ «Min Max normalization» (en anglès). ml-concepts.com. Arxivat de l'original el 2023-04-05. [Consulta: 2 abril 2023].
↑ Grus, Joel. Data Science from Scratch (en anglès). Sebastopol, CA: O'Reilly, 2015, p. 99, 100. ISBN 978-1-491-90142-7.
↑ «Gradient Descent, the Learning Rate, and the importance of Feature Scaling» (en anglès).
↑ Juszczak, P.; D. M. J. Tax; R. P. W. Dui Proc. 8th Annu. Conf. Adv. School Comput. Imaging, 2002, pàg. 25–30.

[1] «Importance of Feature Scaling» (en anglès). https://scikit-learn.+[Consulta: 2 abril 2023].^{[Enllaç no actiu]}

[2] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift.

[3] «Min Max normalization» (en anglès). ml-concepts.com. Arxivat de l'original el 2023-04-05. [Consulta: 2 abril 2023].

[:02-4] Grus, Joel. Data Science from Scratch (en anglès). Sebastopol, CA: O'Reilly, 2015, p. 99, 100. ISBN 978-1-491-90142-7.

[5] «Gradient Descent, the Learning Rate, and the importance of Feature Scaling» (en anglès).

[6] Juszczak, P.; D. M. J. Tax; R. P. W. Dui Proc. 8th Annu. Conf. Adv. School Comput. Imaging, 2002, pàg. 25–30.

[1]

[2]

[3]

[4]

[5]

[6]