Hiperparàmetre (aprenentatge automàtic)

En l'aprenentatge automàtic, un hiperparàmetre és un paràmetre el valor del qual s'utilitza per controlar el procés d'aprenentatge. Per contra, els valors d'altres paràmetres (normalment els pesos dels nodes) es deriven mitjançant l'entrenament.

Els hiperparàmetres es poden classificar com a hiperparàmetres del model, que no es poden inferir mentre s'ajusta la màquina al conjunt d'entrenament perquè es refereixen a la tasca de selecció del model, o hiperparàmetres d'algorisme, que en principi no tenen cap influència en el rendiment del model però afecten la velocitat i la velocitat. qualitat del procés d'aprenentatge. Un exemple d'hiperparàmetre model és la topologia i la mida d'una xarxa neuronal. Exemples d'hiperparàmetres d'algorisme són la velocitat d'aprenentatge i la mida del lot, així com la mida del mini lot. La mida del lot pot fer referència a la mostra de dades completa on la mida del mini lot seria un conjunt de mostres més petit.^[1]

Els diferents algorismes d'entrenament de models requereixen hiperparàmetres diferents, alguns algorismes simples (com ara la regressió de mínims quadrats ordinària) no en requereixen cap. Tenint en compte aquests hiperparàmetres, l'algoritme d'entrenament aprèn els paràmetres de les dades. Per exemple, LASSO és un algorisme que afegeix un hiperparàmetre de regularització a la regressió de mínims quadrats ordinària, que s'ha d'establir abans d'estimar els paràmetres mitjançant l'algorisme d'entrenament.^[2]

Consideracions[modifica]

El temps necessari per entrenar i provar un model pot dependre de l'elecció dels seus hiperparàmetres.^[3] Un hiperparàmetre acostuma a ser de tipus continu o enter, cosa que condueix a problemes d'optimització de tipus mixt.^[3] L'existència d'alguns hiperparàmetres està condicionada al valor d'altres, per exemple, la mida de cada capa oculta en una xarxa neuronal pot estar condicionada al nombre de capes.^[4]

Paràmetres de dificultat d'aprendre[modifica]

Normalment, però no sempre, els hiperparàmetres no es poden aprendre mitjançant mètodes basats en gradients coneguts (com ara el descens del gradient, LBFGS), que s'utilitzen habitualment per aprendre paràmetres. Aquests hiperparàmetres són aquells paràmetres que descriuen una representació del model que no es poden aprendre amb mètodes d'optimització comuns però que, tanmateix, afecten la funció de pèrdua. Un exemple seria l'hiperparàmetre de tolerància per a errors en màquines de vectors de suport.

Paràmetres no entrenables[modifica]

De vegades, els hiperparàmetres no es poden aprendre de les dades d'entrenament perquè augmenten de manera agressiva la capacitat d'un model i poden empènyer la funció de pèrdua a un mínim no desitjat (sobreadaptació i captació de soroll a les dades), en lloc de mapejar correctament la riquesa de l'estructura de les dades. Per exemple, si tractem el grau d'una equació polinòmica que s'ajusta a un model de regressió com un paràmetre entrenable, el grau augmentaria fins que el model s'ajusti perfectament a les dades, produint un error d'entrenament baix, però un rendiment de generalització pobre.

Sintonització[modifica]

La major part de la variació de rendiment es pot atribuir només a uns quants hiperparàmetres. La sintonització d'un algorisme, hiperparàmetre o hiperparàmetres que interactuen és una mesura de quant rendiment es pot obtenir ajustant-lo. Per a un LSTM, mentre que la taxa d'aprenentatge seguida de la mida de la xarxa són els seus hiperparàmetres més crucials, el lot i l'impuls no tenen cap efecte significatiu en el seu rendiment.^[5]

Referències[modifica]

↑ «Hyperparameter» (en anglès), 17-05-2019. [Consulta: 12 octubre 2023].
↑ Yang, Li; Shami, Abdallah (en anglès) Neurocomputing, 415, 20-11-2020, pàg. 295–316. arXiv: 2007.15745. DOI: 10.1016/j.neucom.2020.07.061. ISSN: 0925-2312.
↑ ^3,0 ^3,1 «Claesen, Marc, and Bart De Moor. "Hyperparameter Search in Machine Learning." arXiv preprint arXiv:1502.02127 (2015).». .
↑ Nyuytiymbiy, Kizito. «Parameters and Hyperparameters in Machine Learning and Deep Learning» (en anglès), 28-03-2022. [Consulta: 12 octubre 2023].
↑ «What is Hyperparameter Tuning? - Hyperparameter Tuning Methods Explained - AWS» (en anglès americà). [Consulta: 12 octubre 2023].

[1] «Hyperparameter» (en anglès), 17-05-2019. [Consulta: 12 octubre 2023].

[2] Yang, Li; Shami, Abdallah (en anglès) Neurocomputing, 415, 20-11-2020, pàg. 295–316. arXiv: 2007.15745. DOI: 10.1016/j.neucom.2020.07.061. ISSN: 0925-2312.

[abs1502.02127-3] 3,0 ^3,1 «Claesen, Marc, and Bart De Moor. "Hyperparameter Search in Machine Learning." arXiv preprint arXiv:1502.02127 (2015).». .

[4] Nyuytiymbiy, Kizito. «Parameters and Hyperparameters in Machine Learning and Deep Learning» (en anglès), 28-03-2022. [Consulta: 12 octubre 2023].

[5] «What is Hyperparameter Tuning? - Hyperparameter Tuning Methods Explained - AWS» (en anglès americà). [Consulta: 12 octubre 2023].

[1]

[2]

[3]

[4]

[5]