Síntesi de veu d'aprenentatge profund

La síntesi de veu d'aprenentatge profund utilitza xarxes neuronals profundes (DNN) per produir veu artificial a partir de text (text-to-speech) o espectre (vocoder). Les xarxes neuronals profundes s'entrenen utilitzant una gran quantitat de veu gravada i, en el cas d'un sistema de text a veu, les etiquetes i/o text d'entrada associades.^[1]

Alguns sintetitzadors de veu basats en DNN s'estan apropant a la naturalitat de la veu humana.^[2]

Donat un text d'entrada o alguna seqüència d'unitat lingüística $Y$ , el discurs objectiu $X$ es pot derivar per

$X=\arg \max P(X|Y,\theta )$

on $\theta$ és el paràmetre del model.

Normalment, el text d'entrada es passarà primer a un generador de característiques acústiques i després les característiques acústiques es passaran al vocoder neural. Per al generador de característiques acústiques, la funció de pèrdua sol ser una pèrdua L1 o L2. Aquestes funcions de pèrdua imposen una restricció que les distribucions de característiques acústiques de sortida han de ser gaussianes o laplacianes. A la pràctica, ja que la banda de veu humana oscil·la entre aproximadament 300 i 4000 Hz, la funció de pèrdua estarà dissenyada per tenir més penalització en aquest rang:

$loss=\alpha {\text{loss}}_{\text{human}}+(1-\alpha ){\text{loss}}_{\text{other}}$

on ${\text{loss}}_{\text{human}}$ és la pèrdua de la banda de veu humana i $\alpha$ és un escalar normalment al voltant de 0,5. La característica acústica és típicament espectrograma o espectrograma a escala Mel. Aquestes característiques capturen la relació temps-freqüència del senyal de parla i, per tant, és suficient per generar sortides intel·ligents amb aquestes característiques acústiques. La funció de cepstre de freqüència Mel utilitzada en la tasca de reconeixement de parla no és adequada per a la síntesi de la parla perquè redueix massa informació.^[3]

El setembre de 2016, DeepMind va proposar WaveNet, un model generatiu profund de formes d'ona d'àudio en brut, que demostra que els models basats en l'aprenentatge profund són capaços de modelar formes d'ona en brut i generar veu a partir de característiques acústiques com espectrogrames o espectrogrames mel. Tot i que WaveNet es va considerar inicialment massa car computacionalment i lent per ser utilitzat en productes de consum en aquell moment, un any després del seu llançament, DeepMind va presentar una versió modificada de WaveNet coneguda com "Parallel WaveNet", un model de producció 1.000 més ràpid que l'original.^[4]

Referències[modifica]

↑ «Brand Voice: Deep Learning for Speech Synthesis» (en anglès). https://opendatascience.com,+01-03-2021.+[Consulta: 28 gener 2023].
↑ Seif, George. «You can now speak using someone else’s voice with Deep Learning» (en anglès). https://towardsdatascience.com,+11-02-2022.+[Consulta: 28 gener 2023].
↑ Saxena, Utkarsh «Speech Synthesis Techniques using Deep Neural Networks» (en anglès). Medium, 21-10-2017.
↑ van den Oord, Aäron. «High-fidelity speech synthesis with WaveNet». DeepMind, 12-11-2017. [Consulta: 5 juny 2022].

[1] «Brand Voice: Deep Learning for Speech Synthesis» (en anglès). https://opendatascience.com,+01-03-2021.+[Consulta: 28 gener 2023].

[2] Seif, George. «You can now speak using someone else’s voice with Deep Learning» (en anglès). https://towardsdatascience.com,+11-02-2022.+[Consulta: 28 gener 2023].

[3] Saxena, Utkarsh «Speech Synthesis Techniques using Deep Neural Networks» (en anglès). Medium, 21-10-2017.

[deepmind-4] van den Oord, Aäron. «High-fidelity speech synthesis with WaveNet». DeepMind, 12-11-2017. [Consulta: 5 juny 2022].

[1]

[2]

[3]

[4]