WaveNet

De la Viquipèdia, l'enciclopèdia lliure
Exemple de xarxa neuronal genèrica.

WaveNet és una xarxa neuronal profunda per generar àudio en brut. Va ser creat per investigadors de la firma d'IA DeepMind amb seu a Londres. La tècnica, descrita en un article el setembre de 2016,[1] és capaç de generar veus humanes amb un so relativament realista modelant directament formes d'ona mitjançant un mètode de xarxa neuronal entrenat amb enregistraments de parla real. Les proves amb l'anglès dels EUA i el mandarí van demostrar que el sistema supera els millors sistemes de text a veu (TTS) existents de Google, tot i que a partir del 2016 la seva síntesi de text a veu encara era menys convincent que la parla humana real. La capacitat de WaveNet de generar formes d'ona en brut significa que pot modelar qualsevol tipus d'àudio, inclosa la música.[2][3]

Generar veu a partir de text és una tasca cada cop més habitual gràcies a la popularitat de programari com Siri d'Apple, Cortana de Microsoft, Amazon Alexa i Google Assistant.[4]

La majoria d'aquests sistemes utilitzen una variació d'una tècnica que implica fragments de so concatenats junts per formar sons i paraules reconeixibles.[5] El més comú d'aquests s'anomena TTS concatenatiu.[6] Consisteix en una gran biblioteca de fragments de parla, gravats d'un sol altaveu que després es concatenen per produir paraules i sons complets. El resultat sona poc natural, amb una cadència i un to estranys.[7] La dependència d'una biblioteca gravada també fa que sigui difícil modificar o canviar la veu.[8]

WaveNet és un tipus de xarxa neuronal anticipada coneguda com a xarxa neuronal convolucional profunda (CNN). A WaveNet, la CNN pren un senyal en brut com a entrada i sintetitza una sortida una mostra a la vegada. Ho fa mitjançant el mostreig d'una distribució softmax (és a dir, categòrica) d'un valor de senyal que es codifica mitjançant la transformació de compactació de la llei μ i es quantifica a 256 valors possibles.

Referències[modifica]

  1. van den Oord, Aaron; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol WaveNet: A Generative Model for Raw Audio, 1609, 12-09-2016. arXiv: 1609.03499. Bibcode: 2016arXiv160903499V.
  2. Meyer, David. «Google's DeepMind Claims Massive Progress in Synthesized Speech» (en anglès). Fortune, 09-09-2016. [Consulta: 6 juliol 2017].
  3. Kahn, Jeremy «Google's DeepMind Achieves Speech-Generation Breakthrough». Bloomberg.com, 09-09-2016.
  4. van den Oord, Aäron. «WaveNet: A Generative Model for Raw Audio» (en anglès). DeepMind, 08-09-2016. Arxivat de l'original el 2017-05-27. [Consulta: 6 juliol 2017].
  5. (en anglès) , 09-09-2016.
  6. Hunt, A. J.. Unit selection in a concatenative speech synthesis system using a large speech database (en anglès). 1, May 1996, p. 373–376. DOI 10.1109/ICASSP.1996.541110. ISBN 978-0-7803-3192-1. 
  7. Coldewey, Devin. «Google's WaveNet uses neural nets to generate eerily convincing speech and music» (en anglès). TechCrunch, 09-09-2016. [Consulta: 6 juliol 2017].
  8. Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol Parallel WaveNet: Fast High-Fidelity Speech Synthesis, 1609, 12-09-2016. arXiv: 1609.03499. Bibcode: 2016arXiv160903499V.