Síntesi de veu

La síntesi de parla és la producció artificial de parla humana. Un sistema usat amb aquest propòsit rep el nom de sintetitzador de parla i es pot dur a terme en programari o en maquinari. La síntesi de veu es diu sovint en anglès text-to-speech (TTS) , en referència a la seva capacitat de convertir text en parla. No obstant això, hi ha sistemes que enlloc de produir veu a partir d'un text ho fan a partir de representació lingüística simbòlica en parla.

La veu sintètica és una veu artificial (no pregravada), generada mitjançant un procés de sintetització de la parla.

La qualitat d'una veu sintètica vindrà donada per:

La seva intel·ligibilitat: amb quina facilitat/dificultat és entesa?
La seva naturalitat: en quina mesura s'assembla a la veu real d'un humà?

Visió general de la tecnologia de síntesi de veu[modifica]

Un sistema text a veu es compon de dues parts: un front-end i un back-end . A grans trets, el front-end pren com entrada text i produeix una representació lingüística fonètica. El back-end pren com entrada la representació lingüística simbòlica i produeix una forma d'ona sintetitzada.

El front-end exerceix dues tasques principals. Primer, pren el text i converteix parts problemàtiques com nombres i abreviatures en paraules equivalents. Aquest procés es diu sovint normalització de text o preprocessat. Llavors assigna una transcripció fonètica a cada paraula, i divideix i marca el text en diverses unitats prosòdiques, com frases i oracions. El procés d'assignar transcripcions fonètiques a les paraules rep el nom de conversió text a fonema (TTP en anglès) o grafema a fonema (GTP en anglès). La combinació de transcripcions fonètiques i informació prosòdica constitueix la representació lingüística fonètica .

L'altra banda, el back-end, pren la representació lingüística simbòlica i la converteix en so. El back-end es diu sovint sintetitzador .

Història[modifica]

Molt abans del desenvolupament del processament de senyal modern, els investigadors de la veu van intentar crear màquines que produïssin parla humana. El Papa Silvestre II (1003), Albert Magne (1198-1280) i Roger Bacon (1214-1294) van crear exemples primerencs de 'caps parlants'.

En 1779, el científic danès Christian Gottlieb Kratzenstein, que treballava en aquesta època en Acadèmia Russa de les Ciències, va construir models del tracte vocal que podria produir les cinc vocals llargues (a, i, i, o, o). Wolfgang von Kempelen de Viena, Àustria, va descriure en la seva obra Mechanismus der menschlichen Sprache nebst der Beschreibung seine sprechenden Maschine ("mecanisme de la parla humana amb descripció de la seva màquina parlant", JB Degen, Wien) una màquina accionada amb una manxa. Aquesta màquina tenia, a més, models de la llengua i els llavis, per produir consonants, així com a vocals. el 1837 Charles Wheatstone va produir una 'màquina parlant' basada en el disseny de von Kempelen, i el 1857 M. Faber va construir la màquina 'Euphonia'. El disseny de Wheatstone va ser ressuscitat el 1923 per Paget.

En els anys 30, els laboratoris Bell Labs van desenvolupar el vocoder, un analitzador i sintetitzador de la parla operat per teclat que era clarament intel·ligible. Homer Dudley va refinar aquest dispositiu i creà VODER, que va exhibir a l'Exposició Universal de Nova York de 1939.

Els primers sintetitzadors de veu sonaven molt robòtics i eren sovint intel·ligibles amb prou feines. No obstant això, la qualitat de la parla sintetitzada ha millorat en gran manera, i el resultat dels sistemes de síntesi contemporanis és, de vegades, indistingible de la parla humana real.

Malgrat l'èxit dels sintetitzadors purament electrònics, segueix investigant-se en sintetitzadors mecànics per al seu ús en robots humanoides. Fins i tot el millor sintetitzador electrònic està limitat per la qualitat del transductor que produeix el so, així que en un robot un sintetitzador mecànic podria ser capaç de produir un so més natural que un altaveu petit.

El primer sistema de síntesi computat va ser creat a finals de la dècada de 1950 i el primer sistema complet text a veu es va finalitzar el 1968. Des de llavors s'han produït molts avenços en les tecnologies usades per sintetitzar veu.

Tecnologies de síntesi[modifica]

Les dues característiques utilitzades per descriure la qualitat d'un sintetitzador de veu són la naturalitat i intel·ligibilitat . La naturalitat d'un sintetitzador de veu es refereix a fins a quin punt sona com la veu d'una persona real. La intel·ligibilitat d'un sintetitzador es refereix a la facilitat de la sortida de poder ser entesa. El sintetitzador ideal deu ser alhora natural i intel·ligible, i cada tecnologia intenta aconseguir el màxim d'ambdues. Algunes de les tecnologies són millors en naturalitat o en intel·ligibilitat i les metes de la síntesi determinen sovint què aproximació s'ha de seguir. Hi ha dues tecnologies principals usades per generar parla sintètica: síntesi concatenada i síntesi de formantes .

Síntesi concatenada[modifica]

La síntesi concatenada es basa en la concatenació de segments de veu gravats. Generalment, la síntesi concatenada produeix els resultats més naturals. No obstant això, les diferències entre la variació natural de la parla i les tècniques automatitzades de segmentació de formes d'ona resulten en defectes audibles, que comporten una pèrdua de naturalitat.

Hi ha tres tipus bàsics de síntesi concatenada.

Síntesi per selecció d'unitats[modifica]

La síntesi per selecció d'unitats utilitza una base de dades de veu gravada (més d'una hora de parla gravada). Durant la creació de la base de dades, la parla se segmenta en algunes o totes de les següents unitats: fonemes, sil·labes, paraules, frases i oracions. Normalment, la divisió en segments es realitza usant un reconeixedor de veu modificat per forçar el seu alineament amb un text conegut. Després es corregeix manualment, usant representacions com la forma d'ona i l'espectrograma. Es crea un índex de les unitats a la base de dades basada en paràmetres acústics de la segmentació com la freqüència fonamental, el pitch, la durada, la posició en la síl·laba i els fonemes veïns. En temps d'execució, l'objectiu desitjat es crea determinant la millor cadena de candidats de la base de dades (selecció d'unitats). Aquest procés s'aconsegueix típicament usant un arbre de decisió especialment ponderat.

La selecció d'unitats dona la màxima naturalitat a causa del fet que no aplica molt processament digital de senyals a la parla gravada, la qual cosa sovint fa que el so gravat soni menys natural, encara que alguns sistemes usen una mica de processament de senyal en la concatenació per suavitzar les formes d'ona. De fet, la sortida de la millor selecció d'unitats és sovint indistingible de la veu humana real, especialment en contextos en els quals el sistema ha estat adaptat. Per exemple, un sistema de síntesi de veu per donar informacions de vols pot guanyar en naturalitat si la base de dades va ser construïda a base enregistraments d'informacions de vols, doncs serà més probable que apareguin unitats apropiades i fins i tot cadenes senceres en la base de dades. No obstant això, la màxima naturalitat sovint requereix que la base de dades sigui molt àmplia, arribant en alguns sistemes als gigabytes de dades gravades.

Síntesi de difònic[modifica]

La síntesi de difònic fa servir una base de dades mínima contenint tots els difònics que poden aparèixer en un llenguatge donat. El nombre de difònic depèn de la fonotáctica del llenguatge: l'espanyol té uns 800 difònic, l'alemany uns 2.500. En la síntesi de difònic, la base de dades conté un sol exemple de cada difònic. En temps d'execució, la prosòdia d'una oració se sobreimposa a aquestes unitats mínimes mitjançant processament digital de senyals, com codificació lineal predictiva, PSOL o MBROLA.

La qualitat de la parla resultant és generalment pitjor que l'obtinguda mitjançant selecció d'unitats però més natural que l'obtinguda mitjançant síntesi de formants. La síntesi difònic pateix dels defectes de la síntesi concatenada i sona robòtica com la síntesi de formantes, i té pocs avantatges respecte a aquestes tècniques a part de la petita mida de la base de dades, així que el seu ús en aplicacions comercials experimenta un declivi, encara que continua usant-se en investigació perquè hi ha unes quantes implementacions lliures.

Síntesi específica per a un domini[modifica]

La síntesi específica per a un domini concatena paraules i frases gravades per crear sortides completes. S'usa en aplicacions on la varietat de textos que el sistema pot produir està limitada a un particular domini, com anuncis de sortides de trens o informació meteorològica.

Aquesta tecnologia és molt senzilla d'implementar, i s'ha usat comercialment durant llarg temps: és la tecnologia usada per aparells com rellotges i calculadores parlants. La naturalitat d'aquests sistemes pot ser molt gran, perquè la varietat d'oracions està limitada i correspon a l'entonació i la prosòdia dels enregistraments originals. No obstant això, pel fet d'estar limitats a unes certes frases i paraules de la base de dades, no són de propòsit general i només poden sintetitzar la combinació de paraules i frases pels quals van ser dissenyats.

Síntesi de formants[modifica]

La síntesi de formants no usa mostres de parla humana en temps d'execució. En lloc d'això, la sortida es crea usant un model acústic. Paràmetres com la freqüència fonamental i els nivells de soroll es varien durant el temps per crear una forma d'ona o parla artificial. Aquest mètode es coneix també com síntesi basada en regles però alguns addueixen que molts sistemes concatenats usen components basats en regles per a algunes parts dels seus sistemes, com el front-end, així que el terme no és prou específic.

Molts sistemes basats en síntesi de formantes generen parla robòtica i d'aparença artificial, i la sortida mai es podria confondre amb la veu humana. No obstant això, la naturalitat màxima no és sempre la meta d'un sintetitzador de veu, i aquests sistemes tenen alguns avantatges sobre els sistemes concatenats.

La síntesi de formantes pot ser molt intel·ligible, fins i tot a altes velocitats, evitant els defectes acústics que poden aparèixer amb freqüència en els sistemes concatenats. La síntesi de veu d'alta velocitat és sovint usada pels discapacitats visuals per utilitzar computadors amb fluïdesa. D'altra banda, els sintetitzadors de formantes són sovint programes més petits que els sistemes concatenats perquè no necessiten una base de dades de mostres de veu gravada. D'aquesta forma, poden usar-se en sistemes embeguts, on la memòria i la capacitat de procés són sovint minses. Finalment, atès que els sistemes basats en formants tenen un control total sobre tots els aspectes de la parla produïda, poden incorporar una àmplia varietat de tipus d'entonacions, que no només comprenguin preguntes i enunciacions.

Altres mètodes de síntesi[modifica]

La síntesi articulatòria ha estat un mètode d'interès purament acadèmic fins fa poc. Es basa en models computacionals del tracte vocal i el procés d'articulació. Pocs dels models són suficientment avançats o eficients computacionalment per ser usats en sistemes comercials de síntesi de veu. Una excepció notable és el sistema basat en NeXT, originalment desenvolupat i comercialitzat per Trillium Sound Research Inc, que va passar més tard a tenir una llicència GPL i es va continuar com gnuspeech , sent un projecte GNU. El programari original de NeXT i versions del programari per Mac OS/X i Linux GNUstep estan disponibles en [1] al costat de manuals i documents rellevants als fonaments teòrics del treball. El sistema, que va ser comercialitzat per primera vegada el 1994, proporciona una conversió text a veu articulatòria completa mitjançant una analogia de guia d'ona o línia de transmissió dels tractes vocal i nasal humans, controlats pels Models de regions diferents de Carré que està basat en el treball de Gunnar Fant i altres del laboratori Stockholm Specch Technology Lab del Royal Institute of Technology sobre l'anàlisi de la sensibilitat de formants. Aquest treball va mostrar que els formants en un tub ressonant poden ser controlats per només vuit paràmetres que corresponen als articuladors disponibles en el tracte vocal humà natural.
La Síntesi híbrida uneix aspectes de les síntesis concatenada i de formants per minimitzar els defectes acústics quan es concatenen segments.
La Síntesi basada en HMM és un mètode de síntesi basat en Models ocults de Markov (HMM en anglès). En aquest sistema, la parla espectre de freqüències (tracte vocal), freqüència fonamental (font vocal), i la durada (prosòdia) es modelen simultàniament per models ocults de Markov. Les formes d'ona es generen des d'aquests models ocults de Markov mitjançant el criteri de màxima versemblança.

Desafiaments del front-end[modifica]

Desafiaments de la normalització de text[modifica]

El procés de normalitzar text és poques vegades simple. Els textos estan plens d'homògrafs, nombres i abreviatures que han de ser transformats en una representació fonètica.

Per descomptat, en llengües on la correspondència entre el text escrit i el seu equivalent fonètic és poca (anglès) o cap (mandarí), la creació d'aquests sistemes es complica.

Molts sistemes de text a veu no generen representacions semàntiques dels textos d'entrades, ja que els sistemes per fer-ho no són fiables o computacionalment efectius. Com a resultat, s'usen diverses tècniques heurístiques per estimar la manera correcta de desambiguar homògrafs, com buscar paraules veïnes i usar estadístiques sobre la freqüència d'aparició de les paraules.

Decidir com convertir nombres en paraules és un altre problema que han de solucionar els sintetitzadors de veu. És un desafiament bastant simple programar un sistema que converteixi nombres en paraules, com per exemple transformar 1325 en "1325". No obstant això, els nombres apareixen en diferents contextos, i 1325 pot ser un ordinal, "un tres dues cinc" si són els últims dígits d'un DNI o "tretze vint-i-cinc" si és un número de telèfon. Sovint un sistema de síntesi de veu pot inferir com expandir un nombre en funció de les paraules o números veïns i la puntuació, i alguns sistemes proporcionen un sistema per especificar el tipus de context si és ambigu.

De la mateixa manera, abreviatures com " etc. " Es poden transformar fàcilment en "et, etcètera", però sovint les abreviatures pot ser ambigües. Per exemple l'abreviatura " am " pot ser "davant meridiam" en l'exemple: "El vol aterrarà a les 11 am" o pot ser "modulació d'amplitud" o simplement "a ema" en l'exemple "Ens pot trobar a la sintonia 1425 am ". Els sistemes amb front end intel·ligents poden fer estimacions adequades sobre com tractar abreviatures ambigües, mentre que altres poden fer el mateix en tots els casos, donant resultats de vegades còmics.

Desafiaments dels sistemes Text a fonema[modifica]

Els sintetitzadors de veu fan servir dues aproximacions bàsiques al problema de determinar la pronunciació d'una paraula basant-se en la seva pronunciació, un procés que sovint rep el nom de conversió text a fonema o grafema a fonema, atès que fonema és el terme usat pels lingüistes per descriure sons distintius en una llengua.

L'aproximació més simple a aquest problema és la basada en diccionaris, en la qual s'emmagatzema al programa un gran diccionari que conté totes les paraules de la llengua i la seva correcta pronunciació. Determinar la pronunciació correcta de cada paraula consisteix a buscar cada paraula en el diccionari i reemplaçar el text amb la pronunciació especificada al diccionari.

L'altra aproximació per convertir text en fonemes és l'aproximació basada en regles, on aquestes regles per a la pronunciació de les paraules s'apliquen a paraules per extreure les seves pronunciacions basades en la seva forma escrita.

Cada aproximació té avantatges i desavantatges. La tècnica basada en diccionaris té com a avantatges ser ràpida i precisa, però falla completament si una paraula donada no apareix al diccionari, i a mesura que creix el diccionari creixen els requeriments de memòria del sistema de síntesi. D'altra banda, la tècnica basada en regles funciona amb qualsevol entrada, però la complexitat de les regles creix substancialment a mesura que es tenen en compte ortografies i pronunciacions irregulars. Com a resultat, gairebé qualsevol sintetitzador de veu usa una combinació de les dues tècniques.

Alguns idiomes, com l'espanyol, tenen un sistema d'escriptura molt regular i la predicció de la pronunciació de paraules basada en el lletreig és gairebé sempre correcta. Els sistemes de síntesi de veu per a aquest tipus de llenguatges generalment usen un enfocament basat en regles com l'enfocament central per a la conversió text-fonema i auxiliant de diccionaris petits per a algunes paraules d'origen estranger la pronunciació no es dedueix de l'escriptura. En altres com l'anglès, atès que es tracta de sistemes molt irregulars en la seva escriptura, l'enfocament es basa principalment en diccionaris i només per paraules no usuals es basa en regles.

Problemes de la veu sintètica[modifica]

Rebuig per part dels usuaris que no li perdonen la seva falta de naturalitat i el seu timbre robòtic.
Els CTV ( C onversores de T exto- V oz) produeixen veu, generalment, veu d'home. Hi ha diverses raons que poden explicar aquest fet:

* Una explicació sociològica òbvia és que, fins fa relativament poc, les persones que treballaven en els laboratoris eren homes i aquests empraven la seva pròpia veu durant els experiments.

* La veu masculina ofereix millor qualitat sonora que la femenina. Això és perquè la freqüència fonamental (primer harmònic) de la dona és bastant més alta que la d'home.

* La forma d'ona en la veu de dona té un component d'oscil·lació no periòdica, que ve donat per una major freqüència en l'aspiració, que resulta més notable que la de l'home. Aquest component de l'excitació glotal és difícil de modelar adequadament.

En els últims temps han aparegut sintetitzadors que utilitzen veu de dona de qualitat acceptable, però, segueixen sense arribar a la qualitat oferta per un sintetitzador de similars característiques que empri veu masculina.

Llenguatges d'etiquetes per a síntesi de veu[modifica]

Hi ha un cert nombre de llenguatge d'etiquetes per a la interpretació de text com veu d'acord amb XML. El més recent és SSML, proposat pel W3C, que té actualment categoria d'esborrany. Altres llenguatges d'etiquetes d'aparició anterior són SABRE i JSML. Encara que cada un va ser proposat com un nou estàndard, cap ha estat àmpliament adoptat.

Els llenguatges d'etiquetes per a síntesi de veu no són llenguatges d'etiquetes per diàleg com VoiceXML, que inclou, a més d'etiquetes de conversió text a veu, etiquetes relatives a reconeixement de veu i control de diàleg.

Vegeu també[modifica]

Bibliografia[modifica]

Tordera Yllescas, Juan Carlos (2011): "Lingüística computacional. Tractaments de la parla". València: Universitat de València.
J. Aparicio, M. Taulé, M. A. Martí «AnCora-Verb: two large-scale verbal lexicons for Catalan and Spanish». Universitat de Barcelona, 2008, pàg. 261-268.

Enllaços externs[modifica]

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Síntesi de veu