Descodificador acústic fonètic

Un descodificador acústic-fonètic és un mòdul format per un conjunt d'informacions que procedeix de diverses fonts de coneixement; per exemple una font acústica, fonètica, fonològica o lèxica; amb els corresponents procediments interpretatius, amb l'objectiu d'obtenir una interpretació del senyal vocal en funció d'un cert conjunt d'unitats lingüístiques.

S'utilitza al reconeixement de la parla automàtic, que és una part de la intel·ligència artificial en la qual disciplines com la teoria del senyal o la fonètica juguen papers importants i que té com a objectiu permetre la comunicació parlada entre éssers humans i ordinadors. El seu principal problema és el de fer cooperar un conjunt d'informacions en presència d'ambigüitats, incerteses i errors inevitables per arribar a obtenir una interpretació acceptable del missatge acústic rebut.

Esquema principal[modifica]

L'entrada al descodificador acústic fonètic és el senyal vocal convenientment representat. Per a això, cal que aquest pateixi un preprocés de parametrització. En aquesta etapa prèvia és necessari assumir algun model físic. Actualment, els models auditius són els més utilitzats, mentre que els models basats en la producció de la veu estan poc desenvolupats. En particular, es creu que els models articulatoris podrien ser més convenients per representar el senyal vocal.

D'altra banda, els models actualment utilitzats són bàsicament estàtics, on s'assumeix que el senyal vocal és quasi estacionari en intervals curts de temps.

Parametrització[modifica]

Els algorismes de reconeixement de patrons requereixen reduir dràsticament el volum de dades del senyal, l'eliminació de tota informació redundant o inútil i mantenir només informació rellevant. Aquesta discriminació s'executa durant el procés de parametrització, que consisteix en la conversió A/D del senyal de veu (filtre antialiàsing, mostratge i quantificació). D'ella s'obté una seqüència de nombres tractable computacionalment que no conté tota la informació acústica però si tota la informació que interessa a efectes de reconeixement. La seqüència de mostres/nombres es divideix en petites trames i se li aplica diferents tipus d'anàlisi, ja sigui en el temps (energia, creuament per zero, en freqüència (banc de filtres, transformada de Fourier) o paramètrics (predicció lineal). L'objectiu final és l'obtenció màxima d'informació en el menor espai possible. De vegades se sol aplicar tècniques d'anàlisi lineal discriminant (<<Linear Discriminen Analysis>>). Una altra tècnica utilitzada és el filtre Cepstrum o <<liftering>> que modula l'envolupant espectral permetent una menor dependència del locutor i de les condicions de la transmissió del senyal.

Modelització acústica[modifica]

La major part dels sistemes de DAF desenvolupats inicialment treballaven amb un conjunt d'unitats independents del context, molt pròxim al conjunt de fonemes de la llengua. No obstant això, aviat es va veure la necessitat d'ampliar aquest conjunt bàsic d'unitats per tractar de recollir la variabilitat contextual rellevant en la discriminació acústica. La introducció de contextos ha produït increments notables de les taxes de reconeixement en sistemes per a grans vocabularis i / o discurs continu. Hi ha evidència experimental que com més detallat resulta el modelatge acústic, millor és el rendiment del sistema de reconeixement. No obstant això, si se selecciona un nombre gran d'unitats es produeix l'inconvenient que els models de les unitats deixen d'estar ben entrenats, ja que el nombre de paràmetres creix excessivament.

D'aquesta manera apareix la necessitat d'establir criteris que permetin obtenir inventaris d'unitats amb una adequada modelització de la coarticulació i compatibles amb un entrenament robust i un sistema de reconeixement adequat. Quant a la metodologia, els Models Ocults de Markov constitueixen l'elecció més estesa, tant en la seva formulació discreta, que treballa amb etiquetes o símbols, com en la contínua i semicontínua, que treballen directament amb vectors acústics. Per a la descodificació s'utilitza l'algorisme de Viterbi que produeix la seqüència d'estats òptima donats una seqüència acústica i un conjunt de models. Des de la introducció dels Models Ocults de Markov s'han proposat multitud de millores tant a nivell de la mateixa estructura, com de les tècniques utilitzades per reestimar els paràmetres dels models.

Modelització del llenguatge[modifica]

El bloc de Modelització del Llenguatge tracta d'aplicar les regles gramaticals que regeixen la comunicació parlada en una determinada tasca, per facilitar el reconeixement de la cadena d'unitats acústiques generada pel mòdul DAF, o la comprensió d'un missatge a partir d'aquesta cadena. Per això té en compte no només el contingut lèxic i les regles sintàctiques, sinó també aspectes pràctics i semàntics.

Els models de llenguatdge més utilitzats són els n-grames (en particular, els bigrames i els trigrames), que descriuen la probabilitat d'observar una determinada paraula donades les n-1 anteriors. Els n-grames són capaços de capturar un gran percentatge de fenòmens sintàctics i semàntics i poden incorporar fàcilment en els algorismes de reconeixement més utilitzats. A més, els bigrames no afegeixen cap cost computacional en el reconeixement amb respecte al sistema sense model del llenguatge.

Disseny[modifica]

Per al disseny d'un DAF cal triar

El tipus d'unitat sublèxica
El tipus de models amb les tècniques que li siguin pròpies

Problemes que planteja el disseny[modifica]

En el disseny d'un descodificador acústic fonètic apareixen diversos problemes per als quals no s'han aportat solucions satisfactòries.

En primer lloc, caldria citar el problema de la modelització sublèxiques, en particular, l'elecció de les unitats subléxicas adequades. Actualment, certes unitats de tipus fonètic són les més utilitzades. En principi sembla necessari que les unitats subléxicas han d'estar relacionades amb unitats lingüístiques per tal de caracteritzar el vocabulari de l'aplicació concreta, i sense que es necessitin mostres d'entrenament per a totes les paraules que el componen.
D'altra banda és necessari relacionar aquestes unitats amb informació acústica, que caldrà caracteritzar estadísticament. La Fonologia pot aportar també informació sobre les regles que governen les possibles seqüències d'unitats subléxicas, el que permetria depurar alguns dels errors inevitables que produeix el descodificador acústic-fonètic.
Finalment, altres problemes amb què cal enfrontar-se en el disseny d'un descodificador acústic-fonètic i que són de difícil solució són el de la coarticulació i el de la modelització de certes paraules curtes que poden canviar el significat d'una pronunciació i la interpretació d'un missatge acústic.

Model de disseny[modifica]

Anàlisi: Transformacions sobre la veu (anàlisi espectral, anàlisi temporal...).
Detector: Detecta els caràcters acústics de les unitats fonètiques(formants, energia nasal, fricativa, sonora/sorda).
Etiquetat: Genera cadena de fonemes que compara amb el vocabulari.
Estratègia de control: restriccions tals com el nombre de fonemes per paraula...

Descodificació acústica fonètica utilitzant unitats sublèxiques[modifica]

El modelat acústic utilitzant unitats sublèxiques consisteix a considerar que tota realització oral pot ser descomposta en una successió de sons diferents tals que cada un d'ells potser associat de manera única a un símbol-unitat sublèxica-pres d'un conjunt finit.

Condicions[modifica]

Les condicions que han de complir les unitats sublèxiques per resultar d'utilitat en reconeixement de la parla són:

Han de constituir un conjunt finit i complet que permeti una transcripció biunívoca de qualsevol missatge oral.
Les diferents unitats sublèxiques han de ser distingibles unes de les altres a partir dels seus característiques acústiques.
Les característiques acústiques de les diferents realitzacions d'una unitat acústica no han de dependre del context concret en què es troben.

Fonema[modifica]

L'elecció més immediata d'unitat sublèxica per al reconeixement de la parla contínua és el fonema. Tot missatge oral pot ser representat en forma de cadena de fonemes, els quals presenten característiques acústiques que, més o menys, permeten la seva diferenciació de la resta. El fonema presenta un greu inconvenient que limita les seves prestacions i dificulta el seu entrenament: la dependència del context de les seves característiques acústiques per culpa de la coarticulació.

Models i tècniques que s'utilitzen al DAF[modifica]

Aproximacions basades en regles: sistemes basats en el coneixement
Aproximacions basades en mesures de distància: tècniques de comparació entre plantilles (seqüències de vectors de característiques o primitives)
Aproximacions probabilístiques: part del Model ocult de Markov i constitueix una de les més importants tècniques que s'empren en l'actualitat.
Aproximacions basades en funcions discriminants: models basats en les Xarxes Neuronals Artificials.

Vegeu també[modifica]

Model de llenguatge

Enllaços externs[modifica]