Reconeixement de paraules clau

De la Viquipèdia, l'enciclopèdia lliure
Exemple d'un sistema de reconeixement de paraules clau. A la imatge superior veiem un arxiu de veu amb la següent locució gravada: Exemple pràctic d'un sistema de reconeixement de paraules clau. A la imatge inferior, el sistema reconeix la paraula clau sistema.

El reconeixement de paraules clau, conegut com a Wordspotting, és una part de la intel·ligència artificial que consisteix a identificar paraules específiques dintre d'una locució. És un algorisme basat en la cerca de paraules clau en arxius d'àudio, per exemple trucades telefòniques, on localitza i indexa contingut d'àudio guanyant un estalvi important de temps davant la cerca manual. El sistema wordspotting es diferencia entre el reconeixement de paraules aïllades i el reconeixement de parla continua, és a dir, les paraules són reconegudes en un flux continu de fonemes.

Els inicis[modifica]

L'any 1870, Alexander Graham Bell va voler desenvolupar un dispositiu capaç de proporcionar una parla visible per a la gent amb problemes auditius. El fruit d'aquesta idea fou creat el telèfon. Més tard, l'any 1930, el científic Tihamér Nemes va voler patentar el desenvolupament d'una màquina de transcripció automàtica de veu. Fou denegada per considerar-se un projecte poc realista. Sis anys després, Bell Laboratories van crear el primer analitzador i sintetitzador de veu, Vocoder i Voder respectivament.

No és fins a l'any 1952, on investigadors de Bell Laboratories desenvoluparien el primer sistema de reconeixement de veu amb dependència del locutor capaç de reconèixer dígits de 0 a 9 basant-se en les característiques de l'espectre de cada número. Els experiments donaren una exactitud del 98%. Més tard, concretament, l'any 1959 fou creat un sistema capaç de reconèixer quatre vocals i nou consonants.[1]

Arquitectura d'un model HMM progressiu per a la parla.

La dècada del 1960, els investigadors van començar a desenvolupar aplicacions amb vocabularis curts (no més de 50 paraules), dependents del locutor i amb paraules de flux discret, és a dir, amb pauses entre paraules.

Cap als anys 70,[2] molts investigadors intenten millorar els sistemes existents. A més, DARPA (Defense Advanced Research Projects Agency) s'interessa per aquesta tecnologia, i comença les seves investigacions pròpies, enfocades a la parla continua i utilitzant vocabularis més extensos. Neixen tècniques com “DTW (Dynamic Time Warping)”, “Model probabilístic (Model ocult de Markov, HMM)” i “Algorisme de Retropropagació (Algorisme Backpropagation)”.

Durant la dècada del 1980, els sistemes comencen a incorporar mòduls d'anàlisi lèxica, sintàctica, semàntica i pragmàtica amb la finalitat de la comprensió de la parla. Es treballa amb vocabulari més extens, fins a arribar quasi a les 20.000 paraules. Més tard, avenços tecnològics seran els precursors d'un gir en les investigacions, passaran de mètodes basats en reconeixement de patrons a mètodes basats en models probabilístics, com el Model ocult de Markov (HMM).[3][4] Mètodes desenvolupats, a la dècada del 1970, per solucionar els problemes de parla continua.

Finalment, la dècada del 1990, es continua treballant amb vocabularis cada vegada més amplis, els costos disminueixen i les aplicacions independents del locutor i flux continu comencen a ser més comuns. Actualment, les companyies telefòniques són els principals clients d'aquestes tecnologies.[5][6]

Objectius[modifica]

El principal objectiu d'un sistema de reconeixement de paraules clau o Wordspotting és solucionar el problema a causa de les paraules fora de vocabulari (Out Of Vocabulary, OOV), com noms propis, estrangerismes, acrònims, etc., termes que no es troben al vocabulari dels sistemes de parla continua. Per aquest motiu, la tècnica Wordspotting busca un accés eficient a la informació.[7]

Classificació dels diferents sistemes Wordspotting[modifica]

Aquests sistemes es poden classificar en tres tipus diferents: basats en reconeixedors de parla continua de gran vocabulari (LVCSR), basats en models de farciment, i per últim basats en reconeixedors de subunitats de paraula. Tots tres, treballen amb sistema Wordspotting, i es diferencien per la manera d'accedir a la informació.

Basats en reconeixedors de parla continua de gran vocabulari (LVCSR)[modifica]

També conegut amb el nom LVCRS (Large Vocabulary Continuos Speech Recognition). Aquest sistema funciona molt bé en el cas que totes les paraules a reconèixer formin part del vocabulari del sistema, cosa que no sempre succeeix. Si la paraula a buscar no s'ha utilitzat a la indexació, no es pot trobar, això vol dir que la paraula es considera fora de vocabulari (OOV).[8]

Els trets més representatius ve caracteritzat per posseir un reconeixement de la parla natural i un extens vocabulari. Inclou funcions d'extracció, transcripcions automàtiques de la parla, modelatge del llenguatge i enteniment de la parla.

Diagrama de blocs d'un sistema LVCSR.

Basats en models de farciment[modifica]

Per entendre aquests sistemes, primer de tot, cal saber que en els processos de descodificació proposen la seqüència més probable de paraules existents a l'àudio. D'aquesta manera, cal tenir en compte les paraules clau i qualsevol altre tipus de so que pugui aparèixer a l'arxiu. Per aquest motiu, els models de farciment són utilitzats per omplir els intervals de parla amb absència de paraules clau.

Les paraules clau conjuntament amb els models de farciment entren al mòdul on hi ha fixat una mesura de confiança. Aquesta mesura es fa servir per detectar errors de reconeixement, conceptes semàntics incorrectes i paraules fora del vocabulari, de tal manera, són rebutjats del sistema. Amb les mesures de confiança es pot augmentar el rendiment del sistema. Amb aquest procediment, només s'intenta reconèixer unes paraules determinades, la resta d'àudio s'assigna a models de farciment.[9]

  • Avantatges:
  • Inconvenients:
    • Treballa amb un conjunt predefinit de paraules clau, si se cerca una paraula fora de vocabulari (OOV) és necessari refer la indexació[10]
    • Sistema limitat per aplicacions en centre d'atenció telefònica êr a la consulta d'itineraris, gestió de reserves, la gestió d'incidències…
Diagrama de blocs d'un sistema basats en models de farciment.

Basats en reconeixedors de subunitats de paraula[modifica]

Els sistemes basats en reconeixedors de subunitats de paraula tenen com a objectiu solucionar el principal problema que presenten les tècniques Wordspotting. Per aquest motiu es van desenvolupar els sistemes “Spoken Term Detection (STD)”, mecanismes útils per extreure informació de continguts audiovisuals.[11]

El funcionament d'aquest s'estructuren en dues parts: una primera, on es realitza el procés de reconeixement de veu (basats en models fonètics) i, una segona, on es fa la cerca dels termes. A la primera part, el sistema treballa en subunitats de paraules que no canvien amb l'idioma. Aquest procés genera un índex, fa la funció de punter. A la segona part, amb el detector de paraules clau i les mesures de confiança (basat en “lattices"), el sistema a la sortida extreu el llistat de les paraules demanades.

  • Avantatges:
    • La cerca és molt més ràpida que els dos casos anteriors
    • No té problemes de paraules fora de vocabulari (OOV). Es pot cercar qualsevol tipus de paraula, ja que fa una cerca de seqüències de fonemes
    • Utilitzat per a sistemes de reconeixement d'idioma
  • Inconvenients:
    • És menys precisa que els sistemes anteriors, encara que si es combina amb altres sistemes es pot millorar. Per exemple els reconeixedors de parla continua de gran vocabulari (LVCSR)
Diagrama de blocs d'un sistema de reconeixement de subunitats de paraula.

Altres sistemes[modifica]

Arquitectura bàsica d'una xarxa neuronal amb quatre nodes d'entrada i un node de sortida
Basats en xarxes neuronals (Artificial Neural Networks, ANN)

Les xarxes neuronals es complementen amb altres mètodes, formant sistemes híbrids. D'aquesta manera es resolen problemes concrets derivats per altres sistemes, gràcies a la seva senzillesa i eficàcia.[12]

Una xarxa neuronal aplicada a qualsevol sistema de reconeixement es basa simplement en models matemàtics calculats amb llenguatges de programació. Les neurones són definides a partir d'un conjunt d'entrades i sortides connectades entre elles, creant una estructura capaç de guardar informació. D'aquesta manera, creem una estructura neuronal, xarxa proporcionarà autonomia d'aprenentatge, un alt rendiment, rapidesa i potencia. En podem trobar diferents tipus d'algorismes d'aprenentatge: supervisat per correcció d'error, autoorganitzat, híbrids i reforçats.[13]

Aplicacions[modifica]

Aquests sistemes són utilitzats en diversos camps, des de companyies telefòniques fins a seguretat i defensa. Uns dels camps on més rendiment han tret d'aquesta tecnologia ha sigut la telefonia, ja sigui per raons d'utilitat, disponibilitat o cost. Exemples com, centres d'atenció telefònica, assistència en trucades (operadors automàtics), categorització de trucades, etc. També trobem aplicacions per serveis financers, consultes d'informació (clima, tràfic, itineraris…), cross-selling, gestió de reserves, etc.

Altres aplicacions d'accés a informació de gravacions multimèdia, indexació d'àudio en funció de marques, generació d'avisos en temps real, processament de reunions, anàlisis de qualitat d'operadors, robòtica…

Conclusions[modifica]

Els sistemes basats en reconeixedors de parla contínua de gran vocabulari ofereixen un òptim rendiment sempre que la consulta de l'usuari estigui dins del diccionari del sistema. Una manera de solucionar els OOV és utilitzar la cerca per fonètica (sistemes basats en subunitats de paraules). D'aquesta manera, la combinació de sistemes LVCS i sistemes de subunitats de paraula es converteix en un sistema robust per aplicacions d'extracció d'informació en continguts audiovisuals.

Vegeu també[modifica]

Referències[modifica]

  1. "L. R. Rabiner i B. H. Juang, Fundamentals of Speech Recognition, Prentice-Hall, Englewood Cliffs, N. J., 1993"
  2. "J. C. Junqua i J. P. Haton, Robustness in Automatic Speech Recognition, Kluwer Academic Publishers, 1996"
  3. "L. R. Rabiner i B. H. Juang, “An Introduction to Hidden Markov Models”, IEEE ASSP Magazine, Vol. 3, Nº 1, gener 1996"
  4. "L. R. Rabiner, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, Proc. of the IEEE, Vol. 77, Nº 2, febrer 1989"
  5. "J. T. Chien i H. C. Wang, “Telephone speech recognition based on Bayesian adaptation of hidden Markov models”, Speech Communication, Vol. 22, 1997"
  6. "S. Gamm, R. Haeb-Umbach i D. Langmann, “The development of a command-based speech interface for a telephone answering machine”, Speech Communication, Vol. 23, 1997"
  7. "J.M. Baker; Large Vocabulary, Speaker Adaptive Continuous Speech Recognition Research Overview at Dragon Systems. In Proceedings of Eurospeech 91 (Geneva, Italy, September 24-26). ESCA, 1991"
  8. "D. T. Toledano; “Lattices y WordSpotting”. Área de Tratamiento de Voz y Señales. Escuela Politécnica Superior - UAM, Madrid. 2008"
  9. "Szöke, I., Schwarz, P., Matejka, P., Burget, L., Karafiát, M., Fapso, M. i Cernocky, J., “Comparison of Keyword Spotting Approaches for Informal Continuous Speech,” in Proc. InterSpeech, 2005"
  10. "Cuayahuitl, H., Serridge, B.: Out-of-vocabulary word modelling and rejection for spanish keyword spotting systems. Proc. of MICAI, 2002"
  11. "M. Saraclar, R. Sproat; Lattice-Based Search for Spoken Utterance Retrieval. AT&T Labs – Research 2006"
  12. "Beale, R.; Jackson, T; “Neural Computing: an introduction”, Ed. Adam Hilger, 1990"
  13. "Ou, J., Chen, C., Li, Z.: Hybrid neural-network/hmm approach for out-ofvocabulary words rejection in mandarin place name recognition. Proc. of ICONIP, 2001"

Enllaços externs[modifica]