Reconeixement de locutors

El reconeixement de locutors pertany a la branca de la intel·ligència artificial i consisteix en la identificació automàtica d'una persona a través de la seva veu. El fet de poder distingir un locutor d'un altre està relacionat majoritàriament amb les característiques fisiològiques i els hàbits lingüístics de cadascun d'ells. El reconeixement comporta un processament d'àudio que permet extreure aquest conjunt de trets inherents al locutor i la posterior cerca de possibles coincidències mitjançant un procés de reconeixement de patrons.

Arquitectura del sistema[modifica]

Un sistema de reconeixement de locutor està format per dues seccions: entrenament i test. Tot i compartir una estructura similar quant als mòduls que les conformen tenen una funció ben diferenciada.

La secció d'entrenament té la finalitat d'enregistrar locutors mitjançant un micròfon per tal d'extreure les seves característiques i guardar-les a la base de dades.
La secció de test se centra a enregistrar a un locutor i extreure'n les característiques per poder comparar-les amb les que es troben emmagatzemades a la base de dades. Finalment, després d'obtenir possibles coincidències, el sistema presenta al locutor susceptible de ser el cercat.

Adquisició de dades[modifica]

L'adquisició de dades és essencial tant per a la part d'entrenament com la de test. Per poder introduir locutors al sistema és necessari un transductor acústic-elèctric, ja que la veu es propaga en forma d'ones i per tal de poder extreure'n característiques és necessari transformar la pressió sonora en un senyal elèctric i així poder procedir a la seva digitalització. El tipus de micròfon, la freqüència de mostreig i la quantificació realitzada a la captació de l'àudio ha d'adequar-se a l'amplada de banda de la veu i les seves característiques. Hi ha factors externs al locutor com l'elecció dels paràmetres anteriors, la relació senyal-soroll (SNR) de les mostres enregistrades o la utilització de micròfons amb diferents corbes de resposta freqüencial que poden influir negativament en el resultat.

Extracció de característiques[modifica]

Un cop digitalitzat, l'àudio es processa per tal d'extreure el llistat de característiques triades, les quals s'anomenen descriptors d'àudio. Aquests descriptors contenen les característiques acústiques del senyal que utilitzarà el classificador per comparar-los amb el llistat emmagatzemat a la base de dades. Les característiques a analitzar poden ser diverses però es solen utilitzar els descriptors d'àudio de baix nivell degut a la naturalesa de la font. Aquests descriptors presenten un baix nivell d'abstracció i es limiten a descriure característiques espectrals, paramètriques i temporals del senyal d'àudio.

Per tal de poder associar les característiques dels descriptors als arxius d'àudio corresponents s'utilitzen les metadades, dades sobre dades. Un dels estàndards utilitzats per a aquesta tasca és l'estàndard MPEG-7, el qual permet la gestió d'aquestes metadades, facilitant així l'accés a aquesta informació a l'hora de la cerca.

Classificació[modifica]

El mòdul classificador té accés tant a la part d'entrenament com a la de test. Aquest mòdul fa de pont entre ambdues parts encarregant-se de comparar els vectors de característiques a cercar amb els vectors dels models de locutor que conté la base de dades. La seva tasca computacional consisteix a trobar coincidències i com a resultat extreu una sèrie de probabilitats dels locutors a la base de dades susceptibles de ser el cercat. La decisió pot ser diferent depenent de la configuració del sistema.

Sistema tancat[modifica]

Un sistema tancat dona per suposat que el locutor que es vol identificar es troba ja emmagatzemat a la base de dades. El locutor amb més probabilitats a la sortida del classificador, que comparteix més característiques amb el locutor a cercar, serà la sortida resultant del sistema.

Sistema obert[modifica]

Un sistema obert és més complex, ja que el locutor que es vol identificar no està necessàriament a la base de dades. El classificador ha de tenir en compte no només la més alta probabilitat, sinó que també ha d'establir si la semblança és suficient per a donar un positiu. Si les probabilitats d'un model de locutor es consideren suficients com per a suposar una coincidència es presenta al candidat com a resultat de la cerca, en cas contrari la sortida és "locutor desconegut".

Aplicacions[modifica]

El desenvolupament de tecnologies encarregades de reconèixer automàticament a una persona mitjançant la seva veu ha experimentat un creixent interés en els darrers anys degut a les seves múltiples aplicacions.

Camp	Exemples
Control d'accés	Accés a instal·lacions físiques Accés a un ordinador
Transaccions d'autenticació	Comerç electrònic Transaccions bancàries
Servei personalitzat	Aplicacions de domòtica
Gestió d'àudio	Indexació automàtica de continguts d'àudio
Reforçament de la llei	Comprovació de que es compleix la llibertat condicional
Forense	Identificació de persones a través de gravacions per tal de validar proves

Farrús, Mireia «Fusing prosodic and acoustic information for speaker recognition». Thesis, 2008.^{[Enllaç no actiu]}

Identificació o autenticació[modifica]

La identificació de locutor consisteix a trobar la seva identitat. Com que el locutor a cercar pot estar registrat a la base de dades o no estar-ho, s'acostuma a utilitzar un sistema obert, doncs en cas de no estar a la base de dades la identificació no seria possible i el locutor hauria de considerar-se desconegut.

En el cas de l'autenticació s'utilitza un sistema tancat, perquè en aquest cas el locutor dona la seva identitat i per tal de verificar-ho és necessari accedir al seu model de veu guardat a la base de dades. Hi ha dues possibles sortides per a aquest sistema, la correspondència entre el locutor i qui diu ser o la no correspondència.

Dependents o independents del text[modifica]

Els sistemes dependents del text utilitzen la mateixa paraula o frase tant a la part d'entrenament com a la de test. Aquestes paraules acostumen a ser claus privades en aplicacions de seguretat.

Els sistemes independents del text no es basen en cap paraula o frase en concret i no necessiten cap mena de cooperació per part del locutor a buscar, perquè amb la veu ja és suficient. Aquests sistemes s'utilitzen sovint en camps d'investigació forense o judicial, per tal d'identificar a locutors o verificar-ne alguna identitat.

Vegeu també[modifica]

Indexació audiovisual

Enllaços externs[modifica]