Classificador (matemàtiques)

De Viquipèdia
Salta a la navegació Salta a la cerca

Un classificador és un element que proporciona una classe etiquetada com a sortida a partir d'un conjunt de característiques d'entrada. Una manera de construir un classificador és agafar un conjunt d'exemples etiquetats i tractar de definir una regla que pugui assignar una etiqueta a qualsevol altra dada d'entrada.

Introducció[modifica]

Actualment, degut als avenços en el món tecnològic i la necessitat de viure rodejats de la major informació possible, el nombre d'arxius digitals de contingut multimèdia està creixent molt ràpidament. Això fa necessària la recerca de mètodes eficients capaços de recuperar amb rapidesa la informació audiovisual d'interès.

Aprenentatge i Mineria de dades[modifica]

Tant la Mineria de dades (Data Mining) com l'Aprenentatge automàtic (machine learning) són famílies de tècniques adreçades al processament de gran quantitats de dades, intractables manualment.

La tècnica de Mineria de dades, intenta obtenir patrons o models a partir de les dades recopilades.

L'Aprenentatge automàtic és la part bàsica que tenen en comú els diferents tipus de classificadors que existeixen. La idea bàsica de l'aprenentatge consisteix a utilitzar les percepcions no només per a actuar, sinó també per a millorar l'habilitat d'un agent per a actuar en el futur.

Existeixen diversos tipus d'aprenentatge:

Aprenentatge supervisat[modifica]

L'aprenentatge supervisat consisteix a aprendre una funció, a partir d'exemples etiquetats anteriorment, que estableixi una correspondència entre les entrades i les sortides desitjades del sistema. No sempre és possible fer aquest tipus d'entrenament, ja que hem de disposar de la sortida esperada en la funció d'entrada. El sistema d'aprenentatge tracta d'etiquetar (classificar) una sèrie de vectors utilitzant una entre diverses categories (classes).

Aprenentatge no supervisat[modifica]

L'Aprenentatge no supervisat consisteix a aprendre a partir de patrons d'entrades per als quals no s'especifiquen els valors de les seves sortides. El principal problema d'aquesta tècnica és la presa de decisions a l'hora d'escollir un patró entre tots els proporcionats. El sistema tracta els objectes d'entrada com un conjunt de variables aleatòries, construint un model de densitat pel conjunt de dades.

Aprenentatge semi-supervisat[modifica]

Actualment existeixen tècniques que combines les dos anteriors, ja que pot resultar molt costós assignar etiquetes o classes a totes les dades. La finalitat és combinar dades etiquetades i no etiquetades per millorar la construcció de models. Tot i això no és sempre útil i existeixen diversos mètodes per dur-lo a terme.

Aprenentatge per reforç[modifica]

L'aprenentatge per reforç consisteix a aprendre observant el món que t'envolta.

La idea de l'aprenentatge consisteix a construir una funció que tingui el comportament observat en les seves dades d'entrada i de sortida. Els mètodes d'aprenentatge es poden entendre com la recerca d'un espai d'hipòtesi per a trobar la funció adequada.

Tipus de classificadors[modifica]

Existeixen diferents tipus de classificadors:

Classificador Bayesià[modifica]

Un Classificador Bayesià és un classificador de patrons basat en teories estadístiques d'aprenentatge. L'aprenentatge bayesià calcula la probabilitat de cada hipòtesi de les dades i realitza prediccions sobre aquestes bases. És un aprenentatge gairebé òptim, però requereix grans quantitats de càlcul degut al fet que l'espai d'hipòtesi és normalment molt gran, o fins i tot pot ser infinit.

Classificador Parzen[modifica]

És un classificador basat en l'estimació no paramètrica, que a diferència de la paramètrica, on s'obté la funció de densitat de probabilitat estimant els paràmetres desconeguts d'un model conegut, no es coneix el model. Aquesta tècnica són bàsicament variacions de l'aproximació de l'histograma d'una funció de densitat de probabilitat desconeguda. Aquest algorisme s'utilitza per la classificació d'imatges o per classificar i aprendre simultàniament. El problema és que té un temps d'execució elevat.

Classificador Backpropagation[modifica]

En alguns problemes l'ús de models simples de densitat paramètrica o l'ús de models d'histogrames no donen els resultats desitjats. En aquests casos es busquen models de densitat més sofisticats. Les xarxes neuronals són una tècnica d'aproximació paramètrica útil per a construir models de densitat. El model de xarxa neuronal habitual que utilitza aquest algorisme consisteix en una xarxa amb una capa d'entrada amb tants nodes com entrades tinguin, una capa oculta amb un nombre de nodes variable que dependrà de les característiques del problema, i una capa de sortida amb tants nodes com possibles sortides tingui.

Classificador amb PCA[modifica]

En aquest classificador s'utilitza el mètode PCA (Principal Component Analysis), és una tècnica que busca reduir el nombre de variables transformant el conjunt original de variables correlacionades, que tenen informació en comú, en un nou conjunt de variables incorrelades, que no tenen repetició o redundància entre si, anomenat conjunt de components principals. Les noves variables són combinacions lineals de les anteriors.

Màquines de vector de suport (Support vector machine)[modifica]

Les Màquines de vector de suport són unes tècniques senzilles i de gran aplicació quan es pretén construir un classificador utilitzant exemples. A diferència de les xarxes neuronals que intenten construir un model a posteriori, les SVM's tracten d'obtenir la frontera de decisió. Un dels seus avantatges és la seva facilitat, ja que únicament cal codificar la geometria de la frontera.

Aplicacions[modifica]

Les aplicacions dels classificadors són molt amplies. S'utilitzen en medicina (anàlisi de drogues, anàlisi de dades en ressonàncies magnètiques), telèfons mòbils (descodificació del senyal, correcció d'errors), visió per ordinador (reconeixement facial, seguiment d'objectius), reconeixement de veu, mineria de dades (anàlisi de compres en supermercats, anàlisi de clients) entre altres àrees diferents.

Un exemple de classificador seria aquell que accepta dades sobre el sou, edat, estat civil, direcció i historial de crèdit d'una persona i classifica a les persones com a acceptables o inacceptables per a rebre una tarjeta de crèdit o préstec.

Vegeu també[modifica]