Mineria de dades

De Viquipèdia
Dreceres ràpides: navegació, cerca

La mineria de dades (Data Mining) és un procés no trivial d'identificació d’informació vàlida, nova, potencialment útil i entenible de patrons comprensibles que es troben ocults en les dades.[1]

La mineria de dades engloba tot un conjunt de tècniques encaminades a l'extracció de coneixement processable, implícit en les bases de dades. Està íntimament lligat a la supervisió de processos industrials, ja que resulta molt útil per aprofitar les dades emmagatzemades a les bases de dades.

Les bases de la mineria de dades es troben en la intel·ligència artificial i en l'anàlisi estadística. Mitjançant els models extrets utilitzant tècniques de mineria de dades s'aborda la solució a problemes de predicció, classificació i segmentació de memòria.

Procés[modifica | modifica el codi]

Un procés típic de mineria de dades consta de les següents passes generals:

  1. Selecció del conjunt de dades, tant en el que es refereix a les variable objectiu (aquelles que es volen predir, calcular o inferir), como a les variables independents (les que serveixen per fer el càlcul o procés), como possiblement al mostreig dels registres disponibles.
  2. Anàlisi de les propietats de les dades, en especial els histogrames, diagrames de dispersió, presència de valors atípics i falta de dades (valors nuls).
  3. Transformació del conjunt de dades d'entrada: es realitzarà de diverses formes en funció de l'anàlisi prèvia, amb l'objectiu de preparar-ho per aplicar la tècnica de mineria de dades que millor s'adapti a les dades i al problema, a aquest pas també se'l coneix com preprocessament de les dades.
  4. Seleccionar i aplicar la tècnica de mineria de dades: es construeix el model predictiu, de classificació o segmentació.
  5. Extracció de coneixement: mitjançant una tècnica de mineria de dades, s'obté un model de coneixement, que representa patrons de comportament observats en els valors de les variables del problema o relacions d'associació entre aquestes variables. També poden usar-se diverses tècniques al mateix temps per a generar diferents models, encara que generalment cada tècnica obliga a un preprocessat diferent de les dades.
  6. Interpretació i avaluació de dades: un cop obtingut el model, s'ha de procedir a la seva validació comprovant que les conclusions que llança són vàlides i prou satisfactòries. En el cas d'haver obtingut diversos models mitjançant l'ús de diferents tècniques, s'han de comparar els models a la recerca d'aquell que correspon millor al problema. Si cap dels models assoleix els resultats esperats, ha d'alterar algun dels passos anteriors per generar nous models.

Si el model final no supera aquesta avaluació, el procés es podria repetir des del principi o si un expert ho considera oportú a partir de qualsevol de les passes anteriors. Aquesta retroalimentació es podria repetir les vegades que es considerés necessàries fins a obtenir un model vàlid.

Un cop validat, el model estarà apunt per a la seva explotació.

Fonaments de la mineria de dades[modifica | modifica el codi]

Les tècniques de Data Mining són el resultat d'un llarg procés d'investigació. Aquesta evolució va començar quan les dades de negocis van ser emmagatzemats per primera vegada en computadores, i va continuar amb millores en l'accés a les dades, i més recentment amb tecnologies generades per a permetre als usuaris navegar a través de les dades en temps real. És possible aplicar la Mineria de dades actualment gràcies a tres tecnologies que ja estan bastant madures:

  1. Recol·lecció massiva de dades
  2. Potents computadores amb multiprocessadors
  3. Algorismes de Data Mining

Fases d'un projecte de mineria de dades[modifica | modifica el codi]

Els passos a seguir per a la realització d'un projecte de mineria de dades són sempre els mateixos, independentment de la tècnica específica d'extracció de coneixement usada.

El procés de mineria de dades passa per les següents fases:

  • Filtrat de dades.
  • Selecció de Variables.
  • Extracció de Coneixement: mitjançant una tècnica de mineria de dades, s'obté un model de coneixement, que presenta patrons de comportament observats en els valors de les variables del problema o relació d'associació entra dita variable. També poden utilitzar-se diverses tècniques a la vegada per generar diferents models, encara que generalment cada tècnica obliga un preprocessat diferent.
  • Interpretació i Avaluació.


Protocol d'un projecte de mineria de dades[modifica | modifica el codi]

Un projecte de mineria de dades té diverses fases necessàries que són, essencialment:


- Comprensió del negoci i del problema que es vol resoldre. - Determinació, obtenció i neteja de les dades necessàries. - Creació de models matemàtics. - Validació, comunicació, etc. dels resultats obtinguts. - Integració, si escau, dels resultats en un sistema transaccional o similar.


La relació entre totes aquestes fases només és lineal sobre el paper. En realitat, és molt més complexa i amaga tota una jerarquia de subfases. A través de l'experiència acumulada en projectes de mineria de dades s'han anat desenvolupant metodologies que permeten gestionar aquesta complexitat d'una manera més o menys uniforme. Exemple d'ella és CRISP-DM, es creu que SEMMA és una metodologia SAS declara en la seva pàgina que aquesta NO és una metodologia

Tècniques de mineria de dades[modifica | modifica el codi]

Com ja s'ha comentat, les tècniques de la mineria de dades provenen de la Intel·ligència artificial i de l'estadística, aquestes tècniques, no són més que algorismes, més o menys sofisticats que s'apliquen sobre un conjunt de dades per obtenir uns resultats.

Les tècniques més representatives són:

  • Xarxes neuronals.- Són un paradigma d'aprenentatge i processament automàtic inspirat en la forma en què funciona el sistema nerviós dels animals. Es tracta d'un sistema d'interconnexió de neurones en una xarxa que col·labora per produir un estímul de sortida. Alguns exemples de xarxa neuronal són:
    • El perceptró.
    • El perceptró multicapa.
    • Els Mapes auto-organitzats, també coneguts com a xarxes de Kohonen.
  • Regressió lineal.- És la més utilitzada per formar relacions entre dades. El model de mineria de dades representa les dades amb un únic node, que defineix la fórmula de regressió. Ràpida i eficaç però insuficient en espais multi-dimensionals on puguin relacionar-se més de 2 variables.
  • Arbre de decisió.- Un arbre de decisió és un model de predicció utilitzat en l'àmbit de la intel·ligència artificial, donada una base de dades es construeixen aquests diagrames de construccions lògiques, molt similars als sistemes de predicció basats en regles, que serveixen per representar i categoritzar una sèrie de condicions que succeeixen de manera successiva, per a la resolució d'un problema. Exemples:
    • Algorisme ID3.
    • Algorisme C4.5.
  • Model estadístic.- És una expressió simbòlica en forma d'igualtat o equació que es fa servir en tots els dissenys experimentals i en la regressió per indicar els diferents factors que modifiquen la variable de resposta.
  • Algorisme d'agrupament.- És un procediment d'agrupació d'una sèrie de vectors segons criteris habitualment de distància, es tractarà de disposar dels vectors d'entrada de forma que estiguin més a prop aquells que tinguin característiques comunes.

Segons l'objectiu de l'anàlisi de les dades, els algorismes utilitzats es classifiquen en supervisats i no supervisats (Weiss i Indurkhya, 1998):

  • Algorismes supervisats (o predictius): prediuen una dada (o un conjunt d'elles) desconeguda a priori, a partir d'altres conegudes.
  • Algorismes no supervisats (o del descobriment del coneixement): es descobreixen patrons i tendències en les dades.

Característiques[modifica | modifica el codi]

L'entorn de la mineria de dades sol tenir una arquitectura client-servidor. Les eines de la mineria de dades ajuden a extreure el mineral de la informació enterrat en arxius corporatius o en registres públics, arxivats, es combinen fàcilment i poden analitzar-se i processar-se ràpidament. La mineria de dades produeix cinc tipus d'informació:

  • Associacions.
  • Seqüències.
  • Classificacions.
  • Agrupaments.
  • Pronòstics.

Mineria de dades basada en teoria de la informació[modifica | modifica el codi]

Totes les eines tradicionals de mineria de dades assumeixen que les dades que s'usaran per a construir els models contenen la informació necessària per aconseguir el propòsit buscat: obtenir prou coneixement que pugui ser aplicat al negoci (o problema) per a obtenir un benefici (o solució).

L'inconvenient és que això no és necessàriament cert. A més, hi ha un altre problema més gros encara. Una vegada construït el model, no és possible conèixer si aquest ha capturat tota la informació disponible en les dades. Per aquesta raó la pràctica comuna és realitzar diversos models amb diferents paràmetres per veure si n'hi ha algun que destaca a l'hora d'aconseguir millors resultats.

Una visió relativament nova a l'anàlisi de dades soluciona aquests problemes, fent que la pràctica de la mineria de dades s'assembli més a una ciència que a un art.

El 1948 Claude Shannon va publicar un treball anomenat "Una Teoria Matemàtica de la Comunicació". Posteriorment aquesta va passar a anomenar-se "Teoria de la Informació" i va establir les bases de la comunicació i la codificació de la informació. Shannon va proposar una manera de mesurar la quantitat d'informació per expressar en bits.

El 1999 Dorian Pyle va publicar un llibre anomenat "Data Preparation for Data Mining" en el qual proposa una manera d'usar la Teoria de la Informació per analitzar dades. En aquest nou enfocament, una base de dades és un canal que transmet informació. D'una banda hi ha el món real que captura dades procedents del negoci. De l'altra hi ha totes les situacions i problemes importants del negoci. I la informació flueix des del món real i a través de les dades, fins a la problemàtica del negoci.

Amb aquesta perspectiva i utilitzant la Teoria de la Informació, és possible mesurar la quantitat d'informació disponible en les dades i quina proporció de la mateixa es podrà utilitzar per resoldre la problemàtica del negoci. Com un exemple pràctic, podria trobar-se que les dades contenen un 65% de la informació necessària per a predir quins clients rescindiran els seus contractes. D'aquesta manera, si el model final és capaç de fer prediccions amb un 60% d'encert, es pot assegurar que l'eina que va generar el model va fer una bona feina capturant la informació disponible. Ara bé, si el model hagués tingut un percentatge d'encerts de només el 10%, per exemple, llavors intentar altres models valdria la pena.

La capacitat de mesurar informació continguda en les dades té altres avantatges importants.

Quan analitzem les dades des d'aquesta nova perspectiva es genera un mapa d'informació que fa innecessària la preparació prèvia de les dades, una tasca absolutament imprescindible si es desitgen bons resultats, però que necessita molt temps.

És possible seleccionar un grup de variables òptim que contingui la informació necessària per realitzar un model de predicció.

Un cop que les variables són processades amb la finalitat de crear el mapa d'informació i després seleccionades aquelles que aporten més informació, l'elecció de l'instrument que ens servirà per crear el model deixa de tenir importància, ja que la major part del treball va ser realitzada en passos previs.

Aplicacions[modifica | modifica el codi]

Aquesta tècnica de processament de grans quantitats de dades té diverses aplicacions actualment en la vida quotidiana. Aquí s'esmenten algunes:

Terrorisme[modifica | modifica el codi]

El FBI analitza les bases de dades comercials per a detectar terroristes. A principis del mes de juliol de 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, va anunciar que el Departament de Justícia començarà a introduir-se en la vasta quantitat de dades comercials referents als hàbits i preferències de compra dels consumidors, amb la finalitat de descobrir potencials terroristes abans que executin una acció.

Fraus[modifica | modifica el codi]

Detecció de fraus en les targetes de crèdit. En 2001, les institucions financeres a escala mundial van perdre més de 2.000 milions de dòlars nord-americans en fraus amb targetes de crèdit i dèbit. El Falcon Fraud Manager és un sistema intel·ligent que examina transaccions, propietaris de targetes i dades financeres per a detectar i mitigar fraus.

Genètica[modifica | modifica el codi]

Dins l'estudi de la genètica humana, l'objectiu principal és entendre la relació cartogràfica entre les parts i la variació individual en les seqüències d'ADN i la variabilitat en la susceptibilitat a les malalties. És a dir, es tractaria de saber com els canvis dins la seqüència d'ADN d'un individu afecta al risc de desenvolupar malalties comuns. Això és molt important per ajudar a millorar el diagnòstic, prevenció i tractament de les malalties. La tècnica de mineria de dades que s'utilitza per realitzar aquesta feina es coneix com "reducció de dimensionalitat multifactorial"

Hàbits de compres[modifica | modifica el codi]

Un estudi molt citat va detectar que els divendres havia una quantitat inusualment elevada de clients que adquirien alhora bolquers i cervesa. Es va detectar que es devia al fet que aquest dia solien acudir al supermercat pares joves la perspectiva dels quals per al cap de setmana consistia a quedar-se a casa cuidant del seu fill i veient la televisió amb una cervesa en la mà. El supermercat va poder incrementar les seves vendes de cervesa col·locant-les pròximes als bolquers per a fomentar les vendes compulsives.

Audiències Televisives[modifica | modifica el codi]

La British Broadcasting Corporation (BBC) del Regne Unit empra un sistema per a predir la grandària de les audiències televisives per a un programa proposat, així com el temps òptim d'exhibició (Brachman i altres, 1996). El sistema utilitza xarxes neuronals i arbres de decisió aplicats a dades històriques de la cadena per a determinar els criteris que participen segons el programa que cal presentar.

Ciència i Enginyeria[modifica | modifica el codi]

En els últims anys la mineria de dades s’està utilitzant àmpliament en diverses àrees relacionades amb la ciència i l'enginyeria. Alguns exemples d’aplicació en aquests camps són:

Enginyeria elèctrica[modifica | modifica el codi]

En l'àmbit de l'enginyeria elèctrica, Les tècniques mineria de dades han estat àmpliament utilitzades per a monitoritzar les condicions de les instal·lacions d'alta tensió. La finalitat d'aquesta monitorització és obtenir informació valuosa sobre l'estat de l'aïllament dels equips Per la vigilància de les vibracions o l'anàlisi dels canvis de càrrega en transformadors s'utilitzen certes tècniques per l'agrupació de dades (clustering) tals com els Mapas Auto-Organizatius (SOM, Self-organizing map). Aquests mapes serveixen per detectar condicions anormals i per estimar la naturalesa de les esmenades anomalies.

Anàlisi de gasos[modifica | modifica el codi]

També s'han aplicat tècniques de mineria de dades per a l'anàlisi de gasos dissolts (DGA, Dissolved gas analysis) A transformadors elèctrics. L'anàlisi de gasos dissolts es coneix des de fa molt de temps com a eina per diagnosticar transformadors.

Negocis[modifica | modifica el codi]

La mineria de dades pot contribuir significativament en les aplicacions d'administració empresarial basada en la relació amb el client. En lloc de contactar amb el client de forma indiscriminada a través d'un centre de trucades o enviant cartes, només es contactarà amb aquells que es percebi que tenen una major probabilitat de respondre positivament a una determinada oferta o promoció.

En general, les empreses que empren mineria de dades veuen ràpidament el retorn de la inversió, però també reconeixen que el nombre de models predictius desenvolupats pot créixer molt ràpidament.

En lloc de crear models per predir quins clients poden canviar, l'empresa podria construir models separats per a cada regió i/o per a cada tipus de client. També pot voler determinar quins clients seran rendibles durant un moment (una quinzena, un mes,...) i només enviar les ofertes a les persones que és probable que siguin rendibles. Per mantenir aquesta quantitat de models, cal gestionar les versions de cada model i passar a una mineria de dades el més automatitzada possible.

Comportament d'Internet[modifica | modifica el codi]

També és una àrea en voga el de l'anàlisi del comportament dels visitants-sobretot, quan són clients potencials-en una pàgina d'Internet. O la utilització de la informació-obtinguda per mitjans més o menys legítims-sobre ells per oferir-los propaganda adaptada específicament al seu perfil. O per, una vegada que adquireixen un determinat producte, saber immediatament quin altre oferir tenint en compte la informació històrica disponible sobre els clients que han comprat el primer.

Jocs[modifica | modifica el codi]

Des de la dècada de 1960, amb la disponibilitat dels oracles de certs jocs combinatoris, també anomenats bases de dades de taules (per exemple, per uns escacs 3x3) amb qualsevol configuració d'inici, petits taulers del joc de punt i línies (també conegut per punts i capses), el joc HEX per taulell petit, i els finals determinats en els escacs, una nova àrea de mineria de dades s'ha obert. Aquesta és l'extracció de les estratègies humanes utilitzables d'aquests oracles.

Tendències[modifica | modifica el codi]

La Mineria de Dades ha sofert transformacions en els últims anys d'acord amb els canvis tecnològics, d'estratègies de marketing, l'extensió dels models de compra en línia, etc. Els més importants són:

  • La importància que han cobrat les dades no estructurades (text, pàgines d'Internet, etc.)
  • La necessitat d'integrar els algoritmes i resultats obtinguts en sistemes operacionals, portals d'Internet, etc.
  • L'exigència que els processos funcionin pràcticament en línia (per exemple, que davant d'un frau amb una targeta de crèdit).
  • Els temps de resposta. El gran volum de dades que s'han de processar en molts casos per a obtenir un model vàlid és un inconvenient; això implica grans quantitats de temps de procés i hi ha problemes que requereixen una resposta en temps real.

Eines de software[modifica | modifica el codi]

Existeixen moltes eines de software pel desenvolupament de models de mineria de dades, tants lliures com a comercials, per exemple:

  • R
  • KNIME
  • SPSS Clementine (software)
  • SAS Enterprise Miner
  • STATISTICA Data Miner
  • RapidMiner
  • Weka
  • KXEN
  • Orange

Mineria de dades i altres disciplines anàlogues[modifica | modifica el codi]

Suscita certa polèmica el definir les fronteres existents entre la mineria de dades i disciplines anàlogues, com poden ser-ho l'estadística, la intel·ligència artificial, etc. Hi ha qui sostenen que la mineria de dades no és sinó estadística embolicada en un argot de negocis que la converteixin en un producte de venta. D'altres en canvi, troben en ella una sèrie de problemes i mètodes específics que la fan diferent d'altres disciplines.

El fet és, que a la pràctica la totalitat dels models i algoritmes d'ús general en mineria de dades -xarxes neuronals, arbres de regressió i classificació, models logístics, anàlisi de components principals, etc. - tenen una tradició relativament llarga en altres camps.

Vegeu també[modifica | modifica el codi]

Referències[modifica | modifica el codi]

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Mineria de dades Modifica l'enllaç a Wikidata
  1. Fayyad i altres, 1996