Anàlisi de dades

De la Viquipèdia, l'enciclopèdia lliure
Esquema del procés de tractament de dades en la ciència, que culmina amb l'anàlisi de dades.

Anàlisi de dades es refereix a l'ús de mètodes d'anàlisi estadístics adequats per analitzar grans quantitats de dades recollides, resumir-les, comprendre-les i digerir-les, per tal de maximitzar el desenvolupament de les funcions de dades i exercir el paper de les dades. La base matemàtica de l'anàlisi de dades es va establir a principis del segle xx, però no va ser fins a l'arribada dels ordinadors que es podien fer operacions reals i es va promoure l'anàlisi de dades.

L'anàlisi de dades és la ciència que s'encarrega d'examinar un conjunt de dades amb el propòsit de treure conclusions sobre la informació per poder prendre decisions, o simplement ampliar els coneixements sobre diversos temes.

Al principi de segle 21,[Quan?] moltes organitzacions fan servir l'anàlisi de dades per treure conclusions i decidir accions a implementar. Cal esmentar que la ciència també usa l'anàlisi de dades per comprovar o descartar teories o models existents.

Història[1][modifica]

Es pot dir que l'analisi de dades té origen amb l'inici de l'estadistica, la qual es coneix que ja existita en l'antic Egipte quan es feia un cens de la població per a la construcció de les piràmides.

Al llarg dels anys diferents cultures i civilitzavions han utilitzat l'estadística per obtenir beneficis que vindria a ser el ús de l'analisis de dades.

L'any 1890 Herman Hollerith va crear una maquina electromecànica, anomenada Tabuladora, per reduir el temps que tardava el govern dels Estats Units en fer el cens de la població. Aquesta màquina va disminuir el temps que es tardava en recollir les dades del cens manualment, 7 anys, a tan sols 9 mesos. La màquina en un principi tan sols permetia recollir dades dels cens a EEUU, però l'any 1896 Hollerith va crear la Tabulating Machine Company per comercialitzar la seva màquina i així permetre catalogar dades de diferents orígens.

Amb l'aparició dels ordinadors l'emmagatzematge i recollida de dades es va veure beneficiada consideradament, i l'aparicio de les Bases de Dades Relacionals en la decada dels 80 va ser un punt d'inflexio, ja que permetia a l'usuari extreure dades concretes d'un grup elevat de dades.

El següent pas per l'analisi de dades fou quan va sorgir el concepte de 'data warehouse' degut a que les dades recolectades continuaven augmentant i l'informatica millorant. Aquest concepte, desarrollat també en la decada del 80 per Barry Devlin and Paul Murphy, investigadors d'IBM, pretenia crea una arquitectura que permetés el flux de dades entre diferents entorns dins de les grans corporacions i així disminuir redundàncies.

Cap a la decada següent apareixeria el concepte de ‘data mining’ que es considera el procés d'obtenir conneixements d'un gran grup de dades buscant-hi certs patrons.

L'aparició d'internet juntament amb els buscadors de pagines web han significat un canvi en l'anàlisi de dades, ja que permet obtenir dades de tot tipus constantment. Així el Big Data es va convertir en una realitat, tot i que el concepte sorgís anteriorment, i avui en dia existeixen molts metodes diferents de treballar amb gran nombre de dades, essent així assequible per quasi qualsvol empresa.

Passos[2][modifica]

Identificar necessitats[modifica]

Defineix les teves preguntes, comença seleccionant les preguntes correctes. Les preguntes han de ser mesurables, clares i concises. Dissenyi les seves preguntes per qualificar possibles solucions al seu problema

Recopilar i processar dades[modifica]

Generalment, les dades provenen de quatre mètodes: bases de dades, eines d'estadístiques de dades de tercers, informes d'institucions professionals de recerca i enquestes de mercat. El processament de dades inclou principalment: el filtratge de dades, la conversió de dades, l'extracció de dades, la fusió de dades i el càlcul de dades, i processi tota mena de dades originals segons l'estil necessari per a l'anàlisi de dades.

Analitzar les dades[modifica]

Una vegada que hagi recopilat les dades correctament, és el moment de fer una anàlisi més profunda de la informació. Troba relacions, tendències, ordena i filtra la informació d'acord amb les variables.

Interpretar els resultats[modifica]

S'avalua la utilitat i fiabilitat del resultat i s'estima el seu rendiment, normalment, les dades es presenten en taules i gràfices.

Classificació[3][modifica]

Anàlisi descriptiva[modifica]

Descriu el que ha passat en un període determinat. Per exemple: ha augmentat el nombre de visualitzacions? Nombre de vendes és més gran aquest mes que el passat?

L'anàlisi descriptiva s'utilitza quan l'organització té un gran conjunt de dades sobre esdeveniments passats o successos històrics. Perquè aquestes dades siguin útils, han de simplificar i resumir amb la finalitat que siguin entenedors per a l'audiència a la qual es volen comunicar. L'anàlisi descriptiva està present en la gran majoria d'organitzacions i pel que normalment es comença. En aquest tipus d'anàlisi és comú observar taulers de control, gràfics de barres......

Analítica diagnòstica[modifica]

Se centra més per què va passar alguna cosa, a l'hora d'avaluar dades descriptives, les eines d'anàlisi de diagnòstic ajudaran els analistes a obtenir coneixements per resoldre el problema d'arrel.

Anàlisi predictiva[modifica]

La quantitat de dades que produïm avui dia ha permès popularitzar certes tècniques i models matemàtics o estadístics que han estat presents des de fa molts anys. En utilitzar-los amb aquesta gran massa de dades, podem pronosticar amb certa probabilitat del que podria arribar a passar.

L'anàlisi predictiva és, llavors, l'aplicació d'aquestes tècniques i models matemàtics i estadístics a les dades històriques que posseeix l'organització. Encara que les anàlisis predictives no intenten predir el futur al 100%, perquè aquest tipus d'anàlisi és probabilístic, si pronostiquen què podria succeir. Així s'entenen les correlacions entre variables i com podrien comportar-se en un futur.

Anàlisi prescriptiva[modifica]

Anàlisi prescriptiva utilitza la informació de què ha passat, per què ha passat, i una varietat de situacions "possibles" per ajudar els usuaris a determinar la millor acció. L'anàlisi prescriptiva és, en realitat, una combinació d'altres models d'anàlisi.

Un bon exemple és, una aplicació de trànsit que ajuda a triar la millor manera de tornar a casa, tenint en compte la distància de cada ruta, la velocitat de cada carretera i les restriccions de trànsit actuals.

Mètode[4][modifica]

A continuació s'anomenen diferents tècniques o mètodes d'anàlisi de dades que poden servir per a prendre decisions en l'organització d'un procés:

Mètode Tipus Característiques Ús
Anàlisi de correlacions Estadístic Determina si existeix una relació entre dues variables quantitatives diferents. En cas que existeixi, mesura quina és aquesta relació Sol fer-se servir quan se sospita que dues variables segueixen o tenen una evolució similar. Per exemple, l'índex IBEX 35 i el DAXX.
Anàlisi de regressió Estadístic Investiga la relació entre diferents variables. S'utilitza quan se sospita que una de les variables pot estar afectant (variable independent) el comportament de l'altra (variable dependent) o d'altres.
Visualització de dades Gràfic o imatge És una de les tècniques d'anàlisi de dades més demandada i apreciada avui en dia per la facilitat que resulta a través d'un gràfic o imatge detectar patrons en les dades analtizades. És especialment útil quan busquem entendre grans volums de dades de forma ràpida i simplificada.
Data mining Dades massives Procés d'anàlisi de dades més conegut com Big Data pensat per a treballar amb grans volums de dades. S'utilitza per a detectar patrons, relacions o informació rellevant que pugui millorar l'acompliment d'operacions relacionades amb el client i l'Internet.
Anàlisi de sentiment Aspectes subjectius Determina l'actitud d'un individu o grup fins un tema en particular. S'utilitza quan es busca comprendre l'opinió dels diferents agents que interactuen en una indústria. La gran dificultat d'aquest tipus d'anàlisi és que es basen en aspectes subjectius molt difícils de mesurar que tenen a veure amb les emocions humanes.
Anàlisi semàntica de textos Grans volúms de textos Tracta d'extreure valor a través de l'anàlisi semàntic de grans volúms de textos. Relacionat amb la tècnica anterior busca que els ordinadors siguin capaços d'entendre allò que indexen i obtenir dades de textos no estructurats.
Anàlisi de patents i literatura científica Extreu informació sobre tendències i relacions entre estudis, autors o una propietat intel·lectual. És una de les tècniques més utilitzades en la vigilància de tendències tecnològiques. S'utilitza quan tenim meta dades de publicacions científiques i patents.
Simulació de Monte Carlo Probabilitat matemàtica Mesura el risc aproximat de que un fet determinat tingui lloc. És molt útil per a entendre les implicacions que pugui tenir un determinat curs d'acció derivat d'una decisió.
Programació i optimització matemàtica Identifica quin és el millor resultat possible donades unes restriccions concretes a una situació. És molt útil per a entendre les implicacions que pugui tenir un determinat curs d'acció derivat d'una decisió.
Predicció matemàtica Estadístic Prediu quin és el resultat més probable que es pot donar en un futur proper. La base d'aquestes mesures d'anàlisi de dades és fixar-se en el que ha passat en el passat per a saber què passarà en el futur. És molt utilitzar en projeccions macro-econòmiques.
Xarxes neuronals Matemàtic Tècniques d'anàlisi de dades més complexes que existeixen. Intenen simular el procés de decisió i informació del cervell o de grups de neurones
Experiments AB També coneguts com proves AB o split testing són unes de les tècniques més utilitzades en marketing digital per a comprovar la reacció dels usuaris davant un missatge i veure quina funciona millor S'utilitza sobretot per a testejar hipòtesis en el llançament d'un nou producte, una campanya publicitària o un missatge en un anunci.

Casos reals i aplicacions[5][modifica]

Ciència i medicina:

Google va desenvolupar una eina, LYNA, para identificar els tumors de càncer de mama que fan metàstasis als ganglis limfàtics propers. Van desenvolupar aquesta eina, ja que aquesta eta a ull humà és molt difícil de detectar, no obstant això, aquest mètode va identificar aquest càncer amb una precisió del 99%. Cal dir que encara està en fases de proves abans que sigui utilitzat en hospitals.

Esport:

Al començament dels anys 2000, el pressupost de contractació d'Oakland Athletics era tan reduït que l'equip no podia reclutar jugadors de qualitat. Almenys, no podrien reclutar jugadors a cap altre equip que es consideri de qualitat. De manera que el directiu general va redefinir la qualitat, utilitzant estadístiques en el joc d'altres equips ignorats per predir el potencial del jugador i reunir un equip fort a bon preu.

La seva estratègia els va ajudar a arribar als playoffs L'autor Michael Lewis va escriure un llibre sobre el fenomen, Moneyball

Govern:

Alguns governs, com per exemple el dels Estats Units, les seves agències poden accedir a més dades que Google i Facebook combinats. No només les seves agències mantenen les seves pròpies bases de dades de fotografies d'identificació, empremtes dactilars i activitat telefònica, els agents governamentals poden obtenir garanties per obtenir dades de qualsevol magatzem de dades americà. Els investigadors acostumen a dirigir-se al magatzem de Google, per exemple, per obtenir una llista dels dispositius que estaven actius en el lloc d'un crim.´

Medi Ambient:

El 2018, els automòbils nord-americans van cremar més de 140 mil milions de galons de gasolina. En definitiva, ens encanta conduir. Malauradament, aquest hàbit contribueix al canvi climàtic. És allà on entra la ciència de dades.

Si bé tant el ciclisme com el transport públic poden frenar les emissions relacionades amb la conducció, la ciència de dades pot fer el mateix optimitzant les rutes per carretera. Tot i que els ajustaments de rutes basats en dades sovint són petits, poden ajudar a estalviar milers de galons de gas quan s'estenen per centenars de viatges i vehicles.

Xarxes socials i recomanacions:

Instagram utilitza la ciència de dades per orientar-se a les seves publicacions patrocinades. Els científics de dades de l'empresa treuen dades d'Instagram i del seu propietari, Facebook, que té una infraestructura exhaustiva de seguiment web i informació detallada sobre molts usuaris, inclosos l'edat i l'educació. A partir d'aquí, l'equip elabora manual algoritmes que converteixen els comentaris i els comentaris dels usuaris, el seu ús d'altres aplicacions i la seva història web en prediccions sobre els productes que poden comprar.

Eines per a l'anàlisi de dades[modifica]

Referències[modifica]

  1. «A Brief History of Data Analysis» (en anglès).
  2. «Análisis de Datos | QuestionPro» (en castellà). [Consulta: 31 març 2020].
  3. Frankenfield, Jake. «How Data Analytics Work» (en anglès). [Consulta: 31 març 2020].
  4. «Técnicas análisis de datos» (en castellà). Jorge, 24-09-2017. [Consulta: 1r abril 2020].
  5. «17 Data Science Applications & Examples» (en anglès). [Consulta: 2 abril 2020].