Vés al contingut

Neteja de dades

De la Viquipèdia, l'enciclopèdia lliure

La neteja de dades (en anglès data cleaning o data scrubbing) és el procés de detectar i corregir (o eliminar) registres de dades erronis, incomplets, incorrectes, duplicats o irrellevants d'un conjunt de dades.[1] La neteja de dades és un pas fonamental en el procés d'anàlisi de dades, ja que les dades de baixa qualitat poden produir resultats erronis i conclusions equivocades.[2]

Inici i final d'un procés de neteja de dades.
Inici i final d'un procés de neteja de dades.

Aquest procés és una part crucial de l'anàlisi de dades, especialment quan es recopilen dades quantitatives.[3]

Les inconsistències descobertes, modificades o eliminades en un conjunt de dades poden ser causades per diversos factors: definicions diferents d'entitats similars en sistemes diversos, errors humans durant l'entrada de dades, problemes en la transmissió o corrupció durant l'emmagatzematge.

La neteja de dades i la validació de dades són processos diferents però complementaris. La validació comprova que les dades compleixin regles i pot rebutjar o marcar registres en el moment de l'entrada o en controls automatitzats, mentre que la neteja consisteix a detectar i corregir, completar o eliminar valors erronis o inconsistents en conjunts de dades (normalment com a postprocès o en lots). En la pràctica, la validació s'aplica sovint durant la captura de dades per evitar errors immediats, i la neteja s'utilitza per resoldre problemes més complexos que requereixen transformacions, recerca o intervenció manual.

Motivació

[modifica]

La qualitat de les dades té un impacte directe en la presa de decisions i en el funcionament dels sistemes informàtics. Les dades incorrectes o incompletes poden generar conclusions errònies, pèrdues econòmiques i fins i tot problemes legals o de seguretat.[4] Segons diversos estudis, les empreses perden de mitjana entre el 15% i el 25% dels seus ingressos a causa de la baixa qualitat de les dades.[5]

Exemples d'aplicació

[modifica]

En l'àmbit de la salut pública, la neteja de dades és essencial per garantir que els registres mèdics electrònics siguin exactes, cosa que pot afectar directament els diagnòstics i tractaments dels pacients. Les dades incorrectes o duplicades poden portar a errors de medicació o a decisions clíniques inadequades.

En el govern i l'administració pública, la neteja de dades en censos poblacionals i registres fiscals és crucial per a la planificació de polítiques públiques i la gestió de recursos. Errors en aquestes dades poden resultar en distribucions injustes de serveis o en decisions pressupostàries equivocades.

En l'àmbit financer, la neteja de dades és fonamental per a la detecció de frau, el compliment de normatives de blanqueig de capitals i l'avaluació de riscos crediticis. Les institucions financeres inverteixen recursos significatius en mantenir la qualitat de les seves dades de clients i transaccions.

En la investigació científica, especialment en camps com la bioinformàtica o les ciències socials, la neteja de dades és un pas imprescindible abans de qualsevol anàlisi estadística. Les dades brutes de laboratoris, enquestes o sensors sovint contenen errors de mesura, valors mancants o inconsistències que cal corregir.

En el comerç electrònic i el màrqueting digital, la neteja de dades de clients (adreces, correus electrònics, historials de compra) permet millorar la personalització, reduir costos d'enviament i augmentar l'eficàcia de les campanyes publicitàries.

Qualitat de les dades

[modifica]

La qualitat de les dades es pot mesurar segons diverses dimensions:[6]

  • Exactitud: les dades representen correctament la realitat que descriu.
  • Completitud: totes les dades necessàries estan presents i no hi ha valors mancants.
  • Consistència: les dades no presenten contradiccions entre diferents fonts o registres.
  • Validesa: les dades segueixen els formats, els rangs i les regles de negoci definides.
  • Unicitat: no hi ha registres duplicats.
  • Actualitat: les dades estan actualitzades i són rellevants pel moment d'ús.

Procés de neteja de dades

[modifica]

El procés de neteja de dades sol seguir diverses etapes:[7]

  • Inspecció de dades: revisió inicial del conjunt de dades per identificar anomalies, patrons d'errors i problemes de qualitat mitjançant tècniques estadístiques i de visualització.
  • Definició de flux de treball: disseny d'una seqüència d'operacions per detectar i corregir els errors identificats. Cal determinar les causes dels problemes per aplicar les solucions adequades.
  • Execució: aplicació de les transformacions i correccions definides al conjunt de dades. Pot incloure operacions com normalització de formats, eliminació de duplicats, correcció de valors erronis i imputació de valors mancants.
  • Verificació i documentació: comprovació que les dades netejades compleixen els criteris de qualitat establerts i documentació dels canvis realitzats per garantir la traçabilitat del procés.

Tècniques de neteja de dades

[modifica]

Les tècniques principals utilitzades en la neteja de dades inclouen:

  • Validació de format i sintaxi: comprovació que els valors compleixen els formats esperats (per exemple, adreces de correu electrònic, dates, números de telèfon). Es poden utilitzar expressions regulars i analitzadors sintàctics per verificar l'estructura de les dades.
  • Normalització i estandardització: conversió de dades a formats uniformes i consistents. Inclou la transformació d'unitats de mesura, formats de data, majúscules/minúscules i codificacions de caràcters.
  • Eliminació de duplicats: identificació i eliminació de registres redundants. Requereix algorismes que determinin quan dos registres representen la mateixa entitat, fins i tot amb petites diferències en els valors.
  • Tractament de valors mancants: gestió de dades incompletes mitjançant eliminació de registres, imputació estadística amb valors calculats (mitjanes, medianes, moda) o tècniques avançades d'aprenentatge automàtic.
  • Detecció de valors atípics: identificació de valors estadísticament anormals mitjançant tècniques com desviació estàndard, rangs interquartílics o algorismes de clúster.

Eines de neteja de dades

[modifica]

Hi ha diverses eines de programari per a la neteja de dades. Entre les més utilitzades hi ha OpenRefine (anteriorment Google Refine), una eina lliure que permet treballar amb dades desorganitzades.[8] També són populars eines comercials com Trifacta Wrangler, Talend Data Quality, i Alteryx.[9]

En l'àmbit de la ciència de dades, intel·ligència artificial o altres àmbits relacions amb la programació, és habitual utilitzar biblioteques de llenguatges de programació com pandas per a Python, Dplyr i tidyr per a R, o les funcions de neteja de dades del paquet Apache Spark per a entorns distribuïts.[10][11]

Reptes i problemes

[modifica]

La neteja de dades presenta diversos reptes significatius:[12]

  • Escalabilitat: processar grans volums de dades (big data) requereix tècniques i infraestructures distribuïdes que puguin mantenir l'eficiència.
  • Automatització vs. supervisió humana: trobar l'equilibri entre processos automàtics eficients i la necessitat de revisió manual per a casos complexos o ambigus.
  • Preservació del significat: assegurar que les correccions no modifiquen el significat original de les dades ni introdueixen biaixos.
  • Qualitat de fonts múltiples: integrar i reconciliar dades de diferents orígens amb formats, qualitats i convencions diverses.
  • Cost i recursos: la neteja de dades pot consumir fins al 80% del temps en projectes d'anàlisi de dades, representant un cost significatiu.[13]

Vegeu també

[modifica]

Referències

[modifica]
  1. Rahm, Erhard; Do, Hong Hai «Data Cleaning: Problems and Current Approaches» (en anglès). IEEE Data Engineering Bulletin, 23, 2000, p. 3-13.
  2. «Only 3% of Companies' Data Meets Basic Quality Standards» (en anglès). Harvard Business Review, 2017. [Consulta: 2022].
  3. Müller, Heiko; Freytag, Johann-Christoph «Problems, Methods, and Challenges in Comprehensive Data Cleansing» (en anglès). Professoren des Instituts für Informatik, 2005.
  4. «Only 3% of Companies' Data Meets Basic Quality Standards» (en anglès). Harvard Business Review, 2017. [Consulta: 2022].
  5. «Seizing Opportunity in Data Quality» (en anglès). MIT Sloan Management Review. [Consulta: 2022].
  6. Wang, Richard Y.; Strong, Diane M. «Beyond Accuracy: What Data Quality Means to Data Consumers» (en anglès). Journal of Management Information Systems, 12, 1996, p. 5-33.
  7. Rahm, Erhard; Do, Hong Hai «Data Cleaning: Problems and Current Approaches» (en anglès). IEEE Data Engineering Bulletin, 23, 2000, p. 3-13.
  8. «OpenRefine - A free, open source, powerful tool for working with messy data» (en anglès). [Consulta: 2022].
  9. «Data Quality Tools Reviews and Ratings» (en anglès). Gartner. [Consulta: 2022].
  10. McKinney, Wes (en anglès) Python for Data Analysis. O'Reilly Media, 2017.
  11. Wickham, Hadley; Grolemund, Garrett (en anglès) R for Data Science. O'Reilly Media, 2017.
  12. Chu, Xu; Ilyas, Ihab F.; Krishnan, Sanjay; Wang, Jiannan «Data Cleaning: Overview and Emerging Challenges» (en anglès). ACM SIGMOD, 2016.
  13. «Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task» (en anglès). Forbes, 2016. [Consulta: 2022].