Vés al contingut

Tidy data

De la Viquipèdia, l'enciclopèdia lliure

Les dades ordenades o 'tidy data', nom alternatiu per a dades en format tabular, són les que s'obtenen a partir d'un procés anomenat 'data tidying' o ordenament de dades.[1] És un dels processos de neteja importants durant el processament de dades massives o 'big data' i és un pas habitual en la ciència de dades. Els conjunts de dades ordenades tenen una estructura que facilita la seva anàlisi posterior, ja que són més senzills de manipular, modelar i visualitzar.

Bàsicament, els conjunts de dades 'tidy' estan ordenats de tal manera que cada variable o atribut és una columna i cada observació (o cas) és una fila.[1]

Característiques[modifica]

Jeff Leek, en el seu llibre The Elements of Data Analytic Style, resumeix les característiques de les dades ordenades amb els punts següents:[2]

  1. Cada variable que es mesura ha de ser en una columna.
  2. Cada observació diferent d'aquesta variable ha de ser en una fila diferent.
  3. Ha d'haver una taula diferent per a cada "classe" de variable. Això és equivalent al que es coneix com a tercera forma normal de Codd.
  4. Si hi ha múltiples taules, ha d'existir una columna en cada taula que permeti enllaçar-les.

Referències[modifica]

  1. 1,0 1,1 Wickham, Hadley «Tidy Data». Journal of Statistical Software, 59, 10, 01-01-2014. DOI: 10.18637/JSS.V059.I10 [Consulta: 24 novembre 2021].
  2. Leek, Jeff. The Elements of Data Analytic Style. Leanpub, 2014-02-20.