Tidy data: diferència entre les revisions
Creada per traducció de la pàgina «Tidy data» |
Cap resum de modificació |
||
Línia 1: | Línia 1: | ||
Les '''dades ordenades''' o 'tidy data', nom alternatiu per a dades en format tabular, són les que s'obtenen a partir d'un procés anomenat 'data tidying' o ordenament de dades.<ref name="hadley">{{Ref-publicació|url=https://www.wikidata.org/wiki/Q56699625|article=Tidy Data|cognom=Wickham|nom=Hadley|data=1 de enero de 2014|publicació=Journal of Statistical Software|volum=59|exemplar=10|consulta= |
Les '''dades ordenades''' o 'tidy data', nom alternatiu per a dades en format tabular, són les que s'obtenen a partir d'un procés anomenat 'data tidying' o ordenament de dades.<ref name="hadley">{{Ref-publicació|url=https://www.wikidata.org/wiki/Q56699625|article=Tidy Data|cognom=Wickham|nom=Hadley|data=1 de enero de 2014|publicació=Journal of Statistical Software|volum=59|exemplar=10|consulta=24 de Novembre de 2021|doi=10.18637/JSS.V059.I10}}</ref> És un dels processos de neteja importants durant el processament de dades massives o 'big data' i és un pas habitual en la [[Ciència de les dades|ciència de dades]]. Els conjunts de dades ordenades tenen una estructura que facilita la seva anàlisi posterior, ja que són més senzills de manipular, modelar i visualitzar. |
||
Bàsicament, els conjunts de dades 'tidy' estan ordenats de tal manera que cada variable o atribut és una columna i cada observació (o cas) és una fila.<ref name="hadley" / |
Bàsicament, els conjunts de dades 'tidy' estan ordenats de tal manera que cada variable o atribut és una columna i cada observació (o cas) és una fila.<ref name="hadley" /> |
||
== Característiques == |
== Característiques == |
||
Jeff Leek, en el seu llibre ''The Elements of Data Analytic Style,'' resumeix les característiques de les dades ordenades amb els punts següents:<ref> |
Jeff Leek, en el seu llibre ''The Elements of Data Analytic Style,'' resumeix les característiques de les dades ordenades amb els punts següents:<ref>{{Ref-llibre|títol=The Elements of Data Analytic Style|url=http://leanpub.com/datastyle|editorial=Leanpub|data=2014-02-20|nom=Jeff|cognom=Leek}}</ref> |
||
# Cada variable que es mesura ha de ser en una columna. |
# Cada variable que es mesura ha de ser en una columna. |
Revisió del 19:08, 24 nov 2021
Les dades ordenades o 'tidy data', nom alternatiu per a dades en format tabular, són les que s'obtenen a partir d'un procés anomenat 'data tidying' o ordenament de dades.[1] És un dels processos de neteja importants durant el processament de dades massives o 'big data' i és un pas habitual en la ciència de dades. Els conjunts de dades ordenades tenen una estructura que facilita la seva anàlisi posterior, ja que són més senzills de manipular, modelar i visualitzar.
Bàsicament, els conjunts de dades 'tidy' estan ordenats de tal manera que cada variable o atribut és una columna i cada observació (o cas) és una fila.[1]
Característiques
Jeff Leek, en el seu llibre The Elements of Data Analytic Style, resumeix les característiques de les dades ordenades amb els punts següents:[2]
- Cada variable que es mesura ha de ser en una columna.
- Cada observació diferent d'aquesta variable ha de ser en una fila diferent.
- Ha d'haver una taula diferent per a cada "classe" de variable. Això és equivalent al que es coneix com a tercera forma normal de Codd.
- Si hi ha múltiples taules, ha d'existir una columna en cada taula que permeti enllaçar-les.
Referències
- ↑ 1,0 1,1 Wickham, Hadley «Tidy Data». Journal of Statistical Software, 59, 10, 1 enero 2014. DOI: 10.18637/JSS.V059.I10 [Consulta: 24 novembre 2021].
- ↑ Leek, Jeff. The Elements of Data Analytic Style. Leanpub, 2014-02-20.