Tidy data: diferència entre les revisions

Contingut suprimit Contingut afegit

En línia

Revisió del 19:08, 24 nov 2021

Les dades ordenades o 'tidy data', nom alternatiu per a dades en format tabular, són les que s'obtenen a partir d'un procés anomenat 'data tidying' o ordenament de dades.^[1] És un dels processos de neteja importants durant el processament de dades massives o 'big data' i és un pas habitual en la ciència de dades. Els conjunts de dades ordenades tenen una estructura que facilita la seva anàlisi posterior, ja que són més senzills de manipular, modelar i visualitzar.

Bàsicament, els conjunts de dades 'tidy' estan ordenats de tal manera que cada variable o atribut és una columna i cada observació (o cas) és una fila.^[1]

Característiques

Jeff Leek, en el seu llibre The Elements of Data Analytic Style, resumeix les característiques de les dades ordenades amb els punts següents:^[2]

Cada variable que es mesura ha de ser en una columna.
Cada observació diferent d'aquesta variable ha de ser en una fila diferent.
Ha d'haver una taula diferent per a cada "classe" de variable. Això és equivalent al que es coneix com a tercera forma normal de Codd.
Si hi ha múltiples taules, ha d'existir una columna en cada taula que permeti enllaçar-les.

Referències

↑ ^1,0 ^1,1 Wickham, Hadley «Tidy Data». Journal of Statistical Software, 59, 10, 1 enero 2014. DOI: 10.18637/JSS.V059.I10 [Consulta: 24 novembre 2021].
↑ Leek, Jeff. The Elements of Data Analytic Style. Leanpub, 2014-02-20.

[hadley-1] 1,0 ^1,1 Wickham, Hadley «Tidy Data». Journal of Statistical Software, 59, 10, 1 enero 2014. DOI: 10.18637/JSS.V059.I10 [Consulta: 24 novembre 2021].

[2] Leek, Jeff. The Elements of Data Analytic Style. Leanpub, 2014-02-20.

[1]

[2]

@@ Línia 1: / Línia 1: @@
-Les '''dades ordenades''' o 'tidy data', nom alternatiu per a dades en format tabular, són les que s'obtenen a partir d'un procés anomenat 'data tidying' o ordenament de dades.<ref name="hadley">{{Ref-publicació|url=https://www.wikidata.org/wiki/Q56699625|article=Tidy Data|cognom=Wickham|nom=Hadley|data=1 de enero de 2014|publicació=Journal of Statistical Software|volum=59|exemplar=10|consulta=9 de diciembre de 2018|doi=10.18637/JSS.V059.I10}}</ref>  És un dels processos de neteja importants durant el processament de dades massives o 'big data' i és un pas habitual en la [[Ciència de les dades|ciència de dades]].  Els conjunts de dades ordenades tenen una estructura que facilita la seva anàlisi posterior, ja que són més senzills de manipular, modelar i visualitzar.
+Les '''dades ordenades''' o 'tidy data', nom alternatiu per a dades en format tabular, són les que s'obtenen a partir d'un procés anomenat 'data tidying' o ordenament de dades.<ref name="hadley">{{Ref-publicació|url=https://www.wikidata.org/wiki/Q56699625|article=Tidy Data|cognom=Wickham|nom=Hadley|data=1 de enero de 2014|publicació=Journal of Statistical Software|volum=59|exemplar=10|consulta=24 de Novembre de 2021|doi=10.18637/JSS.V059.I10}}</ref>  És un dels processos de neteja importants durant el processament de dades massives o 'big data' i és un pas habitual en la [[Ciència de les dades|ciència de dades]].  Els conjunts de dades ordenades tenen una estructura que facilita la seva anàlisi posterior, ja que són més senzills de manipular, modelar i visualitzar.
-Bàsicament, els conjunts de dades 'tidy' estan ordenats de tal manera que cada variable o atribut és una columna i cada observació (o cas) és una fila.<ref name="hadley" /><ref>{{Ref-publicació|url=http://courses.had.co.nz.s3-website-us-east-1.amazonaws.com/12-rice-bdsi/slides/07-tidy-data.pdf|article=Tidy data|publicació=Journal of Statistical Software|volum=VV|exemplar=II}}</ref>
+Bàsicament, els conjunts de dades 'tidy' estan ordenats de tal manera que cada variable o atribut és una columna i cada observació (o cas) és una fila.<ref name="hadley" />
 == Característiques ==
-Jeff Leek, en el seu llibre ''The Elements of Data Analytic Style,'' resumeix les característiques de les dades ordenades amb els punts següents:<ref>Jeff Leek, The Elements of Data Analytic Style, Leanpub, 2015-03-02</ref>
+Jeff Leek, en el seu llibre ''The Elements of Data Analytic Style,'' resumeix les característiques de les dades ordenades amb els punts següents:<ref>{{Ref-llibre|títol=The Elements of Data Analytic Style|url=http://leanpub.com/datastyle|editorial=Leanpub|data=2014-02-20|nom=Jeff|cognom=Leek}}</ref>
 # Cada variable que es mesura ha de ser en una columna.