Dades (informàtica)

De la Viquipèdia, l'enciclopèdia lliure
Per a altres significats, vegeu «Dada».
Diversos tipus de dades que poden ser visualitzats a través d'un dispositiu d'ordinador

Les dades són qualsevol seqüència d'un o més símbols als quals se'ls dóna significat mitjançant actes específics d'interpretació.

Aquestes dades requereixen una interpretació per convertir-se en informació. Per traduir dades a informació, ha d'haver-se considerat diversos factors coneguts. Els factors involucrats estan determinats pel creador de les dades i la informació desitjada. El terme metadades s'usa per fer referència a les dades sobre les dades. Les metadades poden estar implícites, especificades o donades. Les dades relacionades amb esdeveniments o processos físics també tindran un component temporal. En gairebé tots els casos, aquest component temporal està implícit. Aquest és el cas quan un dispositiu com un registrador de temperatura rep dades d'un sensor de temperatura. Quan es rep la temperatura, se suposa que les dades tenen referències temporals d’"ara mateix". Llavors, el dispositiu registra la data, l'hora i la temperatura juntes. Quan el registrador de dades comunica temperatures, també ha d'informar la data i l'hora (metadades) per a cada temperatura.

Les dades digital són dades que estan representades utilitzant el sistema de nombres binari d'uns (1) i zeros (0), diferent de la representació analògica. En els sistemes moderns d'ordinadors, totes les dades són digitals. Les dades dins d'un ordinador, en la majoria de casos, es mouen en sèrie. Les dades en origen d'un dispositiu analògic, com un sensor de temperatura, passen a través d'un "convertidor analògic a digital" o "ADC" (vegeu Conversió analògica-digital) per convertir les dades analògiques a dades digitals.

Les dades que representen quantitats, caràcters, o els símbols segons les operacions que estan actuats per un ordinador estan emmagatzemades i gravades en mitjans de comunicació de registre mecànic magnètic o òptic, i transmeses en la forma de senyals elèctrics digitals.[1]

Un programa és un conjunt de dades que consta d'una sèrie d'instruccions de programari per controlar l'operació d'un ordinador o una altra màquina.[2] Els elements de memòria d'ordinador físics consten d'una adreça i una paraula/de byte d'emmagatzematge de dades. Les dades digitals són sovint emmagatzemades en bases de dades relacionals, com taules o bases de dades de SQL, i generalment pot ser representat com a parells de valor/claus abstractes.

Les dades es poden organitzar en molts tipus diferents d'estructures de dades, incloses matrius, gràfics i objectes. Les estructures de dades poden emmagatzemar dades de molts tipus diferents, inclosos nombres, cadenes i fins i tot altres estructures de dades. Les dades passen dins i fora dels ordinadors a través de dispositius perifèrics.

En un ús alternatiu, els arxius binaris (que no són llegibles per humans) de vegades es denominen "dades" a diferència del "text" llegible per humans.[3] La quantitat total de dades digitals en 2007 es van estimar en 281 mil milions de gigaoctets (= 281 exabytes).[4][5] Les dades digitals vénen en aquests tres estats: dades en repòs, dades en trànsit i dades en ús.

Característiques[modifica]

En la majoria de casos, una sola dada és un valor emmagatzemat en una ubicació concreta.

Bàsicament, els ordinadors segueixen una seqüència d'instruccions que es donen en forma de dades. Un conjunt d'instruccions per realitzar una determinada tasca (o tasques) es denomina "programa". En el cas nominal, el programa, tal com ho executa l'ordinador, consistirà en un codi de màquina binari. Els elements d'emmagatzematge manipulats pel programa, però no executats realment per la CPU, també són dades. Les instruccions del programa i les dades que manipula el programa s'emmagatzemen exactament de la mateixa manera. Per tant, és possible que els programes informàtics operin en altres programes, manipulant les seves dades programàtiques.

La línia entre el programa i les dades pot tornar-se borrosa. Per exemple, un intèrpret és un programa. Les dades d'entrada a un intèrpret són en si mateixos un programa, simplement no expressats en llenguatge de màquina natiu. En molts casos, el programa interpretat serà un arxiu de text llegible per humans, que es manipula amb un programa editor de text (més normalment associat amb dades de text sense format). La metaprogramació implica de manera similar programes que manipulen altres programes com a dades. Els programes tals com compiladors, enllaçadors, depuradors, actualitzadors de programes, escànners de virus i d'altres usen altres programes com les seves dades.

Per emmagatzemar bytes de dada en un arxiu, han de ser serialitzats en un "format d'arxiu". Típicament, els programes estan emmagatzemats en tipus d'arxiu especial, diferents als utilitzats per a una altra dada. Els arxius executables contenen programes; tots els altres arxius són també arxius de dada. Així i tot, els arxius executables també poden contenir "en-dada" de línia què està construït al programa. En particular, alguns dels arxius executables tenen un segment de dada, el qual nominalment conté constants i valors inicials (tots dos com a dades).

Per exemple: un usuari primer podria instruir el sistema operatiu per carregar un programa de processador de textos des d'un arxiu, i llavors editar un document emmagatzemat en un altre arxiu amb el programa de processador de textos. En aquest exemple, el document seria considerat com a dada. Si el processador de textos també presenta un corrector ortogràfic, llavors el diccionari (llista de paraules) pel corrector ortogràfic també seria considerat una dada. Els algorismes utilitzats pel corrector ortogràfic per suggerir les correccions serien qualsevol dada de codi de la màquina o text en algun llenguatge de programació interpretable.

Claus de dades i valors, estructures i persistència[modifica]

Les claus en dades proporcionen el context per a valors. Independentment de l'estructura de dades, hi ha sempre present un component clau. Les claus de dada en dades i les estructures de dades són essencials per donar significat a valors de dades. Sense una clau és directament o indirectament associat amb un valor, o col·lecció de valors en una estructura, els valors llavors no tenen sentit i cessen de ser dades. És a dir, ha d'haver-hi almenys un component clau per enllaçar a un component de valor per poder ser considerada una dada. La dada pot ser representada en ordinadors en diverses maneres, com en els exemples següents:

RAM[modifica]

La memòria d'accés aleatori conté dades les quals els processadors de l'ordinador tenen accés directe. Un processador d'ordinador (CPU) només pot manipular dades internes (registre del processador) o memòria. Això és oposat a l'emmagatzematge de dades, on els processadors han de moure les dades entre el dispositiu d'emmagatzematge (disc, cinta, etc.) i la memòria. La RAM és una matriu d'un o més blocs d'ubicacions contigües lineals que un processador pot llegir o escriure en proporcionar una adreça per a l'operació de lectura o escriptura. La part "aleatòria" de RAM significa que el processador pot operar en qualsevol ubicació de la memòria a qualsevol moment i en qualsevol ordre (vegeu també Unitat de gestió de memòria). En la RAM, l'element de dades més petit és el "bit binari". Les capacitats i limitacions d'accedir a la RAM són específiques del processador. En general, la memòria principal o RAM està disposada com un conjunt de "conjunts d'interruptors electrònics d'encès/apagat " o ubicacions que comencen en l'adreça 0 (hexadecimal 0). Cada ubicació pot emmagatzemar generalment 8, 16, 32 o 64 bits paral·lels depenent de l'arquitectura del processador (CPU). Per tant, qualsevol valor emmagatzemat en un byte en RAM té una ubicació coincident expressada com un desplaçament des de la primera ubicació de memòria en la matriu de memòria, és a dir, 0 + n, on n és la compensació en la matriu d'ubicacions de memòria.

Claus[modifica]

Les claus de dades no necessiten ser una adreça de maquinari directa en la memòria. Els codis clau indirectes, abstractes i lògics poden emmagatzemar-se en associació amb valors per formar una estructura de dades. Les estructures de dades tenen desplaçaments predeterminats (o enllaços o rutes) des de l'inici de l'estructura, en la qual s'emmagatzemen els valors de dades. Per tant, la clau de dades consisteix en la clau de l'estructura més el desplaçament (o enllaços o rutes) en l'estructura. Quan es repeteix aquesta estructura, emmagatzemant variacions de [els valors de dades i les claus de dades] dins de la mateixa estructura repetitiva, es pot considerar que el resultat s'assembla a una taula, en la qual cada element de l'estructura repetitiva es considera una columna i cada repetició de l'estructura es considera com una fila de la taula. En aquesta organització de dades, la clau de dades sol ser un valor en una (o una combinació dels valors en diverses) de les columnes.

Estructures de dades recurrents organitzades[modifica]

La vista tabular d'estructures de dades repetitives és només una de les moltes possibilitats. Les estructures de dades repetides es poden organitzar jeràrquicament, de manera que els nodes estiguin vinculats entre si en una cascada de relacions pare-fill. Els valors i les estructures de dades potencialment més complexes estan vinculats als nodes. Per tant, la jerarquia nodal proporciona la clau per abordar les estructures de dades associades amb els nodes. Aquesta representació pot considerar-se com un arbre invertit. Per exemple, els sistemes d'arxius moderns del sistema operatiu de l'ordinador són un exemple comú; i XML és un altre.

Dades ordenades[modifica]

Les dades tenen algunes característiques inherents quan s'ordenen en una clau. Tots els valors per a subconjunts de la clau apareixen junts. En passar seqüencialment a través de grups de dades amb la mateixa clau, o un subconjunt dels canvis de clau, això es coneix en els cercles de processament de dades com una interrupció o una interrupció de control. En particular, facilita l'agregació de valors de dades en subconjunts d'una clau.

Emmagatzematge perifèric[modifica]

Fins a l'arribada de les memòries d'ordinador no volàtils com les memòries USB, l'emmagatzematge persistent de dades s'aconseguia tradicionalment escrivint les dades en dispositius de bloc externs com a cintes magnètiques i unitats de disc. Aquests dispositius generalment busquen una ubicació en el mitjà magnètic i després llegeixen o escriuen blocs de dades d'una grandària predeterminada. En aquest cas, la ubicació de cerca en els mitjans és la clau de dades i els blocs són els valors de dades. Els primers sistemes d'arxius de dades o sistemes operatius de disc utilitzats per reservar blocs contigus en la unitat de disc per a arxius de dades. En aquests sistemes, els arxius podrien omplir-se, quedant sense espai de dades abans que se'ls escrivissin totes les dades. Per tant, molt espai de dades no utilitzat es va reservar de manera improductiva per evitar incórrer en aquesta situació. Això es coneixia com a disc sense format. Els sistemes d'arxius posteriors van introduir particions. Van reservar blocs d'espai de dades de disc per a particions i van utilitzar els blocs assignats de manera més econòmica, assignant dinàmicament blocs d'una partició a un arxiu segons sigui necessari. Per aconseguir això, el sistema d'arxius havia de fer un seguiment de quins blocs van ser utilitzats o no pels arxius de dades en un catàleg o taula d'assignació d'arxius. Encara que això va fer un millor ús de l'espai de dades del disc, va resultar en la fragmentació dels arxius en el disc i una sobrecàrrega de rendiment concomitant a causa de la latència. Els sistemes d'arxius moderns reorganitzen els arxius fragmentats dinàmicament per optimitzar els temps d'accés als arxius. Altres desenvolupaments en els sistemes d'arxius van donar com a resultat la virtualització de les unitats de disc, és a dir, on una unitat lògica es pot definir com a particions de diverses unitats físiques.

Dades indexades[modifica]

Recuperar un petit subconjunt de dades d'un conjunt molt més gran implica buscar les dades seqüencialment, però això no és eficient. Els índexs són una forma de copiar claus i adreces d'ubicació d'estructures de dades en arxius, taules i conjunts de dades, després organitzar-los usant estructures d'arbre invertides per reduir el temps necessari per recuperar un subconjunt de les dades originals. Per fer això, la clau del subconjunt de dades a recuperar ha de conèixer-se abans que comenci la recuperació. Els índexs més populars són l'arbre B i els mètodes d'indexació dinàmica de claus hash. La indexació és una altra sobrecàrrega poc eficient per arxivar i recuperar dades. Hi ha altres formes d'organitzar índexs, per exemple, ordenar les claus o corregir les quantitats (o fins i tot la clau i les dades juntes), i utilitzar-hi una cerca binària.

Abstracció i indirecció[modifica]

L'orientació a objectes utilitza dos conceptes bàsics per comprendre les dades i el programari: 1) L'estructura de classificació taxonòmica de les classes de codi de programa, que és un exemple d'una estructura de dades jeràrquica; i 2) En temps d'execució, la creació de referències clau de dades a estructures de dades en memòria d'objectes que s'han instanciat des d'una biblioteca de classes. Només després de la creació d'instàncies existeix un objecte d'execució d'una classe específica. Després que s'anul·la la referència de clau d'un objecte, les dades les quals fa referència aquest objecte deixen de ser dades perquè la referència de clau de dades és nul·la; i per tant l'objecte també deixa d'existir. Les ubicacions de memòria on es van emmagatzemar les dades de l'objecte es denominen escombraries i es reclassifiquen com a memòria no utilitzada disponible per a la seva reutilització.

Dades de la base de dades[modifica]

L'adveniment de les bases de dades va introduir una capa més llunyana d'abstracció per a emmagatzematge de dada persistent. Les bases de dades utilitzen metadades, i un protocol de llenguatge de consulta estructurat entre client i sistemes de servidor, comunicant sobre una xarxa, utilitzant un sistema de registre de commit de dues fases per assegurar completitud transaccional, amb dades persistents.

Processament paral·lel de dades distribuïdes[modifica]

Les modernes tecnologies de persistència de dades escalables/d'alt rendiment es basen en el processament de dades distribuïdes massivament paral·lels en molts ordinadors bàsics en una xarxa d'alt ample de banda. Un exemple és Apache Hadoop. En aquests sistemes, les dades es distribueixen en diversos ordinadors i, per tant, qualsevol ordinador en particular en el sistema ha d'estar representat en la clau de les dades, ja sigui directament o indirecta. Això permet la diferenciació entre dos conjunts de dades idèntiques, cada processament en un ordinador diferent al mateix temps.

Vegeu també[modifica]

Referències[modifica]

  1. «data». Oxford Dictionaries. Arxivat de l'original el 6 d'octubre de 2012. [Consulta: 11 octubre 2012].
  2. «computer program». The Oxford Pocket Dictionary of Current English. Arxivat de l'original el 28 de novembre de 2011. [Consulta: 11 octubre 2012].
  3. «file(1) - OpenBSD Manual Pages». OpenBSD, 24-12-2015. Arxivat de l'original el 5 de febrer de 2018. [Consulta: 4 febrer 2018].
  4. «Study: amount of digital info > global storage capacity», 12-03-2008. Arxivat de l'original el 13 de març de 2008. [Consulta: 12 març 2008].
  5. Gantz, John F. «The Diverse and Exploding Digital Universe», 2008. Arxivat de l'original el 11 de març de 2008. [Consulta: 12 març 2008].