Llac de dades
Un llac de dades (data lake en anglès) és un sistema o dipòsit de dades emmagatzemades en el seu format natural / en brut,[1] normalment objectes binaris o fitxers. Un llac de dades és en general un únic magatzem de dades, incloent-hi còpies de dades de sistema base, font de dades de sensors, dades socials, etc.,[2] i dades transformades utilitzades per a tasques com ara la presentació d'informes, la visualització, anàlisi avançat i aprenentatge automàtic. Un llac de dades pot incloure dades estructurades de bases de dades relacionals (files i columnes), dades semiestructurades (CSV, registres, XML, JSON), dades no estructurades (correus electrònics, documents, PDF) i dades binàries (imatges, àudio, vídeo).[3] Es pot establir un llac de dades "local" (dins dels centres de dades d'una organització) o "al núvol" (mitjançant serveis de núvol de proveïdors com Amazon, Microsoft o Google).
Un pantà de dades (o data swamp en anglès) és un llac de dades deteriorat i no gestionat que és inaccessible per als usuaris previstos o que aporta poc valor.[4]
Rerefons
[modifica]James Dixon, llavors director de tecnologia de Pentaho, va encunyar el terme[5] per contrastar-lo amb data mart, que és un repositori més petit d'atributs interessants derivats de dades en brut.[6] En la promoció dels data lakes, va argumentar que els data marts tenen diversos problemes inherents, com ara la separació d'informació. PricewaterhouseCoopers (PwC) va dir que els llacs de dades podrien "acabar amb les sitges de dades".[7] En el seu estudi sobre llacs de dades, van assenyalar que les empreses "comencen a extreure i col·locar dades per analítiques en un únic dipòsit basat en Hadoop". Hortonworks, Google, Oracle, Microsoft, Zaloni, Teradata, Impetus Technologies, Cloudera, MongoDB i Amazon ara tenen ofertes de llacs de dades.[8]
Exemples
[modifica]Moltes empreses de serveis com Google Cloud Storage i Amazona S3 o un sistema d'arxiu distribuït com Apache Hadoop, usen l'emmagatzematge al núvol.[9] I hi ha un interès acadèmic gradual en el concepte de llacs de dades. Per exemple, Personal DataLake a la Universitat de Cardiff és un tipus nou de llac de dades que apunta a la gestió de dades massives d'usuaris individuals per proporcionar un punt sol de recollida, organització, i compartició de dades personals.[10]
Un llac de dades anterior (Hadoop 1.0) tenia capacitats limitades amb el seu processament per lots (MapReduce) i era l’únic paradigma de processament que s’hi associava. Interaccionar amb el llac de dades significava haver de tenir experiència en Java amb MapReduce i eines de nivell superior com Apache Pig, Apache Spark i Apache Hive (que, per si soles, eren inicialment orientades a lots).
Crítica
[modifica]El juny de 2015, David Needle va caracteritzar els "anomenats llacs de dades" com "una de les maneres més controvertides de gestionar el big data".[11] PwC també va tenir cura d'assenyalar en la seva investigació que no totes les iniciatives de data llac tenen èxit. Citant a Sean Martin, CTO de Cambridge Semantics:
« | (anglès) We see customers creating big data graveyards, dumping everything into Hadoop distributed file system (HDFS) and hoping to do something with it down the road. But then they just lose track of what’s there. The main challenge is not creating a data lake, but taking advantage of the opportunities it presents.
|
(català) Veiem clients creant cementiris de grans dades, abocant-ho tot al sistema de fitxers distribuïts d'Hadoop (HDFS) amb l'esperança de fer-hi alguna cosa més endavant. Però després només perden la pista del que hi ha. El principal repte no és crear un llac de dades, sinó aprofitar les oportunitats que presenta. | » |
— [7] |
Es descriuen empreses que construeixen llacs de dada exitosa tan gradualment madurant el seu llac mentre representen fora de quina dada i metadata és important a l'organització. Una altra crítica és que el concepte és borrós i arbitrari. I es refereix a qualsevol eina o pràctica d'administració de la dada que no té cabuda en l'arquitectura de magatzem de dada tradicional. El llac de dada ha estat referit com a tecnologia particular, i ha estat etiquetat com a dada crua o reservori o hub per acumular dades. També ha estat definit com a central hub per auto analítica de servei. El concepte del llac de dada ha estat sobrecarregat de significats, el qual ha acabat desvirtuant el terme en qüestió.[12]
Tot i que les crítiques als llacs de dades estan justificades, en molts casos són massa àmplies i es podrien aplicar a qualsevol esforç tecnològic en general i a projectes de dades específicament.[13] Per exemple, el terme "magatzem de dades" pateix actualment la mateixa definició opaca i canviant que un llac de dades. També es pot dir que tampoc tots els esforços del magatzem de dades han tingut èxit. En resposta a diverses crítiques, McKinsey va assenyalar[14] que el llac de dades s'hauria de veure com un model de servei per oferir valor comercial a l'empresa, no com un resultat tecnològic.
Referències
[modifica]- ↑ «The growing importance of big data quality». The Data Roundtable. [Consulta: 1r juny 2020].
- ↑ «What is a data lake?». aws.amazon.com. [Consulta: 12 octubre 2020].
- ↑ Campbell, Chris. «Top Five Differences between DataWarehouses and Data Lakes». Blue-Granite.com. Arxivat de l'original el 15 de setembre 2017. [Consulta: 19 maig 2017].
- ↑ Olavsrud, Thor «Còpia arxivada» (en anglès). CIO, 08-06-2017 [Consulta: 3 gener 2022]. Arxivat 2017-07-10 a Wayback Machine. «Còpia arxivada». Arxivat de l'original el 2017-07-10. [Consulta: 3 gener 2022].
- ↑ Woods, Dan «Big data requires a big architecture». Forbes, 21-07-2011.
- ↑ Dixon, James. «Pentaho, Hadoop, and Data Lakes». James Dixon’s Blog. James Dixon, 14-10-2010. [Consulta: 7 novembre 2015]. «If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.»
- ↑ 7,0 7,1 Stein, Brian; Morrison, Alan (2014). Data lakes and the promise of unsiloed data. Technology Forecast: Rethinking integration. PricewaterhouseCooper.
- ↑ Weaver, Lance. «Why Companies are Jumping into Data Lakes». blog.equinox.com, 10-11-2016. [Consulta: 19 maig 2017].
- ↑ Tuulos, Ville. «Petabyte-Scale Data Pipelines with Docker, Luigi and Elastic Spot Instances». NextRoll, 22-09-2015.
- ↑ Walker, Coral; Alrehamy, Hassan. «Personal Data Lake with Data Gravity Pull». A: 2015 IEEE Fifth International Conference on Big Data and Cloud Computing, 2015, p. 160–167. DOI 10.1109/BDCloud.2015.62. ISBN 978-1-4673-7183-4.
- ↑ Needle, David «Hadoop Summit: Wrangling Big Data Requires Novel Tools, Techniques». eWeek, 10-06-2015. «Walter Maguire, chief field technologist at HP's Big Data Business Unit, discussed one of the more controversial ways to manage big data, so-called data lakes.»[Enllaç no actiu]
- ↑ «Are Data Lakes Fake News?». Sonra, 08-08-2017. Arxivat de l'original el 2018-08-21. [Consulta: 10 agost 2017].
- ↑ «Experimental Characteristics Study of Data Storage Formats for Data Marts Development within Data Lakes». [Consulta: 18 setembre 2021].
- ↑ «A smarter way to jump into data lakes». McKinsey, 01-08-2017.