Dades massives

De Viquipèdia
(S'ha redirigit des de: Big Data)
Dreceres ràpides: navegació, cerca

Dades massives (o Big Data[1][2][3]) és el nom que reben els conjunts de dades, els procediments i les aplicacions informàtiques, que, pel seu volum, la seva naturalesa diversa i la velocitat a què han de ser processades, ultrapassen la capacitat dels sistemes informàtics habituals.[4] Aquest processament de dades s'utilitza per tal de detectar patrons dins seu, podent fer així prediccions vàlides per a la presa de decisions.

La disciplina dedicada a les dades massives s'emmarca dins de les tecnologies de la informació i la comunicació. Aquesta disciplina s'ocupa de totes les activitats relacionades amb els sistemes que gestionens grans conjunts de dades. Les dificultats més habituals en aquests casos se centren en la captura, l'emmagatzematge,[5] la cerca, la compartició, l'anàlisi,[6] i la seva visualització. La tendència de manipular ingents quantitats de dades es deu a la necessitat, en molts casos, d'incloure les aquesta informació per a la creació d'informes estadístics y models predictius emprats en diversos camps, com per exemple de les anàlisis de negoci, publicitari, les dades de malalties infeccioses, l'espionatge y el seguiment de la població o la lluita contra el crim organitzat. El límit superior de la capacitat de processament s'ha anat desplaçant al llarg dels anys, d'aquesta forma els límits que estaven fixats el 2008 rondaven l'ordre de petabytes a Zettabytes de dades.[7] Els científics amb certa regularitat troben limitacions a causa de la gran quantitat de dades a analitzar en certes àrees, com ara la meteorologia, la genòmica,[8] les complexes simulacions de processos físics,[9] i les investigacions relacionades amb els processos biològics i ambientals.[10] Les limitacions també afecten els motors de cerca a internet, als sistemes financers i a la informàtica de negocis. Els data sets creixen en volum degut, en part, a la introducció d'informació ubiqua procedent dels sensors sense fils i els dispositius mòbils (per exemple les VANETs[11]), del constant creixement dels històrics d'interaccions d'aplicacions (per exemple processos de registre), càmeres digitals (sistemes de teledetecció), micròfons, lectors de ràdio - frequency identification.[12][13] La capacitat tecnològica per càpita a nivell mundial d'emmagatzemar dades es multiplica aproximadament per dos cada quaranta mesos des dels anys vuitanta.[14] S'estima que el 2012 cada dia van ser creats a prop de 2,5 trilions de bytes de dades (de l'anglès quintillion, 2.5 × 1018 ).[15]

Definició[modifica | modifica el codi]

El "Big data" implica normalment conjunts de dades que superen la capacitat del programari habitual per ser capturades, gestionades i processades en un temps raonable. Els volums del "big data" es troben constantment en augment. L'any 2012 es va dimensionar la seva grandària des d'una dotzena de terabytes fins a diversos petabytes de dades. En la metodologia MIKE2.0[16] dedicada a investigar temes relacionats amb la gestió d'informació, es defineix big data en termes de permutacions útils, complexitat i dificultat per esborrar registres individuals. L'any 2001, en un informe de recerca, l'analista Doug Laney[17] del META Group (ara Gartner) definia els reptes que planteja el creixement constant de les dades com una oportunitat i un repte amb tres dimensions:[18] en el volum, la velocitat i la varietat. L'any 2012, Gartner va actualitzar la definició del big data[19] com a "grans volums, velocitat i varietat d'actius d'informació que requereixen noves formes de processament per tal d'usar-los en la de presa de decisions o l'optimització de processos". Grans proveïdors del mercat de big data estan desenvolupant solucions per atendre les demandes més crítiques de processament de dades massives, com MapR, Cyttek Group i Cloudera.

Actualitat[modifica | modifica el codi]

El concepte Big data es troba actualment en continu moviment perquè els avanços tecnològics permeten tractaments de volums cada cop majors. S'entén grans volums com a Terabytes o Petabytes d'informació. Això permet incloure en aquest tipus de projectes informacions que fins avui no s'utilitzaven perquè la tecnologia no permetia processar-los en un temps raonable. Segons dades de la consultora IDC,[20] el ritme d'adopció de tecnologies de Big Data creixerà a un ritme del 304% des de l'any 2013.[21]

Govern[modifica | modifica el codi]

En 2012, el govern d'Obama[22] va anunciar la Iniciativa de Recerca i Desenvolupament de Big Data, que va explorar com les grans dades podrien utilitzar-se per fer front a problemes importants que enfronta el govern.[23] La iniciativa es compon de 84 programes de dades grans diferents, repartides en sis departaments. L'anàlisi de grans dades va jugar un paper important en la campanya i reelecció de Barack Obama de 2012. El Govern Federal dels Estats Units és amo de sis dels deu superordinadors més poderosos del món. El Data Center de Utah és un centre de dades que s'està construint per l'Agencia de Seguretat Nacional dels Estats Units. Quan hagi acabat, la instal·lació serà capaç de manejar una gran quantitat d'informació recollida per la NSA a través d'Internet. La quantitat exacta d'espai d'emmagatzematge no es coneix, però les fonts més recents afirmen que estarà en l'ordre d'uns pocs exabytes.

Sector privat: alguns exemples[modifica | modifica el codi]

ebay.com utilitza dos magatzems de dades a 7,5 petabytes i 40PB així com un cluster Hadoop 40PB per a la cerca, les recomanacions de consum, i el marxandatge. Dins l'emmagatzematge de dades 90pb d'eBay.

Amazon.com maneja milions d'operacions de back-end de cada dia, així com les consultes de més de mig milió de venedors de terceres parts. La tecnologia central que manté Amazon funcionament està basat en Linux i en 2005 van tenir tres bases de dades més grans del món de Linux, amb capacitats de 7,8 TB, 18,5 TB i 24,7 TB.[24]

Walmart s'ocupa de més d'1 milió de transaccions dels clients cada hora, que s'importa en bases de dades que s'estima contenen més de 2,5 petabytes (2.560 terabytes) de dades - l'equivalent a 167 vegades la informació continguda en tots els llibres dels EUA Biblioteca del Congrés.

Facebook maneja 50 mil milions de fotos de la seva base d'usuaris.[25]

FICO Targeta de crèdit Falcon Sistema de Detecció de Frau protegeix 2.100 milions de comptes actius a tot el món.[26] El volum de les dades de negoci a tot el món, en totes elles, es duplica cada 1,2 anys, segons estimacions.

Windermere Real Estigues utilitza assenyalis GPS anònimes de gairebé 100 milions de conductors per ajudar als compradors d'habitatge nou a determinar els seus temps de conducció típica i tornar del treball al llarg de diferents moments del dia.[27]

Arguments a favor i en contra de l'ús del Big Data[modifica | modifica el codi]

A favor de l'ús de big data[modifica | modifica el codi]

Segons el director de Alianzas de SAS España,[28] Fernando Meco, entre els beneficis que aporta l'anàlisi de dades massives a la societat es troben, per exemple, avançar-se a futures conductes o la gestió d'expectatives dels ciutadans. Això es pot fer recollint i analitzant els comportaments i publicacions que els internautes envien als diferents canals d'Internet com ara les xarxes socials, «fonts d'informació que ens permeten avançar-nos a futures conductes d'actuació», afirma.[29] Aquest expert també afirma que «El Big Data ens porta a fer preguntes i trobar respostes, no solament per a l'empresa, sinó també per a la societat. Per exemple, amb analítica avançada de Big Data nosaltres ajudem a evitar l'extinció d'animals tan representatius com l'ós polar o els rinoceronts blancs, a través d'un seguiment dels exemplars que hi ha en llibertat i l'estudi a les zones en les quals habiten. També proveïm solucions als bombers de Londres que estableixen la disponibilitat d'efectius dins de la ciutat depenent de quines zones siguin més propenses a sofrir incendis, i ajudar així a prevenir-los»,[29] descriu.

Un altre important àmbit d'aplicació és en aquelles ciutats que estan adoptant el concepte "Smart City''[30] i que comencen a recollir mitjançant sensors, quantitats ingents d'informació relativa al trànsit, els subministraments o l'estat dels serveis que ofereixen als seus ciutadans, tenint sempre com a objectiu anticipar-se i millorar.

En contra de l'ús del big data[modifica | modifica el codi]

La investigadora Danah Boyd[31] ha expressat la seva preocupació per l'ús de dades massives en la ciència descurant principis tals com l'elecció d'una mostra representativa i optant per gestionar quantitats massives de dades que, tot i ser més nombroses que una mostra, poden no ser representatives. Aquest enfocament pot conduir a resultats esbiaixats per diversos motius.

La integració de dades amb orígens heterogenis -alguns podrien ser considerats "dades massives" mentre que altres no-. dóna lloc a reptes formidables, tant logístics com analítics, però molts investigadors argumenten que aquest tipus d'integracions probablement representin les noves fronteres més prometedores de la ciència.[32][33]

Referències[modifica | modifica el codi]

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Dades massives Modifica l'enllaç a Wikidata
  1. White, Tom. Hadoop: The Definitive Guide. 2009. 1st Edition. O'Reilly Media. Pg 3.
  2. MIKE2.0, Big Data Definition http://mike2.openmethodology.org/wiki/Big_Data_Definition
  3. White, Tom. Hadoop: The Definitive Guide. 1a ed.. O'Reilly Media, 2009, p. Pg 3. 
  4. «Dades massives». Cercaterm. TERMCAT, Centre de Terminologia.
  5. ↑ Kusnetzky, Dan. What is "Big Data?". ZDNet. http://blogs.zdnet.com/virtualization/?p=1708
  6. ↑ Vance, Ashley. Start-Up Goes After Big Data With Hadoop Helper. New York Times Blog. 22 April 2010. http://bits.blogs.nytimes.com/2010/04/22/start-up-goes-after-big-data-with-hadoop-helper/?dbk
  7. Horowitz, Mark. Visualizing Big Data: Bar Charts for Words. Wired Magazine. Vol 16 (7). 23 June 2008. http://www.wired.com/science/discoveries/magazine/16-07/pb_visualizing##ixzz0llT2DN5j. Volu 16(7)
  8. Community cleverness required. Nature, 455(7209), 1. 2008. http://www.nature.com/nature/journal/v455/n7209/full/455001a.html
  9. Sandia sees data management challenges spiral. HPC Projects. 4 August 2009. http://www.hpcprojects.com/news/news_story.php?news_id=922
  10. Reichman,O.J., Jones, M.B., and Schildhauer, M.P. 2011. Challenges and Opportunities of Open Data in Ecology. Science 331(6018): 703-705.DOI:10.1126/science.1197962
  11. Zeadally, Sherali; Hunt, Ray; Chen, Yuh-Shyan; Irwin, Angela; Hassan, Aamir «Vehicular ad hoc networks (VANETS): status, results, and challenges» (en anglès). Telecommunication Systems. Springer, 50, núm. 4, agost 2012, pàg. 217-241.
  12. Hellerstein, Joe. Parallel Programming in the Age of Big Data. Gigaom Blog. 9 November 2008. http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/
  13. Segaran, Toby and Hammerbacher, Jeff. Beautiful Data. 1st Edition. O'Reilly Media. Pg 257.
  14. "The World’s Technological Capacity to Store, Communicate, and Compute Information", Martin Hilbert and Priscila López (2011), Science (journal), 332(6025), 60-65; free access to the article through here: martinhilbert.net/WorldInfoCapacity.htm
  15. http://www-01.ibm.com/software/data/bigdata/
  16. «MIKE2.0 Methodology - Open Framework, Information Management Strategy & Collaborative Governance» (en anglès). OmCollab. [Consulta: 4 maig 2016].
  17. Laney, Douglas. "3D Data Management: Controlling Data Volume, Velocity and Variety". Gartner. Retrieved 6 February 2001.
  18. Beyer, Mark. "Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data". Gartner. Archived from the original on 10 July 2011. Retrieved 13 July 2011.
  19. «The Importance of 'Big Data': A Definition» (en anglès). Gartner, 21-06-2012. [Consulta: 4 maig 2016].
  20. «IDC». [Consulta: [15/03/2014]].
  21. http://www.europapress.es/portaltic/sector/noticia-uso-big-data-empresas-espanolas-crecera-304-dos-anos-20120628083003.html
  22. Kalil, Tom. "Big Data is a Big Deal". White House. Retrieved 26 September 2012.
  23. Executive Office of the President (March 2012). "Big Data Across the Federal Government". White House. Retrieved 26 September 2012.
  24. Layton, Julia. "Amazon Technology". Money.howstuffworks.com. Retrieved 2013-03-05.
  25. "Scaling Facebook to 500 Million Users and Beyond". Facebook.com. Retrieved 2013-07-21.
  26. "FICO® Falcon® Fraud Manager". Fico.com. Retrieved 2013-07-21
  27. Wingfield, Nick (2013-03-12). "Predicting Commutes More Accurately for Would-Be Home Buyers - NYTimes.com". Bits.blogs.nytimes.com. Retrieved 2013-07-21.
  28. http://www.sas.com/offices/europe/spain/
  29. 29,0 29,1 http://www.abc.es/tecnologia/informatica-soluciones/20131207/abci-data-analisis-201312051430.html
  30. Marr, Bernard «How Big Data And The Internet Of Things Create Smarter Cities» (en anglès). Forbes, 19-05-2015.
  31. http://www.danah.org
  32. http://www.danah.org/papers/2012/BigData-ICS-Draft.pdf
  33. http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1926431