Big Data

De Viquipèdia
Dreceres ràpides: navegació, cerca

Dades massives[1] (en anglès Big Data[2][3][4]) és en el sector de tecnologies de la informació i la comunicació una referència als sistemes que manipulen grans conjunts de dades (o data sets). Les dificultats més habituals en aquests casos se centren en la captura, l'emmagatzematge,[5] recerca, compartició, anàlisi,[6] i visualització. La tendència a manipular ingents quantitats de dades es deu a la necessitat en molts casos d'incloure les dades relacionades de l'anàlisi en un gran conjunt de dades relacionat, tal és l'exemple de les anàlisis de negoci, les dades de malalties infeccioses, o la lluita contra el crim organitzat. El límit superior de processament s'ha anat desplaçant al llarg dels anys, d'aquesta forma els límits que estaven fixats el 2008 rondaven els ordres de petabytes a Zettabytes de dades.[7] Els científics amb certa regularitat troben limitacions causa de la gran quantitat de dades en certes àrees, com ara la meteorologia, la genòmica,[8] les complexes simulacions de processos físics,[9] i les investigacions relacionades amb els processos biològics i ambientals,[10] les limitacions també afecten els motors de cerca a internet, als sistemes financers i a la informàtica de negocis. Els data sets creixen en volum degut en part a la introducció d'informació ubiqua procedent dels sensors sense fils i els dispositius mòbils (per exemple les VANETS), del constant creixement dels històrics d'aplicacions (per exemple de registre), càmeres (sistemes de teledetecció), micròfons, lectors de ràdio - frequency identification.[11][12] La capacitat tecnològica per capita a nivell mundial per emmagatzemar dades es dobla aproximadament cada quaranta mesos des dels anys vuitanta.[13] S'estima que el 2012 cada dia van ser creats a prop de 2,5 trilions de bytes de dades (de l'anglès quintillion, 2.5 × 1018 ).[14]

Actualitat[modifica | modifica el codi]

El concepte Big data es troba actualment en continu moviment perquè els avanços tecnològics permeten tractaments de volums majors. Grans volums es tracta de Terabytes o Petabytes. Això permet incloure en aquest tipus de projectes informacions (per exemple logs) que fins avui no s'utilitzaven perquè la tecnologia no permetia processar-los en un temps raonable. El concepte de volum és molt variable i cada dia que passa eleva els grans volums de dades. Segons dades de la consultora IDC,[15] les empreses espanyoles incorporaran en menys de dos anys Big Data a una velocitat del 304% pel que fa l'any 2013.[16]

Definició[modifica | modifica el codi]

"Big data" és un terme aplicat a conjunts de dades que superen la capacitat del programari habitual per ser capturats, gestionats i processaments en un temps raonable. Les grandàries del "big data" es troben constantment en augment. En 2012 es va dimensionar la seva grandària en una dotzena de terabytes fins a diversos petabytes de dades en un únic data set. En la metodologia MIKE2.0 dedicada a investigar temes relacionats amb la gestió d'informació, defineixen big data en termes de permutacions útils, complexitat i dificultat per esborrar registres individuals. En 2001, en un informe de recerca que es fonamentava en congressos i presentacions relacionades, l'analista Doug Laney[17] del META Group (ara Gartner) definia el creixement constant de dades com una oportunitat i un repte per investigar[18] en el volum, la velocitat i la varietat. Gartner continua usant big data com a referència d'est.15 A més, grans proveïdors del mercat de big data estan desenvolupant solucions per atendre les demandes més crítiques de processament de dades massives, com MapR, Cyttek Group i Cloudera.

Govern[modifica | modifica el codi]

En 2012, el govern d'Obama[19] va anunciar la Iniciativa de Recerca i Desenvolupament de Big Data, que va explorar com les grans dades podrien utilitzar-se per fer front a problemes importants que enfronta el govern.[20] La iniciativa es compon de 84 programes de dades grans diferents, repartides en sis departaments. L'anàlisi de grans dades va jugar un paper important en la campanya i reelecció de Barack Obama de 2012. El Govern Federal dels Estats Units és amo de sis dels deu *supercomputadoras més poderoses del món. El Data Center d'Utah és un centre de dades que s'està construint per l'Agencia de Seguretat Nacional dels Estats Units. Quan hagi acabat, la instal·lació serà capaç de manejar una gran quantitat d'informació recollida per la NSA a través d'Internet. La quantitat exacta d'espai d'emmagatzematge no es coneix, però les fonts més recents afirmen que estarà en l'ordre d'uns pocs exabytes.

Sector privat: alguns exemples[modifica | modifica el codi]

ebay.com utilitza dos magatzems de dades a 7,5 petabytes i 40PB així com un cluster Hadoop 40PB per a la cerca, les recomanacions de consum, i el marxandatge. Dins l'emmagatzematge de dades 90pb d'eBay.

Amazon.com maneja milions d'operacions de back-end de cada dia, així com les consultes de més de mig milió de venedors de terceres parts. La tecnologia central que manté Amazon funcionament està basat en Linux i en 2005 van tenir tres bases de dades més grans del món de Linux, amb capacitats de 7,8 TB, 18,5 TB i 24,7 TB.[21]

Walmart s'ocupa de més d'1 milió de transaccions dels clients cada hora, que s'importa en bases de dades que s'estima contenen més de 2,5 petabytes (2.560 terabytes) de dades - l'equivalent a 167 vegades la informació continguda en tots els llibres dels EUA Biblioteca del Congrés.

Facebook maneja 50 mil milions de fotos de la seva base d'usuaris.[22]

FICO Targeta de crèdit Falcon Sistema de Detecció de Frau protegeix 2100000000 comptes actius a tot el món.[23] El volum de les dades de negoci a tot el món, en totes elles, es duplica cada 1,2 anys, segons estimacions.

Windermere Real Estigues utilitza assenyalis GPS anònimes de gairebé 100 milions de conductors per ajudar als compradors d'habitatge nou a determinar els seus temps de conducció típica i tornar del treball al llarg de diferents moments del dia.[24]

Crítiques[modifica | modifica el codi]

A favor de l'ús de big data[modifica | modifica el codi]

Segons el director de Alianzas de SAS España,[25] Fernando Meco, entre els beneficis que aporta l'anàlisi de dades massives a la societat es troben, per exemple, avançar-se a futures conductes d'actuació o gestió d'expectatives dels ciutadans. I d'aquí sorgeixen els comportaments i publicacions que els internautes envien als diferents canals d'internet com a xarxes socials, «fonts d'informació que ens permet avançar-nos a futures conductes d'actuació», afirma.[26] Aquest expert també afirma que «El Big Data ens porta a fer preguntes i trobar respostes, no solament per a l'empresa, sinó també per a la societat. Per exemple, amb analítica avançada de Big Data nosaltres ajudem a evitar l'extinció d'animals tan representatius com l'ós polar o els rinoceronts blancs, a través d'un seguiment dels exemplars que hi ha en llibertat i l'estudi a les zones en les quals habita. També proveïm solucions als bombers de Londres que estableixen la disponibilitat d'efectius dins de la ciutat depenent de quines zones siguin més propenses a sofrir incendis, i ajudar així a prevenir-los»,[26] descriu.

Un altre important àmbit d'aplicació és en aquelles ciutats que estan adoptant el concepte "Smart City''" i que comencen a recollir mitjançant sensors, quantitats ingents d'informació relativa al tràfic, subministraments o estat dels serveis que ofereix als seus ciutadans, tenint sempre com a objectiu anticipar-se i millorar.

En contra de l'ús de big data[modifica | modifica el codi]

L'investigadora Danah Boyd[27] ha expressat la seva preocupació per l'ús de dades grans en principis descurant la ciència, tals com l'elecció d'una mostra representativa per ser massa preocupat realment en contacte amb les enormes quantitats de dades. Aquest enfocament pot conduir a resultats parcials d'una manera o una altra. La integració amb fonts de dades heterogènies - alguns que podrien ser considerats "grans dades" i uns altres no -. Presenta una logística formidable, així com reptes analítics, però molts investigadors argumenten que aquest tipus d'integracions és probable que representen les noves fronteres més prometedores de la ciència.[28][29]

Referències[modifica | modifica el codi]

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Big Data Modifica l'enllaç a Wikidata
  1. «Big Data». Cercaterm del TERMCAT. Institut d'Estudis Catalans, Generalitat de Catalunya i Consorci per a la Normalització Lingüística.
  2. White, Tom. Hadoop: The Definitive Guide. 2009. 1st Edition. O'Reilly Media. Pg 3.
  3. MIKE2.0, Big Data Definition http://mike2.openmethodology.org/wiki/Big_Data_Definition
  4. White, Tom. Hadoop: The Definitive Guide. 1a ed.. O'Reilly Media, 2009, p. Pg 3. 
  5. ↑ Kusnetzky, Dan. What is "Big Data?". ZDNet. http://blogs.zdnet.com/virtualization/?p=1708
  6. ↑ Vance, Ashley. Start-Up Goes After Big Data With Hadoop Helper. New York Times Blog. 22 April 2010. http://bits.blogs.nytimes.com/2010/04/22/start-up-goes-after-big-data-with-hadoop-helper/?dbk
  7. Horowitz, Mark. Visualizing Big Data: Bar Charts for Words. Wired Magazine. Vol 16 (7). 23 June 2008. http://www.wired.com/science/discoveries/magazine/16-07/pb_visualizing##ixzz0llT2DN5j. Volu 16(7)
  8. Community cleverness required. Nature, 455(7209), 1. 2008. http://www.nature.com/nature/journal/v455/n7209/full/455001a.html
  9. Sandia sees data management challenges spiral. HPC Projects. 4 August 2009. http://www.hpcprojects.com/news/news_story.php?news_id=922
  10. Reichman,O.J., Jones, M.B., and Schildhauer, M.P. 2011. Challenges and Opportunities of Open Data in Ecology. Science 331(6018): 703-705.DOI:10.1126/science.1197962
  11. Hellerstein, Joe. Parallel Programming in the Age of Big Data. Gigaom Blog. 9 November 2008. http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/
  12. Segaran, Toby and Hammerbacher, Jeff. Beautiful Data. 1st Edition. O'Reilly Media. Pg 257.
  13. "The World’s Technological Capacity to Store, Communicate, and Compute Information", Martin Hilbert and Priscila López (2011), Science (journal), 332(6025), 60-65; free access to the article through here: martinhilbert.net/WorldInfoCapacity.htm
  14. http://www-01.ibm.com/software/data/bigdata/
  15. «IDC». [Consulta: [15/03/2014]].
  16. http://www.europapress.es/portaltic/sector/noticia-uso-big-data-empresas-espanolas-crecera-304-dos-anos-20120628083003.html
  17. Laney, Douglas. "3D Data Management: Controlling Data Volume, Velocity and Variety". Gartner. Retrieved 6 February 2001.
  18. Beyer, Mark. "Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data". Gartner. Archived from the original on 10 July 2011. Retrieved 13 July 2011.
  19. Kalil, Tom. "Big Data is a Big Deal". White House. Retrieved 26 September 2012.
  20. Executive Office of the President (March 2012). "Big Data Across the Federal Government". White House. Retrieved 26 September 2012.
  21. Layton, Julia. "Amazon Technology". Money.howstuffworks.com. Retrieved 2013-03-05.
  22. "Scaling Facebook to 500 Million Users and Beyond". Facebook.com. Retrieved 2013-07-21.
  23. "FICO® Falcon® Fraud Manager". Fico.com. Retrieved 2013-07-21
  24. Wingfield, Nick (2013-03-12). "Predicting Commutes More Accurately for Would-Be Home Buyers - NYTimes.com". Bits.blogs.nytimes.com. Retrieved 2013-07-21.
  25. http://www.sas.com/offices/europe/spain/
  26. 26,0 26,1 http://www.abc.es/tecnologia/informatica-soluciones/20131207/abci-data-analisis-201312051430.html
  27. http://www.danah.org
  28. http://www.danah.org/papers/2012/BigData-ICS-Draft.pdf
  29. http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1926431