DataOps
DataOps és un conjunt de pràctiques, processos i tecnologies que combina una perspectiva integrada i orientada als processos de les dades amb l'automatització i mètodes des de l'enginyeria de programari àgil per millorar la qualitat, la velocitat i la col·laboració i promoure una cultura de millora contínua en l'àrea de l'anàlisi de dades. [1] Tot i que DataOps va començar com un conjunt de bones pràctiques, ara ha madurat per convertir-se en un enfocament nou i independent de l'anàlisi de dades.[2] DataOps s'aplica a tot el cicle de vida de les dades des de la preparació de les dades fins als informes, i reconeix la naturalesa interconnectada de l'equip d'anàlisi de dades i les operacions de tecnologia de la informació.
DataOps incorpora la metodologia Agile per escurçar el temps de cicle del desenvolupament de l'anàlisi d'acord amb els objectius empresarials.
DevOps se centra en el lliurament continu aprofitant els recursos informàtics sota demanda i automatitzant la prova i el desplegament de programari. Aquesta fusió del desenvolupament de programari i les operacions de TI ha millorat la velocitat, la qualitat, la predictibilitat i l'escala de l'enginyeria i el desplegament del programari. Prenent préstecs mètodes de DevOps, DataOps busca aportar aquestes mateixes millores a l'anàlisi de dades.
DataOps utilitza el control de processos estadístics (SPC) per supervisar i controlar el pipeline d'anàlisi de dades. Amb SPC al seu lloc, les dades que flueixen a través d'un sistema operatiu es controlen constantment i es verifica que funcionin. Si es produeix una anomalia, es pot notificar a l'equip d'anàlisi de dades mitjançant una alerta automatitzada.[3]
DataOps no està lligat a una tecnologia, arquitectura, eina, llenguatge o marc concrets. Les eines que donen suport a DataOps promouen la col·laboració, l'orquestració, la qualitat, la seguretat, l'accés i la facilitat d'ús.[4]
Història
[modifica]DataOps va ser presentat per primera vegada per Lenny Liebmann, editor col·laborador, InformationWeek, en una publicació de bloc sobre IBM Big Data & Analytics Hub titulada "3 raons per les quals DataOps és essencial per a l'èxit de les grans dades" el 19 de juny de 2014. El terme DataOps va ser popularitzat més tard per Andy Palmer de Tamr i Steph Locke. DataOps és un sobrenom de "Operacions de dades". El 2017 va ser un any important per a DataOps amb un desenvolupament important d'ecosistemes, cobertura d'analista, augment de les cerques de paraules clau, enquestes, publicacions i projectes de codi obert.[5] Gartner va nomenar DataOps en el cicle Hype per a la gestió de dades el 2018.[6]
Objectius i filosofia
[modifica]Es preveu que el volum de dades creixi a un ritme del 32% CAGR fins als 180 Zettabytes l'any 2025 (Font: IDC).[7] DataOps busca proporcionar les eines, els processos i les estructures organitzatives per fer front a aquest augment significatiu de dades.[7] L'automatització racionalitza les demandes diàries de la gestió de grans bases de dades integrades, alliberant l'equip de dades per desenvolupar noves analítiques d'una manera més eficient i eficaç. DataOps busca augmentar la velocitat, la fiabilitat i la qualitat de l'anàlisi de dades. Fa èmfasi en la comunicació, la col·laboració, la integració, l'automatització, la mesura i la cooperació entre científics de dades, analistes, enginyers de dades/ETL ( extracció, transformació, càrrega), tecnologia de la informació (TI) i garantia/govern de la qualitat.
Implementació
[modifica]Toph Whitmore de Blue Hill Research ofereix aquests principis de lideratge de DataOps per al departament de tecnologia de la informació: [8]
- "Establiu mesures de progrés i rendiment en cada etapa del flux de dades. Quan sigui possible, feu una comparació dels temps de cicle del flux de dades.
- Definir regles per a una capa semàntica abstracta. Assegureu-vos que tothom "parle el mateix idioma" i estigui d'acord en què són i no són les dades (i les metadades).
- Valida amb la "prova del globus ocular": inclou bucles de retroalimentació humana orientats a la millora contínua. Els consumidors han de poder confiar en les dades, i això només pot arribar amb una validació incremental.
- Automatitzeu tantes etapes del flux de dades com sigui possible, incloses la BI, la ciència de dades i l'anàlisi.
- Utilitzant informació de rendiment comparada, identifiqueu els colls d'ampolla i optimitzeu-los. Això pot requerir una inversió en maquinari de productes bàsics o l'automatització d'un pas del procés de ciència de dades lliurat anteriorment per humans.
- Establiu una disciplina de govern, amb un enfocament particular en el control de dades bidireccional, la propietat de les dades, la transparència i el seguiment complet del llinatge de dades a través de tot el flux de treball.
- Procés de disseny per al creixement i extensibilitat. El model de flux de dades s'ha de dissenyar per acomodar el volum i la varietat de dades. Assegureu-vos que les tecnologies habilitadores tinguin un preu assequible per escalar amb el creixement de les dades empresarials.”
Referències
[modifica]- ↑ Ereth, Julian Proceedings of LWDA 2018, 2018, pàg. 109.
- ↑ «DataOps – It’s a Secret» (en anglès). www.datasciencecentral.com. [Consulta: 5 abril 2017].
- ↑ DataKitchen. «Lean Manufacturing Secrets that You Can Apply to Data Analytics» (en anglès). Medium, 07-03-2017. [Consulta: 24 agost 2017].
- ↑ «What is DataOps? | Nexla: Scalable Data Operations Platform for the Machine Learning Age» (en anglès americà). www.nexla.com. [Consulta: 7 setembre 2017].
- ↑ DataKitchen. «2017: The Year of DataOps» (en anglès). data-ops, 19-12-2017. [Consulta: 24 gener 2018].
- ↑ «Gartner Hype Cycle for Data Management Positions Three Technologies in the Innovation Trigger Phase in 2018» (en anglès). Gartner. [Consulta: 19 juliol 2019].
- ↑ 7,0 7,1 «What is DataOps? | Nexla: Scalable Data Operations Platform for the Machine Learning Age» (en anglès americà). www.nexla.com. [Consulta: 7 setembre 2017].
- ↑ «DataOps – It’s a Secret» (en anglès). www.datasciencecentral.com. [Consulta: 5 abril 2017].