Apache Hive

De la Viquipèdia, l'enciclopèdia lliure
Apache Hive
Modifica el valor a Wikidata

Tipusmodel relacional de dades i programari lliure Modifica el valor a Wikidata
Versió inicial9 novembre 2011 Modifica el valor a Wikidata
Versió estable
3.1.3 (9 abril 2022) Modifica el valor a Wikidata
LlicènciaLlicència Apache, versió 2.0 Modifica el valor a Wikidata
Característiques tècniques
Sistema operatiumultiplataforma Modifica el valor a Wikidata
PlataformaMàquina Virtual Java Modifica el valor a Wikidata
Escrit enJava Modifica el valor a Wikidata
Equip
Desenvolupador(s)Apache Software Foundation Modifica el valor a Wikidata
Més informació
Lloc webhive.apache.org Modifica el valor a Wikidata
Seguiment d'errorsSeguiment d'errors Modifica el valor a Wikidata

Facebook: apache.hive Twitter (X): ApacheHive Modifica el valor a Wikidata

Apache Hive és un projecte de programari d'emmagatzematge, agrupament, gestió i anàlisi de dades construït sobre Apache Hadoop.[1] Apache Hive ofereix una interfície semblant a SQL per a consultar i fer anàlisi de dades emmagatzemades en diversos sistemes de fitxers i bases de dades. Inicialment desenvolupat per Meta Platforms (Facebook Inc. en aquell moment), l'eina és ara utilitzada per altres empreses com Netflix.[2][3] Amazon manté una derivació del programari Apache Hive inclosa en Amazon Elastic MapReduce, eina dels seus serveis AWS.[4]

Característiques[modifica]

Apache Hive dona suport a l'anàlisi de grans conjunts de dades emmagatzemats amb Apache Hadoop i amb altres sistemes compatibles com el sistema d'emmagatzematge d'arxius Amazon S3. Ofereix un llenguatge de consultes basat en SQL anomenat HiveQL,[5] que permet llegir i convertir consultes de forma transparent a MapReduce, Apache Tez[6] i tasques Spark. Els tres motors d'execució tot just mencionats poden funcionar sota YARN. Per a accelerar les consultes, Apache Hive proveeix l'usuari d'índexs, que inclouen índexs de bitmaps. Altres característiques significatives de Hive són les següents:

  • Diferents tipus d'emmagatzematge, com text, RCFile, HBase, ORC i d'altres.
  • Emmagatzematge de metadades en bases de dades relacionals, fet que permet reduir el temps emprat en verificacions semàntiques durant l'execució de consultes.
  • Operacions sobre dades comprimides emmagatzemades en l'ecosistema Hadoop fent servir algoritmes com el Deflate, BWT, Snappy i d'altres.
  • Funcions definides per l'usuari (comunament UDF, de l'anglès User-Defined Functions), per a manipulació de textos, dates, i altres tipus de memòria. Apache Hive també permet estendre les UDF, propietat útil per a lidiar amb casos no contemplats inicialment per les funcions.

Per defecte, Hive emmagatzema les seves metadades en una base de dades Apache Derby, però pot ser configurat per a utilitzar MySQL.[7]

Referències[modifica]

  1. Venner, Jason. Pro Hadoop (en anglès). Apress, 2009, p. 440. ISBN 978-1-4302-1942-2. 
  2. «Use Case Study of Hive/Hadoop» (en anglès). [Consulta: 8 juny 2016].
  3. «OSCON Data 2011, Adrian Cockcroft, "Data Flow at Netflix"» (en anglès). [Consulta: 31 gener 2023].
  4. «Amazon Elastic MapReduce Developer Guide» (en anglès). [Consulta: 31 gener 2023].
  5. «HiveQL Language Manual» (en anglès). [Consulta: 31 gener 2023].
  6. «Apache Tez» (en anglès). [Consulta: 31 gener 2023].
  7. Lam, Chuck. Pro Hadoop (en anglès). Apress, 2009, p. 440. ISBN 1-935182-19-6.