数据仓库Hive vs 及时分析系统Impala

发布时间：2021-07-05 21:38:04 所属栏目：大数据来源：互联网

导读：一、什么是Hive? Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。Hive支持HSQL，是一种类SQL。也由于这种机制导致Hive最大的缺点是慢。MapReduce调

一、什么是Hive?

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。Hive支持HSQL，是一种类SQL。

也由于这种机制导致Hive最大的缺点是慢。MapReduce调度本身只适合批量，长周期任务，类似查询这种要求短平快的业务，代价太高。

二、什么是Impala?

Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。它是一个用C++和Java编写的开源软件。与其他Hadoop的SQL引擎相比，它提供了高性能和低延迟。

换句话说，Impala是性能最高的SQL引擎(提供类似RDBMS的体验)，它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。

三、Hive vs Impala

Impala与Hive都是构建在Hadoop之上的数据查询工具，各有不同的侧重适应面，但从客户端使用来看Impala与Hive有很多的共同之处，如数据表元数据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等。Impala与Hive在Hadoop中的关系如下图所示。

（编辑：沧州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

人工智能驱动的数据解	中兴LiveBudsPro怎样打
漫步者NeoBudsPro续航	家用组合音响有哪些品