尚硅谷大数据技术之 CM 安装
更多 Java –大数据 –前端 –python 人工智能资料下载,可百度访问:尚硅谷官网
尚硅谷大数据技术之 Impala
(作者:尚硅谷大数据研发部)
版本:V1.0
第1章 Impala 的基本概念
1.1 什么是 Impala
Cloudera 公司推出,提供对 HDFS、Hbase 数据的高性能、低延迟的交互式 SQL 查询功
能。
基于 Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。
是 CDH 平台首选的 PB 级大数据实时查询分析引擎。
1.2 Impala 的优缺点
1.2.1 优点
1) 基于内存运算,不需要把中间结果写入磁盘,省掉了大量的 I/O 开销。
2) 无需转换为 Mapreduce,直接访问存储在 HDFS,HBase 中的数据进行作业调度,
速度快。
3) 使用了支持 Data locality 的 I/O 调度机制,尽可能地将数据和计算分配在同一台机
器上进行,减少了网络开销。
4) 支持各种文件格式,如 TEXTFILE 、SEQUENCEFILE 、RCFile、Parquet。
5) 可以访问 hive 的 metastore,对 hive 数据直接做数据分析。
评论