排行
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
中国数据库
向量数据库
时序数据库
实时数据库
搜索引擎
空间数据库
图数据库
数据仓库
大调查
2021年报告
2022年报告
年度数据库
2020年openGauss
2021年TiDB
2022年PolarDB
2023年OceanBase
首页
资讯
活动
大会
学习
课程中心
推荐优质内容、热门课程
学习路径
预设学习计划、达成学习目标
知识图谱
综合了解技术体系知识点
课程库
快速筛选、搜索相关课程
视频学习
专业视频分享技术知识
电子文档
快速搜索阅览技术文档
文档
问答
服务
智能助手小墨
关于数据库相关的问题,您都可以问我
数据库巡检平台
脚本采集百余项,在线智能分析总结
SQLRUN
在线数据库即时SQL运行平台
数据库实训平台
实操环境、开箱即用、一键连接
数据库管理服务
汇聚顶级数据库专家,具备多数据库运维能力
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
我的订单
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
资讯
活动
大会
课程
文档
排行
问答
我的订单
首页
专家团队
智能助手
在线工具
SQLRUN
在线数据库即时SQL运行平台
数据库在线实训平台
实操环境、开箱即用、一键连接
AWR分析
上传AWR报告,查看分析结果
SQL格式化
快速格式化绝大多数SQL语句
SQL审核
审核编写规范,提升执行效率
PLSQL解密
解密超4000字符的PL/SQL语句
OraC函数
查询Oracle C 函数的详细描述
智能助手小墨
关于数据库相关的问题,您都可以问我
精选案例
新闻资讯
云市场
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
专家团队
智能助手
精选案例
新闻资讯
云市场
微信扫码
复制链接
新浪微博
分享数说
采集到收藏夹
分享到数说
举报
首页
/
实用 | Cloudera企业数据平台中的Impala
实用 | Cloudera企业数据平台中的Impala
Cloudera中国
2016-05-13
615
点击上方
“公众号”
可以订阅哦!
Hadoop的原生组件
满足企业需求
灵活性
对HDFS和HBase中存储的任何数据进
行互动式分析
原生性
与Hadoop组件共享工作负载管理、元
数据、安全性、SQL语法和用户界面
经济高效
减少数据移动、建模和存储的统一存储
和分析
快速
行业领先的多用户性能,以及Hadoop
可扩展性
用户友好
用预先构建的分析功能和现有BI工具集
成来轻松探索和查询数据
熟悉
标准以及供应商专属SQL功能,利用现
有的SQL技能
Apahche Hadoop的开源分析型数据库
Cloudera Impala是运行于Apache Hadoop中的开源分析型数据库。Impala结合了其他
原生Hadoop框架的所有好处,包括灵活性、扩展性、经济高效,以及传统数据库所需要
的性能、耐用性和SQL功能。Impala是Cloudera企业数据平台的一个集成部分 --- 享有像
MapReduce、Apache Hive、Apache Pig等组件同样灵活的文件和数据格式、元数据、
安全性以及资源管理。它还与广受欢迎的第三方工具无缝集成(比如IBM Cognos, Microsoft
BI, Microstrategy,SAP BusinessObjects, SAS, Tableau, 以及更多) --- 使得企业
可以继续利用现有的投资。
兼而有之的优势
自从Impala问世以后,它已经成为行业标准的SQL接口,有着超过100万的开源下载次数
和几百个生产部署。作为Hadoop生态系统的一个原生组件,相比于传统的数据库和其他
的Hadoop框架来说,Impala提供了关键的益处。它将数据开放给更多的用户以进行多样
化分析;同时仍然可以满足企业的需求,提供了兼而有之的优势。
为Hadoop带来分析型数据库
你可以用Impala来编写SQL语言,或者用你最喜欢的商业智能工具来互动式地查询
Hadoop数据,如同传统的平行关系型数据库。对于那些选择SQL的人而言,Impala代表
着强大的SQL合规性和必需的核心SQL语言功能,包括:
>
分析性/窗口功能
>
基于磁盘的查询处理
>
在WHERE和EXISTS子句中的子查询(关联的和非关联的)
>
传统数据库的附加专属供应商扩展
为了最大程度减少延迟,Impala直接在HDFS上运行数据(而不是通过一个中介,比如说Spark、Tez或者MapReduce),利用HDFS的缓存,优化了查
询时的内存数据传输。其结果是将近30倍的速度提升与更高效的硬件使用率。
作为Hadoop生态系统的一个原生组件,Impala像该平台的其他组件一样,共享同样的存储(HDFS和HBase),元数据,和资源管理(YARN)。至于
安全方面,则与Kerberos进行集成来实现授权(通过Cloudera Manager自动实现),以及与Apache Sentry进行集成来实现高精粒度的、基于角色的授权。
此外,Impala可以在所有共同的原生Hadoop文件格式中进行查询。你可以查询文本文件、SequenceFiles、RCFiles和Apache Avro上的原始数据,同时
实现最佳性能和Parquet列格式的空间效率。这些文件格式都是免费开源的,而且可以在Hadoop中被用来进行任何其他的查询或处理,比如MapReduce、
Hive或Pig。
Impala:
量身打造的框架
Impala创建之初就以易于部署和使用为目的。为了保证与现行Hive集成组件的兼容性,Impala被设计用来利用、延展和提升Hive的关键基础架构 - 元数据、
数据模式、安全性、驱动软件和SQL语法 - 实现最大化重复使用和集成而不需要增加设计工作、集成和培训。如果你理解了Hive,那么转化到Impala来获得显
著的多用户性能、兼容性和适用性提升是很容易的。
Impala和Hive都在Hadoop生态系统中扮演很重要的角色。基于MapReduce和Spark框架的Hive,最适合长时间运行批次处理和转化 (比如,抽取、转化和
加载 - 或者ETL)。Impala是专门设计成一个原生的Hadoop分析型数据库,具备极致的性能、适用性和扩展SQL兼容性 - 同时可以查询统一的Hadoop存储。
Impala的常见用例包括:
>
运营数据商店 - 轻松集合多个来源的数据,并且为内外部使用快速呈现操作面板。
>
数据发掘工具 - 大规模快速探索数据,通过熟悉而强大的SQL能力,以及与流行的可视化工具的完美集成。
>
专属构建应用的分析后台 - 通过一个集成平台,以更低的成本将数据和系统向更多的用户开放。
Cloudera企业数据平台中的Impala
Impala是Cloudera企业数据平台的一个关键组件:
一个让存储和分析所有数据和元数据的统一解决方
案,同时提供合规的安全性和监管,以及端对端的
系统管理。Impala作为企业数据平台的一部分,全
球的领先组织可以从更多、更多种数据中快速获得
价值。
Cloudera 企业版订阅
通过订阅Cloud企业版来最大程度获取Impala的
价值。Cloudera企业版提供全面的技术支持和关
键性任务应用的必要特性,以最大化Impala所创
造的价值。
下载Cloudera Search:
http://www.cloudera.com/downloads.html
请试用Cloudera Live:
http://www.cloudera.com/get-started/cloudera-live.html
请点击“
阅读全文
”进入微站
(更多技术干货、行业动态,请关注【微站】,不定时更新)
数据库
文章转载自
Cloudera中国
,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
领墨值
有奖问卷
意见反馈
客服小墨