使用Docker运行Apache Kylin，容器化您的OLAP引擎

Kyligence 2021-04-20

955

Docker是一个开源的基于 LXC技术构建的Container容器引擎, 这些年发展非常迅猛，它的出现拉开了基于云计算平台发布产品方式的变革。很多公司在探索使用Docker运行大数据应用，虽然取得了一定进展，但是Hadoop这类资源密集并需要数据持久化的应用，使用Docker依然有不小难度。

Apache Kylin是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，并提供亚秒级交互式分析能力，Apache Kylin是首个完全由中国团队设计开发，并贡献到Apache软件基金会(ASF)的顶级项目。

Apache Kylin巧妙的设计、独特的架构，使得它的部署与其它方案相比具有先天优势：

1、只要准备好一台Hadoop的客户机，配置好各必需组件的客户jar和xml配置文件，然后解压缩Kylin就可以很快运行。

2、Kylin的元数据、Cube数据都存储在Hadoop/HBase集群上，本地服务无状态，这使得它非常容易动态扩展。

3、Kylin将大部分的计算交给Hadoop/HBase集群，本身对资源消耗不是很高，使用虚拟机就可以应对中等规模的并发请求。

基于以上事实，采用Docker运行Kylin是一种可行并合理的方案；Kylin Docker化后，不但可以大大简化Kylin的分发、测试，提高资源利用率，更为企业采用Docker编排OLAP服务、应对可能的瞬时高并发提供可能。

Kyligence是由Apache Kylin核心贡献者团队组建的创业公司，致力于进一步推动Apache Kylin开源项目的发展和演进，提供基于的Apache Kylin的大数据分析产品和服务。一直关注和实践云计算与大数据结合的技术，不仅已将Kylin运行在Amazon AWS等主流IaaS云上，更在探索基于Docker的解决方案上有深厚积累。近日Kyligence在Github上发布了其Kylin on Docker的源代码，第一个版本是以Hortonworks HDP 2.2为目标集群，未来还会发布其它主流Hadoop版本的Dockerfile及脚本，感兴趣的同学可以关注，同时欢迎提交pull request。

项目地址：https://github.com/Kyligence/kylin-docker/

运行步骤：

1、收集您的hadoop环境的各client的配置文件，放到某个本地文件目录中，包括core-site.xml, yarn-site.xml, hdfs-site.xml, mapred-site.xml, hive-site.xml, hbase-site.xml，以及Kylin的主配置文件kylin.properties

2、克隆此kylin-docker的项目，切换到对应Hadoop版本的分支

3、使用本地的配置文件，覆盖kylin-docker/conf目录下的模版文件

4、运行docker build，构建docker image，此image将包含Hadoop client、配置文件以及Apache Kylin

5、docker运行此image，为Kylin的7070指定一个映射端口

6、使用宿主机IP地址加映射端口的方式，访问Kylin server，然后用它访问您的Hadoop资源，构建Cube，查询等

7、将docker image注册到自己的docker registry中，供任意地方随时启动。

关于作者

史少锋，Kyligence高级软件架构师，Apache Kylin核心开发者和项目管理委员会成员（PMC)，专注于大数据分析和云计算技术。曾任eBay全球分析基础架构部大数据高级工程师，IBM云计算部门软件架构师；曾是IBM公有云Bluemix dev&ops团队核心成员，负责平台的规划、开发和运营。

关于Kyligence

Kyligence是上海大数据联盟核心成员，由Apache顶级项目Apache Kylin核心贡献者团队组建，团队一贯致力于推动Apache Kylin开源项目的发展和演进，提供基于Apache Kylin的大数据分析产品和服务，拓展全球用户社区，构建更为丰富的生态系统。Apache Kylin系列认证培训课程针对Apache Kylin的使用者，管理者及开发者提供相关的培训课程，由Apache Kylin 核心贡献者及PMC 成员倾力提供，学员经认证考试，可获得由Kyligence公司提供的相关认证证书。

关于Apache Kylin

Apache Kylin™ 是一个开源的分布式分析引擎，提供Apache Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据。 Apache Kylin™首创使用多维立方体预计算处理大数据查询，在Hadoop平台上提供亚秒级查询千亿记录的能力，提供标准SQL接口，查询性能比Hive快100~1000倍。其独创的稀疏立方体、压缩存储、微批处理构建等技术，很好的解决了大数据建立索引的指数级膨胀的难题，从而在查询速度上大大领先于其他基于MPP(大规模并行计算)等技术的解决方案，可以很好的满足百亿规模以上超大数据集提供快速的、高并发标准SQL查询的业务需求，并通过其ODBC、JDBC驱动及REST API等与BI工具，前端可视化技术等无缝整合。Apache Kylin™也是第一个由中国人主导的Apache顶级项目，于2015年11月正式毕业成为Apache顶级项目。2015年9月，Apache Kylin与Spark、HBase、Kafka等并列荣膺InfoWorld 2015年Bossie最佳开源大数据工具奖。这也是国人项目第一次获得该国际大奖。Apache Kylin™在大数据分析领域应用广泛，获得了快速的推广。国内外一线的互联网，金融，电信等公司越来越多地采用Apache Kylin™作为其大数据分析平台。

docker

文章转载自Kyligence，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

使用Docker运行Apache Kylin，容器化您的OLAP引擎

评论