Docker是一个开源的基于 LXC技术构建的Container容器引擎, 这些年发展非常迅猛,它的出现拉开了基于云计算平台发布产品方式的变革。很多公司在探索使用Docker运行大数据应用,虽然取得了一定进展,但是Hadoop这类资源密集并需要数据持久化的应用,使用Docker依然有不小难度。
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,并提供亚秒级交互式分析能力,Apache Kylin是首个完全由中国团队设计开发,并贡献到Apache软件基金会(ASF)的顶级项目。
Apache Kylin巧妙的设计、独特的架构,使得它的部署与其它方案相比具有先天优势:
1、只要准备好一台Hadoop的客户机,配置好各必需组件的客户jar和xml配置文件,然后解压缩Kylin就可以很快运行。
2、Kylin的元数据、Cube数据都存储在Hadoop/HBase集群上,本地服务无状态,这使得它非常容易动态扩展。
3、Kylin将大部分的计算交给Hadoop/HBase集群,本身对资源消耗不是很高,使用虚拟机就可以应对中等规模的并发请求。
基于以上事实,采用Docker运行Kylin是一种可行并合理的方案;Kylin Docker化后,不但可以大大简化Kylin的分发、测试,提高资源利用率,更为企业采用Docker编排OLAP服务、应对可能的瞬时高并发提供可能。
Kyligence是由Apache Kylin核心贡献者团队组建的创业公司,致力于进一步推动Apache Kylin开源项目的发展和演进,提供基于的Apache Kylin的大数据分析产品和服务。一直关注和实践云计算与大数据结合的技术,不仅已将Kylin运行在Amazon AWS等主流IaaS云上,更在探索基于Docker的解决方案上有深厚积累。近日Kyligence在Github上发布了其Kylin on Docker的源代码,第一个版本是以Hortonworks HDP 2.2为目标集群,未来还会发布其它主流Hadoop版本的Dockerfile及脚本,感兴趣的同学可以关注,同时欢迎提交pull request。
项目地址:https://github.com/Kyligence/kylin-docker/
运行步骤:
1、收集您的hadoop环境的各client的配置文件,放到某个本地文件目录中,包括core-site.xml, yarn-site.xml, hdfs-site.xml, mapred-site.xml, hive-site.xml, hbase-site.xml,以及Kylin的主配置文件kylin.properties
2、克隆此kylin-docker的项目,切换到对应Hadoop版本的分支
3、使用本地的配置文件,覆盖kylin-docker/conf目录下的模版文件
4、运行docker build,构建docker image,此image将包含Hadoop client、配置文件以及Apache Kylin
5、docker运行此image,为Kylin的7070指定一个映射端口
6、使用宿主机IP地址加映射端口的方式,访问Kylin server,然后用它访问您的Hadoop资源,构建Cube,查询等
7、将docker image注册到自己的docker registry中,供任意地方随时启动。
关于作者
史少锋,Kyligence高级软件架构师,Apache Kylin核心开发者和项目管理委员会成员(PMC),专注于大数据分析和云计算技术。曾任eBay全球分析基础架构部大数据高级工程师,IBM云计算部门软件架构师;曾是IBM公有云Bluemix dev&ops团队核心成员,负责平台的规划、开发和运营。
关于Kyligence
Kyligence是上海大数据联盟核心成员,由Apache顶级项目Apache Kylin核心贡献者团队组建,团队一贯致力于推动Apache Kylin开源项目的发展和演进,提供基于Apache Kylin的大数据分析产品和服务,拓展全球用户社区,构建更为丰富的生态系统。Apache Kylin系列认证培训课程针对Apache Kylin的使用者,管理者及开发者提供相关的培训课程,由Apache Kylin 核心贡献者及PMC 成员倾力提供,学员经认证考试,可获得由Kyligence公司提供的相关认证证书。
关于Apache Kylin
Apache Kylin™ 是一个开源的分布式分析引擎,提供Apache Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据。 Apache Kylin™首创使用多维立方体预计算处理大数据查询,在Hadoop平台上提供亚秒级查询千亿记录的能力,提供标准SQL接口,查询性能比Hive快100~1000倍。其独创的稀疏立方体、压缩存储、微批处理构建等技术,很好的解决了大数据建立索引的指数级膨胀的难题, 从而在查询速度上大大领先于其他基于MPP(大规模并行计算)等技术的解决方案,可以很好的满足百亿规模以上超大数据集提供快速的、高并发标准SQL查询的业务需求,并通过其ODBC、JDBC驱动及REST API等与BI工具,前端可视化技术等无缝整合。Apache Kylin™也是第一个由中国人主导的Apache顶级项目,于2015年11月正式毕业成为Apache顶级项目。2015年9月,Apache Kylin与Spark、HBase、Kafka等并列荣膺InfoWorld 2015年Bossie最佳开源大数据工具奖。这也是国人项目第一次获得该国际大奖。Apache Kylin™在大数据分析领域应用广泛,获得了快速的推广。国内外一线的互联网,金融,电信等公司越来越多地采用Apache Kylin™作为其大数据分析平台。




