使用Pentaho,可以轻松解决所有大数据分析问题,无需编写一行代码,并将生成的结果/输出进行分析。它可以轻松地与其他大数据平台建立连接,如谷歌Dataproc、Hortonworks数据平台(HDP)、Amazon Elastic MapReduce (EMR)等。
此外,它还可以与HDFS、HBase、Oozie、ZooKeeper等服务进行集成,非常灵活。请参考下面架构图:

连接Hadoop集群的步骤
1.下载驱动和配置属性文件
- 要下载驱动程序,访问以下链接为了解客户端版本驱动程序和其他信息。从服务器的大数据插件目录中添加连接路径,即hadoop.configurations.path属性,并将该值设置为metastore目录。例如,/home/devuser/.pentaho/metastore
- 在上面的文件中找到Hadoop.configurations.path属性并将值赋给metastore目录。例如,/home/user/.pentaho/metastore
- 然后在上述变更后启动Pentaho服务器。
2.安装驱动
- 浏览pentahohomedir/server/pentaho-server/pentaho-solutions/ADDITIONAL-FILES/drivers目录,其中pentahohomedir是安装Pentaho的目录。
- 选择你想添加的驱动(.kar文件)(即从支持页面下载的兼容驱动文件)并将其复制到浏览的服务器目录。
- 重启服务器和服务。
3.安装客户插件,如下所述
进入"Tools ->Marketplace",搜索 "Apache Hadoop "并点击安装。请参考下图:

获取安装资料
咨询销售流程完成后会发送给你Welcome Kit电子邮件。此电子邮件包含企业版FTP站点的用户凭证,在那里你可以下载Hadoop数据集成包的各个安装包,以及设计Hadoop job和转换所需的桌面客户端工具。以下是每个平台和发行版所需的软件包:
- Hadoop数据集成:phd-ee-4.2.0-GA.tar.gz。
- Windows安装包的客户端工具:pdi-ee-client-4.2.0-GA.zip。
- Linux/Solaris/OS X 的工具:pdi-ee-client-4.2.0-GA.tar.gz。
- 用于Apache Hadoop部署的Pentaho客户端工具补丁:pentaho-apache-hadoop-4.2.0.zip。
更多细节参考下面链接:
https://help.hitachivantara.com/Documentation/Pentaho/9.2/Work_with_data/Use_Hadoop_with_Pentaho
原文标题:Pentaho – Hadoop Cluster connection
原文作者:Saurabh Suresh Dhotre
原文地址:https://blog.knoldus.com/pentaho-hadoop-connection/
最后修改时间:2022-09-18 17:36:51
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




