CDH(Cloudera’s Distribution of Hadoop)是Cloudera免费开源版本的统称。为什么企业机构要向Cloudera公司付费来购买商业版本软件?简单来说,这个问题的答案就是:Cloudera订阅为众多基于CDH的企业关键任务型系统提供了许多必要的功能和原厂代码级别服务。这些功能包括:
Cloudera 商业版提供免费版以外的重要功能组件
1.Cloudera Manager
免费版本的软件不具备高级及关键任务管理功能,这些包含在 Cloudera 商业版中,如需了解关于这些功能的详细信息,请点击以下链接:http://www.cloudera.com/content/cloudera/en/products-and-services/cloudera-enterprise/ cloudera-manager/cloudera-manager-features.html

1.1 配置历史记录和回滚
免费版本CDH在组成集群的数十个配置文件中,有成千上万的配置参数。如果某人更改了系统,数个小时后,某项正常的进程或作业可能会发生问题。如果无法查看配置变更的历史记录,以及对造成应用程序或处理作业中断的一个或多个变更进行回滚,则可能需要耗费数小时或数天的时间来诊断故障的根本原因,将对客户业务造成无法挽回的损失。商业版Cloudera Manager可以快速搜索作业或进程最近一次使用的日志,然后通过配置历史记录您可以精确地查看自那时起的配置变更情况。一旦您确定了一个或多个相关的配置,即可回滚到最后一个已知的工作状态。手动解决这些问题可能需要耗费数小时或数天的时间。而将这些类型的更新写成脚本来避免上述问题也并不是一个万无一失的解决方案,因为依然可以手动更改某项配置。而Cloudera Manager商业版可以完全避免上述情况的发生。
1.2 无宕机滚动升级能力
Hadoop技术还在发展变化中,新版本迭代速度很快,这一特性要求在升级或更新集群时,必循循序地对部分集群的阶段性服务更新和重启避免系统重启带来的风险和损失如果没有滚动更新功能,那么系统补丁和升级需要停止并重启服务。这就会造成一定的系统停机时间。利用滚动更新功能,可以逐个更新和重启各个节点,从而使整个服务都永不停止。
1.3 SNMP支持
网络运营中心(NOC)是大多数企业机构用于追踪关键任务运行状态的一种常用方式。SNMP是应用程序将状态输入至NOC的方式。对于具有关键任务型CDH应用程序的企业机构能够通过SNMP捕捉影响集群状态的事件。Cloudera Manager可以方便、快捷地完成上述工作,将特定Hadoop事件和警报作为SNMP陷阱发送给全局性监测工具,才能确保将基于CDH的系统整合至整体IT监控环境中。
1.4 运行报告和配额管理
免费版本只能利用手动任务(或者编写脚本程序)设置用户配额和基于组别的用户配额,来控制用户或组别可以使用的资源数量;并且,不能以可视化的方式查看何人使用何种资源。收费版Cloudera Manager可以可视化显示当前和历史磁盘使用情况;设置用户配额和基于用户组别的配额;以及跟踪MapReduce、Impala、YARN及HBase的使用情况。尤其在需要收取费用或向企业机构解释共享资源的使用情况时,这是一个必须的的功能。
1.5 AD Kerberos集成
直接与Active Directory进行集成,从而可以方便地使用Kerberos。
1.6 Kerberos向导
可以非常简便地配置Kerberos,并触发自动化的工作流,以确保集群的安全性。
1.7 Hadoop SSL相关配置
简化配置并消除安全阀的必要性。有助于避免在可能需要调试的地方发生错误。
1.8 LDAP/SAML集成
将用户认证凭据与Active Directory集成在一起,并启用单点登录(SSO)功能。同时,可以加速集群启动和运行的时间。
1.9 定期诊断
获取集群状态的快照,并自动将其发送至Cloudera支持服务,帮助其 优化性能和解决问题Cloudera备份和灾难恢复服务。
1.10 系统灾备
免费版本不具备灾备功能,无法在意外发生时保证数据的完整行。企业机构需要为其关键任务型应用程序提供DR/COOP站点。而Cloudera商业版本可以快速、简便地在CDH中实现这一功能。Cloudera企业版 BDR 可以很方便地配置及管理存储在 CDH中的数据的备份灾难恢复策略 。利用BDR可以达到以下目的:
通过易于使用的图形界面,该服务可以为文件(HDFS)、HBase和元数据(Hive)集中配置和管理灾难恢复工作流。通过简化管理和流程自动化功能,可以持续满足或超过服务水平协议(SLA)和恢复时间目标(RTO)的要求。Cloudera企业版BDR是第一款也是唯一一款适用于Hadoop系统的端到端业务连续性解决方案。利用Cloudera企业版 BDR,您可以从CDH强大的灾难恢复功能中获取挖掘最大价值所需要的管理能力及支持服务。
2. Cloudera 安全和监管扩展组件
商业版的Cloudera Navigator为用户提供了强大的安全保证。
2.1、针对用户访问数据/用户尝试访问数据的审计是项目安全的首要要求。
• 提供满足安全政策、法规和法律要求的审计跟踪。
•提供在没有访问数据的人物、行动、时间及IP地址等审计跟踪信息的情况下获得ATO。
• 为您的安全团队提供审计跟踪。
• 提醒安全官员存在未经授权的数据访问尝试。
Navigator的审计功能具有一套基于规则的引擎,因此违反安全策略的行为意图将发送给相应的人员,而不必发送每一个单独的审计例外。还可以通过搜索和过滤审查日志放大特定用户、审计例外、数据集等。此外,还可以以SEIM工具可用的格式导出审查日志,从而使系统安全专员可以使用其熟悉的工具,而无需强制使用Navigator的用户界面。
审计功能能够让您对HDFS、Impala、Hive、HBase和Sentry保存完整的审计历史和跟踪访问。该审计跟踪被整合在一个单独的日志文件中,并且是不可擦除的。未经授权而尝试访问数据的用户会被审计和标记此类动作。审计功能不仅会捕捉用户、时间及他们的IP地址等信息,同时也会捕捉行为意图(SQL语句、搜索语句等)。
2.2 静态数据加密和密钥管理
磁盘上存储的数据容易遭受未经授权的访问。如果您的敏感数据遭人窃取,将会产生什么后果呢?如果数据没有进行加密,会很容易遭受恶意攻击:
• 物理磁盘可能会被窃取。
• 操作系统中存在的漏洞可能使来访者获得根访问权。
•内部系统管理员可以从OS层级查看数据而不会留下审查跟踪信息Cloudera Navigator加密和密钥托管人将上述功能整合在CDH中,通过加密操作将密钥保存在计算机之外且管理人员无法查看或访问的某一系统中。
2.3Navigator 加密
免费版本对于配置文件、日志、审核信息等非HDFS数据则不提供加密功能。作为Cloudera Navigator的一个集成部分,Navigator加密为重要的非HDFS数据提供了大规模扩展、高性能加密功能。Navigator加密充分利用行业标准AES-256加密、使用基于硬件的Intel AES-256NI加密方式尽可能地减少性能下降。其在应用程序和文件系统之间提供的透明层极大地降低了对加密性能的影响。
Navigator加密还包括基于进程的访问控制功能。这样既可允许已授权的进程访问加密数据,同时也可以防止未获得授权的系统管理员或超级用户(例如根用户)访问数据。
Navigator 密钥托管人是一个用于管理加密密钥、证书和密码的“虚拟保险箱”。Navigator 密钥托管人提供了基于软件的密钥和证书管理功能,可支持各种强大的、可配置的且易于实施的策略来管理安全工件的访问。Navigator密钥托管人符合NIST要求,这些密钥和其它Hadoop安全资产都始终与加密数据分开保存,并且采用多层加密技术进行加密处理。此外,Navigator密钥托管人还允许企业机构要求多个系统管理员登录以便进行密匙管理——因此单独的内部人士不能独自访问密钥。Navigator密钥托管人通过Cloudera Navigator与 HDFS 加密和Navigator加密完全集成在一起。此外,对于要求将密钥存储在HSM内的企业机构,Navigator密钥托管人也与HSM集成在一起。
2.4 统一的、可搜索技术和业务元数据
对于在单一Hadoop集群上有来自多个应用程序中大量文件的企业机构,Cloudera Navigator能够做到:
• 整合Hadoop文件和表格中的技术元数据。
• 可以很方便地跟踪、分类和定位数据以符合业务治理与合规规则。
Cloudera Navigator元数据管理可以提取和索引技术元数据以及实体(包括文件、文件夹、表格、对象)之间的关系。并且,可以自动提取出某些属性的相关信息,包括:名称、绑定服务、类型、文件路径、创建/访问/修改的日期和时间、尺寸、所有者、目的和关系。Cloudera Navigator也具有利用业务元数据补充数据的能力,使您能够捕捉系统内数据的关联关系,例如显示名称和描述。
Cloudera Navigator提供的标签分类功能使您可以对Hadoop中管理和分析的数据生成组织分类。例如,许多企业机构定期从包含个人数据的财务信息输入中收集数据。为了控制风险及识别这些资产,您可能将这类数据文件标记为“PII”。Navigator标签功能彻底地标记这些数据文件,从而减少追溯潜在数据使用问题的时间。
Cloudera Navigator具有捕捉键-值对的能力。这种能力使客户以最适合保留、数据管理和安全性需求的方式标记其数据。这些特性易于搜索,因此可以使用整个企业机构范围内常见字段属性即可简化识别和搜索数据资产。有些企业机构可能只是简单地利用Dublin Core,但是许多联邦政府机构可能会寻求NARA的帮助。NARA已经将任何被视为永久记录的信息定义了最小元数据元素和术语。在Hadoop内存储、处理和分析的数据将得益于使用键-值对功能的预分类功能来捕捉某些字段,包括:访问权限(FOIA、ITAR、无限制)、使用权(版权)、安全等级(机密、秘密、绝密)、Retain Until等。
一旦到位,Navigator内报告的对于所捕捉的属性的信息将告知拥有什么样的数据以及其使用用途。这样就可对Hadoop系统内的数据强制执行和审核法规遵循与管理。Navigator是捕捉这些信息以确保满足数据生命周期和治理策略要求的唯一途径。
2.5 数据血缘关系管理
随着 Hadoop 集群逐渐发展成为数据管理的核心,来存储、整合、合并及转换多个文件和数据源的数据,因此,确定特定数据可能的来源或怎样得出一定结论是普遍的业务要求如果分析师根据综合多个数据源的信息和潜在的其他衍生的数据集获得某个衍生数据集的报告,如何才能找到数据的原始来源?
• 也许可以辨别 Hadoop 中数据的最初来源,但是对于衍生数据呢?
• Hadoop 内的其他数据是否具有相关性或正在使用这些数据?
• 如果我删除了 Hadoop 上的数据会造成什么后果?
通过 Navigator 可以了解数据的来源,以及这些数据源在下游文件和数据中是如何使用的。

关键特性:
• 以浅显易懂的全图表的方式自动收集及查看上下游列级数据的变化路径。
• 快速识别数据集的来源及其对下游数据分析的影响。
• 将数据沿袭导出到跨企业的数据沿袭管理系统中。
其他商业版提供的增强功能:

商业版本提供 Cloudera 原厂 7x24 支持服务
免费版本在使用过程中会常常遇到各种复杂问题包括:
1.架构设计错误导致业务失败或系统崩溃。
2.系统配置错误导致业务失败或性能无法达标。
3.突发技术故障无计可施。
4. 新版本升级无法执行或导致宕机。
5. 新业务或组件的加入风险不可控。
6. 系统潜在风险无法预警。
7. 黑客攻击。

2.1 Cloudera 商业版 7x24 为您提供最富有经验的远程和现场服务技术支持团队,规模达到400人以上,全部由全球顶尖的Hadoop核心技术研发和支持团队组成,并在中国上海提供7x24小时呼叫中心技术服务。
2.2 Cloudera支持服务具有业界唯一的预测性和主动支持能力,致力于提升系统无故障时间,提高问题解决速度和问题预防,令任务关键型应用性能更佳,以及更快地交付您所需的所有功能特性。
2.3 Cloudera支持Hadoop集群最有经验。Cloudera覆盖全球的团队以及最深厚的知识库提供了卓越的响应能力和可靠性,至今已经解决2万多技术个案。我们所具备的业界一流的专业知识,以及系统性的个案跟踪能力和行业中最先进的诊断工具可以帮助加快问题的解决。Cloudera支持服务拥有一个基于CDH的应用,里面包含了我们所收到的每一个个案、个案的每一项解决方案以及每一个诊断包。由于拥有该应用,我们既能够在Cloudera Manager中添加诊断功能,也可以快速识别某项未解决的支持请求(support ticket)的因由。
2.4 Cloudera技术支持公告牌(Bulletins)将提醒被支持的客户尽快获得已知漏洞和错误的通知。如果不是马上有可用或可行的小版本升级,那么可以获得一个一次性的补丁,然后该补丁将最终加入到下一版本的正式发布中。
2.5 提供技术支持的公司如果在Hadoop生态系统里没有代码提交(Committer),那么各种漏洞和其他安全性问题将导致您的企业机构更容易受到攻击。Cloudera能够修复漏洞并将其提交回所涉及的Apache项目的企业机构,是正式的项目提交者(Committer)和项目管理委员会(PMC)的成员。
2.6 Cloudera公司在CDH中包含的每一个项目都拥有多名提交者或PMC成员。如果没有了这个能力,您唯一的选择就只是在开源社区中提交JIRA,并期待有人能够在您所希望的时间框架内解决该问题。
2.7 Cloudera公司还提供主动性支持(Proactive Support)。主动性支持是基于对已知问题的审阅以及针对长期以来使用模式的比较而提供的技术指导,旨在获得更深入的支持个案分析,从而帮助您防患于未然。此外,该支持的一部分是Cloudera Manager中内置的工具,通过这些工具可以有助于主动性支持使得Cloudera能够完成多个集群之间数据的搜索和可视化操作,从而防患于未然,确定和防止性能发生可能的变化。
Cloudera 全球认证专业培训
面对不断增长的能力要求和不断扩大的系统规模,您所在的企业机构拥有的经验丰富的大数据工程师是否太少,不能很好地应对您在大数据方面面临的挑战?
您是否拥有受过训练的数据分析师?
您在外面上课的时候有来自非本单位的同学,怎样才能在班级中向培训讲师分享您的专有使用案例呢?那些人甚至可能是您的竞争对手?
Cloudera公司推出的认证培训就是解决上述问题的答案。Cloudera认证培训是一种认证的、实战性的、现场的,并针对您所在的企业机构量身定制的培训。一支训练有素的团队是获取所有数据的全部价值的最重要的投资。现场培训可以使每一个人都专注于工作任务,避免劳累,并在熟悉的环境下竭诚合作。同时,您还可以节省与生产力损失、差旅费用和时差问题相关的成本。
各行各业的企业机构发现,认证培训是学习Apache Hadoop的灵活选择。您可以针对您的团队需求定制课程,可以在您选择的地方与Cloudera公司世界级的讲师开展合作。此外,针对您的架构师、开发人员、管理人员、分析师和数据科学家提供的交叉培训还可以帮助您对整个数据价值链进行优化。
Cloudera公司是Apache Hadoop教育的全球领先供应商。超过二分之一的财富 100 强企业都是我们的客户。我们向广大客户提供最全面的整套课程,以解决每一位数据专业人员的Hadoop目标,包括:开发人员、管理人员和数据分析师。此外,我们还提供了业界唯一的真正动态的Hadoop培训课程,该课程定期进行更新以反映大数据领域最新的发展状况,并且由专职技术指导讲师负责授课。
总结









