

长按二维码关注
大数据领域必关注的公众号

在内存占用较低的节点上启动 balancer 脚本,将 HDFS 中所有节点的存储值中的最低值和平均值的差值设置为 5%。
命令:./start-balancer.sh -threshold 5
目前我们产线环境还是以 CDH 监控为主, CDH 的指标还是挺多的,只不过保留的周期不长,对于排障来说基本够用了,当然我们会推进一些监控工具,不过在课堂不会展开细讲,后续有 Flink 监控方面的实战。
CM 解决不了大量小文件的监控,需要额外做其他工作,这块在集群治理里面我们会详细讲;对于怎么衡量小文件的标准,你可以简单认为小于 block size 的文件就是小文件,但是在企业真实情况下小文件问题可能更加严重,比如大量 10M、几十 M 以下的文件,单纯技术无法解决问题,需要组织协同,这个在集群治理里面我们会详细讲。
这个会讲解的,也会讲解我们产线环境是如何划分队列的。
HDFS 可通过 ACL 精细控制目标权限,除了 ACL 后续我们也会讲sentry;目前我们产线环境没有做容量配额限制,怕影响生产,我们通过集群治理来解决容量问题,集群治理是我们的课程内容之一,后续会讲解。
这个是会的,我们会讲组件的运维、巡检、监控、参数配置、故障排查等课程内容。
大数据组件监控主要在 CM 上进行监控,后续有集群治理案例实战,实战代码可以给学员的。
1) 降低 BlockReport 时数据规模;NameNode 处理 BR 的效率低主要原因还是每次 BR 所带的 Block 规模过大造成,所以可以通过调整 Block 数量阈值,将一次 BlockReport 分成多盘分别汇报,提高 NameNode 处理效率。可参考的参数为:dfs.blockreport.split.threshold,默认为 1,000,000,当前集群DataNode 上 Block 规模数处于 240,000 ~ 940,000,建议调整为 500,000;
2) 当需要对全集群的 DataNode 重启操作,且规模较大(包括集群规模和数据规模)时,建议在重启 DataNode 进程之后将 NameNode 重启,避免前面的“雪崩”问题;
3) 控制重启 DataNode 的数量;按照当前节点数据规模,如果大规模重启DataNode,可采取滚动方式,以每次 15 个实例, 单位间隔 1min 滚动重启,如果数据规模增长,需要适当调整实例个数;
这个我们会在正式课中 CM 监控章节进行讲解,主要是主机以及各个组件的核心指标,当出现问题之后再去查看其他指标即可。
依赖就是想要使用 Spark 和 Hive 分析读取谁的数据,依赖 HDFS 就是使用 Spark 和 Hive 读取 HDFS 数据进行分析,依赖 HBase 就是使用使用 Spark和 Hive 读取 HBase 数据进行分析。
在实际的产线环境中很少使用 Spark 和 Hive 依赖 HBase,大多时候都是依赖 HDFS,即读取 HDFS 的数据进行分析,如果后续想要依赖 HBase 再添加第二个 Spark 或 HIve 即可。
完





