【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏（二）

大数据研习社 2022-06-24

325

长按二维码关注

大数据领域必关注的公众号

11、CDH 集群扩容 10 台机器后，新加入的 Datanode 角色数据相对较少，如何处理 HDFS 的数据分布不均衡的现象呢?

参考答案：

在内存占用较低的节点上启动 balancer 脚本，将 HDFS 中所有节点的存储值中的最低值和平均值的差值设置为 5%。

命令：./start-balancer.sh -threshold 5

12、CDH 监控项从某种角度来说并不是很细粒度，老师课上可能时间有限等原因只是稍微提了一下监控思路，请问您线上是如何监控的呢，能将详细步骤给我们刨析一下吗?

参考答案：

目前我们产线环境还是以 CDH 监控为主， CDH 的指标还是挺多的，只不过保留的周期不长，对于排障来说基本够用了，当然我们会推进一些监控工具，不过在课堂不会展开细讲，后续有 Flink 监控方面的实战。

13、如何基于 CDH 集群监控大量的小文件的呢？衡量小文件标准，以及出现大量小文件在生产环境该如何解决呢?

参考答案：

CM 解决不了大量小文件的监控，需要额外做其他工作，这块在集群治理里面我们会详细讲；对于怎么衡量小文件的标准，你可以简单认为小于 block size 的文件就是小文件，但是在企业真实情况下小文件问题可能更加严重，比如大量 10M、几十 M 以下的文件，单纯技术无法解决问题，需要组织协同，这个在集群治理里面我们会详细讲。

14、之前上课只是大致提了一下 YARN 资源调度，生产环境使用 CDH 如何配置 YARN 资源队列调度，在咱们后续的课程还会讲吗？

参考答案：

这个会讲解的，也会讲解我们产线环境是如何划分队列的。

15、CDH 如何对 HDFS 各级目录做权限管理，目录的配额(即使用 HDFS 的容量限制)限制呢?

参考答案：

HDFS 可通过 ACL 精细控制目标权限，除了 ACL 后续我们也会讲sentry；目前我们产线环境没有做容量配额限制，怕影响生产，我们通过集群治理来解决容量问题，集群治理是我们的课程内容之一，后续会讲解。

16、Hdfs,Yarn,MapReduce,Hive,Spark,Storm,

Kafka,Flink 这些组件您在生产环境的调优参数是如何配置的，后续会为我们分享一些调优参数及说明么?我们也方便对照自己的集群作为参考适当调整。

参考答案：

这个是会的，我们会讲组件的运维、巡检、监控、参数配置、故障排查等课程内容。

17、后期的大数据组件监控项目是针对课上所有的组件进行监控的么？还是只是分享监控思路，代码能给我们学员吗？

参考答案：

大数据组件监控主要在 CM 上进行监控，后续有集群治理案例实战，实战代码可以给学员的。

18、生产环境中重启 HDFS 集群时时间过程，每次重启都导致 40 分钟左右才能启动成功，需要调优什么参数让 NameNode 快一点变为 Active 呢？为什么调优这些参数后会导致 NameNode 启动加快呢?

参考答案：

1) 降低 BlockReport 时数据规模；NameNode 处理 BR 的效率低主要原因还是每次 BR 所带的 Block 规模过大造成，所以可以通过调整 Block 数量阈值，将一次 BlockReport 分成多盘分别汇报，提高 NameNode 处理效率。可参考的参数为：dfs.blockreport.split.threshold，默认为 1,000,000，当前集群DataNode 上 Block 规模数处于 240,000 ~ 940,000，建议调整为 500,000；

2) 当需要对全集群的 DataNode 重启操作，且规模较大（包括集群规模和数据规模）时，建议在重启 DataNode 进程之后将 NameNode 重启，避免前面的“雪崩”问题；

3) 控制重启 DataNode 的数量；按照当前节点数据规模，如果大规模重启DataNode，可采取滚动方式，以每次 15 个实例, 单位间隔 1min 滚动重启，如果数据规模增长，需要适当调整实例个数；

19、生产环境中我们有必要利用 CM 的"图表生成器"来自定义图标形成仪表盘吗?如果有必要，官方提供的度量值太多了，您在是生产环境中都定义了哪些监控图标呢?

参考答案：

这个我们会在正式课中 CM 监控章节进行讲解，主要是主机以及各个组件的核心指标，当出现问题之后再去查看其他指标即可。

20、在录播视频中安装 Spark,Hive 选择依赖是 HDFS，那什么情况下Spark,Hive 需要依赖 HBase 呢?如果 Spark 和 Hive 依赖关系开始选择的是只依赖于 HDFS，后期想要改成依赖 HBase 该如何操作呢?老师您能用大白话给我们解释一下这个依赖关系是干嘛的吗?

参考答案：

依赖就是想要使用 Spark 和 Hive 分析读取谁的数据，依赖 HDFS 就是使用 Spark 和 Hive 读取 HDFS 数据进行分析，依赖 HBase 就是使用使用 Spark和 Hive 读取 HBase 数据进行分析。

在实际的产线环境中很少使用 Spark 和 Hive 依赖 HBase，大多时候都是依赖 HDFS，即读取 HDFS 的数据进行分析，如果后续想要依赖 HBase 再添加第二个 Spark 或 HIve 即可。

欢迎点赞 + 收藏 + 在看素质三连

完

▼