大数据运维尖刀面试题

大数据研习社 2022-07-28

1640

长按二维码关注

大数据领域必关注的公众号

91、首次启动 HDFS 时，必须对其进行格式化操作的命令？

参考答案：

bin/hdfs namenode -format或者bin/hadoop namenode –format

92、单独启停HDFS 进程命令？

参考答案：

1）启停NameNode

bin/hdfs --daemon start namenode

bin/hdfs --daemon stop namenode

2）启停DataNode

bin/hdfs --daemon start datanode

bin/hdfs --daemon stop datanode

93、NameNode的主要功作用有哪些?

参考答案：

一是管理文件系统文件的元数据信息(包括文件名称、大小、位置、属性、创建时间、修改时间等等)。

二是维护文件到块的对应关系和块到节点的对应关系。

三是维护用户对文件的操作信息(文件的增删改查)。

94、一个datanode 宕机,怎么恢复？

参考答案：

Datanode宕机了后，如果是短暂的宕机，可以实现写好脚本监控，将它启动起来。如果是长时间宕机了，那么datanode上的数据应该已经被备份到其他机器了，那这台datanode就是一台新的datanode了，删除他的所有数据文件和状态文件，重新启动。

95、Hadoop 的 namenode 宕机,怎么解决？

参考答案：

（1）先分析宕机后的损失，宕机后直接导致client无法访问，内存中的元数据丢失，但是硬盘中的元数据应该还存在，如果只是节点挂了，重启即可。

（2）如果是机器挂了，重启机器后看节点是否能重启，不能重启就要找到原因修复了。但是最终的解决方案应该是在设计集群的初期就考虑到这个问题，做namenode的HA。

提高容错：

第一种方式是将持久化存储在本地硬盘的文件系统元数据备份。

第二种方式是运行一个辅助的NameNode（Secondary Namenode）。

第三种 zookeeper提供的高可用（ha）机制。

96、hadoop出现文件块丢失怎么处理？

参考答案：

首先需要定位到哪的数据块丢失，可以通过查看日志进行检查和排除，找到文件块丢失的位置后，如果文件不是很重要可以直接删除，然后重新复制到集群上一份即可，如果删除不了，每一个集群都会有备份，需要恢复备份。

97、当hdfs小文件数量过多时，如何合并小文件？

参考答案：

（1）当每个小文件数据量比较小的时候，可以通过命令的方式进行小文件的合并如：

hdfs dfs -cat hdfs://mycluster/logs/*.log | hdfs dfs -appendToFile - hdfs://mycluster/logs/largeFile.log。

（2）当数据量比较大的时候建议使用MR进行小文件的合并。

98、hdfs 常见的数据压缩算法？

参考答案：

（1）Gzip 压缩

（2）Bzip2 压缩

（3）Lzo 压缩

（4）Snappy 压缩

99、有180的文件写入HDFS是先写128M 复制完之后再写52M 还是全部写完再复制？

参考答案：

HDFS上在写入数据的时候，首先会对数据切块，然后从客户端到datanode形成一个管道，在至少将一个文件写入hdfs上后，表示文件写入成功，然后进行复制备份操作，所以是全部写完再复制。

100、为什么会产生YARN，它解决了什么问题？有什么优势？

参考答案：

（1）产生原因

MapReduce存在的问题：

1）JobTracker 单点故障。

2）JobTracker 承受的访问压力大，影响系统的扩展性。

3）不支持MapReduce之外的计算框架，比如Storm、Spark、Flink。

（2）解决的问题

1）yarn 解决了JobTracker 负载过重的问题，将MR1中JobTracker的资源管理和作业调度两个功能分开，分别由ResourceManager和ApplicationMaster进程来实现。

2）支持更多的计算框架，MapReduce storm Spark Flink都可以运行在yarn上面。

（3）优势

1）更快地MapReduce计算。

2）对多框架支持。

3）框架升级更容易。

欢迎点赞 + 收藏 + 在看素质三连

完

▼

往期精彩回顾

▼

程序员，如何避免内卷

Apache 架构师总结的 30 条架构原则

【全网首发】Hadoop 3.0分布式集群安装

大数据运维工程师经典面试题汇总(附带答案)

大数据面试130题

某集团大数据平台整体架构及实施方案完整目录

大数据凉凉了？Apache将一众大数据开源项目束之高阁！

实战企业数据湖，抢先数仓新玩法

Superset制作智慧数据大屏，看它就够了

Apache Flink 在快手的过去、现在和未来

华为云-基于Ambari构建大数据平台（上）

华为云-基于Ambari构建大数据平台（下）

【HBase调优】Hbase万亿级存储性能优化总结

【Python精华】100个Python练手小程序

【HBase企业应用开发】工作中自己总结的Hbase笔记，非常全面！

【剑指Offer】近50个常见算法面试题的Java实现代码

长按识别左侧二维码

关注领福利

领10本经典大数据书

文章转载自大数据研习社，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

大数据运维尖刀面试题

评论