暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

大数据运维尖刀面试题

大数据研习社 2022-07-28
1637

长按二维码关注

大数据领域必关注的公众号


91、首次启动 HDFS 时,必须对其进行格式化操作的命令?

参考答案:

bin/hdfs namenode -format或者bin/hadoop namenode –format


92、单独启停HDFS 进程命令?

参考答案:
1)启停NameNode
bin/hdfs --daemon start namenode
bin/hdfs --daemon stop namenode
2)启停DataNode
bin/hdfs --daemon start datanode
bin/hdfs --daemon stop datanode

93、NameNode的主要功作用有哪些?

参考答案:

一是管理文件系统文件的元数据信息(包括文件名称、大小、位置、属性、创建时间、修改时间等等)。

二是维护文件到块的对应关系和块到节点的对应关系。

三是维护用户对文件的操作信息(文件的增删改查)。


94、一个datanode 宕机,怎么恢复?

参考答案:

Datanode宕机了后,如果是短暂的宕机,可以实现写好脚本监控,将它启动起来。如果是长时间宕机了,那么datanode上的数据应该已经被备份到其他机器了,那这台datanode就是一台新的datanode了,删除他的所有数据文件和状态文件,重新启动。


95、Hadoop 的 namenode 宕机,怎么解决?

参考答案:

(1)先分析宕机后的损失,宕机后直接导致client无法访问,内存中的元数据丢失,但是硬盘中的元数据应该还存在,如果只是节点挂了,重启即可。

(2)如果是机器挂了,重启机器后看节点是否能重启,不能重启就要找到原因修复了。但是最终的解决方案应该是在设计集群的初期就考虑到这个问题,做namenode的HA。

提高容错:

第一种方式是将持久化存储在本地硬盘的文件系统元数据备份。

第二种方式是运行一个辅助的NameNode(Secondary Namenode)。

第三种 zookeeper提供的高可用(ha)机制。


96、hadoop出现文件块丢失怎么处理?

参考答案:

首先需要定位到哪的数据块丢失,可以通过查看日志进行检查和排除,找到文件块丢失的位置后,如果文件不是很重要可以直接删除,然后重新复制到集群上一份即可,如果删除不了,每一个集群都会有备份,需要恢复备份。


97、当hdfs小文件数量过多时,如何合并小文件?

参考答案:

(1)当每个小文件数据量比较小的时候,可以通过命令的方式进行小文件的合并如:

    hdfs dfs -cat hdfs://mycluster/logs/*.log | hdfs dfs -appendToFile - hdfs://mycluster/logs/largeFile.log。

    (2)当数据量比较大的时候建议使用MR进行小文件的合并。


    98、hdfs 常见的数据压缩算法?

    参考答案:

    (1)Gzip 压缩

    (2)Bzip2 压缩

    (3)Lzo 压缩

    (4)Snappy 压缩


    99、有180的文件写入HDFS是先写128M 复制完之后再写52M 还是全部写完再复制?

    参考答案:

    HDFS上在写入数据的时候,首先会对数据切块,然后从客户端到datanode形成一个管道,在至少将一个文件写入hdfs上后,表示文件写入成功,然后进行复制备份操作,所以是全部写完再复制。


    100、为什么会产生YARN,它解决了什么问题?有什么优势?

    参考答案:
    (1)产生原因

    MapReduce存在的问题:

    1)JobTracker 单点故障。

    2)JobTracker 承受的访问压力大,影响系统的扩展性。

    3)不支持MapReduce之外的计算框架,比如Storm、Spark、Flink。

    (2)解决的问题

    1)yarn 解决了JobTracker 负载过重的问题, 将MR1中JobTracker的资源管理和作业调度两个功能分开,分别由ResourceManager和ApplicationMaster进程来实现。

    2)支持更多的计算框架,MapReduce  storm  Spark  Flink都可以运行在yarn上面。

    (3)优势

    1)更快地MapReduce计算。

    2)对多框架支持。

    3)框架升级更容易。

    欢迎点赞 + 收藏 + 在看  素质三连 


    往期精彩回顾
    程序员,如何避免内卷
    Apache 架构师总结的 30 条架构原则
    【全网首发】Hadoop 3.0分布式集群安装
    大数据运维工程师经典面试题汇总(附带答案)
    大数据面试130题
    某集团大数据平台整体架构及实施方案完整目录
    大数据凉凉了?Apache将一众大数据开源项目束之高阁!
    实战企业数据湖,抢先数仓新玩法
    Superset制作智慧数据大屏,看它就够了
    Apache Flink 在快手的过去、现在和未来
    华为云-基于Ambari构建大数据平台(上)
    华为云-基于Ambari构建大数据平台(下)
    【HBase调优】Hbase万亿级存储性能优化总结
    【Python精华】100个Python练手小程序
    【HBase企业应用开发】工作中自己总结的Hbase笔记,非常全面!
    【剑指Offer】近50个常见算法面试题的Java实现代码

    长按识别左侧二维码

         关注领福利    

      领10本经典大数据书

    文章转载自大数据研习社,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

    评论