暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

HDFS元数据架构分析与常见操作

循技漫聊2 2020-05-22
662


正文共: 1527字 20

预计阅读时间: 24分钟


Hadoop中的HDFS是分布式数据存储的关键组件,而理解其元数据的结构对于性能优化、问题排查、冷热数据分析、甚至是数据恢复都起着关键的作用。


比如冷热数据分析,大家可以去看以下一个专利(其实也就是一个小思路... 无力吐槽国内的专利..),虽然写的非常简单,但是说明问题:

《一种基于hadoop元数据的冷数据识别方法及系统》https://patents.google.com/patent/CN106503198A/zh


另外,比如这一篇hdfs如何通过解析fsimage来监控目录说的就是一个比较完整的方案,看着复杂,抓住本质其实不难。


因此,掌握本文提到的HDFS元数据结构和常见操作是这些集群分析管理的根本。




1

SbNN查看是否满足创建检查点的条件

  • 距离上次checkpoint的时间间隔

                                    >= ${dfs.namenode.checkpoint.period}

  • edits中的事务条数达到 ${dfs.namenode.checkpoint.txns} 限制

2

StandbyNN生成fsimage

SNN将内存中当前的状态保存成一个新的文件,命名为fsimage.ckpt_txid。其中txid是最后一个edit中的最后一条事务的ID(transaction ID)。然后为该fsimage文件创建一个MD5文件,并将fsimage文件重命名为fsimage_txid。

3

SNN通知ANN来拿fsimage

SNN向ANN发送一条HTTP GET请求。请求中包含了SNN的域名,端口以及新fsimage的txid。

4

ANN过来拿fsimage

ANN收到请求后,用获取到的信息反过来向SNN再发送一条HTTP GET请求,获取新的fsimage文件。这个新的fsimage文件传输到ANN上后,也是先命名为fsimage.ckpt_txid,并为它创建一个MD5文件。然后再改名为fsimage_txid。fsimage过程完成。


 
	



 




文章转载自循技漫聊2,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论