排行
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
中国数据库
向量数据库
时序数据库
实时数据库
搜索引擎
空间数据库
图数据库
数据仓库
大调查
2021年报告
2022年报告
年度数据库
2020年openGauss
2021年TiDB
2022年PolarDB
2023年OceanBase
首页
资讯
活动
大会
学习
课程中心
推荐优质内容、热门课程
学习路径
预设学习计划、达成学习目标
知识图谱
综合了解技术体系知识点
课程库
快速筛选、搜索相关课程
视频学习
专业视频分享技术知识
电子文档
快速搜索阅览技术文档
文档
问答
服务
智能助手小墨
关于数据库相关的问题,您都可以问我
数据库巡检平台
脚本采集百余项,在线智能分析总结
SQLRUN
在线数据库即时SQL运行平台
数据库实训平台
实操环境、开箱即用、一键连接
数据库管理服务
汇聚顶级数据库专家,具备多数据库运维能力
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
我的订单
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
资讯
活动
大会
课程
文档
排行
问答
我的订单
首页
专家团队
智能助手
在线工具
SQLRUN
在线数据库即时SQL运行平台
数据库在线实训平台
实操环境、开箱即用、一键连接
AWR分析
上传AWR报告,查看分析结果
SQL格式化
快速格式化绝大多数SQL语句
SQL审核
审核编写规范,提升执行效率
PLSQL解密
解密超4000字符的PL/SQL语句
OraC函数
查询Oracle C 函数的详细描述
智能助手小墨
关于数据库相关的问题,您都可以问我
精选案例
新闻资讯
云市场
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
专家团队
智能助手
精选案例
新闻资讯
云市场
微信扫码
复制链接
新浪微博
分享数说
采集到收藏夹
分享到数说
举报
首页
/
Hadoop集群数据均衡处理案例
Hadoop集群数据均衡处理案例
IT那活儿
2022-10-14
975
点击上方“IT那活儿”公众号,关注后了解更多内容,不管IT什么活儿,干就完了!!!
一
背 景
某hadoop集群的某个datanode节点主机有坏盘,但是没有配件及时更换,当几天后更换,启动datanode节点时,CM界面显示对应的XDYDAT10主机可用空间告警。如下图:
检查该datanode空间使用情况:hdfs使用率86.88%,剩余空间976.62GB,但是主机单个磁盘空间大都100%。如下图:
而且执行数据均衡时,显示“Thecluster is balanced”,程序退出。
二
处理方法
通过CM界面,在HDFS实例界面,选择XDYDAT10,停止其datanode服务。如下图:
若干小时后(本次操作是3小时左右后),通过CM界面,在HDFS实例界面,选择XDYDAT10,启动其datanode服务。如下图:
XDYDAT10主机datanode服务启动后,再次检查空间使用情况:可用空间都在400GB以上。如下图:
并且检查所有datanode节点,停止和启动节点前后,hdfs使用情况:停止datanode服务前,很多空间使用达100%(如下左图);停止再次启动后,空间有所均衡,无100%使用情况(如下右图)。
最后,再次执行均衡操作,能正常执行数据均衡,等待数据均衡即可。
三
均衡详解
因当前发生问题的为老版本的cloudera集群(CDH5.2.1),在CDH5.10以前,balancer程序只会在节点之间平衡,当所有节点与集群之间已经平衡的情况下,运行balancer程序并不会发生任何数据的迁移和转移,只能采用本文使用的方法进行尝试,停止磁盘空间紧张的节点,让hdfs为了维持数据的3副本在其他数据节点生成已停止的datanode那部分冗余数据,然后再启动停止的datanode,以达到迁移数据的目的,释放部分紧张的空间,但是此法并不智能。
在CDH5.10以后,hdfs加入了diskbalancer程序,可以在某个数据节点内部,对多个磁盘数据使用率偏差太大的情况进行平衡,此方法更智能更安全。
参数如下图:
本案例,
启停磁盘空间不足的datanode节点后,再使用hdfsbalancer -threshold 1运行均衡器进行数据均衡,最终达到集群数据均衡。
HDFS均衡器是Hadoop提供的工具,使用该工具可以将数据从空间使用率高的datanodes移动数据块到利用不足的datanode节点,从而均衡集群的DataNode数据。其中threshold参数表示每个datanode的HDFS使用率于集群的平均DFS利用率的偏差百分比。另外,若直接运行hdfsbalancer时,偏差百分比默认值为10%。
希望以上解释说明对各位有所帮助。
本文作者:孙华伟(上海新炬王翦团队)
本文来源:“IT那活儿”公众号
hdfs
数据处理
hadoop
文章转载自
IT那活儿
,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
领墨值
有奖问卷
意见反馈
客服小墨