不点蓝字关注,我们哪来故事?
背景
01
基础知识


02
实现方案
HtmlLineRecordReader.java


RecordReader类是实际用来加载数据并把数据转换为适合Mapper读取的键值对,它会在输入块上被重复的调用直到整个输入块被处理完毕,每一次调用RecordReader都会调用Mapper的map()方法。
readLine方法在HtmlLineReader.java里

然后重载readCustomLine和readDefaultLine两个方法




以上就完成了Hadoop输入格式的自定义工作,是不是很简单呢。
03
总结
长按二维码识别关注
文章转载自DLab数据实验室,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




