暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

hadoop是干嘛的?

说来听一听 2017-09-25
246

        当一个DBA讨论大数据,云计算的时候,眉宇之间都会闪烁着光芒,仿佛逼格提升了不少,这个时候不要打断他,毕竟这样的机会对他来说太少了。

        不明觉厉,就是说我们听到自己一些东西的时候,虽然听不懂是什么,但是还是觉得很牛逼,但是在数据库这方面,并没有什么新的思想,之所以能这样发展,只是因为这个社会有钱了,能多买几台电脑让你整罢了。

        今天介绍一下分布式基础架构hadoop,它的两个核心HDFS(Hadoop Distributed File System)与mapreduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

        我猜一般人看到这就已经虚了,这说的什么啊?完全看不懂啊,干脆点个赞直接走吧,看不下去了....

        其实你大可不必这样,我给你换一种通俗的语言来解释:在这个平台上开发的数据处理程序,专门处理数据量特别大的任务,有两个核心方法,一个是把数据切成一定大小的块存起来,一个是把数据拆开计算,然后汇总结果。

          这样你就可以理解:这其实就是一种分而治之的思想,这个思想我们最早什么时候接触的?在那个炎热的费城,我上了一座小山,结果下不来了,最后听着老爹的指挥一步一步才下来...如果你还不记得,那我直接告诉你,这是《走一步,再走一步》,现在回来看看所谓的分布式处理,你还觉的高深吗?

        回到正题,现在给你讲讲为什么是这样发展的。目前发展最多也最稳定的一种形式是,企业搭个服务器,然后跑点应用在上面,所以从性价比上来看:性(硬件运算速度)与价(设备价格)的比,是很多公司采购设备需要权衡并寻找最优的地方。但这里有个假设,就是你的业务不会再发生大的增量,否则你得一直采购设备维持运维,直到达到新的平衡点。

        这对传统制造业以及大多数企业是非常有效的,但是对于互联网行业就有一个较大的矛盾,从短信到微信,再到现在的视频社交,数据存储的量越来越大,Facebook每日存储数据量高达1PB。

        可能你对这量没有感觉,举个例子吧。

        光头强一小时能砍一棵树,一天八小时日子过的有滋有味,但是老板不干了,老板说,明天要光头强砍1000万棵树,该怎么办?换做是我我都愁。

        而现在的互联网行业或多或少都遇到这样的问题,用户产生的数据越来越大,光是存储这些都很麻烦,更不要说处理这些数据,从中挖掘信息来赚钱了。

         这个问题的瓶颈是运算速度跟不上,想提高运算速度就得换更贵的设备。那该怎么办呢?分而治之呗。一个CPU跑再快也没法运算完海量的数据,如果把数据拆成两半,让2个CPU去运算是不是会快一半呢?让4个CPU去运算是不是会快4倍呢?答案是理论上是对的(分配任务和汇总结果也要花时间)!

           hadoop就是干这个的!

            现在明白了吧?

          


        

文章转载自说来听一听,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论