暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

大数据的前世今生

原创 薛晓刚 2021-10-08
905

今天遇到一个对象存储的问题。大家说这个上面不好统计和查询。这让我想到以前学习大数据课程时候了解到的一些知识。

      早期没有数据库,只有磁盘存储文件,而且是顺序写入,不能随机删改查。所有就有了文件系统。这就是今天说的问题。文件系统不支持多个用户对文件的操作。RDBMS出现了,就有了数据库。Oracle(数据库的标杆,过去一直是,知道上周公布的数据库市场份额第一次不是冠军。主要是因为云的原因。就技术领先而言还是第一的)、DB2等。

      在体系上:RDBMS是体系最完善的。目前的NoSQL和新兴技术都没有完善的体系结构。在个别场景碾压关系型数据库,在体系结构上被碾压。

     在应用场景上:金融(传统金融和互联网)、银行、证券交易、运营商(电信、移动、联通)、固定场景,明确行列关系的数据存储和处理,严格执行ACID。

     从局限性上来说:当系统遇到瓶颈解决办法是:升级CPU、加内存、扩展磁盘(存储)。达到极致就出现了OracleExaData这个神机。单机不超过1000T,数据量级不超过1000亿。不过在那个神机上一直不断的在突破这个限制。因为硬件在不断进步中。

    NoSQL的兴起:伴随着非明确定义的数据结构,关系型显得力不从心。半结构化数据的解决方案出现了但是不是强一致的。

     大数据与谷歌:2004年谷歌写了三篇文章分布式存储、分布式计算和BigTable。2013年谷歌每天35PB。谷歌就写了MapReduce为了解决这样的大存储管理问题。2012年底(中国的谷歌)百度不到5万台服务器,2013年底已经100万台服务器。

     大数据的终极:是机器学习、人工智能,而不是数据堆积的报表分析。

大数据的几个阶段:大数据管理、大数据开发、分析。机器学习、人工智能、需要高等数据为基础的编程,加以庞大的数据处理技巧和能力,以及大规模(怎么说也要过1万台吧)计算机为基础设施的应用。

    然而上周带来的消息。



其实技术没有什么高低,最好也不要有什么政治。技术就是技术。大家依然可以学习,依然可以从中学习到很多好的思路、方法和架构。比如我就在hadoop上看到了很多Oracle的影子,或者说是延伸。技术都是相通的。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论