大数据的前世今生

原创薛晓刚 2021-10-08

905

今天遇到一个对象存储的问题。大家说这个上面不好统计和查询。这让我想到以前学习大数据课程时候了解到的一些知识。

早期没有数据库，只有磁盘存储文件，而且是顺序写入，不能随机删改查。所有就有了文件系统。这就是今天说的问题。文件系统不支持多个用户对文件的操作。RDBMS出现了，就有了数据库。Oracle（数据库的标杆，过去一直是，知道上周公布的数据库市场份额第一次不是冠军。主要是因为云的原因。就技术领先而言还是第一的）、DB2等。

在体系上：RDBMS是体系最完善的。目前的NoSQL和新兴技术都没有完善的体系结构。在个别场景碾压关系型数据库，在体系结构上被碾压。

在应用场景上：金融（传统金融和互联网）、银行、证券交易、运营商（电信、移动、联通）、固定场景，明确行列关系的数据存储和处理，严格执行ACID。

从局限性上来说：当系统遇到瓶颈解决办法是：升级CPU、加内存、扩展磁盘（存储）。达到极致就出现了OracleExaData这个神机。单机不超过1000T，数据量级不超过1000亿。不过在那个神机上一直不断的在突破这个限制。因为硬件在不断进步中。

NoSQL的兴起：伴随着非明确定义的数据结构，关系型显得力不从心。半结构化数据的解决方案出现了但是不是强一致的。

大数据与谷歌：2004年谷歌写了三篇文章分布式存储、分布式计算和BigTable。2013年谷歌每天35PB。谷歌就写了MapReduce为了解决这样的大存储管理问题。2012年底（中国的谷歌）百度不到5万台服务器，2013年底已经100万台服务器。

大数据的终极：是机器学习、人工智能，而不是数据堆积的报表分析。

大数据的几个阶段：大数据管理、大数据开发、分析。机器学习、人工智能、需要高等数据为基础的编程，加以庞大的数据处理技巧和能力，以及大规模（怎么说也要过1万台吧）计算机为基础设施的应用。

然而上周带来的消息。

其实技术没有什么高低，最好也不要有什么政治。技术就是技术。大家依然可以学习，依然可以从中学习到很多好的思路、方法和架构。比如我就在hadoop上看到了很多Oracle的影子，或者说是延伸。技术都是相通的。

大数据

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

大数据的前世今生

评论