今天遇到一个对象存储的问题。大家说这个上面不好统计和查询。这让我想到以前学习大数据课程时候了解到的一些知识。
早期没有数据库,只有磁盘存储文件,而且是顺序写入,不能随机删改查。所有就有了文件系统。这就是今天说的问题。文件系统不支持多个用户对文件的操作。RDBMS出现了,就有了数据库。Oracle(数据库的标杆,过去一直是,知道上周公布的数据库市场份额第一次不是冠军。主要是因为云的原因。就技术领先而言还是第一的)、DB2等。
在体系上:RDBMS是体系最完善的。目前的NoSQL和新兴技术都没有完善的体系结构。在个别场景碾压关系型数据库,在体系结构上被碾压。
在应用场景上:金融(传统金融和互联网)、银行、证券交易、运营商(电信、移动、联通)、固定场景,明确行列关系的数据存储和处理,严格执行ACID。
从局限性上来说:当系统遇到瓶颈解决办法是:升级CPU、加内存、扩展磁盘(存储)。达到极致就出现了OracleExaData这个神机。单机不超过1000T,数据量级不超过1000亿。不过在那个神机上一直不断的在突破这个限制。因为硬件在不断进步中。
NoSQL的兴起:伴随着非明确定义的数据结构,关系型显得力不从心。半结构化数据的解决方案出现了但是不是强一致的。
大数据与谷歌:2004年谷歌写了三篇文章分布式存储、分布式计算和BigTable。2013年谷歌每天35PB。谷歌就写了MapReduce为了解决这样的大存储管理问题。2012年底(中国的谷歌)百度不到5万台服务器,2013年底已经100万台服务器。
大数据的终极:是机器学习、人工智能,而不是数据堆积的报表分析。
大数据的几个阶段:大数据管理、大数据开发、分析。机器学习、人工智能、需要高等数据为基础的编程,加以庞大的数据处理技巧和能力,以及大规模(怎么说也要过1万台吧)计算机为基础设施的应用。
然而上周带来的消息。

其实技术没有什么高低,最好也不要有什么政治。技术就是技术。大家依然可以学习,依然可以从中学习到很多好的思路、方法和架构。比如我就在hadoop上看到了很多Oracle的影子,或者说是延伸。技术都是相通的。




