暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

大数据论文简史

十七聊IT 2018-11-08
372

本文总结了big data领域主要paper的发表时间,我们看看每一年大概都发生了什么事儿,顺便感受下近10年的大数据浪潮。


重点关注了google、microsoft、aws等公司,OSDI、SOSP、SIGMOD、VLDB等会议。



Distributed Snapshots: ACM 85


LSM-TREE: Acta Information 96


PAXOS The Part-Time Parliament: ACM TCS 98


Paxos Made Simple: 01


GFS: SOSP 03


MapReduce: OSDI 04


C-store: VLDB 05


BigTable: OSDI 06

Chubby: OSDI 06


Dynamo: SOSP 07

Paxos Made Live: PODC 07


DryadLINQ: ODSI 08

SCOPE: VLDB 08

HSTORE: VLDB 08


Pregrel: SIGMOD 10

Flumejava: PLDI 10

Spark: hotcloud 10

Percolator:OSDI 10

Zookeeper: ATC 10

Dremel: VLDB 10

CouchBase: 10


Tenzing: VLDB 11

Kafka: NETDB 11

RCFILE: ICDE 11

Mesos: NDSI 11

leveldb:11


RocksDB: 12

Spanner: OSDI 12

RDD: NSDI 12

GraphChi: OSDI 12

POWERGRAPH: OSDI 12

Distributed GraphLab:VLDB 12

Vertica: VLDB 12


Omega: EuroSys 13

F1: VLDB 13

Millwheel: VLDB 13

TimelyDataflow: SOSP 13

Shark: SIGMOD 13

Discretized Streams: SOSP 13

Yarn: SOCC 13


Storm: SIGMOD 14

GRAPHX: OSDI 14

RAFT: ATC 14

HAWQ: SIGMOD 14

DRUID: SIGMOD 14


Borg: EuroSys 15

IMPALA: CIDR 15

dataflow: VLDB 15

sparkSQL: SIGMOD 15

Twitter Heron: SIGMOD 15

TEZ: SIGMOD 15

Kudu:15

CockroacheDB: 15


MLIB: JMLR 16

sparkR: SIGMOD 16

Tensorflow: ODSI 16

TiDB: 16


State Management in Apache Flink: VLDB 17

Aurora: SIGMOD 17


Pinot: SIGMOD 18

Calcite: arvix 18

TVM: OSDI 18




其他的一些开源项目:

mongodb

neo4j

orientdb

greenplum


redis

memcache


drill

ignite

gemfire


glusterfs


粗略感受一下:

1) 从论文发表数量可以看出,从03年GFS发表开始,大数据时代的确是迎来了井喷式发展。

2) 从最开始的分布式处理系统mr、spark,到最近几年spanner、aurora、tidb等事务型DB,大数据处理系统与传统database的融合,趋势已经越来越明显。借助大数据的技术思想,再依托新硬件发展的红利,传统database突破规模瓶颈,scalability进一步提升,会是接下来的重点方向。HTAP在这个过程中,也会成为兵家必争之地。

3)基于Spark/Flink的批流统一编程,将会成为事实标准,而且深刻影响分布式数据库计算引擎的发展。

4)在大数据、database中集成AI能力,势在必行。


后面我会定期精心解读上面的一些paper。

文章转载自十七聊IT,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论