本文总结了big data领域主要paper的发表时间,我们看看每一年大概都发生了什么事儿,顺便感受下近10年的大数据浪潮。
重点关注了google、microsoft、aws等公司,OSDI、SOSP、SIGMOD、VLDB等会议。
Distributed Snapshots: ACM 85
LSM-TREE: Acta Information 96
PAXOS The Part-Time Parliament: ACM TCS 98
Paxos Made Simple: 01
GFS: SOSP 03
MapReduce: OSDI 04
C-store: VLDB 05
BigTable: OSDI 06
Chubby: OSDI 06
Dynamo: SOSP 07
Paxos Made Live: PODC 07
DryadLINQ: ODSI 08
SCOPE: VLDB 08
HSTORE: VLDB 08
Pregrel: SIGMOD 10
Flumejava: PLDI 10
Spark: hotcloud 10
Percolator:OSDI 10
Zookeeper: ATC 10
Dremel: VLDB 10
CouchBase: 10
Tenzing: VLDB 11
Kafka: NETDB 11
RCFILE: ICDE 11
Mesos: NDSI 11
leveldb:11
RocksDB: 12
Spanner: OSDI 12
RDD: NSDI 12
GraphChi: OSDI 12
POWERGRAPH: OSDI 12
Distributed GraphLab:VLDB 12
Vertica: VLDB 12
Omega: EuroSys 13
F1: VLDB 13
Millwheel: VLDB 13
TimelyDataflow: SOSP 13
Shark: SIGMOD 13
Discretized Streams: SOSP 13
Yarn: SOCC 13
Storm: SIGMOD 14
GRAPHX: OSDI 14
RAFT: ATC 14
HAWQ: SIGMOD 14
DRUID: SIGMOD 14
Borg: EuroSys 15
IMPALA: CIDR 15
dataflow: VLDB 15
sparkSQL: SIGMOD 15
Twitter Heron: SIGMOD 15
TEZ: SIGMOD 15
Kudu:15
CockroacheDB: 15
MLIB: JMLR 16
sparkR: SIGMOD 16
Tensorflow: ODSI 16
TiDB: 16
State Management in Apache Flink: VLDB 17
Aurora: SIGMOD 17
Pinot: SIGMOD 18
Calcite: arvix 18
TVM: OSDI 18
其他的一些开源项目:
mongodb
neo4j
orientdb
greenplum
redis
memcache
drill
ignite
gemfire
glusterfs
粗略感受一下:
1) 从论文发表数量可以看出,从03年GFS发表开始,大数据时代的确是迎来了井喷式发展。
2) 从最开始的分布式处理系统mr、spark,到最近几年spanner、aurora、tidb等事务型DB,大数据处理系统与传统database的融合,趋势已经越来越明显。借助大数据的技术思想,再依托新硬件发展的红利,传统database突破规模瓶颈,scalability进一步提升,会是接下来的重点方向。HTAP在这个过程中,也会成为兵家必争之地。
3)基于Spark/Flink的批流统一编程,将会成为事实标准,而且深刻影响分布式数据库计算引擎的发展。
4)在大数据、database中集成AI能力,势在必行。
后面我会定期精心解读上面的一些paper。




