常见的大规模图数据及其特点

图计算 2017-11-14

2561

简单的说图计算就是研究在大规模图数据下，如何高效计算，存储和管理图数据等相关问题的领域。显然研究对象是大规模的图数据(Large-scale Graph-Structured Data)，那么在我们的生活中有哪些比较常见的图数据呢？它们都有哪些具体的应用场景？图数据都有哪些特点？在进行图计算时都有哪些挑战？

哲学上说事物之间普遍存在联系，通常来说可以将事物看做图的顶点，事物间的联系看做图的边。对应于学术界的文献来说，每篇论文可以看做顶点，文献之间的引用关系可以看做边。对应于互联网来说，web页面可以看做顶点，页面之间的超链接关系可以看做边。对应于社交网络来说用户可以看做顶点，用户之间建立的关系可以看做边，关系的类别可以看做权重。对应于大型电商来说，用户和商品可以看做顶点(二部图)，它们之间的购买关系可以看做边，购买次数可以看做权重。

则抽象出来的图数据就构成了研究和商用的基础，可以探究很多有趣的问题如：”权威节点(中心)”，”小圈子”，”世界上任意两个人之间的人脉距离”，”消息是如何传播的”等。而将这些有意思的现象用到商业领域，则底层的运算常常是图相关的算法。例如图的最短路径算法可以做好友推荐，计算关系紧密程度；最小连通图可以识别洗钱或虚假交易；Key person可以找到意见领袖，防止客户流失的群体效应；对图做PageRank可以做传播影响力分析，找出问题的中心，做搜索引擎的网页排名。虽然图计算的具体商业应用不是我所研究的问题，但后面可能会有具体的例子来详细介绍，敬请期待。

回到图计算的研究中，下表是在图计算研究领域中常用的开放数据集，前四个都是现实世界中抽象图数据，包括社交网络图和web图，其顶点或边的数量级达到million(百万,1000000,10⁶)和billion(十亿,1000000000,10⁹)。在研究中也会使用人工合成的图来测试图计算系统的相关特性，如trillion(万亿,1000000000000,10¹²)级别的图数据。需要说明的是trillion级别的图数据肯定是存在的，只是暂时没有看到公开的，并且随着社会的高速发展，那么billion级别的图也很快会达到trillion级别，甚至更大。

为了方便后面体验图计算系统和作为研究测试的基础，下面给出这些图的下载地址。其实寻找，整理和验证这些东西并不是件容易的事，望珍惜！其数据格式并不统一，后期将介绍如何处理这些图数据。

1 LiveJournal socialnetwork

http://snap.stanford.edu/data/soc-LiveJournal1.html

文本格式数据下载地址：

http://snap.stanford.edu/data/soc-LiveJournal1.txt.gz 1,080,598,042bytes (1.08 GB on disk)

2 twitter-2010

http://an.kaist.ac.kr/traces/WWW2010.html

压缩文本格式数据下载地址：

http://an.kaist.ac.kr/~haewoon/release/twitter_social_graph/twitter_rv.zip

twitter_rv.zip,4,859,337,443 bytes, MD5: 5f2399aac71c604ac5a100fb6ca7e297

3 uk-2007-05

http://law.di.unimi.it/datasets.php http://law.di.unimi.it/webdata/uk-2007-05/

graph格式数据下载地址：

http://data.law.di.unimi.it/webdata/uk-2007-05/uk-2007-05.graph

http://data.law.di.unimi.it/webdata/uk-2007-05/uk-2007-05.properties

4 WDC-HyperlinkGraphs-2014

http://webdatacommons.org/hyperlinkgraph/

http://webdatacommons.org/hyperlinkgraph/2014-04/download.html

http://webdatacommons.org/hyperlinkgraph/2014-04/data/

压缩文本格式数据下载地址：

wget -ihttp://webdatacommons.org/hyperlinkgraph/2014-04/data/index.list.txt

wget -i http://webdatacommons.org/hyperlinkgraph/2014-04/data/arc.list.txt

一共185GB左右，请做好心理准备。

以上所列都常被称为自然图(Natural Graph)，其最明显的是Power-low[3]特性，即部分顶点的出度和入度极高，而绝大多数顶点的出入度极低。举例来说，在微博中有些大V拥有着数百万的粉丝，但这些大V是极少数的人，而绝大多数用户只拥有几十个甚至更少的粉丝。在淘宝上只有少数的商品销量惊人，但多数商品业绩平庸甚至无人问津。互联网上少数的网页访问量极高链入页面非常多，而大多数的网页链入数量少的可怜甚至为零。

这种特性影响了图计算研究的很多方面，同时也带来了极大的挑战，而更详细完整的理论分析，将在讲解PowerGraph[4]时具体展开。

本文内容仅个人观点，如有错误和不足之处还望大家雅正，如果对您有所帮助则是我的荣幸！

[1] https://www.tuicool.com/articles/3MjURj.关于图计算和GraphX的一些思考. 淘宝技术部.

[2] http://www.csdn.net/article/1970-01-01/2825748 . 如何利用“图计算”实现大规模实时预测分析. 王绪刚

[3] FALOUTSOS, M., FALOUTSOS, P., ANDFALOUTSOS, C. On power-law relationships of the internet topology. In ACMSIGCOMM Computer Communication Review (1999), vol. 29, ACM, pp. 251–262.

[4] J. Gonzalez, Y. Low, H. Gu, D. Bickson,and C. Guestrin. PowerGraph: Distributed graph-parallel computation on naturalgraphs. In OSDI, 2012.

数据库

文章转载自图计算，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

常见的大规模图数据及其特点

评论