暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

常见的大规模图数据及其特点

图计算 2017-11-14
2308

        简单的说图计算就是研究在大规模图数据下,如何高效计算,存储和管理图数据等相关问题的领域。显然研究对象是大规模的图数据(Large-scale Graph-Structured Data),那么在我们的生活中有哪些比较常见的图数据呢?它们都有哪些具体的应用场景?图数据都有哪些特点?在进行图计算时都有哪些挑战?

        哲学上说事物之间普遍存在联系,通常来说可以将事物看做图的顶点,事物间的联系看做图的边。对应于学术界的文献来说,每篇论文可以看做顶点,文献之间的引用关系可以看做边。对应于互联网来说,web页面可以看做顶点,页面之间的超链接关系可以看做边。对应于社交网络来说用户可以看做顶点,用户之间建立的关系可以看做边,关系的类别可以看做权重。对应于大型电商来说,用户和商品可以看做顶点(二部图),它们之间的购买关系可以看做边,购买次数可以看做权重。

        则抽象出来的图数据就构成了研究和商用的基础,可以探究很多有趣的问题如:权威节点(中心)”小圈子世界上任意两个人之间的人脉距离消息是如何传播的等。而将这些有意思的现象用到商业领域,则底层的运算常常是图相关的算法。例如图的最短路径算法可以做好友推荐,计算关系紧密程度;最小连通图可以识别洗钱或虚假交易;Key person可以找到意见领袖,防止客户流失的群体效应;对图做PageRank可以做传播影响力分析,找出问题的中心,做搜索引擎的网页排名。虽然图计算的具体商业应用不是我所研究的问题,但后面可能会有具体的例子来详细介绍,敬请期待。

 


        回到图计算的研究中,下表是在图计算研究领域中常用的开放数据集,前四个都是现实世界中抽象图数据,包括社交网络图和web图,其顶点或边的数量级达到million(百万,1000000,106)billion(十亿,1000000000,109)。在研究中也会使用人工合成的图来测试图计算系统的相关特性,如trillion(万亿,1000000000000,1012)级别的图数据。需要说明的是trillion级别的图数据肯定是存在的,只是暂时没有看到公开的,并且随着社会的高速发展,那么billion级别的图也很快会达到trillion级别,甚至更大。


        为了方便后面体验图计算系统和作为研究测试的基础,下面给出这些图的下载地址。其实寻找,整理和验证这些东西并不是件容易的事,望珍惜!其数据格式并不统一,后期将介绍如何处理这些图数据。


1 LiveJournal socialnetwork

http://snap.stanford.edu/data/soc-LiveJournal1.html

文本格式数据下载地址:

http://snap.stanford.edu/data/soc-LiveJournal1.txt.gz  1,080,598,042bytes (1.08 GB on disk)

 

2 twitter-2010

http://an.kaist.ac.kr/traces/WWW2010.html

压缩文本格式数据下载地址:

http://an.kaist.ac.kr/~haewoon/release/twitter_social_graph/twitter_rv.zip

twitter_rv.zip,4,859,337,443 bytes, MD5: 5f2399aac71c604ac5a100fb6ca7e297

 

3 uk-2007-05

http://law.di.unimi.it/datasets.php      http://law.di.unimi.it/webdata/uk-2007-05/

graph格式数据下载地址:

http://data.law.di.unimi.it/webdata/uk-2007-05/uk-2007-05.graph

http://data.law.di.unimi.it/webdata/uk-2007-05/uk-2007-05.properties

 

4 WDC-HyperlinkGraphs-2014

http://webdatacommons.org/hyperlinkgraph/

http://webdatacommons.org/hyperlinkgraph/2014-04/download.html

http://webdatacommons.org/hyperlinkgraph/2014-04/data/

压缩文本格式数据下载地址:

wget -ihttp://webdatacommons.org/hyperlinkgraph/2014-04/data/index.list.txt

wget -i http://webdatacommons.org/hyperlinkgraph/2014-04/data/arc.list.txt

一共185GB左右,请做好心理准备。

 

        以上所列都常被称为自然图(Natural Graph),其最明显的是Power-low[3]特性,即部分顶点的出度和入度极高,而绝大多数顶点的出入度极低。举例来说,在微博中有些大V拥有着数百万的粉丝,但这些大V是极少数的人,而绝大多数用户只拥有几十个甚至更少的粉丝。在淘宝上只有少数的商品销量惊人,但多数商品业绩平庸甚至无人问津。互联网上少数的网页访问量极高链入页面非常多,而大多数的网页链入数量少的可怜甚至为零。


        这种特性影响了图计算研究的很多方面,同时也带来了极大的挑战,而更详细完整的理论分析,将在讲解PowerGraph[4]时具体展开。

 


本文内容仅个人观点,如有错误和不足之处还望大家雅正,如果对您有所帮助则是我的荣幸!


[1] https://www.tuicool.com/articles/3MjURj.关于图计算和GraphX的一些思考.  淘宝技术部.

[2] http://www.csdn.net/article/1970-01-01/2825748 如何利用图计算实现大规模实时预测分析. 王绪刚

[3] FALOUTSOS, M., FALOUTSOS, P., ANDFALOUTSOS, C. On power-law relationships of the internet topology. In ACMSIGCOMM Computer Communication Review (1999), vol. 29, ACM, pp. 251–262.

[4] J. Gonzalez, Y. Low, H. Gu, D. Bickson,and C. Guestrin. PowerGraph: Distributed graph-parallel computation on naturalgraphs. In OSDI, 2012.

 

 

 


文章转载自图计算,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论