暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

BigQuery:15秒处理5TB数据

触脉咨询 2016-08-24
710
点击上方“触脉咨询”关注我~!


触脉导读:BigQuery是一款由Google推出的企业级云端大数据存储查询平台。开发人员可以通过上传到Google云存储(相当于Amazon的S3)或者以流数据的方式把数据加载到BigQuery中,然后使用类似SQL的查询语言执行查询。本文将为大家简单介绍BigQuery这款大数据查询工具。
What is BigQuery?
大多数工具都是为了解决某个难题而被创造出来,BigQuery也不例外。当时Google的工程师有很长一段时间为Google急速增长的数据量而感到头疼。Gmail有数亿的用户,而截至2012年,平均每月使用Google进行搜索的行为就达到千亿级别。这个时候BigQuery就应运而生了,在2012年的Google I/O上,Google官方发布了BigQuery,BigQuery是一款真正为大数据而生企业级云计算产品,用于对TB级别的大数据进行实时的分析和处理。
从操作技术上来说,BigQuery就是一款云端的SQL服务(类似于SQL),可以提供对海量数据进行实时分析,那么BigQuery的速度能达到多快呢?粗略估计,每个查询每秒可以处理50GB的数据。也就是说,在BigQuery中95%的查询都可以在5秒之内完成。

What is the price?
BigQuery分离了大数据的存储和云计算这两个概念,让你可以根据不同的需要和数据规模进行支付,另外每个月的第一个TB数据的处理都是免费的!

How do you access the data?
我们可以使用类SQL语言在BigQuery中对数据进行查询。
为什么说是类SQL语言呢?因为实际上这并不是一个关系数据库。虽然说我更加倾向于将其描述为一个表,但是整个数据其实是分层的(比如说每个会话下会有很多个PV)。所以BigQuery对于处理此类数据还有很多新功能。但是如果你对SQL语言很熟悉的话,你会发现BigQuery非常易于上手。

查询语言包括支持标准操作,比如joining、sorting和grouping,以及内嵌数据结构。同时还可以支持统计函数,比如count、sum、average、variance和standard deviation(标准偏差)。Grouping函数和描述性统计的结合相当直接的在两个总体中比较平均数和变异数。

区别:BigQuery V.S. API to GA
Google Analytics有API可以导入数据。这样你就可以通过使用不同的数据源在GA中创建更符合自身需要的报告。但是事实上,在Google Analytics中的API和自定义报告功能实际上都这是允许你使用相同的结构来查看数据。

这一点上,BigQuery是不同的,可以从Google Analytics向BigQuery中导出一个能够被查询的原始会话数据表。就基本方面而言,来到你的网站上的每一次访问,在这张表中就会占据一行。每一行都会包含相对应会话的的信息:来源、浏览页面的情况,访客ID等等。

因为这些都是会话级别的数据,所以我们可以直接通过BigQuery得到之前在GA中需要进行高级细分才会得到的结果。比方说,当你需要查看所有浏览了产品A的访问情况,使用BigQuery来查询,你就会发现无论你的数据量级有多大,都不会被抽样~!

另外从Google Analytics 360中可以直接导出BigQuery的数据,虽然BigQuery是按照数据的存储和处理分别进行收费,但是作为Google Analytics 360的用户可以每个月享有500美元信用额度,来进行数据的存储和处理。实际上500美元能够处理的数据量级也是不可小觑的。比方说,我们的一个Google Analytics 360的客户,他们的网站每个月有600万的访问量以及5000万的综合浏览量,他们从本月数据存储的费用为12.86美元。

当然你还需要为处理数据支付相关的费用,不过这的费用将相当实惠。但是如果你设置了比较频繁的自动更新报告,你的费用可能就会消耗的比较快。

参考来源:http://www.lunametrics.com/blog


每晚9:30,不见不散。

触脉分享   改变您在互联网上的决策方式


公众号ID:TrueMetrics
如果想了解更多内容,请持续关注TrueMetrics 公众账号。更多干货等你来!


想对TrueMetrics更多了解,请点击下方“阅读原文
文章转载自触脉咨询,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论