暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

【访专家】访搜狗大数据研究院院长李刚:坐拥5.21亿用户数据的搜狗怎么玩大数据?

168大数据CDO研习社 2017-02-20
395


听说,这里有最具价值的大数据实战干货、

大数据技术经验、大数据创新思维,

更有你想融入的大数据高端人脉圈!

据说,国内近6成大数据精英都在这,

你加入大数据时代的浪潮了吗?


李刚 2000-2007年清华大学计算机系本科+硕士;

2006-2009年北京大学经济研究中心双学位;

2003-2006年搜狗网页搜索技术负责人;

2006-2008年搜狗视频、 新闻等垂直搜索负责人;

2008至今,搜狗广告产品技术中心总经理;

2014年至今兼任搜狗大数据研究院院长。

他是搜狗CEO王小川的搜狗创始团队的13个清华实习生之一。

担任广告产品技术中心总经理这8年,带领搜狗营销事业部的技术部创造了一个又一个的飞跃,无论是搜索广告还是网盟广告,亦或是品牌广告,每个季度的营收都有飞速增长,已助力搜狗年营收40多亿元,成为互联网公司营收排行榜上第6名。

2014年带领精英团队创建了搜狗大数据研究院并担任院长,研发了搜狗大数据营销平台,构建了搜狗DMP和搜狗标签体系,打通搜狗各数据ID,对海量数据跨屏打通,为搜狗大数据基础架构打下坚实基础。对大数据精准营销、竞价广告以及大数据都有深入研究。

12年搜索、10年输入法、5.21亿用户、1600万公众号,从搜索到输入法,从浏览器到智能硬件——糖猫,从地图到明医,13年来,搜狗跨越发展,在优化与创新上,一路向前,不管是用户最多的输入法,还是国内第二大搜索引擎,亦或是进军中的人工智能,搜狗一次次突破自我,战略版图不断扩张,实现智慧服务转型。这些成绩的背后,离不开大数据的支撑与协作。本期,我们有幸采访到搜狗大数据研究院院长李刚先生,为我们讲述搜狗的大数据之路。

大数据现在已经成为企业和社会关注的重要战略资源,搜狗作为国内知名互联网公司,拥有海量的数据,请问搜狗的大数据研究院是什么时候成立的?又是如何处理和使用如此大量的数据的?

李刚:如你所言,搜狗拥有海量数据,它的用户规模在互联网行业排名第二,而这些用户主要来源于这几块:一是搜狗搜索,它是我国第二大搜索引擎,占有无线搜索市场17.8%的份额;二是搜狗输入法,这是我国目前不管在PC端还是移动端均排名第一的产品,月活跃用户达到5.21亿;其他还有跟腾讯合作的微信公众号,每天有1600万公众号数据,还有与知乎达成战略合作后得到的知乎数据。


搜狗大数据研究院成立于2014年,而研究院成立的初衷,就是考虑到我们拥有如此大量的数据,这些数据能不能合在一起,对搜狗的产品,或者对提升搜狗商业价值更有帮助。所以成立后的研究院,把搜狗所有的数据放到我们的平台里,然后对每个数据进行标准化格式处理,给每个数据打上标签并进行分级,而每一个分级都有许多标签,也就是说每一个人都会被打上各种各样的标签,如一个人是喜欢电影还是电视剧。如果是爱购物的,是爱购买电子产品、奢侈品还是化妆品等。每一个分类都有一个标签,汇聚起来,就形成了我们5.21亿的数据体系,而这个体系里的每一个数据都有自己完整的标签。


这些打上标签的数据主要用在几个方面,一是给搜狗搜索提供支持,为用户提供更好的服务,提升搜索体验。现在搜狗搜索可以为每个人提供不同的搜索结果。此外,我们的搜索还会做一些简单的推理工作。传统的搜索引擎是输入文字,得到的是包含输入文字在内的搜索结果,而搜狗搜索的结果是直接告诉你答案,如输入“4+5=”,搜索结果会直接显示“9”,而不再是传统的“4+5=9”;至于引擎自己的推理,简单来说是这样的:如输入“梁启超的儿子的太太的前男友的老婆是谁”,这种字符串在文本里面是没有的,然而我们的搜索引擎可以把这几个人定位出来,最后告诉你结果是陆小曼,这是一个深度挖掘数据的过程。


其次是完善搜狗的商业化体系。这些打上标签的数据特别适合广告投放使用,在搜狗投放广告,不仅可以选择关键词,还可以选择人群类型,比如是男人还是女人,是喜欢电子产品的还是喜欢购物的,可以根据标签进行组合投放,为我们的精准广告体系提供服务。


此外,我们拥有自己的大数据平台,辅助客户进行商业决策,他们可以在这个平台里看到自己品牌近期的变化情况,帮助企业进行品牌定位等。这是我们利用自己的数据,为客户提供的增值服务。

您刚才说到搜狗利用自身拥有的海量数据,为用户和企业提供服务,那这些数据是否考虑要对社会开放?

李刚:目前搜狗没有对社会开放这些数据,因为搜狗的数据库中每天有几百亿的网页更新,现在总共有一千多亿的网页存储在我们的网页库中,而这些数据的开放,需要考虑许多问题。搜狗现在拥有一万台服务器在运算,这些数据我们应用在自己的用户产品上,除了刚才说的智慧搜索和推理外,还为用户提供一些特别的服务。比如2016年5月初,“魏则西事件”引发了社会对搜索行业的广泛讨论,医疗推广政策的收紧对搜索行业产生了巨大的影响。此时,搜狗适时推出“搜狗明医”频道,囊括了来自维基百科、知乎和丁香园等网站真实权威的医疗知识,并且无商业广告的展现,力争给用户一个准确、有价值的答案,更好地满足用户医疗问询请求。


未来,我们的数据将会在不同行业落地,目前医疗只是一个尝试,后期会在其他行业进行相应尝试。虽然我们没有开放自己的数据,但是我们希望通过搜狗输入法等其他产品,更好地服务整个社会。

我们也希望通过搜狗的产品,能够更快速地得到更精准、更权威的信息。现在随着大数据的发展,不少大数据企业、研究院等相继出现,那搜狗大数据研究院在这场竞争中有哪些优势呢?

李刚:我认为我们有三个优势。


首先是数据优势。如前所述,我们通过搜狗搜索、输入法及合作,掌握了大量的用户数据。


二是技术优势。搜狗在搜索技术方面处于国内领先地位,而本身大数据技术与搜索引擎技术就非常类似,一方面都是对文本的理解,另一方面是数据的存储、查询、检索。在大数据方面,我们大量的复用了搜狗的技术。如数据存储方面,我们不用自己存储,只需从搜狗服务器中直接拿。搜狗有一个2万台服务器的集群,我们可以直接用,节省了大量成本。另外,搜狗80%的员工是技术人员,在技术方面投入非常巨大,所以搜索和输入法的数据,我们是共用的。


第三是产品优势。搜狗的搜索、输入法是我们研究院研究成果的发挥平台,加上我们自己的营销平台,使得我们的研究成果有了落地点。


目前许多公司大数据运用中存在的问题就是无法落地,他们手里有数据,但是不清楚自己该做什么事情。搜狗的大数据可以直接落到优化搜索产品,提高广告收入上,这些实际应用也都已经进入了实用阶段。

如您所说,目前许多人都知道自己拥有的数据是有价值的,但无法落地,搜狗做到了这一点,实现了落地。那未来搜狗的大数据应用还会向哪些方向发展呢?

李刚:大数据是基础能力,但最终是要落在某些服务领域,那么往哪个领域去落决定了未来的发展方向。未来,搜狗瞄准的第一个方向是人工智能。人工智能领域是搜狗制定的一个总战略,无论我们的输入法还是搜索都会逐渐智能化。人工智能必须要有数据学习的训练,主流方法基本都是深度学习,用数据来训练机器的智能,人工智能离不开大数据,所以大数据和人工智能是相辅相成的,所有的人工智能都需要大数据来提供基础的能力,而大数据必然会落到某个领域。我们希望数据收集回来以后,能有更智能的产品产出,在更垂直的领域提供更好服务,如医疗领域,我们为用户提供更智能化的服务。我们设想,未来在看医生之前,是否可以先做一轮机器问诊,帮助用户完成自动诊断。虽然目前有些公司已经在做这个,但是搜狗具有大数据优势,实力更强,这是大数据在具体领域落地的一个例子。


数据量大,加上人工智能技术过硬,就会产生出不一样的产品,这是搜狗在用户产品方面的规划,就是深度挖掘人工智能领域,做出自己的人工智能产品。


第二个方向是精准化营销。在广告领域,大数据可以更精准地识别用户。之前我们了解过某大型电商的一个案例:每个季度在它平台上下单超过6次的人只占其总消费用户的3%,但这3%的消费者却占据了它50%的销量,那现在我们如何帮它找到这3%的人呢?这是一个非常考验企业大数据技术能力的点。从这个案子就能看出,未来大数据第二点的发展就是如何精准化,如何给人打标签、定位,将消费者与商品进行精准匹配。


但这就涉及到另一个问题,我们这里说的精准化不可能只靠搜狗,而是需要融合各方资源,产生更多合作。所以第三个方向就是形成开放性的平台,能够跟客户、合作方形成数据共享和交互,利用搜狗大数据能力,让各方受益。所以第三方面就是要建立一个大数据开放、交互平台。

数据的开放和交互对推动大数据产业良性发展大有裨益,那当前建立这样一个平台还面临哪些问题?面对这些问题,搜狗大数据研究院未来将如何发展?

刚:大数据产业目前遇到的核心问题首先是没有形成产业化标准,行业本身还没有形成特别好的模式。目前大数据产业是一个鱼龙混杂的产业,虽然大家都说自己有大数据,但到底什么样的算大数据,还没有一定标准。如果能有这样的标准出来,对整个产业持续发展很有益处。

第二就是大数据行业还没有形成特别好的商业模式,这就是为何说这个行业还处于发展早期的原因,没有公司做成像BAT这样,做的很大、很强,并持续进行深入研发,多还是一些中小型公司,体量小,创造价值小。


三是投入不够。虽然大数据发展前景光明,但如何尽快达到希望点,让大数据产生它该有的价值,是我们一直在探索的事情。虽然大家都知道大数据有价值,但真正在这个产业上投入的资金量,相比电商、金融、游戏差距还是很大。


搜狗大数据研究院未来发展方向很明确:


一是服务好搜狗的用户,提升搜狗产品价值,让用户获得更好服务。

二是提升搜狗商业化能力。

三是在大数据产业中探索更好的产业模式,探索更好的未来,让大数据产生更好的价值,这是我们的使命和方向。


结语

数据是有价的,它可以交易买卖;数据又是无价的,因为它拥有巨大潜力,带来各种可能。身处DT时代,拥有数据,就拥有战略先机。搜狗以海量数据为基,以优势技术为架,挖掘数据价值,提升用户服务,推动大数据行业飞跃发展。搜狗大数据学院深耕大数据行业,服务搜狗,服务整个社会。

作者: 何婉璇  来源:大数据周刊

本文由大数据周刊原创,168大数据经授权发布,未经允许禁止转载,转载请务必获得原作者同意并标注本文来源。 


51举荐--专注大数据人才精准推荐

想求职,51举荐免费发求职信!

想招聘,51举荐帮你发悬赏令!

企业大数据人才招聘(优惠季)

1) 极速招聘:880元 (现价380元不含发票

    A  每家公司最多发布3个职位,超过3个岗位必须走专项招聘

    B 3个微信朋友圈:投放四周,一周一次(精准推送,覆盖上万大数据从业人员)

    C 168大数据社群:投放四周,一周一次

    D 51举荐公众号图文:图文第一条,推送一次,多家企业职位聚合

    E 168大数据网站头条发布,保留企业联系方式


2) 专场招聘:(头条2000,二条1500,三条500,文章内提及一次200)

           (现价头条1680,二条680元 不含发票)

    A 单独一个图文,职位数不限,图片,内容自定义,独家!

    B 3个微信朋友圈:投放四周,一周一次(精准推送,覆盖上万大数据从业人员)

    C 168大数据社群:投放四周,一周一次

    D 51举荐公众号图文:(头条2000,二条1500,三条500)

    E  168大数据网站头条发布,保留企业联系方式

 所有发布的招聘需求一律先支付后上架,请确认无误后再行付款。


免责声明:本站所载内容来源于读者投稿或互联网、微信公众号等公开渠道,纯属作者个人观点,不代表本站立场,仅供读者交流学习。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。投稿、爆料、版权、商务合作请联系:link@bi168.cn

168大数据

168大数据 www.bi168.cn 是国内最具影响力的大数据干货分享与产业服务平台,专注大数据、商业智能、数据分析、云计算、人工智能等数据科学领域的深度交流、知识分享、职场社交和职业发展,以大数据驱动创业创新和助力传统产业转型升级为使命,致力于为大数据产业的从业者、传统企业、厂商、服务商提供最具价值的资讯、服务、连接智库研究。平台聚集了国内外近十万数据领域的大数据企业创始人、首席技术官、首席数据官、数据架构师、数据科学家、大数据工程师、BI工程师等精英人物,共同致力于大数据技术、大数据价值、大数据思维的传播、交流与分享。

文章转载自168大数据CDO研习社,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论