暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

兴趣推荐新天地,Taboola 和 Vertica 凭何打下这“数据江山”?

Vertica 2022-12-07
475

Taboola 拓布拉

全球领先的内容推荐及发现平台、开放网络第一大广告平台 Taboola(拓布拉)位于“世界传媒之都”纽约,日活(DAU)达到夸张的 5+ 亿人次。


它是做什么的?Taboola 主要为数万网站、发布商及移动运营商,及其平台上总计超过 15 亿的独立访客提供服务,每月平均推荐超过 4,500 亿条文章、博客、视频、产品和应用程序;总而言之,它是帮助发行商、品牌营销商和广告商,吸引受众、汇聚流量创造商业价值的。


但就在力争上游的过程中,这个意气风发的“胡润全球独角兽企业”遭遇数字时代的一道坎,那就是——如何处理暴增的数据量?如何从海量数据中“大海捞针”般获得核心的业务见解?还好,湖仓一体的统一分析平台产品 Vertica 来解围了。

案例来源 ⎮ Vertica Global

编辑 ⎮ Vertica 中国团队



数据爆了,大麻烦?


为培育活跃受众群、帮助广告客户创收,Taboola 积极与媒介公司和内容分发商合作,知名的有如 CBS Interactive、Euronews、Whirlpool 和 InnoGames 等等。其核心逻辑在于,当用户浏览某网站文章时,Taboola 内置的分析引擎将快速解析其兴趣历史,提供抓人眼球的个性化内容推荐。此举有助于延长用户在网站上的旅程,驱动消费者与供应商的交互链条。但积极之举在早期也带来了一些“麻烦”:


比如,网页浏览量增长 36%、推荐数增长 34%(平均每秒推荐 50+ 万次),但与此同时待处理的数据量增长 220%,平均每日数据量达 100 TB。掌控这一惊人的数据量需要同样强悍的“大心脏”,Taboola 数据工程总监 Keen Bartal 向我们解释了,为什么数据的爆炸性增长对 Taboola 是一个“超级难题”:


“刚推出 Taboola 时,我们并未料想到如今负荷超载的数据量,传统的关系数据库显然已经兼容不了数量级的增长。客户每天新增超 30 TB 的数据等待处理,但数据库的有限能力却成为横亘在我们与客户价值之间的一道天堑。”


所幸,Taboola 拥有“壮士断腕”的勇毅之气。以数据分析性能为唯一目的,该公司作出了向列式数据库全面迁移的战略决定。Bartal 率领的团队在数据库市场苦苦物色着查询速度更快、更灵活添加和扩展数据的平台——并且要与 Taboola 可预测的增速及成本模型相匹配,在不中断服务的情况下从容应对数据中心的突发意外或服务器停机。这是一项艰巨的任务,但却是 Taboola 兑现客户承诺的唯一方法。


经过几番审慎评估之后,Taboola 选择了湖仓一体的统一分析平台 Vertica



它,究竟有何魔力?


仅仅在概念验证(PoC)阶段,Taboola 就为 Vertica 的高速性能与灵活弹性而倾倒:


“(Vertica)在 PoC 阶段展现出来对查询能力的大幅优化,完美满足了业务所需。服务团队还向我们展示了各种指标,一切都是 100% 透明及可操作的。通过编码和压缩处理,我们得以不断调整和改进 Projections,大大加速查询处理进程

Vertica 不仅适应了我们将数据保留于内部的本地化策略,还发挥其 MPP(大规模并行处理)的架构优势,让我们可以部署更多服务器集群,更快加载、处理数据。”


Vertica 服务团队为 Taboola 实施了完整的架构设计和部署全过程。包括将 Vertica 部署于多个后端及前端集群,以实现不同工作负载的隔离;其中后端集群用于大量连续原始数据及报表的聚合。据了解,Vertica 每日平均处理超过 5 百 GB 的压缩数据,输出超过 5 千份日例报告。此外,后端集群还实现了第三方数据与 Taboola 数据库的集成,以实现更复杂的 BI 分析:


“我们拥有一个庞大的生态合作系统,包括 Apache Hadoop、Kafka 和 Spark 等重要的开源技术。技术团队和分析师都喜欢 Vertica,它不仅支持所有主流的开源技术,还可与 Tableau、Qlik 等很多数据可视化 BI 工具无缝集成 。”


为保质又保量,“完美主义”的 Vertica 要求数据要达到“保鲜”标准,而且数据加载和运算速度越快,客户以分析结果为依据、调整推荐机制或营销布局的速度也越快,就越能在这个分秒必争的内容流量市场抢占先势。


这一点是通过连接性实现的。Vertica 连接器确保将 Taboola 分析机制与 Hadoop HDFS 中存储的原始数据高速相连,在随时都有成千上万的并发用户访问的情况下,巩固前端集群稳定性。此外,当合作伙伴的 IT 系统需要直接与 Vertica 数据交互时,API 便会自动施展作用,包括自动检索、汇总并分析数据等,以便客户实时调整其业务行为。



“Taboola 与 Vertica 的合作关系至关重要。我们力图突破传统解决方案的天花板,而 Vertica 一直予以倾力支持。

Taboola 惊人的业绩增长离不开数据分析领域强大的企业级支持。通过部署 Vertica 作为数据中心的核心引擎,我们现在可以为客户提供满足更大并发性、更高性能、更灵活可扩展标准的、极具竞争优势的分析服务。

我们庆幸当时能成为 Vertica(Eon 模式)的公测客户,它让 Taboola 有机会利用类似云模型的灵活计算和存储资源,管理动态的工作负载。”


Taboola(拓布拉)是全球领先的内容推荐及发现平台,通过 AI 技术为受众精准提供差异化兴趣资讯。它与全球超过 16,000 名广告主合作,力求在品牌安全的大环境中触达更多受众群,每日活跃用户超过 5 亿人次。

详询官网


Vertica 精品资源库

免费获取精品白皮书


Vertica 大数据学堂

引领世界之分析风潮


猛戳「阅读原文」

VERTICA 免费版等着你

文章转载自Vertica,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论