暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

MatrixOne助力TechAgent打造超融合AIGC数据底座

MatrixOrigin服务号 2024-09-29
219

点击蓝字 关注我们


客户简介

PART

01

深圳素问智能TechAgent成立于2017年,是一家专注于提供产业链舆情数据的服务商。素问智能服务了数十家制造业龙头企业及政府产业管理机构。其打造了一套名为TechAgent的产业舆情大数据平台,基于企业基本信息、研报、财报、专利、新闻等全网数据,通过自然语言处理挖掘企业特色信息以及企业产业链深度链条,构建全方位的企业画像,并实时捕捉产业链信息,支持产业链分析、产业规划、产业咨询跟踪等服务。


业务挑战

PART

02

TechAgent是典型的以数据加工与处理为核心能力的场景,业务形式包括直接的数据报告服务,数据SaaS及API服务。这几种业务交付形式实际上最终都是依赖于素问自己搭建的一整套数据处理平台,而这套数据处理平台为了满足多样化的功能及业务形式整体设计的相当复杂,在运维和开发迭代等方面都遇到了一定的挑战。

#1

TechAgent的上游是大量的数据采集程序,包括通过网络爬虫获取公开数据,通过API接口获得一些商业数据,通过一些预处理程序从文件中提取的数据等。所有这些数据都会经过结构化处理之后存到MySQL中。其中一部分数据在应用之前需要经过LLM大模型处理,由于算法本身的特点,会输出结构较为复杂的JSON文件,MySQL的JSON能力不足以满足需求,为了存储和查询这些JSON文件,素问专门引入了一个MongoDB实例来进行处理。

#2

TechAgent的一个核心能力是搜索能力,这其中既包含了基于关键词的全文检索能力,又包含了基于语义的向量检索能力,因此TechAgent又引入了ElasticSearch和Faiss,专门用于两种独立的搜索能力。

#3

随着业务规模的逐步扩大以及采集数据源的增加,MySQL的处理能力已经越来越难以满足需求,一方面在写入测的并发压力增大,现在只能通过前端通过一段代码将数据缓存一段时间再写入,另一方面单表规模超过千万,为了保证查询性能不得不开始使用手工分表的形式来限制查询的规模。而针对部分报表生成及大量数据分析的查询,TechAgent不得不再次求助于增加一个Clickhouse实例来保证性能。

TechAgent整体数据架构

作为一家团队规模非常有限的创业公司,TechAgent维护和管理众多的数据库组件已经难以为继,同时产品的迭代总是需要添加各类胶水代码来解决数据互通的问题,而且对于新招募的工程师上手非常困难。而对业务造成最大困难的则是面向大型客户进行私有化交付的场景,交付团队对应用层软件的交付仅需数日即可完成,但是往往要花费数周的时间部署和调试数据库,这并不是TechAgent所擅长的领域。


解决方案

PART

03

MatrixOne 是一款新型的云原生超融合数据库,通过简化的分布式数据库引擎,基于K8s及共享存储构建,同时支持OLTP、OLAP、时序、向量、搜索等混合负载,同时高度兼容MySQL语法。MatrixOne在AIOT和AIGC场景上有自己独特的优势,可以作为一站式的数据底座。对于TechAgent这样深度应用大模型和文档数据的场景非常适合,能够一站式完成底层数据处理,极大的减轻其数据架构的复杂度和交付运维难度。

#1

MatrixOne是一款HTAP数据库,对OLTP及OLAP的支持程度较高,针对MySQL及Clickhouse分别进行事务型处理和分析型处理的模式可以天然的一站式解决,也避免了定时通过ETL工具从MySQL把数据搬迁到Clickhouse的运维动作,而是直接通过创建视图VIEW,通过SQL编写各类分析语句。MatrixOne对于MySQL高度兼容,对于TechAgent使用的Django框架及SQL Alchemy的ORM工具都可以无缝对接。因此从MySQL及Clickhouse往MatrixOne迁移是整个改造的最基础环节。

#2

MatrixOne自带JSON及向量两种数据类型。用户可以非常方便的在任意表中创建向量vecf32/vecf64类型,或JSON类型的列,同时MatrixOne也提供了向量索引和搜索相关的函数,以及JSON解析相关函数,可以满足绝大部分JSON处理及语义搜索相关的需求。因此通过一定的应用适配和改造,MatrixOne也可以将MongoDB及Faiss所起到的作用进行替代。

#3

MatrixOne支持倒排索引,而倒排索引就是Elastic全文搜索中的核心技术,并且MatrixOne的倒排索引与向量语义检索可以混合使用,同时允许用户自主调节其中的比例。这不仅可以解决单独采用Elastic的问题,还可以直接在数据库层面实现基于语义和全文的混合检索。之所以TechAgent的架构需要采用Elastic及Faiss,也就是为了在应用层能将语义检索的优点和全文检索的优点结合起来,以提供给用户最优质的搜索体验。MatrixOne的实现则可以进一步简化这个模式。

#4

MatrixOne完全面向K8s设计,天然支持K8s化部署。这正与TechAgent团队对应用进行云原生化改造的思路吻合,之前基于独立应用和多个独立数据库的交付模式运维极为复杂,而通过云原生化改造可以实现容器化快速交付。之前数据库层的K8s改造是个较为复杂的工程,而现在MatrixOne天然面向K8s设计,不仅可以非常方便的部署交付,而且天然具备可扩展性,在负载增大的时候可以非常快速的通过垂直或者水平扩展计算容器来提高性能基线。

最后,在面向众多异构负载时,MatrixOne还提供了灵活的负载隔离的方案。在使用过程中,可以通过指定的CN容器资源组来负责某个专用业务负载的形式来实现同一套数据库内负载的隔离,最大化的保障业务的安全性。

改造后的数据架构


客户收益

PART

04

TechAgent在与MatrixOne接触之前,正面临着给各类大客户交付的困境,每个客户平均的交付周期要长达2个月,而其中最复杂的就是数据库层的部署和调试。了解到MatrixOne的能力和架构后,TechAgent团队果断的开启了架构转型,最终成功的将过去的大杂烩式的架构简化成了与单机MySQL一样简洁的架构。TechAgent团队也在矩阵云原生团队的帮助下顺利的完成了整体的云原生化改造,将应用和数据库形成了高效的一体化交付,整体交付时间缩短到1周。另外,在整体数据处理的效率上,过去小时级的数据端到端处理效率也缩短到分钟级。

TechAgent CEO王巍表示:“过去在业务快速发展的过程中采用了比较粗犷的架构模式,缺什么就补什么,而没有从全盘的角度考虑问题,导致后期迭代和交付进度都受到影响,和矩阵团队合作让我们再次轻装上阵,一次性的解决了沉重的技术包袱。未来TechAgent及MatrixOne也将继续在AIGC领域共同探索,为交付给产业客户更优质的AI咨询师而努力。”


关于我们

PART

05

关于矩阵起源

矩阵起源是业界领先的数据智能(Data & AI)平台技术和服务提供商,主要团队成员来自国内外知名科技公司,具备强大的创新能力。矩阵起源的目标是打造并使用世界一流的数据基础设施技术和产品,协助企业实现从信息化、数字化到智能化的转型和升级。矩阵起源在云计算、数据库、大数据及人工智能相关领域拥有核心竞争力,具备广阔的行业和国际视野以及前瞻性,能够快速有效的将先进技术在不同领域实用化并规模化扩展

关于MatrixOne

MatrixOne 是一款基于云原生技术,可以同时在公有云和私有云部署的多模融合数据库。通过全新设计和研发的存算分离、读写分离、冷热分离的原创技术架构,用户能够基于一套存储和计算引擎同时支持事务、分析、流、时序和向量等多种工作负载,并可以实时、按需地共享或隔离存储和计算资源。基于创新的 HSTAP 技术架构,MatrixOne 致力于消减数据碎片,打造极简的“One Size Fits Most”数据管理和开发应用解决方案,帮助用户大幅简化日益复杂的 Ⅱ 架构,提供简捷、灵活、极速和高性价比的数据服务。

关键词:超融合数据库、多模数据库、云原生数据库、国产数据库。



欢迎体验试用,如有问题请与小助手联系~

官网

matrixorigin.cn 

源码

github.com/matrixorigin/matrixone

Slack

matrixoneworkspace.slack.com

扫码加入MatrixOne技术交流群

(如二维码过期,请添加小助手微信: MatrixOrigin001)


关键词:MatrixOrigin

知乎  |  CSDN  |  墨天轮  |  OSCHINA  | SF |  InfoQ  | SF | Bilibili 


点击“阅读原文”查看更多MatrixOrigin News

文章转载自MatrixOrigin服务号,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论