为AI而生，MatrixOne面向GenAI的能力解读

MatrixOrigin服务号 2024-12-16

423

导读

本文将分享MatrixOne针对GenAI提供的能力。主要内容包括以下几大部分：

Part 1.

MatrixOne产品及架构介绍

Part 2.

MatrixOne 2.0面向GenAI能力解读

Part 3.

MatrixOne助力AI搜索

Part 4.

基于MatrixOne的图片检索落地案例

Part 5.

问答环节

本文字数：6000字+

阅读时间：8分钟+

Part 1

MatrixOne产品及架构介绍

1.1

MatrixOne是什么？

MatrixOne是一款新兴数据库，始于2021年，定位于云原生超融合数据库，专攻混合负载，兼容多种数据处理类型，面向多种模态数据，集OLTP、OLAP、向量处理、时序数据及搜索能力于一体。它基于云原生存算分离架构，实现了计算与存储的解耦，借助共享存储底层，使架构具备出色的扩展与调度能力。

经过近四年的自主研发，现以云原生架构支持众多客户业务，涵盖运营商、工业企业及科技公司，提供开源、私有化部署及公有云服务选项，与MySQL高度兼容且使用体验相近。其完全开源，遵循Apache 2.0许可协议，是开发者友好型数据库解决方案。

1.2

MatrixOne的发展历程

MatrixOne始于2021年，从零构建，起初采用share-nothing架构，类似于TiDB，侧重云环境下的性能与成本问题。

2022年，面对云环境下的扩展与成本挑战，转向share-storage架构，受Snowflake启发，彻底解耦计算与存储，利用云端线程底层能力，重构MatrixOne核心。面向共享存储，把计算存储以及事务完全拆分，以此架构为底座，一直沿着这个方向去演进和开发。

2023年8月，发布1.0版，聚焦HTAP 基座能力，解决OLTP与OLAP统一融合需求。

近期，2.0 版本发布，历时一年多时间，专注于生成式AI 数据库内核整合与企业级特性强化，应对行业浪潮，优化高可用与容灾备份。

1.3

MatrixOne的技术架构

MatrixOne云原生数据库，完全基于Kubernetes容器化架构，由下而上三层次设计。

存储层革新：对象存储为核心，兼容S3/NFS协议，存储数据文件与源数据，具备高可用与低成本优势。
事务层优化：针对高频写入场景设计，弥补了S3在读写能力不足的问题，通过专用节点处理写入，利用Raft三副本机制保障一致性。
计算层弹性：无状态容器节点组成，灵活扩容，即时调度，支持多元化负载与业务需求。

1.4

MatrixOne的部署形态

MatrixOne数据库部署灵活，提供了三种架构选择，分别服务于不同规模与需求的生产环境：

单机主从部署：类似于MySQL的经典架构，包括主备机与CDC链路，无需外部共享存储，可通过Docker或二进制包快速部署，实现轻量级应用。
单机对象部署：存算分离，充分利用云特性，存储层迁移至S3对象存储，实现无限容量与低成本扩展。MHS扮演写入引擎，配合S3海量存储，适合大规模数据采集与存储场景。
Kubernetes（K8s）分布式部署：基于K8s生态系统，全面覆盖计算层（CN节点）、事务处理（TN节点）与日志服务（log service），构成完整分布式数据库架构。容器化部署确保高度管理与灵活性，适宜复杂环境与高性能需求。

综上，其多样化部署选项满足了从轻量级到分布式集群的不同场景，借助S3存储与K8s技术，既保证了扩展性又提升了管理便捷性，充分体现了现代数据库体系的先进特征。

1.5

MatrixOne的使用方式

MatrixOne的设计理念之一即为高度兼容MySQL，致力于简化应用开发与日常运维流程。以下概述其关键特性与优势：

使用习惯一致：MatrixOne遵循MySQL的使用习惯，无论是应用程序接口（API）、数据定义语言（DDL）、数据操作语言（DML）、数据类型、索引编写，乃至查询功能，均与MySQL保持高度一致性，确保用户能无缝切换，无需额外学习成本。
事务管理：秉承MySQL的ACID特性，MatrixOne提供悲观锁（Pessimistic Locking）与读提交（Read Committed）隔离级别的事务支持，确保数据一致性与并发控制。
开发组件与工具：基MatrixOne兼容Java与Go等主流编程语言的连接器，以及ORM框架，延续MySQL的开发体验。
运维便利性：内置多种自研备份与恢复机制，如逻辑备份、物理备份、快照备份，以及监控与日志管理工具，助力高效运维。
生态系统兼容：MatrixOne广泛支持MySQL生态内的数据源接入、数据转换及科学计算，兼容BI工具，无缝衔接现有工作流程。

综上，MatrixOne通过深度兼容MySQL，大幅降低了迁移门槛，使得开发人员能够迅速上手，同时保持了高性能与稳定性，成为替代或扩展MySQL的理想选择。

Part 2

MatrixOne 2.0面向GenAI能力解读

接下来介绍MatrixOne 2.0版本中专门针对GenAI的一些设计。

2.1

LLM在企业级应用中的缺陷

和RAG增强方案

近年来，大语言模型（LLM）引发行业热潮，因其强大的通用知识整合能力而广受欢迎。然而，企业在尝试将其落地时常遭遇瓶颈——LLM缺乏行业特异性知识，难以捕捉专业领域细微之处，从而导致信息不准确或“幻觉”问题频发。根源在于模型仅浓缩公共知识，未能涵盖企业专有数据的独特性。

企业内部数据丰富多样，远超单纯文本范畴，涉及代码、图像、音频、视频等多种模态，以及爬虫抓取的网页等，构成了复杂的多模态数据集合。这些数据经由向量化处理，映射至向量空间，存入向量数据库，以供后续检索与分析。此步骤至关重要，决定着LLM能否有效解读企业数据。

企业级应用中，处理自身多模态数据呈现两大难点：

数据处理困难：多模态数据的预处理复杂，涉及结构化与非结构化数据转换，格式多样，需精确且高效的转换策略。
精准检索挑战：如何在海量异构数据中找到关联信息，精准搜索变得极为重要，要求高效检索算法与深度理解模型相辅相成。

针对上述难题，多数企业采用“大模型+企业数据”的RAG（Relevant Answer Generation）策略，即融合企业自有数据，强化生成更贴合行业特性的内容，提高回答的准确性与实用性。此方案强调向量化技术与AI算法相结合，将企业数据转化为向量表示，便于存储与检索，结合LLM搜索能力，实现数据驱动的内容生成。以此，突破现有技术局限，实现真正的行业知识融合，开启企业专属知识图谱的新篇章。

2.2

数据处理瓶颈

多模态数据处理能力是落地大模型应用的关键，而这也正是很多企业的痛点所在。

某大型传媒集团欲结合大模型技术，利用其丰富的多媒体资料库创作新内容，而非任凭模型自主生成。集团积累多年的历史资料，包含图片、音视频及数字化报纸，亟待整合利用，创建独家媒资数据库。然而，企业内部长期积累的多元数据未经整理，散落于各类媒介与系统中，缺乏系统管理，识别与整合困难；并且缺乏有效的搜索能力，无法精准定位所需主题素材，因此形成了从原始数据到AI-ready状态的巨大鸿沟。

这种现象非常普遍，以往企业面对的多为结构化数据，使用流程相对成熟。而大模型场景下，转向非结构化数据处理，传统ETL pipeline不再适用。非结构化数据的多样性和复杂性要求超越单一向量数据库解决方案，即便是一份文档，也可能含图、表、文本混排，需多轮AI算法处理方可提取有效信息。另外，结构化数据承载高价值与现实联系，须与非结构化数据协同，构建综合性数据管理方案。因此整个过程纷繁复杂，涉及多元数据类型的处理与大模型交互，形成了“麻花式”数据链路。

加速大模型应用的关键要素为协助企业高效整合大模型与多模态数据。AI Ready数据需满足四大条件，以促进企业级多模态数据高效应用：

可触达：跨越异构数据源，触及文件系统、对象存储、SaaS网盘等新兴数据源头，对接复杂度超越传统数据中台。
可解析：AI算法解析数据内涵，打标、向量化，使机器理解并分类，克服人类手动审查极限。
可搜索：构建跨模态数据检索能力，精准匹配主题，挖掘潜在关联，提升数据利用率。
可生成：促成数据生产闭环，实现多模态数据驱动的创造性产出。

2.3

基于MatrixOS的解决方案

Matrix Origin集成了MatrixOne数据库、GPU算力管理平台MatrixDC，以及AI与多模态数据管理MatrixGenesis和MatrixSearch引擎。此组合覆盖多模态数据处理全流程，从获取、解析、搜索到生成，满足AI时代混合多模态数据处理需求。通过整合先进技术，构建了完整数据价值链，赋能企业把握数据潜力，加速AI应用落地。

#1. 数据源集成与ETL进化

数据来源多元，包括数据库、SaaS、文件系统、对象存储等，需通过数据连接器集成，明确各源中的数据资产。ETL（Extract, Transform, Load）环节尤为重要，尤其对于多模态数据，如PDF，涉及版式检测、文本/图像区分、OCR文本抽取、图片描述提取及向量化等复杂步骤，形成综合索引，包含元数据、文本、向量等元素，融合AI技术完成这一过程。

#2. AI能力与数据处理

多模态数据处理需运用AI能力，如版式检测、文本分析、图像理解和向量化，依赖大模型和小模型执行任务。MatrixGenesis平台承担模型托管和服务，依托NVIDIA技术框架加速模型托管使用，配合MatrixDC平台的GPU管理和资源调度，实现模型高效运行。

#3. 管理与服务框架

MatrixDC平台负责GPU管理与资源分配，提供接口屏蔽GPU配置复杂性；同时，MatrixDC支撑MatrixOne和MatrixGenesis的容器服务管理，确保基于Kubernetes（K8s）和容器化服务稳定运行。MatrixGenesis和MatrixSearch引擎专注多模态数据搜索，整合已加工信息，执行向量、关键字与SQL结构化搜索，经大模型重排序后，提供最相关数据结果，构建多模态搜索架构。

综上，Matrix Origin解决方案整合数据集成、AI处理、资源管理与搜索服务，形成了完整的多模态数据处理链条。

2.4

MatrixOne核心能力及应用

MatrixOne作为整个解决方案中的数据库内核，具备如下一些核心能力：

向量检索能力：MatrixOne纳入向量数据类型，实现了与结构化表一体化建模，并支持向量索引，优化查询效率，嵌入向量函数，完善搜索能力。
关键词检索能力：面对语义匹配局限，引入传统关键词检索能力，适用于短词短句搜索，借鉴Elasticsearch全文检索，提升了灵活性与准确性。
多模态数据管理能力：支持JSON、BLOB、DATALINKS与STAGE，可实现不同类型数据统一管理，连结外部数据源，确保数据整合与可访问性。利用共享存储搭建数据湖，适应多模态数据特点，轻松容纳与预处理数据，实现便捷的数据入湖。
大小AI模型联动能力：实现了LLM Index，并支持自定义函数，可以轻松整合大小模型，实现模型调用与扩展，以适应多样需求。
多租户及数据共享能力：内置多租户支持，保障每个开发者拥有独立数据空间，协作开发，数据共享，通过发布订阅机制促进团队间资源共享。
用户自定义能力：支持Python UDF，允许用户定义数据转换逻辑与自定义计算，从而满足复杂数据处理与转换需求，提升AI流水线灵活性。

MatrixOne面向混合负载应用，可替代多组件ETL工作流，简化数据处理流程。适用于以下几种典型场景：

报表与数据分析增强：解决MySQL应用分析瓶颈，提升复杂聚合查询（如GROUP BY）效能。
时序数据采集：实时大量数据摄入，如物联网（IoT）数据采集，适配高写入速度需求。
扩展性提升：应对数据量增长与高并发挑战，自动水平扩展，增加计算节点，提高系统性能。
IoT数据分析：融合采集与计算，时序数据库之上，实现复杂多表联接与高级分析能力。
大模型集成：ERP或CRM应用中融入自然语言交互，需兼容传统事务处理与AI模型能力。
Chat-to-BI与AI搜索：推动BI与搜索功能智能化升级，适应多模态数据搜索需求。

Part 3

MatrixOne助力AI搜索

3.1

AI搜索（Multimodal RAG）

概要介绍

在展示MatrixOne如何助力AI搜索之前，先来简要介绍一下RAG的基础原理与应用场景。

RAG（Retrieval-Augmented Generation）由三个阶段构成，即索引、检索与生成。首先数据经过提取、分块和向量化操作，存储于向量数据库中，当用户输入文本时，会从中检索出相似度最高的向量，检索结果作为上下文，再加上提示词，输入给大模型，得到生成的答案。通过RAG可以提升回答质量，减少幻觉现象。

当前，RAG有三种范式。前面介绍的是最朴素的形式（Naïve RAG）。为了进一步提高准确性，针对检索模块增加了前处理和后处理，如查询改写和结果重排等，这就是进阶模式（Advanced RAG）。现今趋势转向模块化设计，可以灵活组合各个组件，也就是Modular RAG的模式，但仍坚守三段式核心。

我们重点聚焦于多模态搜索领域，突破文本限制，实现文本、图片、视频、音频等多种格式的交叉检索。

跨模态检索，涉及模型预处理，使异构数据在同一向量库中实现互联。本次分享聚焦于图文多模态检索。具体而言，图片转文本描述，注入文本向量库，便于与文本询问时共索，无论纯文本或图文结合提问，均能在同一向量库检索，扩展查询范围与应答能力。

实现跨模态检索的核心在于将文本和图像的向量表示对齐到同一个语义空间，确保它们能够实现语义融合。CLIP（Contrastive Language-Image Pre-training）架构通过对比学习损失函数，有效缩小匹配文本和图像在语义空间中的距离，建立两者之间的紧密关联。例如，当用户输入“狗的图片”作为查询，CLIP可以将文本转化为向量，与候选图像的向量进行相似性比较，从而完成检索任务。CLIP这一架构提供了强大的跨模态表示能力，已成为跨模态预训练的经典范式。