百图生科：如何搭建针对50亿蛋白质序列、上亿文献的AI检索系统

ZILLIZ 2025-09-24

提起向量数据库，很多人的第一反应是做非结构化数据处理。

更进一步，还会有人想到是对图片、视频、文本、音频、pdf这样五花八门的数据做embedding后，进行语义相似度检索。

那么你有想过，在顶尖生命科学 AI 企业中，他们是如何利用向量数据库与大模型的吗？

有资料显示，AIDD能够节省20-30%的临床前开发成本，并大幅缩短研发时间。

具体路径上，通过大模型海量的生成、预测与优化能力，AI几乎可以生成无限药物组合可能，去针对过往未被考虑的疾病治疗靶点，生成具有优化特性的新药物分子或生物制剂，辅助和优化传统制药中的高通量筛选和生成设计环节。

理想很丰满，现实却总是很骨感。

在实际中，仅仅是如何把处理自然语言、图片信息的embedding模型，用于对蛋白质、DNA、RNA、细胞、分子、文本进行相似度检索，这一步，就已经难倒了无数人。

作为行业头部玩家，百图生科的答案是打造专有的生命科学大模型2100亿参数xTrimo V3基础大模型，在此基础上，结合Milvus向量数据库打造生物科学AI落地新范式。

01 AI落地生物医学，有哪些门槛

在医药行业，新药研发是一个九死一生的过程：《nature》杂志统计，一款新药研发的平均成本大约为26亿美元，研发平均耗时十年，成功率却不到10%。

作为其中的佼佼者，百图生科已经在药物研发、生物制造、医疗健康等关键领域，成功实现了 200 多个任务模型的 State-of-the-Art 表现，为全球范围内的 700 多家用户提供了优质服务，累计收获了超过 20 亿美元的总客户订单。

但要把实验室级的 AI 能力推向规模化应用，即使强如百图生科，也不是一帆风顺。

问题可以总结为传统工具遇到了know how极多的高精尖行业，还同时面临企业数据从百万级升级到十亿级的关键节点。具体来看，挑战可以分为五重：

第一道门槛是蛋白质搜索效率低下问题。

此前，百图生科的蛋白质搜索主要依赖多序列比对（MSA）技术，单次结果返回需 10-20 分钟。小规模研究中，这个速度尚可接受；但面对数亿、数十亿条序列的生产级需求，项目进度就会完全瘫痪。生物研发对时间敏感度极高，一款药物早上市一天，就能为患者争取更多治疗机会，低效的搜索方式显然撑不起大规模研发需求。

第二道门槛是多模态数据之间断联。

生物数据形态多样，涵盖蛋白质结构、DNA 序列、细胞成像、科研文本等，生命科学的突破往往就藏在跨模态数据的关联中 ——比如生物体的DNA会影响其所能产生的蛋白质大类，而蛋白质结构与细胞病变之间也往往有着对应关系。数据无法联动，就意味着错失核心科研线索。

第三道门槛则是速度与精度之间的权衡。

生物医学研究容不得半点误差，百图生科研发的 RAG 发现助手，既需要亚秒级响应速度保障研究员工作效率，又需要达到研究级精度避免错误引导。但多数传统工具要么追求速度牺牲精度，要么侧重精度降低效率，同时还要满足医疗数据严格的隐私合规要求，难度极大。

第四道门槛则是通用工具的适配性太低。

生物数据具有独特属性，比如蛋白质序列的同源性、DNA 的碱基配对规律等，需要定制化的索引策略和embedding模型。但市面上的通用搜索工具都是标准化设计，无法适配生物数据的特殊性，强行使用只会导致搜索效果大打折扣。

最后一道门槛则是一套架构，难以满足多种业务需求。

虽然同属生物医学，但是在百图生科内部，其AI落地在不同应用场景落地时对性能的需求差异显著：对话式助手需要即时响应，蛋白质预测可容忍几分钟延迟但需支持批量处理，基础模型训练则要求高吞吐量的数据处理能力。

试图用一套架构满足所有需求，显然不现实，各场景的性能需求根本无法同时兼顾。

总结来说，就是AI要落地，百图生科自己已经解决了xTrimo 模型与数据这一步，但是怎么帮模型找到最合适的数据，百图生科对向量数据库的要求是：

要性能也要精度，要能力成熟还要有针对专业场景的适配性。

02 why Milvus？

出于对性能的考量，百图生科先将目光放在了闭源商业化的向量数据库产品上，但闭源工具就像封装好的黑盒，要么定制化受限，要么成本过高。

碰了一鼻子灰的百图生科决定将宝压在开源产品上，但在部分高校科研场景中备受好评的Faiss 仅能应对小规模测试，进入生产环境后稳定性、扩展性全不达标。

一套综合对比下来，只有 Milvus 能全面满足需求。

其最核心的原因在于，Milvus的开源特性，支持深度定制。

生物数据的特殊性决定了必须针对场景做定制化开发，Milvus 的开源设计让百图生科能自由修改代码、优化参数，甚至根据蛋白质序列特性调整索引策略。

并且，Milvus完善的社区团队，也能让百图生科在做索引优化时遇到任何问题都能第一时间得到响应与帮助。

而此前Milvus及其背后的Zilliz团队，更是已经有过了与国际顶尖创新药大厂一起，做分子指纹检索等相关项目的经验，Milvus技术 + 资源的双重支撑，远超单一工具的价值。

但开源并不意味着Milvus只能作为实验室里的大号玩具。

能力上，无论是研究员的即时性亚秒级查询，还是批量处理数十亿条序列的任务，Milvus 的水平扩展架构都能轻松应对。通过增加服务器节点，就能实现数据规模从亿级到百亿乃至千亿级”的突破，且性能始终保持稳定。

并且，这一套系统已经在金融、医疗等多行业经过长期验证，全球超上万家企业用其支撑核心业务。

更不用说Milvus成熟的混合检索能力。过去，行业用 “肺癌靶点” 关键词筛选文献的同时，还想找到与之匹配相似的蛋白质结构，需要同时搭建向量+关键词检索两套系统。而通过Milvus，百图生科首次实现了一套系统就能完成蛋白质、DNA、文本等多类数据的搜索优化，效率与IT系统的运维都得到了极大优化。

03 三大场景落地

选定 Milvus 后，百图生科将其部署在三大核心场景，彻底解决了此前的落地难题

1、科研助手：从小时搜变秒级答

基于 RAG 技术的 AI 发现助手，通过 LangGraph 搭建流程框架，整合全球上亿篇科研文献、专利及生物数据库资源。这些包含公式、蛋白质结构示意图的专业数据，被转化为向量嵌入后存储至 Milvus。

比如研究员检索 “PD-1 抗体相关蛋白质结构” 时，Milvus可以同时启动向量搜索（匹配相似结构）和关键词搜索（文本检索 “PD-1” 相关内容），过去需要几个小时才能完成的文献梳理，现在亚秒级就能搞定。

2、蛋白预测：规模、速度、精度同步增长

针对蛋白质预测，百图生科摒弃低效的 MSA 方法，全面采用 Milvus 进行向量搜索。通过自研的embedding模型将每条序列转化为高维向量嵌入存储至 Milvus 后，搜索规模可以从数亿条直接突破至50 亿条。

性能层面更是显著提升：此前查询一条罕见病相关蛋白质需10-20 分钟，现在不到1秒内即可完成；同时，AI 驱动的向量相似度算法让预测精度比传统方法更加精准。

3、模型训练：跨模态数据彻底打通

多模态生物 AI 模型训练的核心难点，在于实现特定蛋白质序列与分子数据、细胞成像、文本信息的有效整合。Milvus 恰好解决了这一问题：研究员上传肺癌细胞成像图，可自动匹配对应的 DNA 突变序列、蛋白质数据及相关科研文献；输入病毒 RNA 序列，能直接调取感染后的细胞形态数据，从而让跨模态关联发现更高效。

04 成效

Milvus 带来的不仅是性能数据的提升，也在一定程度上改变了百图生科的科研逻辑和市场地位。

核心性能上，百图生科实现了

蛋白质序列搜索速度提升 22 倍，从 15 分钟次压缩至不到50 秒 / 次；
单系统支持 50 亿条蛋白质序列查询，最高支持百亿乃至千亿的向量检索规模，响应时间稳定在 1 分钟内；
数据处理规模从数亿级突破至数十亿级，增幅超 10 倍；
交互类查询全部实现亚秒级响应，大幅增加研究员满意度。

科研逻辑上，百图生科实现了

形成良性迭代循环：搜索效果与 xTrimo 模型性能深度绑定，模型每迭代一次，搜索精度也会随之提升，构建起模型优化→搜索精准→研发提速→数据积累→模型再优化的闭环，这是传统工具无法实现的。
打破跨模态数据壁垒：通过 Milvus 实现分子、细胞等不同层级数据的统一对齐，无缝跨模态搜索，支撑下一代多模态模型。
大幅降低运营成本：传统模式需要部署多套检索系统，现在依靠 Milvus 单一系统，成本直接减半，节省的资金全部投入核心研发。
Milvus 成 “枢纽”，串起 AI 模型、NebulaGraph 图数据库、LangGraph 代理框架。

05 尾声

百图生科的实践，为生物 AI 行业提供了重要参考。

过去，不少企业试图将 ChatGPT 等通用大模型改造为生物 AI 工具，结果因无法适配生物数据特性，最终沦为四不像。

百图生科的思路更务实：从头研发 xTrimo 这类生物专属基础模型，搭配 Milvus 这种适配生物场景的工具，虽然前期投入大，但能精准解决行业痛点，形成差异化竞争力。

与此同时，生物 AI 的竞争本质是数据处理能力的竞争，很多企业忽视数据库、搜索工具等隐形基建的投入，导致研发过程频繁卡壳。

百图生科采用专业工具组合策略：Milvus 负责向量搜索，NebulaGraph 处理知识图谱，LangGraph 支撑智能代理，各环节选用最优工具，也更能适应生物 AI 复杂多样的需求。

未来，依托 Milvus 搭建的技术基础，百图生科计划将 AI 能力延伸至生命科学的全链条：

包括但不限于帮药企提速药物研发，助医院优化临床研究、患者数据分析，给合成生物公司升级生物体设计、生产，为农业生物改良作物、精进基因分析等等。基于稳定高效的基础设施，百图生科的目标是把技术转化为真正解决行业问题的可落地方案。

百图生科：如何搭建针对50亿蛋白质序列、上亿文献的AI检索系统

01

AI落地生物医学，有哪些门槛

02

why Milvus？

03

三大场景落地

04

成效

05

尾声

评论