在当今数据驱动的时代,背靠LLM技术的生成式人工智能(GenAI)正迅速演变,引领着行业创新的浪潮。这种演变不仅推动了新技术的发展,也对数据处理提出了更高的要求。「巨杉文档型数据库」基于JSON分布式文档型数据库技术,提供高效的 Vector Search 特性,提升文档型数据库的“RAG检索增强生成”能力。
JSON文档型数据库技术在AI应用中的优势
随着AI技术的快速发展,传统的关系型数据库由于其固化的表格数据结构,开始显现出处理复杂、多变的AI数据的局限性。相比之下,文档型数据库,尤其是基于JSON的数据结构,因其灵活性和架构的可扩展性而成为支持AI场景理想的选择。我们可以看到,OpenAI、文心一言、通义千问、Kimi等国内外知名引擎,都已经将JSON应用于其对外的调用接口,而JSON在云计算、IoT等API调用中也是默认的通用数据传输格式。
数据库业界对于向量数据处理有两种方法:一是建立独立的向量数据库产品,二是基于现有数据库中提供向量数据处理能力。巨杉作为一家聚焦分布式文档型数据库12年的公司,我们的选择自然是在「巨杉文档型数据库」中提供向量数据处理能力,为客户实现更为丰富的增值特性,而非建立新产品。

向量数据的存放格式,天然就可以用 JSON 结构表示,非常适合通过文档型数据库处理。然而,单独使用向量数据,并不能解决业务的全景问题。在业务过程中,向量数据还必须与其他业务数据进行组合使用,才能发挥其价值。因此,「巨杉文档型数据库」基于分布式架构,提供Vector Search向量数据存储及索引能力,可以协助企业驱动业务多元化数据和生成式人工智能(GenAI)进行有效的数据链接,释放全量数据价值。例如:金融机构经常需要处理来自各种渠道的海量异构数据,其中包括:业务历史记录、市场数据、客户信息以及监管文件。
这些数据的结构各不相同,其中包括结构化的表格和自定义报文、半结构化的 JSON 数据、非结构化的文件和图像等。传统的数据库管理方法通常会将这些复杂的数据转换和映射成严格的关系型表格模型。尽管这种方法非常常见,但由于关系型的底层定义,它会导致部分信息失真,或者让数据表述变得异常复杂。更为重要的是,它难以对非结构化数据进行高效的检索。
而 「巨杉文档型数据库」 作为一款分布式文档型数据库,通过 JSON 数据结构来同时管理结构化、半结构化、非结构化等多模数据,配合 Vector Search 向量数据存储及索引能力,将有效地帮助这些企业级应用获得跨数据模型的综合管理能力,从而加速业务系统的研发迭代效率。
RAG需要Vector Search
LLM(大型语言模型)是一种经过大量文本数据训练的深度神经网络模型,能够理解和生成类似人类的文本。然而,LLM 存在一定的局限性,如产生不准确或无根据的信息(幻觉)、使用陈旧数据、无法访问用户的本地数据以及令牌限制。为了解决这些问题,业界提出了检索增强生成 (RAG:Retrieval-Augmented Generation) 架构。
RAG 首先根据输入查询检索相关文档,然后将这些文档作为上下文提供给 LLM,以帮助生成更明智和准确的响应。RAG 通过将模型的反应基于事实信息来最小化幻觉,确保模型的响应反映了可用的最新和准确的信息,允许利用外部数据库或知识库,这些数据库或知识库可以使用用户特定的信息进行更新,并使模型对令牌的使用更加高效。此技术在语言生成、自然语言处理(NLP)、分类及推理等领域展现出其关键价值,通过实时反映应用背景状态,推动GenAI的应用边界扩展。
要发挥 RAG 的最大效用,高效处理和检索向量数据是关键。Vector Search 技术扮演着至关重要的角色,它能够迅速查询和检索大规模向量嵌入数据,满足实时生成响应的需求。生成式人工智能(GenAI)不仅需要高效的Vector向量数据处理能力,还需要与大量可按需灵活变化的业务数据配合,以支持 AI 时代高速迭代的全新业态,为各种应用场景提供技术支持。因此,具备 Vector Search 功能的JSON分布式文档型数据库,无疑将成为未来 RAG 技术发展的重要支撑。通过有效索引和检索向量数据,它能够满足 GenAI 应用的即时性、灵活性和扩展需求;同时,其 JSON 文档数据模型的灵活性可以为业务提供数据结构动态变化的支持,便于快速迭代和新需求的持续开发。
实现RAG私有化数据管理,保护隐私数据安全
在生成式人工智能(GenAI)的快速发展中,数据的角色日益重要。企业需要从庞大的数据集中提取有价值的信息,以驱动智能决策和自动化过程。然而,大型的LLM模型往往需要将数据推送到第三方系统,私有数据的安全性成为了一个日益突出的挑战。
数据安全性的挑战
在AI应用中,私有数据通常包含敏感信息,其安全性直接关系到企业的声誉和客户的信任。使用LLM等引擎时,数据需要在处理过程中得到充分保护,以防数据泄露或被恶意利用。通过在企业内部或私有化部署环境中利用Vector Search处理AI向量数据,企业可以避免将敏感数据外泄给第三方LLM平台,从而降低数据泄露的风险。同时,通过内部处理数据,还可以提高数据处理的效率和响应速度。

基于文档型数据库的Vector Search特性
为了解决这一问题,「巨杉文档型数据库」研发了Vector Search功能,这是一种基于向量的搜索技术,专为AI应用中的复杂数据结构设计。Vector Search包括对大规模向量数据进行高效存储的能,以及专门面向Vector数据的索引和检索能力,支持快速执行复杂的数据查询,适用于各类问答机器人、语义搜索和推荐系统等应用场景。
「巨杉文档型数据库」提供了数据引擎层的数据加密和访问控制机制,确保数据在存储、处理和传输过程中的安全性。这些机制可以保护私有数据不被越权访问,同时支持合规性和审计要求,为企业提供了一个既强大又安全的数据处理平台。
此外,「巨杉文档型数据库」的Vector Search还支持在私有化部署环境中运行,这对于那些对数据安全性有极高要求的企业尤为重要。在私有化部署中,企业可以完全控制数据的存储和处理环境,从而最大限度地减少数据泄露或被恶意利用的风险。
合作创新与技术发展
「巨杉文档型数据库」的Vector Search特性,将协助客户在JSON文档型数据库技术的基础上,为GenAI提供安全、高效的向量数据处理能力,期待与广大合作伙伴及客户共同探索AI技术和数据库技术的融合前景,共创未来。
巨杉相信,通过不断地技术创新和开放的合作态度,能够推动整个行业向前发展,构建一个既安全又高效的数据处理生态系统,支持企业在AI时代的发展需求。通过这一创新,为客户提供更加丰富和安全的数据处理能力,助力企业通过AI数据技术,驱动业务蓬勃发展。




