暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

【案例:墨奇科技】推出托管向量数据库,加码生成式 AI

亚马逊云科技 2024-05-20
813


大语言模型飞速发展,向量数据库

在检索增强生成(RAG)中扮演重要的角色


大语言模型的快速发展与生成式 AI 带来的科技革新浪潮已经为各行业创造出了新的机遇。但一些大语言模型无法掌握最新的信息,对于一些需要高精准度的使用场景来说,构建生成式 AI 应用依然存在着挑战。


检索增强生成(RAG)技术能够从大规模的知识库中精确的提取信息,并生成富有洞察力的答案,而检索增强生成(RAG)的核心就是向量数据库,通过特殊的数据结构与索引策略,对向量数据进行组织与检索,从而低成本高效率的提升大语言模型的质量。



助力人工智能创新,墨奇科技让企业

可以通过 SQL 构建企业级生成式 AI 应用


MyScaleDB 是墨奇科技打造的 SQL 向量数据库,使开发人员能够使用熟悉的 SQL 构建生产就绪且可扩展的生成式 AI 应用程序。构建在 ClickHouse 之上,并针对生成式 AI 应用和解决方案进行了优化,使开发人员能够有效管理和处理海量数据。


作为一种流行的开源分析数据库,ClickHouse 由于其列式存储具有高级压缩、跳过索引和 SIMD 处理功能,在大数据处理和分析方面具备出色的性能。与 PostgreSQL 和 MySQL 等使用行存储和主要优化进行事务处理的事务数据库不同,ClickHouse 具有更快的分析和数据扫描速度。结构化搜索和向量搜索相结合的关键操作之一是过滤搜索,即首先按其他属性进行过滤,然后对剩余数据执行向量搜索。列式存储和预过滤对于确保过滤搜索的高精度和高性能至关重要,这就是墨奇科技选择在 ClickHouse 之上构建 MyScaleDB 的原因。



MyScaleDB 能够为生成式 AI 项目的构建提供以下核心优势:


完全兼容 SQL: 

  • 快速、强大、高效的向量搜索、过滤搜索和 SQL + 向量联合查询;

  • 使用 SQL 及向量相关的函数与 MyScaleDB 交互,无需学习复杂的新工具或框架。


为生成式 AI 应用提供生产级别的特性和保障: 

  • 以一个统一平台来管理和处理结构化数据和文本、向量、JSON、地理空间、时间序列等非结构化/半结构化数据;
  • 通过将向量与丰富的元数据相结合,可以在任意比率下执行高精度、高效率的过滤搜索,提高了 RAG 系统的准确性。


无与伦比的性能和可扩展性: 

  • MyScaleDB 利用先进的 OLAP 数据库架构和高级向量算法,实现了快速的向量操作;
  • 着数据的增长,以轻松且高成本效益地方式扩展你的应用程序。


经过近 6 年的开发和数次版本迭代,墨奇科技在近期已经将 MyScaleDB 开源,欢迎所有开发者和企业用户在 GitHub 上星,并开启使用 SQL 构建生产级生成式 AI 应用的新玩法!

识别二维码

查看 GitHub 上的 MyScaleDB 项目


在亚马逊云科技上提供完全托管的向量数据库


墨奇科技加入了亚马逊云科技合作伙伴网络,获得了一系列的支持和资源。依托于亚马逊云科技广泛和稳定云服务,墨奇科技可以将 MyScaleDB 与云的优势整合在一起,为企业用户提供云上托管的向量数据库,并与更多的亚马逊云科技合作伙伴以及客户建立紧密的关系。此外,墨奇科技也是国内第一批拿到生成式 AI 能力认证的合作伙伴,在未来将携手亚马逊云科技,不断推动合作伙伴与用户在生成式 AI 上的创新。


MyScaleDB 作为一款由亚马逊云科技合作伙伴提供,托管在亚马逊云科技上的向量数据库,为结构化和非结构化数据的处理提供了强大的功能。MyScaleDB 在 ClickHouse 的基础上集成了专有的多尺度树图(MSTG)向量索引算法,以及强大的数据管理和结构化数据查询功能,使其非常适合例如图像检索、视频分析和自然语言理解等人工智能驱动的使用场景。


MyScaleDB 的所有服务器都部署在由亚马逊云科技的托管 Kubernetes 服务 Amazon EKS 上,以提供安全、高度可用且可扩展的 Kubernetes 环境。因此,MyScaleDB 可以充分利用 Kubernetes 的服务发现、负载均衡、自动伸缩和安全隔离等功能所带来的各项优势。不仅如此,MyScaleDB 也在数据平面上采用了 Kubernetes 的命名空间功能来为用户集群实现隔离。每个 MyScaleDB 集群对应一个唯一的 Kubernetes 命名空间,以尽可能地减少集群之间的影响,使每个集群都具备包含数据库节点、负载均衡服务和元数据存储服务等自己专用的命名空间。


“我们很开心能将 MyScaleDB 开源,通过开源我们的技术,以及与亚马逊云科技的合作关系,我们希望促进 AI 开发者之间的创新与合作,最终实现在 AI 数据管理和分析领域的突破性解决方案。”

——墨奇科技(北京)有限公司 CTO  汤林鹏


在为向量数据库优化性能方面,墨奇科技使用了带有基于 NVMe 的本地 SSD 磁盘的 Amazon EC2 实例来部署 MyScale 数据库。与大多数向量数据库选择纯内存 HNSW 向量索引算法不同,MyScale 的 MSTG 算法允许向量数据缓存在本地 NVMe SSD 磁盘上,通过利用亚马逊云科技在存储方面的良好性能表现为用户提供高性能向量搜索,同时可以显著的帮助客户节约内存的用量。墨奇科技利用 Crossplane 部署和管理托管在 Amazon EC2 和 Amazon EKS 上的 MyScaleDB 云服务,让云资源通过 Crossplane 以声明性、统一和自动化的方式进行配置,大幅提高了准确性和生产力。


“向量数据处理是大模型基础设施的关键部分,而 SQL 可以为应用程序开发人员提供显著的可扩展性和便利性。MyScale 在这方面做出了显著的贡献。随着开源版本 MyScaleDB 的发布,开发人员将可以利用结构化数据的价值与不同的大模型结合,以实现多样化的用例,从而用更低的成本和更快的创新节奏来获得更好的性能。”

——亚马逊云科技大中华区解决方案总经理  代闻


在安全性方面,MyScaleDB 使用 Teleport,这是一种用于数据安全的高级远程访问管理系统。通过将 Teleport 与 Kubernetes 集群的安全连接,提升系统安全性和操作简便性。Teleport 还提供全面的审核功能,详细记录所有会话和事件,对于安全分析和合规性要求。


目前,墨奇科技的 MyScaleDB 产品已经正式上架亚马逊云科技 Marketplace,用户可以通过软件即服务(SaaS)的交付选项快速体验该向量数据库的魅力,并将其应用到自己的生成式 AI 应用中。


未来,墨奇科技将与亚马逊云科技在生成式 AI 与大语言模型领域进行更多深入的合作,通过融合双方的技术优势与创新,用向量数据库与增强检索生成(RAG)为基于大语言模型的生成式 AI 应用提供更多支持,帮助企业用更低的成本构建生成式 AI 应用,并从生成式 AI 与业务的结合中获得更加高效与便捷的体验。


关于 墨奇科技

墨奇科技是领先的 AI 基础技术和平台公司。自 2016 年创建,始终以“探寻人工智能本身的机理,以创新改变世界”为使命。在这个使命下,墨奇科技致力于构建先进的新型 AI 知识数据库,自动化地处理机器知识,让企业可以便捷的应用人工智能获得数据洞察,加快 AI 时代的智慧产业升级步伐。同时,墨奇科技基于 AI 知识数据库,构建了能为数十亿人提供保护隐私、安全可靠的下一代身份识别和认证平台,统一物理和数字身份,为建设智慧信用社会提供技术支撑。


2024亚马逊云科技中国峰会重磅来袭!

码上报名  即刻预约参会

年度必看的科技盛会,点击下方小程序即刻参会!

期待你的分享  收藏  在看  点赞

让我们共同见证亚马逊的一小步,云计算的一大步!

文章转载自亚马逊云科技,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论