暂无图片
暂无图片
2
暂无图片
暂无图片
暂无图片

Trilemma 权衡:一个新的向量数据库 CAP 定理已经出现

原创 通讯员 2023-06-05
565

Charles Xie 是Zilliz的首席执行官,也是开源向量数据库 Milvus 的发明者。

三难困境无处不在。Trilemmas 被定义为在三个不利选项中的强制单一选择或在有利选项中的三选二的唯一选择,三难选择涉及权衡。后者在任何给定情况下只能获得三个好处中的两个,在不同行业以不同方式普遍存在。

例如,在能源领域,一个常见的三难困境需要在可靠性、可负担性和可持续性之间做出选择。可靠且负担得起的能源选择,如汽油动力汽车,往往不太可持续。一种可持续且负担得起的选择,如电动日产聆风,几乎没有汽油驱动的本田思域的范围。尽管特斯拉车型接近可比范围,但价格大大超过了思域的价格——因此以负担得起的价格换取了可靠性。

在食品行业,一个不同的三难困境涉及导致气候变化的食品生产脱碳、安全地向不断增长的人口供应蔬菜和蛋白质以及稳定负担得起的价格。选择你的两个。

众所周知,在经济学中,固定汇率、资本管制的缺失和独立的货币政策似乎不可能同时存在。

在计算中,不可征服的三难困境体现在著名的分布式系统 CAP 定理中,也称为Brewer 的 CAP 定理这表明任何分布式数据库只能获得三个保证中的两个:一致性、可用性和分区容错性。一致性保证所有客户端同时访问相同的数据,而不管它们与哪个节点通信。可用性要求每个客户端都能收到对其请求的有效响应,即使某些节点已关闭。当两个节点之间发生断开连接时,分区容错性可确保集群继续工作。到了紧要关头,银行会牺牲可用性,因为一致性是神圣不可侵犯的,分区容忍度是非功能性的必要条件。另一方面,电子商务零售商可能会牺牲其在不同视图中的库存一致性,以保持其网站上的数据可用。

有了 CAP 定理,实际上所有的三难困境,用例本身就是关键的决定因素——明确了无论如何必须保留三个特征中的哪两个。

现在,在以越来越快的速度向我们袭来的人工智能驱动的世界中,新技术和新用例已经浮出水面了一个新的 CAP 定理。

向量数据库按自己的规则运行

向量数据库是一种范式转变的新型数据库管理,它使我们能够利用对象存储中未开发的大量非结构化和半结构化数据。从 AI 模型生成的向量嵌入使瞬间、可扩展的相似性搜索成为可能,它可以根据最近的匹配在大量数据中找到相似的项目。几乎所有企业的开发人员都可以构建人工智能应用程序,利用向量数据库搜索和分析非结构化数据,用于研究、销售、营销和安全等目的。

与其他三难问题和传统 CAP 定理一样,向量数据库的新 CAP 定理将我们置于一种需要平衡三个相互冲突的优先级的高风险游戏中。通过与 1000 多家企业用户的交流,我们 Zilliz 制定了这个新的 CAP 定理,该定理对成本效益 (C)、准确性 (A) 和性能 (P) 进行了三角测量。

• 成本效益——更快的硬件成本更高,但可以为您提供更高的准确性和更好的性能。

• 准确性——在向量数据库中有不同的索引向量的方法;有些提供出色或完美的准确性,而另一些则意味着以牺牲准确性为代价来快速运行。

• 性能——高性能等同于高查询速度和高吞吐量。

在技术发展的这一点上,向量数据库不可能同时保证所有这三个特性。考虑到向量数据库计算量大,可以在不同类型的硬件上运行。对于处理,CPU 最慢,GPU 更快,而 FPGA 和 ASIC 最快。

CAP 优先级取决于用例

这三个基本特征中的哪两个成为部署向量数据库的优先事项取决于手头的特定用例。为了说明差异,探索三个场景(CA、AP 和 CP)很有用。

• CP -优先考虑成本效益和准确性的向量数据库部署对推荐系统很有意义。面向用户的推荐系统正变得越来越普遍。对于产品推荐,高成本效益对于在服务数百万客户时帮助降低价格至关重要,而高性能(快速查询)对于良好的用户体验是必要的。

• CA -优先考虑成本效益和准确性的向量数据库部署对分子搜索很有意义。研究科学家使用这种搜索来帮助新药发现等应用。与推荐系统不同,高性能不是必需的,但查询数据库应该始终以尽可能低的硬件成本返回最准确的结果。

• AP——最后但同样重要的是,优先考虑准确性和性能的向量数据库部署对于欺诈检测非常有意义。对于实时欺诈检测等应用程序,单个真阴性或假阳性可能会产生可怕的后果,因此使用更昂贵的硬件(即 GPU/ASIC)最大限度地提高性能和准确性具有经济意义。

随着越来越多的企业和 SMB 用户将向量数据库添加到他们的应用程序中以推进 AI 驱动的问题解决和创新,每个 CAP 组合的更多用例将得到充实。向量数据库的新 CAP 定理仍将是一个可预测的三难困境。企业在以前所未有的方式将非结构化数据用于工作时,应该预见到未来。


文章作者:Charles Xie 是Zilliz的首席执行官,也是开源向量数据库 Milvus 的发明者。

文章来源:https://www.forbes.com/sites/forbestechcouncil/2023/06/02/trilemma-trade-offs-a-new-cap-theorem-for-vector-databases-has-emerged/?sh=2e9eb8209849






「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论