暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Google Cloud 和斯坦福大学的研究人员提出了 CHASE-SQL:一种用于文本到 SQL 中的多路径推理和偏好优化候选选择的 AI 框架

通讯员 2024-10-17
556

连接人类语言和结构化查询语言 (SQL) 的重要桥梁是文本到 SQL。在它的帮助下,用户可以将他们用普通语言的查询转换为数据库可以理解和执行的 SQL 命令。这项技术使用户更容易与复杂的数据库交互,这对于不精通 SQL 的人来说特别有用。此功能提高了数据的可访问性,允许用户为机器学习应用程序提取重要特征、生成报告、获得见解并进行有效的数据分析。

LLMs 用于更广泛的代码生成上下文中,以生成大量潜在输出,从中选择最佳输出。虽然产生几个候选人通常是有益的,但选择最佳输出的过程可能很困难,并且选择标准对于结果的质量至关重要。研究表明,提供最一致的答案与实际准确的答案之间存在显着差异,这表明需要改进选择技术来提高性能。

为了解决与提高文本到 SQL 作业的 LLMs,来自 Google Cloud 和斯坦福大学的一组研究人员创建了一个名为 CHASE-SQL 的框架,该框架结合了复杂的技术来改进 SQL 查询的创建和选择。该方法采用多智能体建模技术,在测试过程中利用 LLMs,有助于改进生成各种高质量、多样化的 SQL 候选者并选择最准确的 SQL 的过程。

CHASE-SQL 使用三种不同的方法,利用 LLMs来生成大量潜在的 SQL 候选者。分而治之策略是第一种方法,它将复杂的查询分解为更小、更易于管理的子查询。这使得单个 LLM一次调用中有效地管理多个子任务,从而简化原本过于复杂而无法直接回答的查询的处理。

第二种方法使用模拟数据库引擎的查询执行逻辑的思维链推理模型。此方法通过将 LLM。通过使用这种基于推理的生成技术,可以更好地设计 SQL 查询以符合用户请求的预期逻辑。

实例感知综合示例生成方法是第三种方法。使用这种方法,模型在小样本学习期间接收特定于每个测试问题的自定义示例。通过增强 LLM 对其所查询数据库的结构和上下文的理解,这些示例可以更精确地生成 SQL。该模型能够生成更高效的 SQL 命令,并通过利用与每个查询特别相关的示例来导航数据库架构。

这些技术用于生成 SQL 查询,然后 CHASE-SQL 使用选择代理来识别最佳候选者。通过对许多候选查询进行成对比较,该代理使用微调的 LLM 来确定哪个查询最正确。选择代理评估两个查询对,并决定哪个查询对作为选择过程的二元分类方法的一部分更优越。使用此策略更有可能从生成的可能性中选择正确的 SQL 命令,因为它比其他选择策略更可靠。

总之,CHASE-SQL 通过生成比以前的方法更准确的 SQL 查询,为文本到 SQL 的速度设定了新的基准。特别是,CHASE-SQL 在 BIRD Text-to-SQL 数据集测试集上获得了 73.0% 的顶级执行准确率评级,在开发集中获得了 73.01% 的顶级执行准确率评级。这些结果使 CHASE-SQL 成为数据集排行榜上的顶级方法,证明了它能够将 SQL 与普通语言连接起来以进行复杂的数据库交互。



查看论文。这项研究的所有功劳都归功于该项目的研究人员。


文章作者:Tanya Malhotra

2024年10月12日


最后修改时间:2024-10-17 17:05:15
文章转载自通讯员,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论