Google Cloud 和斯坦福大学的研究人员提出了 CHASE-SQL：一种用于文本到 SQL 中的多路径推理和偏好优化候选选择的 AI 框架

通讯员 2024-10-17

563

连接人类语言和结构化查询语言（SQL）的重要桥梁是文本到 SQL。在它的帮助下，用户可以将他们用普通语言的查询转换为数据库可以理解和执行的 SQL 命令。这项技术使用户更容易与复杂的数据库交互，这对于不精通 SQL 的人来说特别有用。此功能提高了数据的可访问性，允许用户为机器学习应用程序提取重要特征、生成报告、获得见解并进行有效的数据分析。

LLMs 用于更广泛的代码生成上下文中，以生成大量潜在输出，从中选择最佳输出。虽然产生几个候选人通常是有益的，但选择最佳输出的过程可能很困难，并且选择标准对于结果的质量至关重要。研究表明，提供最一致的答案与实际准确的答案之间存在显着差异，这表明需要改进选择技术来提高性能。

为了解决与提高文本到 SQL 作业的 LLMs，来自 Google Cloud 和斯坦福大学的一组研究人员创建了一个名为 CHASE-SQL 的框架，该框架结合了复杂的技术来改进 SQL 查询的创建和选择。该方法采用多智能体建模技术，在测试过程中利用 LLMs，有助于改进生成各种高质量、多样化的 SQL 候选者并选择最准确的 SQL 的过程。

CHASE-SQL 使用三种不同的方法，利用 LLMs来生成大量潜在的 SQL 候选者。分而治之策略是第一种方法，它将复杂的查询分解为更小、更易于管理的子查询。这使得单个 LLM一次调用中有效地管理多个子任务，从而简化原本过于复杂而无法直接回答的查询的处理。

第二种方法使用模拟数据库引擎的查询执行逻辑的思维链推理模型。此方法通过将 LLM。通过使用这种基于推理的生成技术，可以更好地设计 SQL 查询以符合用户请求的预期逻辑。

实例感知综合示例生成方法是第三种方法。使用这种方法，模型在小样本学习期间接收特定于每个测试问题的自定义示例。通过增强 LLM 对其所查询数据库的结构和上下文的理解，这些示例可以更精确地生成 SQL。该模型能够生成更高效的 SQL 命令，并通过利用与每个查询特别相关的示例来导航数据库架构。

这些技术用于生成 SQL 查询，然后 CHASE-SQL 使用选择代理来识别最佳候选者。通过对许多候选查询进行成对比较，该代理使用微调的 LLM 来确定哪个查询最正确。选择代理评估两个查询对，并决定哪个查询对作为选择过程的二元分类方法的一部分更优越。使用此策略更有可能从生成的可能性中选择正确的 SQL 命令，因为它比其他选择策略更可靠。

总之，CHASE-SQL 通过生成比以前的方法更准确的 SQL 查询，为文本到 SQL 的速度设定了新的基准。特别是，CHASE-SQL 在 BIRD Text-to-SQL 数据集测试集上获得了 73.0% 的顶级执行准确率评级，在开发集中获得了 73.01% 的顶级执行准确率评级。这些结果使 CHASE-SQL 成为数据集排行榜上的顶级方法，证明了它能够将 SQL 与普通语言连接起来以进行复杂的数据库交互。

查看论文。这项研究的所有功劳都归功于该项目的研究人员。

文章作者：Tanya Malhotra

2024年10月12日

sql

最后修改时间：2024-10-17 17:05:15

文章转载自通讯员，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

Google Cloud 和斯坦福大学的研究人员提出了 CHASE-SQL：一种用于文本到 SQL 中的多路径推理和偏好优化候选选择的 AI 框架

评论