文本到SQL解析(英文缩写为Text-to-SQL),旨在将自然语言指令转换为可执行的SQL语句,近年来吸引了越来越多的关注。特别是Codex和ChatGPT在这项任务中取得了令人印象深刻的结果。然而,大多数基准任务(如蜘蛛和维基SQL)专注于数据库表结构的少量数据库内容,导致学术研究和实际应用之间存在差距。

为了弥补这种差距,阿里巴巴联合香港大学等机构推出了 Bird( (BIg Bench for LaRge-scale Database Grounded Text-to-SQL Evaluation)),一个大规模的数据库基准,基于文本到SQL任务,包含12,751对文本到SQL数据对和95个数据库,总大小为33.4GB,跨越37个职业领域。
作者强调数据库价值,突出了脏数据库内容的新的挑战、自然语言问题和数据库内容的外部知识,以及SQL效率,特别是在大规模数据库的背景下。为了解决这些问题,文本到SQL模型必须包括数据库价值理解,而不是语义解析。实验结果证明了数据库价值在生成准确大数据库文本到SQL语句中的 significance。此外,即使最先进的文本到SQL模型(如ChatGPT)仅实现40.08%的执行准确性,仍然远远落后于人类的92.96%,证明仍然存在挑战。此外,作者还提供了效率分析,以提供对生成对行业有益的高效SQL文本的 insights。相信, Bird将促进推进文本到SQL研究的实际应用场景。 Leaderboard和源代码可在以下httpsURL获得。
主页:https://bird-bench.github.io
代码:https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/bird
来自 BIRD 的惊喜
BIRD 缩小了文本到 SQL 研究之间的差距和现实世界的应用程序通过探索三个额外的挑战:1)处理大而脏数据库值,2)外部知识推理,以及 3)优化 SQL 执行效率。
1. Large and Dirty values:由于从中收集 BIRD 的数据库值的真实场景的性质,它们通常保留其原始且经常“脏”的格式。因此,文本到 SQL 的解析器必须首先分析这些值以说明它们的非标准格式,然后再进行推理。


2.外部知识: “account.type = 'OWNER'” 由知识证据可以推断:“贷款条件要求账户类型应该是所有者。”

3. Text-to-Efficient-SQL: BIRD 是第一个 text-to-SQL 基准测试,旨在鼓励语义解析器生成不仅正确而且高效的 SQL 查询。这种对效率的强调在现实世界的数据/业务分析环境中尤其有价值。

与现有的相比,BIRD 提出了更艰巨的挑战基准测试,因为即使是最强大的代码 LM,ChatGPT,也明显低于人类表现。 BIRD 的出现将推动自然语言与真实数据库交互的智能化发展,为面向真实数据库场景的 text-to-SQL 技术提供了进步空间,有助于研究人员开发更先进、更实用的数据库应用。
文章来源:https://bird-bench.github.io/




