专注于将口语英语转换为 SQL 查询的文本到 SQL 解析引起了学术界和商业领袖的兴趣。这种兴趣是由于它能够使新手数据分析师使用自然语言从流行的关系数据库中自动提取所需的信息。神经建模的最新发展,特别是那些使用大型语言模型 (LLM) 的发展,在 Spider 和 WikiSQL 等流行基准测试中产生了出色的结果。例如,在过去三年中,Spider Leaderboard 中表现最好的模型的执行准确率从 53.5% 提高到 85.3%。
他们发现,现代尖端模型仍然需要帮助外推到更复杂、更现实的场景,其中包括嘈杂的材料和庞大的数据库量。此外,需要外部专业知识和逻辑来解开隐藏在巨大数据库值下的秘密。此外,当前的基准测试没有考虑 SQL 执行性能,这在实际应用程序中非常重要,尤其是在大型数据库的情况下。大型语言模型 (LLM) 强大的理解力和编码技能被 Spider 中最新的 SOTA 解析器所利用,这个解析器的卓越性能引出了一个问题:LLM 是否已经可以用作数据库接口?
这些发现促使他们创建了一个新的文本到 SQL 基准,该基准更接近实际情况,并缩小了实验条件与现实条件之间的差距。香港大学、阿里巴巴集团达摩院、香港中文大学(深圳)、麻省理工学院和伊利诺伊大学的研究人员建议BIRD,一个基于Text-to的大规模数据库的Big Bench -SQLs,在本研究中用于实际应用。BIRD共包含95个33.4GB的大型数据库和12751个复杂的信息检索实例,涵盖37个不同的专业学科。然后从合法的分析平台(Kaggle, Relation. vit) 并精心挑选了 15 个以上的关系数据库进行评估。他们依靠众包来获取自然语言命令和给定这些数据库的相关 SQL。
为了帮助注释者更好地掌握数据库内容,他们的数据库专家首先为每个数据库生成一个描述文件,其中列出所有列名、缩写值、值类型和外部知识。然后,他们聘请了一个由数据工程师和数据库学生组成的 SQL 注释团队来创建 SQL 来回答查询。同时,在另一边,他们雇佣和培训母语人士来询问有关这些数据库的问题。他们提供了一种称为有效效率得分 (VES) 的全新统计数据来衡量创建的 SQL 的效率和通常的执行正确性。据他们所知,BIRD 是第一个考虑效率的文本到 SQL 基准测试,它鼓励在大型和嘈杂的数据库内容的设置中使用更有效的查询技术。
现代文本到 SQL 解析器使用两种广泛使用的方法进行评估:使用大型语言模型 (LLM) 的上下文学习,如 Codex (code-DaVinci-002) 和 ChatGPT (get-3.5-turbo) 以及使用 T5 进行微调. 他们的实验结果表明,目前的模型需要帮助才能有效地进行泛化。特别是在开发集和测试集上,仅依赖数据库模式的 Spider SOTA 模型的执行准确率分别仅为 25.88% 和 28.95%。与他们在这个基准测试中也给出的人类表现相比,表现仍然需要赶上。他们敦促更多的研究来解决这个基准中显示的更实际的情况。
原文标题:Can LLM Already Serve as A Database Interface? Meet BIRD: A Big Bench for Large-scale Database Grounded Text-to-SQLs
原文作者: Aneesh Tickoo
原文链接:https://www.marktechpost.com/2023/05/15/can-llm-already-serve-as-a-database-interface-meet-bird-a-big-bench-for-large-scale-database-grounded-text-to-sqls/




