暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据转化方法、数据转化系统、电子设备及可读存储介质的专利解读

原创 爱可生 2024-07-25
167

背景信息

自然语言被公认为是许多领域的最佳交互方式。至今仍不存在一个通用模型能连接自然语言和任意领域。无论是否精通SQL查询语言,如能通过自然语言链接关系型数据库,将会简化大量现有工作。随着深度学习技术的兴起,开始涌现大量研究自然语言连接关系型数据库的工作。SQL语言是当前使用的关系数据库的主要查询语言。自然语言到SQL的映射可视为语义解析问题(Andreas, Vlachos et al., 2013)。语义解析是长期存在且在自然语言处理(NLP)中被广泛研究的问题。因此,它引起了学术界和业界的广泛关注,特别是将自然语言转换为SQL查询。当今时代,从金融、电子商务到医疗领域,大量数据都存储在关系型数据库中。在数据库查询过程中,用户通常使用自然语言提出查询请求。然而,将自然语言直接转换为可执行的SQL查询是一个具有挑战性的任务。传统的Text2SQL方法通过单词问答在处理复杂或语义模糊的查询时存在限制,导致无法准确转换成正确的SQL查询语句。因此,需要一种新的方法和系统来提高Text2SQL的准确性和效率。

综上,本方案提出任务拆解多轮对话的优化方案,希望结合大模型,向量检索和提示词工程,有效提高Text2SQL的准确率。

技术方案

大语言模型(Large Language Model,简称LLM)是旨在理解和生成人类语言的人工智能模型。它们通过在大量的文本数据上进行训练,可以执行广泛的任务,如文本总结、翻译和情感分析。LLM的规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器(Transformer),这有助于它们在各种自然语言处理(NLP)任务上取得令人印象深刻的表现。

在向量检索技术的支持下,通过多轮对话机制,系统可以与用户交互获取更多的查询信息,明确查询的意图和上下文。同时,通过任务拆解,能够处理更为复杂的问题,从而生成更准确、更完整的SQL语句。这在Text2SQL任务中表现得尤为突出。

Text2SQL旨在将自然语言查询转化为数据库查询语言(SQL)。例如,对于英语查询 "Who is the oldest employee in the company?",Text2SQL技术的目标是将其转化为SQL查询 "SELECT MAX(age) FROM employees"。这使得即使没有数据库查询语言知识的人也能方便地获取数据库中的信息。Text2SQL是语音助手、聊天机器人等许多自动化工具的关键技术。

具体策略如下:

  1. 提取问题关键词:用户提交查询问题,并选择查询中涉及的关键词。

    • 例如,针对问题 "What’s the most popular project on GitHub?",提取的关键词可能是 "popular project GitHub"。

  2. 向量化表示:对关键词和结构化数据(库表字段)进行向量表示,将其映射到语义空间中。

  3. 相似度计算:使用向量检索技术计算关键词与结构化数据(库表字段)的相似度,确定候选列表,包含所有候选的字段。

  4. 多轮对话处理

    • 第二次对话:从候选的1000个字段中选择更精确的10个。

    • 字段选择后,结构化表示成字符串格式的表格。

    • 第三次对话:用户选择哪些表格可以被用到。

    • 第四次对话:综合保留的表格和用户的查询问题。

  5. 结果整合和返回:将子查询的结果整合并返回给用户,完成Text2SQL转换。

通过这种方式,我们使用预训练的大语言模型结合向量检索、提示词工程和任务拆解技术,不仅能够更好地处理复杂语义和多轮对话查询,还能提高Text2SQL的转换准确性和用户体验。同时,系统的任务拆解和子查询生成策略能够针对复杂查询提供更精细的查询语句,进一步提升查询效果。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论