暂无图片
暂无图片
4
暂无图片
暂无图片
暂无图片

刷新世界纪录:口述中文转SQL,准确率高达92%,

一叶扁舟 2019-10-14
5783

在追一科技主办的首届中文NL2SQL挑战赛上,又一项超越国外水平的NLP研究成果诞生了。

在NL2SQL这项任务上,比赛中的最佳成绩达到了92.19%的准确率,超过英文NL2SQL数据集WikiSQL目前91.8%的最高成绩。

冠军团队从来自CMU、北大、清华、上交、南大、中科大等多所高校和移动、平安、搜狗等公司的1457支参赛队伍中脱颖而出,超过92%的成绩,让比赛评委、复旦大学教授肖仰华惊喜的说:“结果完全超出预期”。


NL2SQL最佳方法揭秘

NL2SQL,也就是把自然语言“翻译”成机器能理解的SQL语句,在人机交互中有巨大的价值,这样的成绩意味着,92.19%的情况下,你说的话都能被机器准确的理解,并给到你想要的答案。

那么,既然机器能理解人话,那从纷繁复杂的数据库中找到资料也是更为容易的事情了。

肖仰华教授说,现在阻碍大数据价值变现的最大难题就是访问数据门槛太高,依赖数据库管理员写复杂的SQL,而且考虑到中文的表述更加多样,中文NL2SQL要比英文难很多。

针对中文NL2SQL的问题,冠军团队的张啸宇在比赛答辩中揭秘了实现的方法:

v2_1571027832747_img_000.jpg

WikiSQL排行榜上的第一名、来自微软Dynamics 365团队的X-SQL有一些问题,模型框架不完全适配,在value抽取上colume特征不显著,容易抽取混乱。

针对这些问题,冠军团队提出了M-SQL,将原本X-SQL的6个子任务改为8个子任务,并且增加三个子模型,S-num、Value抽取、Value匹配,一次性将query中含有的所有Value抽取出来。

之后进行了一些细节提升,比如在数据预处理方面,将数据、年份、单位、日期、同义词进行修正,统一query的范式;在query信息表达方面,用XLS标记提到CLS标记,这样在线下验证集上准确率提高了0.3个百分点。

用到的预训练模型,则是哈工大发布的BERT-wwm-ext模型。

最终的成果,张啸宇觉得非常满意:“我觉得机器转的比我好,大言不惭的说,已经超过了人类的水平。”

最后修改时间:2019-10-14 17:26:55
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论