刷新世界纪录：口述中文转SQL，准确率高达92%，

一叶扁舟 2019-10-14

6630

在追一科技主办的首届中文NL2SQL挑战赛上，又一项超越国外水平的NLP研究成果诞生了。

在NL2SQL这项任务上，比赛中的最佳成绩达到了92.19%的准确率，超过英文NL2SQL数据集WikiSQL目前91.8%的最高成绩。

冠军团队从来自CMU、北大、清华、上交、南大、中科大等多所高校和移动、平安、搜狗等公司的1457支参赛队伍中脱颖而出，超过92%的成绩，让比赛评委、复旦大学教授肖仰华惊喜的说：“结果完全超出预期”。

NL2SQL最佳方法揭秘

NL2SQL，也就是把自然语言“翻译”成机器能理解的SQL语句，在人机交互中有巨大的价值，这样的成绩意味着，92.19%的情况下，你说的话都能被机器准确的理解，并给到你想要的答案。

那么，既然机器能理解人话，那从纷繁复杂的数据库中找到资料也是更为容易的事情了。

肖仰华教授说，现在阻碍大数据价值变现的最大难题就是访问数据门槛太高，依赖数据库管理员写复杂的SQL，而且考虑到中文的表述更加多样，中文NL2SQL要比英文难很多。

针对中文NL2SQL的问题，冠军团队的张啸宇在比赛答辩中揭秘了实现的方法：

WikiSQL排行榜上的第一名、来自微软Dynamics 365团队的X-SQL有一些问题，模型框架不完全适配，在value抽取上colume特征不显著，容易抽取混乱。

针对这些问题，冠军团队提出了M-SQL，将原本X-SQL的6个子任务改为8个子任务，并且增加三个子模型，S-num、Value抽取、Value匹配，一次性将query中含有的所有Value抽取出来。

之后进行了一些细节提升，比如在数据预处理方面，将数据、年份、单位、日期、同义词进行修正，统一query的范式；在query信息表达方面，用XLS标记提到CLS标记，这样在线下验证集上准确率提高了0.3个百分点。

用到的预训练模型，则是哈工大发布的BERT-wwm-ext模型。

最终的成果，张啸宇觉得非常满意：“我觉得机器转的比我好，大言不惭的说，已经超过了人类的水平。”

最后修改时间：2019-10-14 17:26:55

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者