不一定是专业的SQL语言开发者,也不用局限于传统的条件筛选,交互很简单,说说话,就可以的调用所需数据,甚至完成更复杂的“逻辑”式计算。更重要的,数据库开发和应用的舒适度都有望大大提升。
得益于人工智能和NLP的发展,用自然语言生成可执行的SQL语句,进而挖取数据价值,正成为新兴研究领域。6月3日,国内首届中文NL2SQL挑战赛正式上线启动。
大赛由国内领先的智能语义公司追一科技主办,总金池16.5万,将发布全球首个中文数据集,向高校学生、研究机构、企业开发者,共同推进NLP在数据库交互上的创新研究与普惠应用。
在AI、区块链、IoT、AR等高新技术飞速发展的当下,数据库这一宝库似乎被遗忘在了角落。数据库存储了大量的个人或者企业的生产运营数据,每天都会和数据库产生或多或少的交互。
通常,如果想要查询数据库中的数据,需要通过像SQL这样的程序式查询语言来进行交互,这就需要懂SQL语言的专业技术人员来执行这一操作。
为了让非专业用户也可以按需查询数据库,当前流行的技术方案设计了基于条件筛选的专门界面,用户可以通过点选不同的条件来查询数据库,比如这个筛选汽车的界面。
然而,在这个界面上进行操作,极大地限定了数据库查询的使用场景和查询界限。同时,即使是对于精通数据库程序语言的专业人士,经常构思SQL语句、这样一个查询界面也是一项重复度较高的工作。
在CUI(Conversation User Intece)的大背景下, 如何通过自然语言地查询数据库中的目标数据成为了新兴的研究热点。
在海外,NL2SQL领域的研究,已经取得了一定,发布了WikiSQL、Spider、WikiTableQuestions、ATIS 等诸多公开数据集。一些数据集的准确度,已经达到了90%以上,但很大程度只是抛砖引玉,落地场景价值受限。高价值数据集,难度又令人望而生畏。
作为智能语义的领跑者,追一科技在智能交互上,拥有深厚的积累,包括在对话机器人、阅读理解、文本挖掘等,形成了大量前瞻研究与商业应用案例。对于数据库智能化交互,追一科技将率先发布首个中文NL2SQL数据集。
据了解,本届NL2SQL比赛目标是利用NLP技术来解决数据库交互问题,让非技术背景用户可以通过自然语言的方式与数据库进行交互,打通人与结构化数据间的壁垒,更有效地利用结构化数据,实现人机交互体验升级。比赛过程中会涉及到结构化数据理解、语义理解、数据库交互等多方面的挑战。
追一科技将提供预处理好的有标签数据集及相应的数据库文件,以助力数据驱动型学习。参赛者需要在初赛阶段提交线下预测结果,复赛阶段提交线上预测代码及模型,在不可见的数据集上进行测试,按测试结果进行最终排名。
本次比赛的数据集包含有约4,500张表格、50,000条基于这些表格提出的自然语言问句,以及自然语言问句所对应的SQL语句。数据来源是通过爬取并解析公开数据源中存在的表格,内容则主要覆盖了金融领域及通用领域。
与现有的英文NL2SQL数据集不同的是,本次比赛的数据集包含了更口语化的表达、额外引入表格内容作为输入的一部分,这就要求选手不仅要结合自然语言问句与表结构来正确地预测SQL语句骨架,更需要思考何将自然语言语义与结构化的表格结构及表格内容有效地融合和理解,从而生成正确的SQL语句。
在行业研报、业绩报告、新闻公告、使用说明书等各种书面信息载体上,尤其是金融、快消等行业的各种报告,着许多表格形式的结构化数据。而当用户去查询表格中的内容时,需要去从表格中去筛选满足条件的数据,准确率和效率都较低。
通过NL2SQL,用户在查询这些表格的内容时,可以直接通过自然语言与表格进行交互,并得到结果,用户体验会很自然。
“我们相信,随着NLP进入AI领域研究的焦点,越来越多场景将被解锁,并激发出创新的应用和商业模式。数据库的创新交互,将拥有巨大的潜力。”追一科技联合创始人兼梦见钞票CTO刘云峰表示,此次NL2SQL大赛,只是一个起点,追一科技作为智能语义领跑者,期待与更多NLP和AI开发者一起努力,不断探索NLP赋能新秘境。
新加坡南洋理工大学副教授,谢菲尔德大学博士。在机器学习、文本分析、自然语言处理和信息融合方面拥有20多年经验,发表了大约100篇科学论文。
俞扬博士,南京大学教授,万人计划青年拔尖人才计划。主要研究领域为机器学习、强化学习。获2013年全国优秀博士学位论文、2011年CCF优秀博士学位论文。发表论文40余篇,获得4项国际论文励和2项国际算法竞赛冠军,入选2018年IEEE Intelligent Systems评选的“国际人工智能10大新星”,获2018亚太数据挖掘”青年成就”,受邀在IJCAI’18作关于强化学习的”青年亮点”报告。
东南大学教授、博士生导师,东南大学认知智能研究所所长,英国贝尔法斯特女皇大学博士,发表高水平学术论文 150 余篇。