• • 下一篇
李成华1,张浏鹏2,石鸿凌1
摘要: 自然语言转换结构化查询语言(NL2SQL)能降低非专业人员操作数据库的技术门槛,提升用户体验和工作效率。检索增强生成(RAG)技术通过引入外部知识库可提升NL2SQL的性能。针对目前RAG在NL2SQL落地应用中存在检索策略漏检率高、召回上下文的相关性不强等问题,提供一种分序检索重排序的RAG(RAG-SRR),该方法从知识库构建、检索召回策略、提示词设计等环节进行优化。首先,从问答对、专业名词、数据库结构三个方面进行领域知识库的构建,问答对根据文物艺术品拍卖监管高频处理和查询的问题构建,专业名词根据拍卖行业标准构建,数据库结构根据雅昌艺术拍卖网数据构建;其次,在检索阶段采取分序检索的策略,对三类知识库设置不同的优先级,且在召回阶段将检索的信息进行重排序;最后,在提示词设计中给出提示词优化设计的原则及提示词模板。实验结果表明,在领域数据集和Spider数据集中,RAG-SRR与基于BERT模型和RESDSQL模型的执行准确率至少分别提高了19.50、24.20和12.17、8.90个百分点,在相同大模型下,RAG-SRR比未优化的RAG的执行准确率至少分别提高了12.83、16.33个百分点,与DIN-SQL等方法的执行准确率至少分别提高了0.30和3.90个百分点。可见RAG-SRR方法具备较强的实用性和可移植性。
中图分类号: