• • 下一篇
龚永罡,陈舒汉*,廉小亲,李乾生,莫鸿铭,刘宏宇
摘要: 大语言模型(LLM)在中文开放领域实体关系抽取任务中存在抽取性能不稳定的问题,对某些特定领域文本和标注类别的识别精准率较低。因此,提出一种基于LLM的中文开放领域实体关系抽取策略——基于LLM多级对话策略(MLDS-LLM)。该策略利用LLM优秀的语义理解和迁移学习能力,通过多轮不同任务的对话实现实体关系抽取。首先,基于开放领域文本结构化逻辑和思维链机制,使用LLM生成文本摘要,避免模型产生关系、事实幻觉和无法兼顾后文信息的问题;其次,通过文本简化策略并引入可替换词表,减少上下文窗口的限制;最后,基于结构化摘要和简化文本构建多级提示模板,使用LLaMA-2-70B模型探究参数temperature对实体关系抽取的影响。测试了LLaMA-2-70B使用所提策略前后实体关系抽取的精准率(P)、召回率(R)、综合性能指数(F1)和精确匹配(EM)。实验结果表明,在CL-NE-DS、DiaKG、CCKS2021、DulE和IEPA这5个不同领域的中文数据集上,所提策略提升了LLM在命名实体识别(NER)和关系抽取(RE)的性能。特别是在专业性强、模型零样本测试结果不佳的DiaKG和IEPA数据集,在应用所提策略后,相较于少样本提示测试,命名实体识别的P值分别提升了9.3%和6.7%,EM值提升2.7%和2.2%;关系抽取的P值分别提升了12.2%和16.0%,F1值则分别提升了10.7%和10.0%。实验结果验证了所提策略能有效提升LLM实体关系抽取的效果并解决模型性能不稳定的问题。
中图分类号: