基于层次过滤与标签语义扩展的大模型零样本重排序方法

doi:10.11772/j.issn.1001-9081.2025010082

《计算机应用》唯一官方网站

• • 下一篇

基于层次过滤与标签语义扩展的大模型零样本重排序方法

谢欣冉¹,崔喆²,陈睿¹,彭泰来¹,林德坤²

1. 中国科学院大学成都计算机应用研究所
2. 中国科学院成都计算机应用研究所

收稿日期:2025-01-21 修回日期:2025-03-12 发布日期:2025-04-27 出版日期:2025-04-27
通讯作者: 谢欣冉
基金资助:
四川省自然科学基金项目

Zero-shot re-ranking by large language model with hierarchical filtering and label semantics extension

Received:2025-01-21 Revised:2025-03-12 Online:2025-04-27 Published:2025-04-27
Supported by:
Natural Science Foundation of Sichuan Province

摘要/Abstract

摘要： 针对大语言模型(LLM)在零样本重排序任务中存在的标签语义理解不足、关系建模模糊及计算成本过高问题，提出基于层次过滤与标签语义扩展的HFLS重排序方法。通过构建多级标签语义扩展路径，设计“关键词匹配→语义关联→领域知识整合”的递进式提示策略，引导LLM实现深度相关性推理；同时引入分层过滤机制，在降低计算复杂度的同时保留高潜力候选文档。实验结果表明：在TREC DL 2019等7个基准数据集上，HFLS相较于Pointwise.qg、Pointwise.yes_no和Pointwise.3Label等Pointwise方法，NDCG@10指标平均提升21.92%、13.43%、8.59%。推理效率方面，单个查询处理时延较Listwise方法降低91.06%，较Pairwise方法降低68.87%，较Setwise方法降低33.54%。

关键词: 大语言模型, 零样本学习, 重排序, 信息检索, 提示工程

Abstract: To address the challenges of insufficient label semantics understanding, vague relationship modeling, and high computational costs in zero-shot re-ranking tasks for large language models (LLMs), a hierarchical filtering and label semantics extension approach named HFLS was proposed. A multi-level label semantic extension path was constructed, and a progressive prompting strategy ("keyword matching → semantic association → domain knowledge integration") was designed to guide LLM in deep relevance reasoning. A hierarchical filtering mechanism was introduced to reduce computational complexity while retaining high-potential candidate documents. Experimental results indicate that on seven benchmark datasets (e.g., TREC DL 2019), HFLS achieves average gains of 21.92%, 13.43% and 8.59%in NDCG@10 compared to Pointwise methods like Pointwise.qg, Pointwise.yes_no, and Pointwise.3Label. In terms of inference efficiency, the processing latency per query is reduced by 91.06% compared to Listwise methods, 68.87% compared to Pairwise methods, and 33.54% compared to Setwise methods.

Key words: large language model, zero-shot learning, re-ranking, information retrieval, prompt engineering.

中图分类号:

TP391.3

谢欣冉崔喆陈睿彭泰来林德坤. 基于层次过滤与标签语义扩展的大模型零样本重排序方法[J]. 计算机应用, DOI: 10.11772/j.issn.1001-9081.2025010082.

[1]	张滨滨, 秦永彬, 黄瑞章, 陈艳平. 结合大语言模型与动态提示的裁判文书摘要方法[J]. 《计算机应用》唯一官方网站, 2025, 45(9): 2783-2789.
[2]	冯涛, 刘晨. 自动化偏好对齐的双阶段提示调优方法[J]. 《计算机应用》唯一官方网站, 2025, 45(8): 2442-2447.
[3]	孙雨阳, 张敏婕, 胡婕. 基于语义前缀微调的零样本对话状态跟踪领域迁移模型[J]. 《计算机应用》唯一官方网站, 2025, 45(7): 2221-2228.
[4]	孙熠衡, 刘茂福. 基于知识提示微调的标书信息抽取方法[J]. 《计算机应用》唯一官方网站, 2025, 45(4): 1169-1176.
[5]	何静, 沈阳, 谢润锋. 大语言模型幻觉现象的识别与优化[J]. 《计算机应用》唯一官方网站, 2025, 45(3): 709-714.
[6]	陈维, 施昌勇, 马传香. 基于多模态数据融合的农作物病害识别方法[J]. 《计算机应用》唯一官方网站, 2025, 45(3): 840-848.
[7]	秦小林, 古徐, 李弟诚, 徐海文. 大语言模型综述与展望[J]. 《计算机应用》唯一官方网站, 2025, 45(3): 685-696.
[8]	袁成哲, 陈国华, 李丁丁, 朱源, 林荣华, 钟昊, 汤庸. ScholatGPT：面向学术社交网络的大语言模型及智能应用[J]. 《计算机应用》唯一官方网站, 2025, 45(3): 755-764.
[9]	张学飞, 张丽萍, 闫盛, 侯敏, 赵宇博. 知识图谱与大语言模型协同的个性化学习推荐[J]. 《计算机应用》唯一官方网站, 2025, 45(3): 773-784.
[10]	张艳萍, 陈梅芳, 田昌海, 易子博, 胡文鹏, 罗威, 罗准辰. 面向军事领域知识问答系统的多策略检索增强生成方法[J]. 《计算机应用》唯一官方网站, 2025, 45(3): 746-754.
[11]	曹鹏, 温广琪, 杨金柱, 陈刚, 刘歆一, 季学纯. 面向测试用例生成的大模型高效微调方法[J]. 《计算机应用》唯一官方网站, 2025, 45(3): 725-731.
[12]	孙晨伟, 侯俊利, 刘祥根, 吕建成. 面向工程图纸理解的大语言模型提示生成方法[J]. 《计算机应用》唯一官方网站, 2025, 45(3): 801-807.
[13]	董艳民, 林佳佳, 张征, 程程, 吴金泽, 王士进, 黄振亚, 刘淇, 陈恩红. 个性化学情感知的智慧助教算法设计与实践[J]. 《计算机应用》唯一官方网站, 2025, 45(3): 765-772.
[14]	马灿, 黄瑞章, 任丽娜, 白瑞娜, 伍瑶瑶. 基于大语言模型的多输入中文拼写纠错方法[J]. 《计算机应用》唯一官方网站, 2025, 45(3): 849-855.
[15]	鲁超峰, 陶冶, 文连庆, 孟菲, 秦修功, 杜永杰, 田云龙. 融合大语言模型和预训练模型的少量语料说话人-情感语音转换方法[J]. 《计算机应用》唯一官方网站, 2025, 45(3): 815-822.

基于层次过滤与标签语义扩展的大模型零样本重排序方法

Zero-shot re-ranking by large language model with hierarchical filtering and label semantics extension

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics