《计算机应用》唯一官方网站 ›› 2025, Vol. 45 ›› Issue (6): 1741-1747.DOI: 10.11772/j.issn.1001-9081.2024070917
• 第十二届CCF大数据学术会议 • 上一篇
詹力林1,2,3, 秦永彬1,2,3(), 黄瑞章1,2,3, 王华1,2,3, 陈艳平1,2,3
收稿日期:
2024-06-29
修回日期:
2024-07-25
接受日期:
2024-08-02
发布日期:
2024-08-22
出版日期:
2025-06-10
通讯作者:
秦永彬
作者简介:
詹力林(2002—),男,贵州盘州人,硕士研究生,CCF会员,主要研究方向:自然语言处理、信息检索基金资助:
Lilin ZHAN1,2,3, Yongbin QIN1,2,3(), Ruizhang HUANG1,2,3, Hua WANG1,2,3, Yanping CHEN1,2,3
Received:
2024-06-29
Revised:
2024-07-25
Accepted:
2024-08-02
Online:
2024-08-22
Published:
2025-06-10
Contact:
Yongbin QIN
About author:
ZHAN Lilin, born in 2002, M. S. candidate. His research interests include natural language processing, information retrieval.Supported by:
摘要:
针对现有的类案检索(LCR)方法缺乏对案情要素的有效利用而容易被案例内容的语义结构相似性误导的问题,提出一种融合时序行为链与事件类型的类案检索方法。首先,采取序列标注的方法识别案情描述中的法律事件类型,并利用案例文本中的行为要素构建时序行为链,以突出案情的关键要素,从而使模型聚焦于案例的核心内容,进而解决现有方法易被案例内容的语义结构相似性误导的问题;其次,利用分段编码构造时序行为链的相似性向量表征矩阵,从而增强案例间行为要素的语义交互;最后,通过聚合评分器,从时序行为链、法律事件类型、犯罪类型这3个角度衡量案例的相关性,从而增加案例匹配得分的合理性。实验结果表明,相较于SAILER(Structure-Aware pre-traIned language model for LEgal case Retrieval)方法,所提方法在LeCaRD(Legal Case Retrieval Dataset)上的P@5值提升了4个百分点、P@10值提升了3个百分点、MAP值提升了4个百分点,而NDCG@30值提升了0.8个百分点。可见,该方法能有效利用案情要素来避免案例内容的语义结构相似性的干扰,并能为类案检索提供可靠的依据。
中图分类号:
詹力林, 秦永彬, 黄瑞章, 王华, 陈艳平. 融合时序行为链与事件类型的类案检索方法[J]. 计算机应用, 2025, 45(6): 1741-1747.
Lilin ZHAN, Yongbin QIN, Ruizhang HUANG, Hua WANG, Yanping CHEN. Legal case retrieval method integrating temporal behavior chain and event type[J]. Journal of Computer Applications, 2025, 45(6): 1741-1747.
案例 | 案例内容 | 时序行为链 | 事件类型 |
---|---|---|---|
A | 被告急需钱购房,于是持刀威胁原告交出钱包……(918字) 随后,他殴打了原告使其受伤。 | 持→威胁→交出→ 殴打→受伤 | {持械\持枪、威胁/强迫、伤害人身、受伤} |
B | 被告急需钱购房,于是溜进原告家中偷窃其钱包……(908字) 随后,他被原告发现。 | 溜进→偷窃→发现 | {入户/入室,盗窃财物} |
C | 被告在巷子里劫持了原告,随后持刀刺伤了他,导致原告受伤, 目前住院治疗……(1 608字) | 劫持→持→刺伤→受伤 | {绑架、持械\持枪、伤害人身、受伤} |
表1 时序行为链与事件类型示例
Tab.1 Examples of temporal behavior chain and event type
案例 | 案例内容 | 时序行为链 | 事件类型 |
---|---|---|---|
A | 被告急需钱购房,于是持刀威胁原告交出钱包……(918字) 随后,他殴打了原告使其受伤。 | 持→威胁→交出→ 殴打→受伤 | {持械\持枪、威胁/强迫、伤害人身、受伤} |
B | 被告急需钱购房,于是溜进原告家中偷窃其钱包……(908字) 随后,他被原告发现。 | 溜进→偷窃→发现 | {入户/入室,盗窃财物} |
C | 被告在巷子里劫持了原告,随后持刀刺伤了他,导致原告受伤, 目前住院治疗……(1 608字) | 劫持→持→刺伤→受伤 | {绑架、持械\持枪、伤害人身、受伤} |
参数 | 值 | 参数 | 值 |
---|---|---|---|
3×10-5 | |||
表2 实验参数设置
Tab. 2 Experimental parameters setting
参数 | 值 | 参数 | 值 |
---|---|---|---|
3×10-5 | |||
方法 | P@5 | P@10 | MAP | NDCG@10 | NDCG@20 | NDCG@30 |
---|---|---|---|---|---|---|
BM25 | 0.30 | 0.29 | 0.37 | 0.666 | 0.748 | 0.857 |
BERT | 0.31 | 0.33 | 0.41 | 0.736 | 0.794 | 0.868 |
BERT-Crime | 0.43 | 0.39 | 0.56 | 0.772 | 0.817 | 0.880 |
Lawformer | 0.46 | 0.40 | 0.48 | 0.768 | 0.819 | 0.909 |
BERT-PLI | 0.32 | 0.36 | 0.44 | 0.743 | 0.807 | 0.891 |
BERT-LF | 0.816 | 0.864 | 0.919 | |||
SAILER | 0.46 | 0.44 | 0.56 | |||
本文方法 | 0.50 | 0.47 | 0.60 | 0.842 | 0.882 | 0.932 |
表3 LCR实验结果对比
Tab. 3 Comparison of LCR experimental results
方法 | P@5 | P@10 | MAP | NDCG@10 | NDCG@20 | NDCG@30 |
---|---|---|---|---|---|---|
BM25 | 0.30 | 0.29 | 0.37 | 0.666 | 0.748 | 0.857 |
BERT | 0.31 | 0.33 | 0.41 | 0.736 | 0.794 | 0.868 |
BERT-Crime | 0.43 | 0.39 | 0.56 | 0.772 | 0.817 | 0.880 |
Lawformer | 0.46 | 0.40 | 0.48 | 0.768 | 0.819 | 0.909 |
BERT-PLI | 0.32 | 0.36 | 0.44 | 0.743 | 0.807 | 0.891 |
BERT-LF | 0.816 | 0.864 | 0.919 | |||
SAILER | 0.46 | 0.44 | 0.56 | |||
本文方法 | 0.50 | 0.47 | 0.60 | 0.842 | 0.882 | 0.932 |
方法 | P@5 | P@10 | MAP | NDCG@10 | NDCG@20 | NDCG@30 |
---|---|---|---|---|---|---|
-时序行为链 | 0.44 | 0.54 | 0.822 | 0.877 | 0.921 | |
-事件类型 | 0.872 | 0.922 | ||||
-时序行为链- 事件类型 | 0.42 | 0.43 | 0.49 | 0.820 | 0.830 | 0.910 |
-分段编码 | 0.44 | 0.42 | 0.54 | 0.826 | ||
本文方法 | 0.50 | 0.47 | 0.60 | 0.842 | 0.882 | 0.932 |
表4 消融实验结果
Tab. 4 Ablation experimental results
方法 | P@5 | P@10 | MAP | NDCG@10 | NDCG@20 | NDCG@30 |
---|---|---|---|---|---|---|
-时序行为链 | 0.44 | 0.54 | 0.822 | 0.877 | 0.921 | |
-事件类型 | 0.872 | 0.922 | ||||
-时序行为链- 事件类型 | 0.42 | 0.43 | 0.49 | 0.820 | 0.830 | 0.910 |
-分段编码 | 0.44 | 0.42 | 0.54 | 0.826 | ||
本文方法 | 0.50 | 0.47 | 0.60 | 0.842 | 0.882 | 0.932 |
参数值 | P@5 | P@10 | MAP | NDCG@10 | NDCG@20 | NDCG@30 | ||
---|---|---|---|---|---|---|---|---|
0.1 | 0.1 | 0.8 | 0.50 | 0.45 | 0.835 | 0.932 | ||
0.1 | 0.2 | 0.7 | 0.47 | 0.58 | 0.840 | 0.878 | ||
0.1 | 0.3 | 0.6 | 0.50 | 0.47 | 0.60 | 0.842 | 0.932 | |
0.1 | 0.4 | 0.5 | 0.45 | 0.57 | 0.819 | 0.876 | 0.928 | |
0.2 | 0.6 | 0.2 | 0.44 | 0.45 | 0.55 | 0.846 | 0.884 | 0.930 |
0.2 | 0.5 | 0.3 | 0.45 | 0.45 | 0.55 | 0.880 | 0.929 |
表5 参数分析实验结果
Tab. 5 Parameter analysis experimental results
参数值 | P@5 | P@10 | MAP | NDCG@10 | NDCG@20 | NDCG@30 | ||
---|---|---|---|---|---|---|---|---|
0.1 | 0.1 | 0.8 | 0.50 | 0.45 | 0.835 | 0.932 | ||
0.1 | 0.2 | 0.7 | 0.47 | 0.58 | 0.840 | 0.878 | ||
0.1 | 0.3 | 0.6 | 0.50 | 0.47 | 0.60 | 0.842 | 0.932 | |
0.1 | 0.4 | 0.5 | 0.45 | 0.57 | 0.819 | 0.876 | 0.928 | |
0.2 | 0.6 | 0.2 | 0.44 | 0.45 | 0.55 | 0.846 | 0.884 | 0.930 |
0.2 | 0.5 | 0.3 | 0.45 | 0.45 | 0.55 | 0.880 | 0.929 |
1 | 王景林,吴宜霖. 类案检索制度在司法实践中的应用研究[J]. 法制博览, 2022(2):100-102. |
WANG J L, WU Y L. Research on the application of case-based retrieval system in judicial practice[J]. Legality Vision, 2022(2): 100-102. | |
2 | HONG Z, ZHOU Q, ZHANG R, et al. Legal feature enhanced semantic matching network for similar case matching[C]// Proceeding of the 2020 International Joint Conference on Neural Networks. Piscataway: IEEE, 2020:1-8. |
3 | LI H, AI Q, CHEN J, et al. SAILER: structure-aware pre-trained language model for legal case retrieval[C]// Proceeding of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2023: 1035-1044. |
4 | SHAO Y, MAO J, LIU Y, et al. BERT-PLI: modeling paragraph-level interactions for legal case retrieval[C]// Proceeding of the 29th International Joint Conference on Artificial Intelligence. California: ijcai.org, 2020: 3501-3507. |
5 | MA Y X, SHAO Y, WU Y, et al. LeCaRD: a legal case retrieval dataset for Chinese law system[C]// Proceeding of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2021: 2342-2348. |
6 | DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// Proceeding of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Stroudsburg: ACL, 2019: 4171-4186. |
7 | LAFFERTY J, McCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]// Proceeding of the 18th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc., 2001: 282-289. |
8 | SALTON G, BUCKLEY C. Term-weighting approaches in automatic text retrieval[J]. Information Processing and Management, 1988, 24(5): 513-523. |
9 | ROBERTSON S, ZARAGOZA H. The probabilistic relevance framework: BM25 and beyond[J]. Foundations and Trends® in Information Retrieval, 2009, 3(4): 333-389. |
10 | PONTE J M, CROFT W B. A language modeling approach to information retrieval[C]// Proceeding of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1998:275-281. |
11 | TRAN V, NGUYEN M L, SATOH K. Building legal case retrieval systems with lexical matching and summarization using a pre-trained phrase scoring model[C]// Proceeding of the 17th International Conference on Artificial Intelligence and Law. New York: ACM, 2019: 275-282. |
12 | ASKARI A, VERBERNE S, et al. Combining lexical and neural retrieval with Longformer-based summarization for effective case law retrieval[C]// Proceeding of the 2nd Design of Experimental Search and Information Retrieval Systems. Aachen: CEUR-WS.org, 2021: 162-170. |
13 | BHATTACHARYA P, GHOSH K, PAL A, et al. Methods for computing legal document similarity: a comparative study[EB/OL]. [2024-03-15].. |
14 | LI J, LIU X, NIE X, et al. Weighted-attribute triplet hashing for large-scale similar judicial case matching[J]. Computational Intelligence and Neuroscience, 2021, 2021: No.6650962. |
15 | NIGAM S K, GOEL N, BHATTACHARYA A. nigam@COLIEE-22: legal case retrieval and entailment using cascading of lexical and semantic-based models[C]// Proceeding of the 2022 JSAI International Symposium on Artificial Intelligence, LNCS 13859. Cham: Springer, 2023: 96-108. |
16 | DE MARTINO G, PIO G, CECI M. PRILJ: an efficient two-step method based on embedding and clustering for the identification of regularities in legal case judgments[J]. Artificial Intelligence and Law, 2022, 30(3): 359-390. |
17 | GE J, HUANG Y, SHEN X, et al. Learning fine-grained fact-article correspondence in legal cases[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3694-3706. |
18 | WANG Z. Legal element-oriented modeling with multi-view contrastive learning for legal case retrieval [C]// Proceeding of the 2022 International Joint Conference on Neural Networks. Piscataway: IEEE, 2022: 1-10. |
19 | 曹发鑫,孙媛媛,王治政,等. 面向借贷案件的相似案例匹配模型[J].计算机工程, 2024, 50(1):306-312. |
CAO F X, SUN Y Y, WANG Z Z, et al. Similar case matching model for lending cases [J]. Computer Engineering, 2024, 50(1):306-312. | |
20 | 刘权,余正涛,高盛祥,等. 融合案件要素的相似案例匹配[J]. 中文信息学报, 2022, 36(11):140-147. |
LIU Q, YU Z T, GAO S X, et al. Incorporating case elements for case matching[J]. Journal of Chinese Information Processing, 2022, 36(11):140-147. | |
21 | XIAO C, ZHONG H, GUO Z, et al. CAIL2019-SCM: a dataset of similar case matching in legal domain[EB/OL]. [2024-03-20].. |
22 | HU W, ZHAO S, ZHAO Q, et al. BERT_LF: a similar case retrieval method based on legal facts[J]. Wireless Communications and Mobile Computing, 2022, 2022: No.2511147. |
23 | SUN Z, XU J, ZHANG X, et al. Law article-enhanced legal case matching: a causal learning approach[C]// Proceeding of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2023: 1549-1558. |
24 | YAO F, XIAO C, WANG X, et al. LEVEN: a large-scale Chinese legal event detection dataset[C]// Findings of the Association for Computational Linguistics: ACL 2022. Stroudsburg: ACL, 2022: 183-201. |
25 | LIU Y, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized BERT pretraining approach[EB/OL]. [2024-03-25].. |
26 | XIAO C, HU X, LIU Z, et al. Lawformer: a pre-trained language model for Chinese legal long documents[J]. AI Open 2021, 2: 79-84. |
[1] | 肖毓航 李贯峰 陈昱胤 秦晶. 基于图的多视角对比学习小样本关系抽取模型[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[2] | 余明峰, 秦永彬, 黄瑞章, 陈艳平, 林川. 基于对比学习增强双注意力机制的多标签文本分类方法[J]. 《计算机应用》唯一官方网站, 2025, 45(6): 1732-1740. |
[3] | 李自亮, 朱广丽, 张玉雷, 刘佳佳, 焦熠璇, 张顺香. 集成句法与情感知识的方面级情感分析模型[J]. 《计算机应用》唯一官方网站, 2025, 45(6): 1724-1731. |
[4] | 高飞 陈董 边帝行 范文强 刘起东 吕培 张朝阳 徐明亮. 面向学科撤销与科研人员重分配的多阶段耦合决策框架[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[5] | 黄奕明 邹喜华 邓果 郑狄. 预回答与召回过滤:双阶段RAG问答系统优化方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[6] | 程梓洋 黄瑞章 薛菁菁. 深度演化文档主题聚类模型[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[7] | 沈斌 陈晓宁 程华 房一泉 王慧锋. 基于大语言模型的本科教学评估智能系统[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[8] | 田海燕, 黄赛豪, 张栋, 李寿山. 视觉指导的分词和词性标注[J]. 《计算机应用》唯一官方网站, 2025, 45(5): 1488-1495. |
[9] | 张庆, 杨凡, 方宇涵. 基于多模态信息融合的中文拼写纠错算法[J]. 《计算机应用》唯一官方网站, 2025, 45(5): 1528-1534. |
[10] | 胡婕, 武帅星, 曹芝兰, 张龑. 基于全域信息融合和多维关系感知的命名实体识别模型[J]. 《计算机应用》唯一官方网站, 2025, 45(5): 1511-1519. |
[11] | 徐博, 郝德志, 于迩晨, 林鸿飞, 宗林林. 面向对话生成和心理疾病检测的心理咨询式人机对话数据集构建[J]. 《计算机应用》唯一官方网站, 2025, 45(5): 1395-1402. |
[12] | 张瑜琦 沙灜. 基于层次信息增强的中文语义错误识别模型[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[13] | 周景 唐振洋. 融合特征增强和对比学习的电力客服工单多标签文本分类方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[14] | 龚永罡 陈舒汉 廉小亲 李乾生 莫鸿铭 刘宏宇. 基于大语言模型的中文开放领域实体关系抽取策略[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[15] | 张正悦 彭菊红 丁子胥 范馨予 胡长玉. 融合情感词典的多视角语言特征方面情感三元组抽取模型[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||