• • 下一篇
牛莉1,2,刘纳1,2*,张念帅1,2,康伟业1,2,马鑫妍1,2
摘要: 中文医疗命名实体识别(NER)任务旨在从医疗领域非结构化文本中抽取医疗实体并为这些医疗实体分配预先定义的医疗实体类别。针对中文医疗NER中的样本稀缺、语义多样性和跨语境分布差异等问题,提出一种融合提示学习与度量学习的统一框架——PS-UG (Prompted-by-Synonyms cross-set-aligned Uncertainty-Guided aggregation)。首先,基于统一医学语言系统 (UMLS)构建同义感知的疑问式提示模板,显式暴露标签语义,并提升类别可分性;其次,设计双向跨集注意力和门控融合机制,实现支持集与查询集间的精准语义对齐;最后,将字词级表示映射为对角高斯分布,利用对称KL (Kullback-Leibler)散度作为训练与推理一致的度量进行类别判别。在CCKS2019、IMCS-V2-NER医疗数据集和CLUENER2020通用数据集上开展5-way 1~2-shot和5-way 5~10-shot实验,实验结果表明,PS-UG相较于ProML (Prompt-based Metric Learning)基线均取得了显著提升,在CCKS2019数据集上分别提升了8.99与 7.38个百分点,在IMCS-V2-NER数据集上分别提升了5.03与 4.24个百分点,在CLUENER2020数据集上分别提升了6.14与 2.24个百分点。
中图分类号: