针对基于卷积神经网络(CNN)的关系抽取获取句子语义信息时缺少不同尺度语义特征信息的获取以及对关键信息的关注的问题,提出基于多尺度混合注意力CNN的关系抽取模型。首先,将关系抽取建模为二维化表示的标签预测;其次,通过多尺度的特征信息提取与融合,获得更细粒度的多尺度空间信息;然后,通过注意力与卷积的结合自适应地细化特征图,使模型关注重要的上下文信息;最后,使用两个预测器共同预测实体对之间的关系标签。实验结果表明,多尺度混合卷积注意力模型能够获取多尺度语义特征信息,而通道注意力和空间注意力通过权重捕捉通道和空间的关键信息,以此来提升关系抽取的性能。所提模型在数据集SemEval (SemEval-2010 task 8)、TACRED (TAC Relation Extraction Dataset)、Re-TACRED (Revised-TACRED)和SciERC (Entities, Relations, and Coreference for Scientific knowledge graph construction)上的F1值分别达到90.32%、70.74%、85.71%和89.66%。
针对现有的基于预训练语言模型的答案获取方法存在预测边界不够准确的问题,提出一种面向片段抽取式机器阅读理解(MRC)的边界感知方法。首先,在问题输入阶段引入特殊字符标记问题边界,通过增强问题语义信息的方式实现对问题边界的感知;其次,在答案预测阶段,构建答案边界回归器,实现感知的问题边界语义信息与输出的预测答案边界语义信息的语义交互;最后,通过交互后的语义信息进一步调整存在偏差的预测答案边界,实现对预测答案的校准。实验结果表明,与SpanBERT (Span-based Bidirectional Encoder Representation from Transformers)相比,该方法在公共数据集SQuAD(Stanford Question Answering Dataset)1.1上的F1值提升了0.2个百分点、精确匹配(EM)值提升了0.9个百分点;在HotpotQA(Hotpot Question Answering)数据集上的F1值和EM值都提升了0.7个百分点;在NewsQA(News Question Answering)数据集上的F1值提升了2.8个百分点、EM值提升了3.3个百分点。可见,该方法能有效增强对问题边界信息的感知并且实现对预测答案边界的校准,有利于更好地理解和分析文本数据,在智能问答、智能客服等领域的应用中提高系统的准确性。
针对现有深度聚类方法不考虑事件信息及其结构特点而难以有效划分事件类型的问题,提出一种基于事件表示和对比学习的深度事件聚类方法(DEC_ERCL)。首先,利用信息识别手段从非结构化文本中识别结构化的事件信息,避免冗余信息对事件语义的影响;其次,将事件的结构信息集成于自编码器中学习低维稠密的事件表示,并以此作为下游聚类划分的依据;最后,为有效建模事件之间的细微差异,在特征学习过程中加入多正例对比损失。在数据集DuEE、FewFC、Military和ACE2005上的实验结果表明,相较于其他深度聚类方法,所提方法在准确率和标准化互信息(NMI)评价指标上均表现更好;相较于次优的方法,DEC_ERCL的聚类准确率分别提升了17.85%、9.26%、7.36%和33.54%,表明了DEC_ERCL具有更好的事件聚类效果。
针对关系抽取(RE)任务中实体关系语义挖掘困难和预测关系有偏差等问题,提出一种基于掩码提示与门控记忆网络校准(MGMNC)的RE方法。首先,利用提示中的掩码学习实体之间在预训练语言模型(PLM)语义空间中的潜在语义,通过构造掩码注意力权重矩阵,将离散的掩码语义空间相互关联;其次,采用门控校准网络将含有实体和关系语义的掩码表示融入句子的全局语义;再次,将它们作为关系提示校准关系信息,随后将句子表示的最终表示映射至相应的关系类别;最后,通过更好地利用提示中掩码,并结合传统微调方法的学习句子全局语义的优势,充分激发PLM的潜力。实验结果表明,所提方法在SemEval(SemEval-2010 Task 8)数据集的F1值达到91.4%,相较于RELA(Relation Extraction with Label Augmentation)生成式方法提高了1.0个百分点;在SciERC(Entities, Relations, and Coreference for Scientific knowledge graph construction)和CLTC(Chinese Literature Text Corpus)数据集上的F1值分别达到91.0%和82.8%。所提方法在上述3个数据集上均明显优于对比方法,验证了所提方法的有效性。相较于基于生成式的方法,所提方法实现了更优的抽取性能。
随着人工智能技术在司法领域的应用,依据案情描述预测所属罪名成为一项重要研究内容。案情内容术语专业,描述言简意赅,而现有方法却往往依赖文本特征,忽略了不同案件相关要素的差异性,缺乏对案情行为词要素的有效利用。为了解决此类问题,提出一种融合行为词的罪名预测多任务学习模型。首先,由边界识别器生成行为词跨度,提炼出案情核心内容;其次,通过构建行为词的结构特征预测所属罪名;最后,将行为词识别和罪名预测进行统一建模,通过共享参数的方式增强模型的泛化能力。通过构建行为词识别和罪名预测的多任务数据集进行验证,实验结果表明该模型识别行为词任务的F值达到了83.27%,罪名预测任务的F值达到了84.29%,与BERT-CNN模型相比,分别提高了0.57%和2.61%,验证了该模型对行为词识别和罪名预测的优势。
现有的大部分关于聚类集成的研究主要关注有效的集成算法的设计。为解决由于基聚类器的质量高低不一、低质量的基聚类器对聚类集成性能产生影响的问题,从数据发掘的角度出发,以基聚类器为基础挖掘数据的内在联系,提出一种高阶信息融合算法——基于高阶一致性学习的聚类集成(HCLCE)算法,从不同的维度表示数据之间的联系。首先,将每种高阶信息融合成一个新的结构化的一致性矩阵;然后,再对得到的多个一致性矩阵进行融合;最后,将多种信息融合为一个一致性的结果。实验结果表明,与次优的LWEA(Locally Weighted Evidence Accumulation)算法相比,HCLCE算法的聚类准确率平均提升了7.22%,归一化互信息(NMI)平均提升了9.19%。可见,HCLCE能得到比聚类集成算法和单独使用一种信息更好的聚类结果。
针对司法领域标记数据匮乏、标注质量不高、存在强逻辑性导致裁判文书量刑情节识别效果不佳的问题,提出一种基于反绎学习的量刑情节识别模型ABL-CON。首先结合神经网络与领域逻辑推理,通过半监督学习方法,使用置信学习方法表征情节识别置信度;然后修正无标签数据经过神经网络产生的不合逻辑的错误情节,重新训练识别模型,以提高识别精度。在自构建的司法数据集上的实验结果表明,使用50%标注数据与50%无标注数据的ABL-CON模型在Macro_F1值和Micro_F1值上分别达到了90.35%和90.58%,优于同样条件下的BERT和SS-ABL,也超越了使用100%标注数据的BERT模型。ABL-CON模型通过逻辑反绎修正不符合逻辑的标签能够有效提高标签的逻辑合理性以及标签的识别能力。
关系抽取旨在从文本中抽取实体与实体之间的语义关系。作为关系抽取的上层任务,实体识别所产生的错误将扩散至关系抽取,从而导致级联错误。与实体相比,实体边界粒度小且具有二义性,更易识别。因此,提出一种基于实体边界组合的关系抽取方法,通过跳过实体,对实体边界两两组合来进行关系抽取。由于边界性能高于实体性能,所以错误扩散的问题得到了缓解;并且通过特征组合的方法将实体类型特征和位置特征加入模型中,性能得到了进一步提高,再次减轻了错误扩散带来的影响。实验结果表明,所提方法在ACE 2005英文数据集的宏平均F1值优于表格-序列编码器方法8.61个百分点。
提出一种充分利用矢量动画的矢量数据存储方式和时序特性的盲水印方案。首先,采用矢量动画相邻帧间变化元素的颜色值作为水印嵌入目标;然后,以最低位有效算法作为嵌入/提取算法,并将多组水印进行编码后嵌入到矢量动画中;最后,根据提取的多组水印进行相互验证、优化,得出准确的水印。理论分析与实验结果表明,所提算法易实现,具有良好的鲁棒性,能实现篡改提示效果,且能在载体播放时实时嵌入与提取水印。