检索结果

Select

1. 面向方面级情感分析的交互式关系图注意力网络

郭磊, 贾真, 李天瑞

《计算机应用》唯一官方网站 2024, 44 (3): 696-701. DOI: 10.11772/j.issn.1001-9081.2023030288

摘要（298）

HTML （28）

PDF （1072KB）（448）

方面级情感分析领域主要采用基于注意力机制的神经网络模型，这类模型忽略了方面词与观点词之间的依存关系和方面词与上下文词之间的距离，导致该类模型情感分类结果不够精确。为了解决上述问题，建立一种交互式关系图注意力网络（RI-GAT）模型。首先，通过长短期记忆（LSTM）网络学习句子的语义特征；然后，将学习的语义特征结合句子的位置信息生成新的特征；最后，在新的特征中提取各方面词和观点词之间的依存关系，实现对句法依存信息和位置信息的高效利用。在Laptop、Restaurant和Twitter数据集上的实验结果表明，相较于次优的动态多通道图卷积网络（DM-GCN），RI-GAT模型分类准确率（Acc）提高了0.67、1.65和1.36个百分点，说明了RI-GAT模型可以更好地建立方面词和意见词之间的联系，使得情感分类更加精确。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 基于伪实体数据增强的高精准率医学领域实体关系抽取

郭安迪, 贾真, 李天瑞

《计算机应用》唯一官方网站 2024, 44 (2): 393-402. DOI: 10.11772/j.issn.1001-9081.2023020143

摘要（299）

HTML （11）

PDF （4228KB）（598）

针对医学领域知识密集、实体抽取和关系分类存在误差传递的问题，提出一种基于伪实体数据增强的高精准率的实体关系抽取框架。首先，在实体抽取模块添加基于Transformer的特征读取单元捕捉类别信息，以在密集的实体中准确识别医学长实体；其次，在流水线抽取框架的基础上插入关系负例生成模块，通过基于欠采样的伪实体生成模型生成混淆关系分类模型的伪实体，并通过三种数据增强生成策略提升模型鉴别主语宾语颠倒、主语宾语边界错误和关系分类错误的能力；最后，通过基于悬浮标记的关系分类模型缓解数据增强带来的训练时间剧增的问题。在CMeIE数据集中，对比了目前主流的4个模型。实体抽取部分相较于次优模型PL-Marker（Packed Levitated Marker），F1值提升了2.26%；实体关系抽取相较于次优模型CBLUE（Chinese Biomedical Language Understanding Evaluation）提出的流水线抽取模型，F1值提升了5.45%，精准率提升了15.62%。实验结果表明使用特征读取单元和伪实体数据增强模块可有效提高抽取的精准率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 基于自注意力机制与词汇增强的中文医学命名实体识别

罗歆然, 李天瑞, 贾真

《计算机应用》唯一官方网站 2024, 44 (2): 385-392. DOI: 10.11772/j.issn.1001-9081.2023020179

摘要（224）

HTML （18）

PDF （2158KB）（269）

针对中文医学文本实体嵌套导致的单词边界识别困难问题以及现有栅格结构集成词汇特征所面临的语义信息损失严重的情况，提出一种用于中文医学命名实体识别（MNER）的自适应词汇信息增强模型。首先，利用双向长短期记忆（BiLSTM）网络编码字符序列的上下文信息并捕捉较长距离的依赖关系；然后，对字符序列中每个字符的潜在单词信息进行字词对建模，采用自注意力机制实现不同单词之间的内部交互；最后，通过基于双线性注意力机制的词汇适配器将词汇信息集成到文本序列中的每个字符中，有效增强语义信息的同时充分利用单词丰富的边界信息，并抑制相关性低的单词。实验结果表明，所提模型与基于字符的基线模型相比，平均F1值分别提升了1.37~2.38个百分点，并在结合BERT后取得了最优的效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

4. 中文异构百科知识库实体对齐

黄峻福, 李天瑞, 贾真, 景运革, 张涛

计算机应用 2016, 36 (7): 1881-1886. DOI: 10.11772/j.issn.1001-9081.2016.07.1881

摘要（1000）

PDF （1027KB）（623）

针对传统实体对齐方法在中文异构网络百科实体对齐任务中效果不够显著的问题，提出一种基于实体属性与上下文主题特征相结合的实体对齐方法。首先，基于百度百科及互动百科数据构造中文异构百科知识库，通过统计方法构造资源描述框架模式（RDFS）词表，对实体属性进行规范化；其次，抽取实体上下文信息，对其进行中文分词后，利用主题模型对上下文建模并通过吉布斯采样法求解模型参数，计算出主题-单词概率矩阵，提取特征词集合及对应特征矩阵；然后，利用最长公共子序列（LCS）算法判定实体属性相似度，当相似度位于下界与上界之间时，进一步结合百科类实体上下文主题特征进行判定；最后，依据标准方法构造了一个异构中文百科实体对齐数据集进行仿真实验。实验结果表明，与经典的属性相似度算法、属性加权算法、上下文词频特征模型及主题模型算法进行比较，所提出的实体对齐算法在人物领域和影视领域的准确率、召回率与综合指标F值分别达到97.8%、88.0%、92.6%和98.6%、73.0%、83.9%，比其他方法均有较大的提高。实验结果验证了在构建中文异构百科知识库场景中，所提算法可以有效提升中文百科实体对齐效果，可应用到具有上下文信息的实体对齐任务中。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于语义扩展的短问题分类

冶忠林, 杨燕, 贾真, 尹红风

计算机应用 2015, 35 (3): 792-796. DOI: 10.11772/j.issn.1001-9081.2015.03.792

摘要（640）

PDF （789KB）（624）

问题分类是问答系统任务之一。特别是语音交互方式中,用户的提问较短,具有口语化特征,利用传统文本分类方法对问题进行分类的效果不佳。为此提出一种基于语义扩展的短问题分类方法,该方法使用搜索引擎对问题进行知识扩展;然后,使用主题模型进行特征词选择;最后,利用词语相似度计算获取问题的类别。实验结果表明,所提方法在1365条真实问题集上平均F-measure值达到0.713,其值高于支持向量机(SVM)、K近邻(KNN)算法和最大熵方法。因此,该方法在问答系统中可以帮助系统提升问题分类的准确率。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于规则的汉语兼类词标注方法

李华栋贾真尹红风杨燕

计算机应用 2014, 34 (8): 2197-2201. DOI: 10.11772/j.issn.1001-9081.2014.08.2197

摘要（238）

PDF （746KB）（432）

针对目前汉语兼类词标注的准确率不高的问题，提出了规则与统计模型相结合的兼类词标注方法。首先，利用隐马尔可夫、最大熵和条件随机场3种统计模型进行兼类词标注；然后，将改进的互信息算法应用到词性(POS)标注规则的获取上，通过计算目标词前后词单元与目标词的相关性获得词性标注规则；最后，将获取的规则与基于统计模型的词性标注算法结合起来进行兼类词标注。实验结果表明加入规则算法之后，平均词性标注准确率提升了5%左右。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于弱监督的属性关系抽取方法

杨宇飞戴齐贾真尹红风

计算机应用 2014, 34 (1): 64-68. DOI: 10.11772/j.issn.1001-9081.2014.01.0064

摘要（559）

PDF （776KB）（600）

针对从中文百科中抽取属性关系时所面临的训练语料匮乏问题,提出一种利用极少人工参与的弱监督自动抽取方法。首先,利用中文百科条目信息模板中的半结构化属性关系回标条目文本自动获取训练语料;然后,根据朴素贝叶斯分类原理优化训练语料;最后,基于条件随机场(CRF)建立属性关系抽取模型。在互动百科中采集的数据集上进行实验,综合评价F值达到了80.9%。结果表明该方法能够获得质量较高的训练语料,并取得良好的抽取性能。