期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于层次注意力机制神经网络模型的虚假评论识别
颜梦香, 姬东鸿, 任亚峰
计算机应用    2019, 39 (7): 1925-1930.   DOI: 10.11772/j.issn.1001-9081.2018112340
摘要480)      PDF (958KB)(402)    收藏

针对虚假评论识别任务中传统离散模型难以捕捉到整个评论文本的全局语义信息的问题,提出了一种基于层次注意力机制的神经网络模型。首先,采用不同的神经网络模型对评论文本的篇章结构进行建模,探讨哪种神经网络模型能够获得最好的篇章表示;然后,基于用户视图和产品视图的两种注意力机制对评论文本进行建模,用户视图关注评论文本中用户的偏好,而产品视图关注评论文本中产品的特征;最后,将两个视图学习的评论表示拼接以作为预测虚假评论的最终表示。以准确率作为评估指标,在Yelp数据集上进行了实验。实验结果表明,所提出的层次注意力机制的神经网络模型表现最好,其准确率超出了传统离散模型和现有的神经网络基准模型1至4个百分点。

参考文献 | 相关文章 | 多维度评价
2. 基于神经网络的微博情绪识别与诱因抽取联合模型
张晨, 钱涛, 姬东鸿
计算机应用    2018, 38 (9): 2464-2468.   DOI: 10.11772/j.issn.1001-9081.2018020481
摘要775)      PDF (949KB)(714)    收藏
情绪诱因抽取作为深层次的文本情绪理解已成为情绪分析任务中的新热点,当前研究通常把诱因抽取和情绪识别看作两个独立的任务,容易导致错误在任务间的传播问题。考虑到情绪识别及诱因抽取是相互作用的,以及微博文本中表情符通常表达文本的情绪,提出了一种基于双向长短期记忆条件随机场(Bi-LSTM-CRF)模型的情绪诱因和表情符情绪识别的联合模型。该模型将情绪诱因抽取以及情绪识别形式化为一个统一的序列标注问题,充分利用了情绪诱因与情绪之间的互相作用,将情绪诱因的抽取和情绪识别同时进行。实验结果表明,该模型在诱因抽取任务中的F值为82.70%,在情绪识别任务中的F值为74.74%,相比串行模型的F值分别提高5.82和17.12个百分点,这个结果表明联合模型能够有效降低任务串行进行时的误差传递,同时提高了诱因抽取和情绪识别的F值。
参考文献 | 相关文章 | 多维度评价
3. 基于神经网络模型的产品属性情感分析
刘新星, 姬东鸿, 任亚峰
计算机应用    2017, 37 (6): 1735-1740.   DOI: 10.11772/j.issn.1001-9081.2017.06.1735
摘要753)      PDF (897KB)(958)    收藏
针对基于词向量的神经网络模型在产品属性情感分析中效果不佳的问题,提出一种集成离散特征和词向量特征的开关递归神经网络模型。首先,通过直接循环图为语句建模,采用开关递归神经网络模型完成产品属性情感分析任务;然后,在开关递归神经网络模型中集成离散特征和词向量特征;最后,分别在流水线、联合、折叠三种任务模型中完成属性提取和情感分析任务。以宏观 F1分数作为评估指标,在SemEval-2014的笔记本电脑和餐馆评论数据集上做实验。开关递归神经网络模型的 F1分数为:48.21%和62.19%,超过普通递归神经网络模型近1.5个百分点,因而开关递归神经网络能够有效捕获复杂特征,提升产品属性情感分析的效果。而集成离散特征和词向量特征的神经网络模型的 F1分数为:49.26%和63.31%,均超过基线结果0.5到1个百分点,表明离散特征和词向量特征互相促进,另一方面,也表明仅仅基于词向量的神经网络模型仍有提升空间。三种任务模型中,流水线模型的 F1分数最高,表明应将属性提取和情感分析任务分开完成。
参考文献 | 相关文章 | 多维度评价
4. 基于无监督学习算法的推特文本规范化
邓加原, 姬东鸿, 费超群, 任亚峰
计算机应用    2016, 36 (7): 1887-1892.   DOI: 10.11772/j.issn.1001-9081.2016.07.1887
摘要694)      PDF (945KB)(325)    收藏
推特文本中包含着大量的非标准词,这些非标准词是由人们有意或无意而创造的。对很多自然语言处理的任务而言,预先对推特文本进行规范化处理是很有必要的。针对已有的规范化系统性能较差的问题,提出一种创新的无监督文本规范化系统。首先,使用构造的标准词典来判断当前的推特是否需要标准化。然后,对推特中的非标准词会根据其特征来考虑进行一对一还是一对多规范化;对于需要一对多的非标准词,通过前向和后向搜索算法,计算出所有可能的多词组合。其次,对于多词组合中的非规范化词,基于二部图随机游走和误拼检查,来产生合适的候选。最后,使用基于上下文的语言模型来得到最合适的标准词。所提算法在数据集上获得86.4%的F值,超过当前最好的基于图的随机游走算法10个百分点。
参考文献 | 相关文章 | 多维度评价
5. 基于条件随机场的顿号边界识别
莫怡文, 姬东鸿, 黄江平
计算机应用    2015, 35 (10): 2838-2842.   DOI: 10.11772/j.issn.1001-9081.2015.10.2838
摘要503)      PDF (786KB)(450)    收藏
标点符号的边界识别是自然语言处理的重要研究内容,它是分词、语块识别等应用的基础。为了实现中文中用于表示并列成分分割的顿号的边界识别,采用了用于序列分割和标记的条件随机场(CRF)方法进行顿号边界识别。首先对顿号边界识别任务进行了两种类型的描述,然后对顿号语料的标注方法和过程以及特征选择进行了研究,通过采用语料推荐和十折交叉验证两种数据集分配方法分别进行了边界识别实验。实验结果表明,通过条件随机场方法结合选择的边界识别特征能够进行顿号边界识别,其顿号边界识别的 F值在基准实验的基础上提高了10.57%,由顿号分隔的词语识别其 F值可达85.24%。
参考文献 | 相关文章 | 多维度评价
6. 融合广告主行为的拍卖词实时触发
解忠乾 常笑 姬东鸿
计算机应用    2014, 34 (9): 2566-2570.   DOI: 10.11772/j.issn.1001-9081.2014.09.2566
摘要296)      PDF (770KB)(530)    收藏

搜索引擎触发广告的过程中,需要实时计算拍卖词(Bidword)和用户查询(Query)的相关性,广告语境下的Term动态赋权方式和短语商业价值评估成为相关性计算必须考虑的问题。为此引入广告主行为,结合连续词袋模型(CBOW),提出了一种广告语境下的短语相关计算方法ADPCB。首先通过CBOW模型获得短语中每个Term的向量;然后分析广告主行为,构建关于短语的全局赋权树,对短语结构进行分析得到Term的动态权重;最后将Term权重和向量线性组合产生短语的向量表示,用于Bidword和Query的相关性度量。对10000对带有标签的Query和Bidword(正负比例1∶〖KG-*2〗1)利用Word2vec进行实验,ADPCB比结合CBOW模型的TF-IDF效果更好;而在准确率达到0.70时,ADPCB比潜在狄利克雷分布(LDA)、BM25和TF-IDF获得了更高的召回率。结果表明ADPCB提高了触发Bidword和Query的相关性,同时可以量化短语中Term的商业价值属性,减少低商业价值Query的广告触发数量,可应用于实时计算的场景。

参考文献 | 相关文章 | 多维度评价
7. 基于带权文本矩阵分解信息熵模型的新闻评论摘要
国玉静 姬东鸿
计算机应用    2014, 34 (10): 2859-2864.   DOI: 10.11772/j.issn.1001-9081.2014.10.2859
摘要259)      PDF (889KB)(392)    收藏

针对新闻的评论摘要的抽取问题,提出了一种将带权文本矩阵分解(WTMF)与信息熵结合的社交媒体评论自动抽取方法。该方法对微博(tweets)和news信息构建基于异质图的WTMF模型,解决短文本特征稀疏问题,保障信息的相似性;根据tweet的特征分布,构建基于特征的二元信息熵和连续信息熵,保证信息的多样性。最后依据子模属性,设计基于贪心的抽样算法,获取优化问题近似最优解。实验结果表明,WTMF与信息熵结合的方法能有效提高社交媒体摘要性评论抽取的性能,在ROUGE2上召回率和F1值分别达到0.40074和0.27330。与潜在狄利克雷分配(LDA)扩展模型——基于位的主体模型(BTM)相比,分别提高了0.05和0.03,有效地提高了新闻评论摘要质量。

参考文献 | 相关文章 | 多维度评价