期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于知识增强和提示学习的小样本新闻主题分类方法
余新言, 曾诚, 王乾, 何鹏, 丁晓玉
《计算机应用》唯一官方网站    2024, 44 (6): 1767-1774.   DOI: 10.11772/j.issn.1001-9081.2023050709
摘要244)   HTML11)    PDF (2029KB)(115)    收藏

基于预训练微调的分类方法通常需要大量带标注的数据,导致无法应用于小样本分类任务。因此,针对中文小样本新闻主题分类任务,提出一种基于知识增强和提示学习的分类方法KPL(Knowledge enhancement and Prompt Learning)。首先,利用预训练模型在训练集上学习最优的提示模板;其次,将提示模板与输入文本结合,使分类任务转化为完形填空任务;同时利用外部知识扩充标签词空间,丰富标签词的语义信息;最后,对预测的标签词与原始的标签进行映射。通过在THUCNews、SHNews和Toutiao这3个新闻数据集上进行随机采样,形成小样本训练集和验证集进行实验。实验结果表明,所提方法在上述数据集上的1-shot、5-shot、10-shot和20-shot任务上整体表现有所提升,尤其在1-shot任务上提升效果突出,与基线小样本分类方法相比,准确率分别提高了7.59、2.11和3.10个百分点以上,验证了KPL在小样本新闻主题分类任务上的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价
2. 结合BERT和特征投影网络的新闻主题文本分类方法
张海丰, 曾诚, 潘列, 郝儒松, 温超东, 何鹏
《计算机应用》唯一官方网站    2022, 42 (4): 1116-1124.   DOI: 10.11772/j.issn.1001-9081.2021071257
摘要741)   HTML43)    PDF (1536KB)(373)    收藏

针对新闻主题文本用词缺乏规范、语义模糊、特征稀疏等问题,提出了结合BERT和特征投影网络(FPnet)的新闻主题文本分类方法。该方法包含两种实现方式:方式1将新闻主题文本在BERT模型的输出进行多层全连接层特征提取,并将最终提取到的文本特征结合特征投影方法进行提纯,从而强化分类效果;方式2在BERT模型内部的隐藏层中融合特征投影网络进行特征投影,从而通过隐藏层特征投影强化提纯分类特征。在今日头条、搜狐新闻、THUCNews-L、THUCNews-S数据集上进行实验,实验结果表明上述两种方式相较于基线BERT方法在准确率、宏平均F1值上均具有更好的表现,准确率最高分别为86.96%、86.17%、94.40%和93.73%,验证了所提方法的可行性和有效性。

图表 | 参考文献 | 相关文章 | 多维度评价
3. 结合广义自回归预训练语言模型与循环卷积神经网络的文本情感分析方法
潘列, 曾诚, 张海丰, 温超东, 郝儒松, 何鹏
《计算机应用》唯一官方网站    2022, 42 (4): 1108-1115.   DOI: 10.11772/j.issn.1001-9081.2021071180
摘要493)   HTML15)    PDF (728KB)(265)    收藏

传统的机器学习方法在对网络评论文本进行情感极性分类时,未能充分挖掘语义信息和关联信息,而已有的深度学习方法虽能提取语义信息和上下文信息,但该过程往往是单向的,在获取评论文本的深层语义信息过程中存在不足。针对以上问题,提出了一种结合广义自回归预训练语言模型(XLNet)与循环卷积神经网络(RCNN)的文本情感分析方法。首先,利用XLNet对文本进行特征表示,并通过引入片段级递归机制和相对位置信息编码,充分利用了评论文本的语境信息,从而有效提升了文本特征的表达能力;然后,利用RCNN对文本特征进行双向训练,并在更深层次上提取文本的上下文语义信息,从而提升了在情感分析任务中的综合性能。所提方法分别在三个公开数据集weibo-100k、waimai-10k和ChnSentiCorp上进行了实验,准确率分别达到了96.4%、91.8%和92.9%。实验结果证明了所提方法在情感分析任务中的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价
4. 基于混合注意力模型的阴影检测方法
谭道强, 曾诚, 乔金霞, 张俊
计算机应用    2021, 41 (7): 2076-2081.   DOI: 10.11772/j.issn.1001-9081.2020081308
摘要427)      PDF (1583KB)(326)    收藏
图像中阴影区域的存在会导致图像内容的不确定性,不利于其他计算机视觉任务,因此常将阴影检测作为计算机视觉算法的预处理过程。然而,现有的阴影检测算法大多采用多级网络结构,导致模型训练困难,虽然已经提出了一些采用单级网络结构的算法,但它们只关注了局部的阴影,忽略了阴影之间的联系。针对该问题,为提升阴影检测的准确率和鲁棒性,提出了基于混合注意力模型的阴影检测方法。首先将预训练后的深层网络ResNext101作为前端特征提取网络,提取图像的基本特征;其次采用双向金字塔结构由浅入深、由深到浅的方式进行特征融合,并提出信息补偿机制减少深层语义信息丢失;然后结合空间注意力和通道注意力提出混合注意力模型进行特征融合,捕捉阴影区域和非阴影区域的差异;最后融合两个方向的预测结果从而得到最终的阴影检测结果。在公开数据集SBU、UCF上对所提方法进行可行性对比实验,结果表明,相较于DSC算法,所提方法的平衡误差率(BER)分别降低了30%和11%,说明它能够较好地抑制阴影错误检测并增强阴影细节。
参考文献 | 相关文章 | 多维度评价
5. 结合ALBERT和双向门控循环单元的专利文本分类
温超东, 曾诚, 任俊伟, 张
计算机应用    2021, 41 (2): 407-412.   DOI: 10.11772/j.issn.1001-9081.2020050730
摘要744)      PDF (979KB)(904)    收藏
随着专利申请数量的快速增长,对专利文本实现自动分类的需求与日俱增。现有的专利文本分类算法大都采用Word2vec和全局词向量(GloVe)等方式获取文本的词向量表示,舍弃了大量词语的位置信息且不能表示出文本的完整语义。针对上述问题,提出了一种结合ALBERT和双向门控循环单元(BiGRU)的多层级专利文本分类模型ALBERT-BiGRU。该模型使用ALBERT预训练的动态词向量代替传统Word2vec等方式训练的静态词向量,提升了词向量的表征能力;并使用BiGRU神经网络模型进行训练,最大限度保留了专利文本中长距离词之间的语义关联。在国家信息中心公布的专利数据集上进行有效性验证,与Word2vec-BiGRU和GloVe-BiGRU相比,ALBERT-BiGRU的准确率在专利文本的部级别分别提高了9.1个百分点和10.9个百分点,在大类级别分别提高了9.5个百分点和11.2个百分点。实验结果表明,ALBERT-BiGRU能有效提升不同层级专利文本的分类效果。
参考文献 | 相关文章 | 多维度评价
6. 基于会话的多粒度图神经网络推荐模型
任俊伟, 曾诚, 肖丝雨, 乔金霞, 何鹏
《计算机应用》唯一官方网站    2021, 41 (11): 3164-3170.   DOI: 10.11772/j.issn.1001-9081.2021010060
摘要614)   HTML27)    PDF (682KB)(263)    收藏

基于会话的推荐旨在根据当前用户的匿名会话的点击序列信息来预测用户的下一次点击行为。现有方法多数都是通过对用户会话点击序列的物品信息进行建模,并学习物品的向量表示,进而进行推荐。而作为一种粗粒度的信息,物品的类别信息对物品有聚合作用,可作为物品信息的重要补充。基于此,提出了基于会话的多粒度图神经网络推荐模型(SRMGNN)。首先,使用图神经网络(GNN)得到会话序列中的物品和物品类别的嵌入向量表示,并使用注意力网络捕捉用户的注意力信息;然后,将赋予了不同注意力权重值的物品和物品类别信息进行融合后,输入到门限循环单元(GRU)里;最后,通过GRU学习会话序列的物品时序信息,并给出推荐列表。在公开的Yoochoose数据集和Diginetica数据集上进行实验,实验结果验证了该模型在增加了物品类别信息后的优势,且实验结果表明了在Precision@20和MRR@20这2种评价指标上,该模型相较于短期注意力/记忆优先级(STAMP)模型、神经注意力(NARM)模型、GRU4REC等8种模型均有更好的效果。

图表 | 参考文献 | 相关文章 | 多维度评价
7. 基于用户网络嵌入的民宿房源推荐方法
刘彤, 曾诚, 何鹏
计算机应用    2019, 39 (11): 3398-3402.   DOI: 10.11772/j.issn.1001-9081.2019040721
摘要447)      PDF (793KB)(342)    收藏
随着民宿行业的迅速发展,在线民宿订房系统开始流行起来。让用户在海量房源信息中快速找到所需房源是订房系统中待解决的问题。针对房源推荐中用户冷启动与数据稀疏性的问题,提出基于网络嵌入法的房源个性化推荐(UNER)方法。首先通过用户在系统中的历史行为数据及标签信息构建两类用户网络;然后基于网络嵌入法将网络映射至低维向量空间中,得到用户节点的向量表示并通过用户向量计算用户相似度矩阵;最后依据该矩阵为用户进行房源推荐。实验数据来源于贵州"水东乡舍"民宿订房系统。实验结果表明,相对于基于用户的协同过滤算法,所提方法的综合评价指标(F1)提升了20个百分点,平均正确率(MAP)提升11个百分点,体现出该方法的优越性。
参考文献 | 相关文章 | 多维度评价
8. 基于数字图像处理的眼球控制精度提高方法
严德赛, 曾诚
计算机应用    2018, 38 (10): 3013-3016.   DOI: 10.11772/j.issn.1001-9081.2018040778
摘要727)      PDF (661KB)(609)    收藏
为提高眼球控制方法的精度,完成对手机或电脑屏幕高准确性的操作,利用人眼看屏幕的焦点和视网膜成像点确定的直线正好通过瞳孔的圆心处,且屏幕的发光轮廓在眼球上反射形成矩形轮廓的原理,提出基于数字图像处理的眼球控制精度提高方法。瞳孔圆心和矩形轮廓之间映射的关系就是人眼焦点在屏幕上的具体位置。通过高清摄像机对眼球进行实时录像,运用数字图像处理技术对每一帧图片进行实时分析处理运算得到人眼焦点在屏幕上的位置坐标,将每一帧图片计算所得坐标输出到鼠标光标上实现对眼球焦点的追踪,将坐标位置信息通过无线技术传输到带有屏幕的被控制设备以实现眼球对其控制。仿真表明,映射方法使眼球控制精度平均准确值达到0.7°。
参考文献 | 相关文章 | 多维度评价
9. 跨项目缺陷预测中训练数据选择方法
王星, 何鹏, 陈丹, 曾诚
计算机应用    2016, 36 (11): 3165-3169.   DOI: 10.11772/j.issn.1001-9081.2016.11.3165
摘要684)      PDF (926KB)(739)    收藏
跨项目缺陷预测(CPDP)利用来自其他项目的缺陷数据预测目标项目的缺陷情况,为解决以往缺陷预测方法面临的训练数据受限问题提供了一个新的视角。训练数据的质量将直接影响跨项目缺陷预测模型的性能,因此,需尽可能选择与目标项目更相似的数据用于模型的训练。利用PROMISE提供的34个公开数据集,从训练数据选择方面,分析了四种典型的相似性度量方法对跨项目预测结果的影响以及各种方法之间的差异。研究结果表明:使用不同的相似性度量方法选出的训练数据质量不同,其中余弦相似性与相关系数两种方法效果更好,且最大改进比例达到6.7%;同时,根据目标项目的缺陷率,发现余弦相似性更适合于缺陷率高于0.25的项目。
参考文献 | 相关文章 | 多维度评价
10. WordNet应用程序编程接口改进方法及其在Mashup服务发现中的应用
曾诚, 唐永, 朱子龙, 李兵
计算机应用    2015, 35 (11): 3182-3186.   DOI: 10.11772/j.issn.1001-9081.2015.11.3182
摘要668)      PDF (755KB)(896)    收藏
传统的WordNet应用程序编程接口(API)在使用时是基于文件操作的,每执行一次API都需要到库文件中查找,因此导致基于API操作的文本分析与相似度计算耗时较为严重.因此,提出一种WordNet API改进方法:将WordNet概念语义网的构造过程移植到内存中,同时增加了若干便于相似度计算的API,使得概念之间关系的追踪进程和文本相似度计算过程得以加快.该方法在Mashup服务发现过程中得以应用,实验证明利用改进后的API能够有效地提高Mashup服务的查询效率和查全率.
参考文献 | 相关文章 | 多维度评价
11. Boyer-Moore串匹配算法的改进
韩光辉 曾诚
计算机应用    2014, 34 (3): 865-868.   DOI: 10.11772/j.issn.1001-9081.2014.03.0865
摘要472)      PDF (489KB)(574)    收藏

在分析Boyer-Moore (BM)算法的基础上,提出了BM算法的一个新的变形。其基本思想是在算法的预处理阶段,对扩展模式串Pa建立好后缀规则,其中:P是模式串,a是字母表中的任一字符,既加大了已匹配后缀的长度,同时隐含了Sunday算法的坏字符规则,从而获得更大的窗口跳跃距离。理论分析证明,该算法具有线性最差时间复杂度和亚线性平均时间复杂度,空间复杂度为O(m(σ+1))。实验结果表明,该算法的实际性能与BM算法相比有明显改善,尤其适合小字母表的情形。

相关文章 | 多维度评价
12. BM算法中函数shift的研究
韩光辉 曾诚
计算机应用    2013, 33 (08): 2379-2382.  
摘要598)      PDF (536KB)(383)    收藏
建立BM算法中函数shift及其构造算法的严格的形式理论,对于BM算法及其各种变形的研究与改进是十分必要的。给出了shift的一个清晰的形式定义,引入模式串后缀的特征集及其最小值函数,通过特征集描述了shift的构造,从而严格建立了shift及其构造算法的理论基础。根据shift的构造定理与最小值函数的迭代计算方法,给出了shift的一个新的构造算法,证明了该算法具有线性的时间与空间复杂度。理论分析和计算结果表明,该算法比已有算法更简单,计算复杂度更低,因而更适合硬件实现。
相关文章 | 多维度评价