计算机应用 ›› 2014, Vol. 34 ›› Issue (6): 1626-1630.DOI: 10.11772/j.issn.1001-9081.2014.06.1626
黄晓海1,2,3,4,郭智1,2,4,黄宇1,2,4
收稿日期:
2013-11-28
修回日期:
2013-12-31
发布日期:
2014-07-02
出版日期:
2014-06-01
通讯作者:
黄晓海
作者简介:
HUANG Xiaohai1,2,3,GUO Zhi1,2,HUANG Yu1,2
Received:
2013-11-28
Revised:
2013-12-31
Online:
2014-07-02
Published:
2014-06-01
Contact:
HUANG Xiaohai
摘要:
全文检索等应用要求对文本进行精细表示。针对传统主题模型只能挖掘文本的主题背景,无法对文本的侧重点进行精细描述的问题,提出一种低秩稀疏文本表示模型,将文本表示分为低秩和稀疏两部分,低秩部分代表主题背景,稀疏部分则是对主题中不同方面的关键词描述。为了实现文本低秩部分和稀疏部分的分解,定义了主题矩阵,并引入鲁棒性主成分分析(PCA)方法进行矩阵分解。在新闻语料数据集上的实验结果表明,模型复杂度比隐含狄利克雷分配(LDA)模型降低了25%。在实际应用中,将模型所得的低秩部分应用于文本分类,分类所需的特征减少了28.7%,能用于特征集的降维;将稀疏部分应用于全文检索,检索结果精确度比LDA模型提高了10.8%,有助于检索结果命中率的优化。
中图分类号:
黄晓海 郭智 黄宇. 基于低秩分解的精细文本挖掘方法[J]. 计算机应用, 2014, 34(6): 1626-1630.
HUANG Xiaohai GUO Zhi HUANG Yu. Precise text mining using low-rank matrix decomposition[J]. Journal of Computer Applications, 2014, 34(6): 1626-1630.
[1]BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation [J]. The Journal of Machine Learning Research, 2003,3:993-1022. |
[1] | 高威 刘丽华 和斌涛 邓方安. 区块链共识机制与改进算法研究进展[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[2] | 翟社平 朱鹏举 杨锐 刘佳一腾. 基于区块链的物联网身份管理系统[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[3] | 李博, 黄建强, 黄东强, 王晓英. 基于异构平台的稀疏矩阵向量乘自适应计算优化[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3867-3875. |
[4] | 陈姿芊, 牛科迪, 姚中原, 斯雪明. 适用于物联网的区块链轻量化技术综述[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3688-3698. |
[5] | 高婷婷, 姚中原, 贾淼, 斯雪明. 链上链下一致性保护技术综述[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3658-3668. |
[6] | 贾淼, 姚中原, 祝卫华, 高婷婷, 斯雪明, 邓翔. 零知识证明赋能区块链的进展与展望[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3669-3677. |
[7] | 牛科迪, 李敏, 姚中原, 斯雪明. 面向物联网的区块链共识算法综述[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3678-3687. |
[8] | 蔡锦辉, 尹中旭, 宗国笑, 李俊儒. 面向嵌套分支突破的推断与污点分析融合的方法[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3823-3830. |
[9] | 杨巍 白璐 宁俊义 董建军 单春海 信俊昌. 异构环境感知的幂律图流划分方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[10] | 梁辰 王奕森 魏强 杜江. 基于Transformer-GCN的源代码漏洞检测方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[11] | 吴海峰 陶丽青 程玉胜. 集成特征注意力和残差连接的偏标签回归算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[12] | 秦学程 刘春颜 李宝 赵蕴龙. 面向工业场景的云边协同数据存储与检索架构[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[13] | 涂进兴, 李志雄, 黄建强. 基于GPU对角稀疏矩阵向量乘法的动态划分算法[J]. 《计算机应用》唯一官方网站, 2024, 44(11): 3521-3529. |
[14] | 曾蠡, 杨婧如, 黄罡, 景翔, 罗超然. 超图应用方法综述:问题、进展与挑战[J]. 《计算机应用》唯一官方网站, 2024, 44(11): 3315-3326. |
[15] | 崔双双 王宏志 朱加昊 吴昊. 面向低能耗高性能的分类器两阶段数据选择方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||