计算机应用 ›› 2014, Vol. 34 ›› Issue (6): 1626-1630.DOI: 10.11772/j.issn.1001-9081.2014.06.1626
收稿日期:
2013-11-28
修回日期:
2013-12-31
出版日期:
2014-06-01
发布日期:
2014-07-02
通讯作者:
黄晓海
作者简介:
HUANG Xiaohai1,2,3,GUO Zhi1,2,HUANG Yu1,2
Received:
2013-11-28
Revised:
2013-12-31
Online:
2014-06-01
Published:
2014-07-02
Contact:
HUANG Xiaohai
摘要:
全文检索等应用要求对文本进行精细表示。针对传统主题模型只能挖掘文本的主题背景,无法对文本的侧重点进行精细描述的问题,提出一种低秩稀疏文本表示模型,将文本表示分为低秩和稀疏两部分,低秩部分代表主题背景,稀疏部分则是对主题中不同方面的关键词描述。为了实现文本低秩部分和稀疏部分的分解,定义了主题矩阵,并引入鲁棒性主成分分析(PCA)方法进行矩阵分解。在新闻语料数据集上的实验结果表明,模型复杂度比隐含狄利克雷分配(LDA)模型降低了25%。在实际应用中,将模型所得的低秩部分应用于文本分类,分类所需的特征减少了28.7%,能用于特征集的降维;将稀疏部分应用于全文检索,检索结果精确度比LDA模型提高了10.8%,有助于检索结果命中率的优化。
中图分类号:
黄晓海 郭智 黄宇. 基于低秩分解的精细文本挖掘方法[J]. 计算机应用, 2014, 34(6): 1626-1630.
HUANG Xiaohai GUO Zhi HUANG Yu. Precise text mining using low-rank matrix decomposition[J]. Journal of Computer Applications, 2014, 34(6): 1626-1630.
[1]BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation [J]. The Journal of Machine Learning Research, 2003,3:993-1022. |
[1] | 祁祥洲 邢红杰. 基于中心核对齐的多核单类支持向量机[J]. 计算机应用, 0, (): 0-0. |
[2] | 陈浩杰,范江亭,刘勇. 分布式强化学习解决动态旅行商问题[J]. 计算机应用, 0, (): 0-0. |
[3] | 郭一阳 于炯 杜旭升 杨少智 曹铭. 基于自编码器与集成学习的离群点检测算法[J]. 计算机应用, 0, (): 0-0. |
[4] | 王周恺, 张炯, 马维纲, 王怀军. 面向高速列车监测数据的并行解压缩算法[J]. 计算机应用, 2021, 41(9): 2586-2593. |
[5] | 李卓, 宋子晖, 沈鑫, 陈昕. 边缘计算支持下的移动群智感知本地差分隐私保护机制[J]. 计算机应用, 2021, 41(9): 2678-2686. |
[6] | 赵津 宋文爱 邰隽 杨吉江 王青 李晓丹 雷毅 邱悦. 儿童阻塞性睡眠呼吸暂停计算机人脸辅助诊断综述[J]. 计算机应用, 0, (): 0-0. |
[7] | 张妮 韩萌 王乐 李小娟 程浩东. 基于正负效用划分的高效用模式挖掘方法综述[J]. 计算机应用, 0, (): 0-0. |
[8] | 武鹏, 吴尽昭. 基于线性误差断言的推理方法[J]. 计算机应用, 2021, 41(8): 2199-2204. |
[9] | 孙蕊, 韩萌, 张春砚, 申明尧, 杜诗语. 含负项top-k高效用项集挖掘算法[J]. 计算机应用, 2021, 41(8): 2386-2395. |
[10] | 王梓森, 梁英, 刘政君, 谢小杰, 张伟, 史红周. 科研项目同行评议专家学术专长匹配方法[J]. 计算机应用, 2021, 41(8): 2418-2426. |
[11] | 赵全, 汤小春, 朱紫钰, 毛安琪, 李战怀. 大规模短时间任务的低延迟集群调度框架[J]. 计算机应用, 2021, 41(8): 2396-2405. |
[12] | 康军, 黄山, 段宗涛, 李宜修. 时空轨迹序列模式挖掘方法综述[J]. 计算机应用, 2021, 41(8): 2379-2385. |
[13] | 陈静, 毛莺池, 陈豪, 王龙宝, 王子成. 基于改进单点多盒检测器的大坝缺陷目标检测方法[J]. 计算机应用, 2021, 41(8): 2366-2372. |
[14] | 马华, 陈跃鹏, 唐文胜, 娄小平, 黄卓轩. 面向工作者能力评估的众包任务分配方法的研究进展综述[J]. 计算机应用, 2021, 41(8): 2232-2241. |
[15] | 李莉 吴怡 杨祉坤 陈云鹏. 基于分区型区块链医疗电子病历共享方案[J]. , 0, (): 0-0. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||