基于N元语言模型的文本分类方法

doi:10.3724/SP.J.1087.2005.00011

计算机应用 ›› 2005, Vol. 25 ›› Issue (01): 11-13.DOI: 10.3724/SP.J.1087.2005.00011

基于N元语言模型的文本分类方法

周新栋，王挺

国防科技大学计算机学院

出版日期:2005-01-01 发布日期:2011-04-22
基金资助:
国家863计划资助项目(2001AA114110)

Text classification based on N-gram language model

ZHOU Xin-dong, WANG Ting

School of Computer Science, National University of Defense Technology

Online:2005-01-01 Published:2011-04-22

摘要/Abstract

摘要： 分类是近年来自然语言处理领域的一个研究热点。在分析了传统的分类模型后,文中提出了用N元语言模型作为中文文本分类模型。该模型不以传统的"词袋"(bagofwords)方法表示文档,而将文档视为词的随机观察序列。根据该方法,设计并实现一个基于词的2元语言模型分类器。通过N元语言模型与传统分类模型(向量空间模型和NaiveBayes模型)的实验对比,结果表明:N元模型分类器具有更好的分类性能。

关键词: 文本分类, N元语言模型, 参数平滑

Abstract: Text classification has become a research focus in the field of natural language processing. After the review of traditional text classification models, a method using N-gram language models to classify Chinese text was presented. This model doesn′t present documents with bag of words, but regards documents as random observation sequences. With the bi-gram model, a text classifier based on word level was implemented. The performance of the N-gram model classifier was compared with that of the traditional models (Vector Space Model and Naive Bayes Model). Experiment result shows that the accuracy and the stability of the N-gram model classifier are better than others.

Key words: text classification, N-gram language model, parameter smoothing

中图分类号:

TP391.1

周新栋，王挺. 基于N元语言模型的文本分类方法[J]. 计算机应用, 2005, 25(01): 11-13.

ZHOU Xin-dong, WANG Ting. Text classification based on N-gram language model[J]. Journal of Computer Applications, 2005, 25(01): 11-13.

[1]	张洋, 江铭虎. 基于注意力机制的文本作者识别[J]. 计算机应用, 2021, 41(7): 1897-1901.
[2]	温超东, 曾诚, 任俊伟, 张. 结合ALBERT和双向门控循环单元的专利文本分类[J]. 计算机应用, 2021, 41(2): 407-412.
[3]	张阳, 王小宁. 基于Word2Vec词嵌入和高维生物基因选择遗传算法的文本特征选择方法[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3151-3155.
[4]	廖胜兰, 殷实, 陈小平, 张波, 欧阳昱, 张衡. 面向电力业务对话系统的意图识别数据集[J]. 计算机应用, 2020, 40(9): 2549-2554.
[5]	尹春勇, 何苗. 基于改进胶囊网络的文本分类[J]. 计算机应用, 2020, 40(9): 2525-2530.
[6]	王敏蕊, 高曙, 袁自勇, 袁蕾. 基于动态路由序列生成模型的多标签文本分类方法[J]. 计算机应用, 2020, 40(7): 1884-1890.
[7]	李鸣, 郭晨皓, 陈星. 视觉类深度神经网络的自动标注[J]. 计算机应用, 2020, 40(6): 1593-1600.
[8]	王留洋, 俞扬信, 陈伯伦, 章慧. 基于共识和分类改善文档聚类的识别信息方法[J]. 计算机应用, 2020, 40(4): 1069-1073.
[9]	张小川, 戴旭尧, 刘璐, 冯天硕. 融合多头自注意力机制的中文短文本分类模型[J]. 计算机应用, 2020, 40(12): 3485-3489.
[10]	马建刚, 马应龙. 语义驱动的司法文档学习分类方法[J]. 计算机应用, 2019, 39(6): 1696-1700.
[11]	马建刚, 张鹏, 马应龙. 基于知识块摘要和词转移距离的高效司法文档分类[J]. 计算机应用, 2019, 39(5): 1293-1298.
[12]	邱宁佳, 丛琳, 周思丞, 王鹏, 李岩芳. 结合改进主动学习的SVD-CNN弹幕文本分类算法[J]. 计算机应用, 2019, 39(3): 644-650.
[13]	唐小川, 邱曦伟, 罗亮. 基于交互作用的文本分类特征选择算法[J]. 计算机应用, 2018, 38(7): 1857-1861.
[14]	卢玲, 杨武, 王远伦, 雷子鉴, 李莹. 结合注意力机制的长文本分类方法[J]. 计算机应用, 2018, 38(5): 1272-1277.
[15]	张忠林, 刘述昌, 江粉桃. 深层次分类中候选类别搜索算法[J]. 计算机应用, 2017, 37(3): 635-639.

基于N元语言模型的文本分类方法

Text classification based on N-gram language model

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics