检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. 一种基于新词发现的Web文本表示方法

吴春颖王士同蔡崇超

计算机应用

摘要（1761）

PDF （783KB）（1307）

Web文本表示是Web文本特征提取和分类的前提，最常用的文本表示是向量空间模型（VSM），其中向量一般是基于词的特征项。由于向量空间模型本身没有考虑文本上下文间的潜在概念结构（如词汇间的共现关系），而Web文本是一种半结构化文本，同时经常有新词出现，因此在VSM基础上提出了一种基于新词发现的Web文本表示方法：首先进行预处理将网页转化为文本；然后进行文本分词；接着通过二元互信息进行新词发现，同时把新词加入字典重新分词；最后用词和新词共同来表示Web文本。实验结果表明，该方法可以帮助识别未登录词并扩充现有字典，能够增强Web文本表示能力，改善Web文本的特征项质量，提高Web文本分类效果。

相关文章 | 多维度评价

Select

2. 基于二元语法的N-最大概率中文粗分模型

吴春颖王士同

计算机应用

摘要（1393）

中文粗分是中文分词的基础环节，目前常用的粗分模型有基于规则的非统计模型和基于一元语法（uni-gram）的统计模型，其中后者取得了较好效果。在一元语法模型基础上提出了一种基于二元语法(bi-gram)的N-最大概率中文粗分模型，该模型把所有可能的词切分构造成一个有向无环图（DAG），利用噪声-信道模型和二元语法来计算概率，通过插值平滑技术来解决数据稀疏问题，目的在于更好地得到少量高召回率、高效率的粗分结果，更大程度地保留歧义字段和未登录词，提高后续分词质量。通过理论分析、模型建立和初步实验验证了模型的有效性。