计算机应用 ›› 2012, Vol. 32 ›› Issue (05): 1340-1342.

• 人工智能 • 上一篇    下一篇

词位标注汉语分词中上下文有效范围定量分析

王希杰   

  1. 安阳师范学院 计算机与信息工程学院,河南 安阳 455000
  • 收稿日期:2011-10-09 修回日期:2011-12-16 发布日期:2012-05-01 出版日期:2012-05-01
  • 通讯作者: 王希杰
  • 作者简介:王希杰(1973-),男,河南卫辉人,讲师,硕士,CCF会员,主要研究方向:自然语言处理、信息抽取、文本数据挖掘。
  • 基金资助:

    国家自然科学基金资助项目(61040026);河南省教育厅高等学校青年骨干教师项目(2009GGJS-108)

Analysis on Effect Range of Context in Chinese Word Segmentation based Word -position Tagging

WANG Xi-jie   

  1. School of Computer and Information Engineering, Anyang Normal University, Anyang Henan 455000, China
  • Received:2011-10-09 Revised:2011-12-16 Online:2012-05-01 Published:2012-05-01
  • Contact: WANG Xi-jie

摘要: 在利用条件随机场进行基于词位标注的汉语分词时,特征窗口的宽度是决定条件随机场学习效果的重要参数。针对特征窗口最佳宽度的选择问题,设计了一组特征模板,并选取Bakeoff2005中的测试语料,使用CRF++0.53工具包进行了对比实验,定量分析了影响分词效果的有效上下文范文。通过实验得出以下结论:下文对分词性能贡献要大于上文;影响分词性能的特征窗口的宽度不超过五,以四字或五字窗口为宜。

关键词: 汉语分词, 条件随机场, 上下文, 特征窗口, 特征模板

Abstract: In Chinese word segmentation with Conditional Random Field (CRF), the size of feature window plays a crucial role in corpus training. To find the proper size of feature window, a group of feature templates were selected for the comparative tests performed on Bakeoff2005 with toolkit CRF++0.53 considering the effective range of context. The results are: (1) contribution of below-context is greater than above-context;(2) size of feature window influencing the segment performance is no larger than 5, the proper size is four or five.

Key words: Chinese word segmentation, Conditional Random Field (CRF), context, feature window, feature template

中图分类号: