计算机应用 ›› 2012, Vol. 32 ›› Issue (02): 407-410.DOI: 10.3724/SP.J.1087.2012.00407

• 人工智能 • 上一篇    下一篇

Web文本中维吾尔语领域术语的自动发现

钟军1,田生伟2,禹龙3   

  1. 1. 新疆大学 信息科学与工程学院,乌鲁木齐 830046
    2. 新疆大学 软件学院,乌鲁木齐 830046
    3. 新疆大学 网络中心,乌鲁木齐 830046
  • 收稿日期:2011-07-22 修回日期:2011-09-22 发布日期:2012-02-23 出版日期:2012-02-01
  • 通讯作者: 钟军
  • 作者简介:钟军(1988-),男,新疆乌鲁木齐人,硕士研究生,主要研究方向:人工智能;
    田生伟(1973-),男,新疆乌鲁木齐人,副教授,博士,主要研究方向:计算机智能、自然语言处理;
    禹龙(1974-),女,新疆乌鲁木齐人,副教授,硕士,主要研究方向:计算机智能、计算机网络。
  • 基金资助:
    国家自然科学基金资助项目(50774092);国家社科基金资助项目(10BTQ045,11XTQ007)

Automatic identification of Uyghur domain term in Web text

ZHONG Jun1,TIAN Sheng-wei2,YU Long3   

  1. 1. College of Information Science and Technology, Xinjiang University, Urumqi Xinjiang 830046,China
    2. College of Software Design, Xinjiang University, Urumqi Xinjiang 830046, China
    3. Network Center, Xinjiang University, Urumqi Xinjiang 830046, China
  • Received:2011-07-22 Revised:2011-09-22 Online:2012-02-23 Published:2012-02-01
  • Contact: ZHONG Jun

摘要: 针对维吾尔语领域术语获取难度大,人工扩充领域术语工作量大、效率低等特点,利用词汇共现原理,以维吾尔语连接词和互信息(MI)为工具,快速扩充原始维吾尔语领域术语;建立了以维吾尔语领域术语为特征模板,利用条件随机场(CRF)模型实现Web文本中维吾尔语领域术语的自动发现方法,并在此基础上实现长维吾尔语领域术语的自动发现。实验表明,对短维吾尔语领域术语的自动发现准确率为 97.59%,召回率为 93.38%,对长维吾尔语领域术语的自动发现正确率达到55.72%。

关键词: 维吾尔语, 互信息, 条件随机场, TF/IDF

Abstract: Since the Uyghur domain term is difficult to achieve, the workload of artificial expansion of the domain term is tremendous, and the efficiency is low, this paper used the Conditional Random Field (CRF) to identify the Uyghur domain term from the Web texts, which expanded the domain term with the conjunction word and the Mutual Information (MI) between the words based on the co-occurrence of terms. The experiments on the collected Web texts show that, for the short Uyghur domain terms, the algorithm achieves the precision as high as 97.59% and the recall 93.38%, and for the long Uyghur domain terms achieves the precision 55.72%.

Key words: Uyghur, Mutual Information (MI), Conditional Random Field (CRF), Term Frequency/Inverse Document Frequency (TF/IDF)

中图分类号: