计算机应用 ›› 2012, Vol. 32 ›› Issue (10): 2920-2922.DOI: 10.3724/SP.J.1087.2012.02920

• 人工智能 • 上一篇    下一篇

基于频繁模式挖掘的维吾尔文智能组词方法

吐尔地·托合提,维尼拉·木沙江,艾斯卡尔?艾木都拉   

  1. 新疆大学 信息科学与工程学院,乌鲁木齐 830046
  • 收稿日期:2012-04-10 修回日期:2012-05-22 发布日期:2012-10-23 出版日期:2012-10-01
  • 通讯作者: 吐尔地·托合提
  • 作者简介:吐尔地·托合提(1975-),男,新疆乌鲁木齐人,副教授,博士研究生,CCF会员,主要研究方向:互联网搜索、挖掘与内容安全;维尼拉·木沙江(1960-),女,新疆乌鲁木齐人,教授,主要研究方向:信息检索;艾斯卡尔·艾木都拉(1972-),男,新疆乌鲁木齐人,教授,博士生导师,CCF会员,主要研究方向:多语种信息处理。
  • 基金资助:
    国家自然科学基金资助项目;国家自然科学基金资助项目;国家自然科学基金委主任基金;教育部新世纪优秀人才支持计划资助项目

Intelligent method for word grouping based on frequent pattern mining in Uyghur language

TUERDI Tuoheti,WEINILA Mushajiang,AISIKAER Aimudula   

  1. School of Information Science and Engineering, Xinjiang University,Urumqi Xinjiang 830046,China
  • Received:2012-04-10 Revised:2012-05-22 Online:2012-10-23 Published:2012-10-01
  • Contact: TUERDI Tuoheti
  • Supported by:
    ;Director Projects of the National Natural Science Foundation of China

摘要: 以词间空格作为自然分隔符,非常容易获取维吾尔文中的词,但又很难获取结构完整的语义词,因此多种文本处理效果总是很不理想。提出维吾尔文组词的新概念,将数据挖掘中的频繁模式挖掘方法引入到维吾尔文组词中,再结合维吾尔文的语言文字特点,将无先验知识的模式挖掘问题转化为特定模式的匹配问题,提出了一种快速高效的频繁模式挖掘算法,来获取语义完整的维吾尔文词。实验结果表明,通过该算法获取的维吾尔文词,在结构上是稳定的,语义上是完整而独立的。

关键词: 维吾尔文本, 分词, 组词, 语义词, 频繁模式

Abstract: It is very easy to get the words in Uighur text lines by the natural delimiters such as spaces, but it is difficult to obtain the completely structured semantic words. Therefore,many kinds of text processing methods always seem not to be very effective. This paper put forward a new concept of Uyghur word grouping and introduced the frequent pattern mining method in data mining scheme, and combined the Uyghur language features, turned the pattern mining problem without prior knowledge into a pattern matching with special pattern, and proposed a fast and efficient frequent pattern mining algorithm to obtain the Uyghur words with complete semantics. The experimental results show that, words obtained by this algorithm are stable in structure, and semantically complete and independent.

Key words: Uyghur text, word segmentation, word grouping, semantic word, frequent pattern