计算机应用 ›› 2013, Vol. 33 ›› Issue (04): 984-987.DOI: 10.3724/SP.J.1087.2013.00984

• 人工智能 • 上一篇    下一篇

基于支持向量机分类和语义信息的中文跨文本指代消解

赵知纬1,2,顾静航1,2,胡亚楠1,2,钱龙华1,3,周国栋1,3   

  1. 1. 苏州大学 计算机科学与技术学院,江苏 苏州 215006
    2. 苏州大学 自然语言处理实验室,江苏 苏州 215006
    3. .苏州大学 自然语言处理实验室,江苏 苏州 215006
  • 收稿日期:2012-09-24 修回日期:2012-10-30 出版日期:2013-04-01 发布日期:2013-04-23
  • 通讯作者: 钱龙华
  • 作者简介:赵知纬(1987-),男,浙江杭州人,硕士研究生,主要研究方向:信息抽取;顾静航(1987-),男,河南洛阳人,硕士研究生,主要研究方向:信息抽取;胡亚楠(1989-),女,安徽亳州人,硕士研究生,主要研究方向:信息抽取;钱龙华(1966-),男,江苏苏州人,副教授,CCF会员,主要研究方向:自然语言处理;周国栋(1967-),男,江苏溧阳人,教授,博士生导师,CCF高级会员,主要研究方向:自然语言处理。
  • 基金资助:

    国家自然科学基金资助项目(61172083);国家自然科学基金资助项目(61172083);江苏省高校自然科学重大项目(11KJA520003)

Chinese cross document co-reference resolution based on SVM classification and semantics

ZHAO Zhiwei1,2,3,GU Jinghang1,2,3,HU Yanan1,2,3,QIAN Longhua1,2,3,ZHOU Guodong2,4   

  1. 1. Laboratory of Natual Language Processing, Soochow University, Suzhou Jiangsu 215006, China
    2. School of Computer Science and Technology, Soochow University, Suzhou Jiangsu 215006, China
    3. Laboratory of Natual Language Processing, Soochow University, Suzhou Jiangsu 215006, China
    4. Laboratory of Natual Language Processing, Soochow University, Suzhou Jiangsu 215006, ChinaJiangsu 215006, China
  • Received:2012-09-24 Revised:2012-10-30 Online:2013-04-01 Published:2013-04-23
  • Contact: QIAN Longhua

摘要: 跨文本(实体)指代消解(CDCR)的任务就是把所有分布在不同文本但指向相同实体的词组合在一起形成一个指代链。传统的跨文本指代消解主要采用聚类方法来解决信息检索中遇到的重名消歧问题。将聚类问题转换为分类问题,并采用支持向量机(SVM)分类器来解决信息抽取中的重名消歧和多名聚合问题。该方法可有效融合实体名称的构词特征、读音特征以及文本内部和文本外部的多种语义特征。在中文跨文本指代语料库上的实验表明,同聚类方法相比,该方法在提高精度的同时,也提高了召回率。

关键词: 跨文本指代, 信息抽取, 支持向量机分类器, 语义信息, 重名消歧, 多名聚合

Abstract: The task of Cross-Document Co-reference Resolution (CDCR) aims to merge those words distributed in different texts which refer to the same entity together to form co-reference chains. The traditional research on CDCR addresses name disambiguation posed in information retrieval using clustering methods. This paper transformed CDCR as a classification problem by using an Support Vector Machine (SVM) classifier to resolve both name disambiguation and variant consolidation, both of which were prevalent in information extraction. This method can effectively integrate various features, such as morphological, phonetic, and semantic knowledge collected from the corpus and the Internet. The experiment on a Chinese cross-document co-reference corpus shows the classification method outperforms clustering methods in both precision and recall.

Key words: cross document co-reference resolution, information extraction, Support Vector Machine (SVM) classifier, semantics, name disambiguation, variant consolidation

中图分类号: