计算机应用 ›› 2016, Vol. 36 ›› Issue (3): 726-730.DOI: 10.11772/j.issn.1001-9081.2016.03.726
闫旸1, 赵佳鹏1, 李全刚1,2, 张洋1, 柳厅文1, 时金桥1
YAN Yang1, ZHAO Jiapeng1, LI Quangang1,2, ZHANG Yang1, LIU Tingwen1, SHI Jinqiao1
摘要: 为了克服文本标题的人物关系抽取中非人物实体的干扰、关系特征词的选取以及标题中多人物实体对目标实体的关系判定的影响,提出基于决策树的人物实体判别、基于最小集合覆盖的关系特征词生成以及基于三层句式规则统计方法。首先,针对中国机器学习会议(CCML)竞赛中人物关系属性文件中对人物的描述,提取18种特征,采用C4.5分类器,获得了98.2%的查全率和92.6%的查准率,其结果作为下一步人物关系判定的条件;其次,为了保证特征词集合的规模维持在合适的水平,采用了基于最小集合覆盖的特征词覆盖的算法,结果表明,随着特征词集合达到一定的规模,特征词集合完成对所有类别关系的集合覆盖,用以判定文本标题中人物关系类型;最后,采用三层句式规则统计方法,用以生成过滤掉比重较小的句子规则和根据关系正负比例判定的进一步细分句式规则,以判定文本标题关系与否。实验结果表明,在19种人物关系判定上取得82.9%的查全率、74.4%的查准率以及78.4%的F1测度。所提方法可以有效用于新闻标题人物关系提取,用以构建人物关系知识图谱。
中图分类号: