计算机应用 ›› 2014, Vol. 34 ›› Issue (1): 64-68.DOI: 10.11772/j.issn.1001-9081.2014.01.0064
YANG Yufei,DAI Qi,JIA Zhen,YI Hongfeng
摘要: 针对从中文百科中抽取属性关系时所面临的训练语料匮乏问题,提出一种利用极少人工参与的弱监督自动抽取方法。首先,利用中文百科条目信息模板中的半结构化属性关系回标条目文本自动获取训练语料;然后,根据朴素贝叶斯分类原理优化训练语料;最后,基于条件随机场(CRF)建立属性关系抽取模型。在互动百科中采集的数据集上进行实验,综合评价F值达到了80.9%。结果表明该方法能够获得质量较高的训练语料,并取得良好的抽取性能。
中图分类号: