�������ල�����Թ�ϵ��ȡ����
�����,����,����,����
���Ͻ�ͨ��ѧ ��Ϣ��ѧ�뼼��ѧԺ,�ɶ� 610031
Weakly supervised method for attribute relation extraction
YANG Yufei,DAI Qi,JIA Zhen,YI Hongfeng
School of Information Science and Technology, Southwest Jiaotong University, Chengdu Sichuan 610031, China
ժҪ ��Դ����İٿ��г�ȡ���Թ�ϵʱ�����ٵ�ѵ�������ѷ�����,���һ�����ü����˹���������ල�Զ���ȡ����������,�������İٿ���Ŀ��Ϣģ���еİ�ṹ�����Թ�ϵ�ر���Ŀ�ı��Զ���ȡѵ������;Ȼ��,������ر�Ҷ˹����ԭ���Ż�ѵ������;���,�����������(CRF)�������Թ�ϵ��ȡģ�͡��ڻ����ٿ��вɼ�����ݼ��Ͻ���ʵ��,�ۺ�����Fֵ�ﵽ��80.9%���������÷����ܹ���������ϸߵ�ѵ������,��ȡ�����õij�ȡ���ܡ�
�ؼ�� ��
��ϵ��ȡ ,
���ල ,
���İٿ� ,
���ر�Ҷ˹���� ,
�������
Abstract ��In order to solve the problem of insufficient training corpus for extracting attribute relation from Chinese encyclopedia, a weakly supervised method was proposed, which needed minimal human intervention. First, semi-structured attribute relations from Chinese encyclopedia entry infoboxes were used to tag entry texts for obtaining training corpus. Second, the optimized training corpus was obtained based on Naive Bayesian theory. Third, Conditional Random Field (CRF) was used to form attribute relation extraction model. The evaluation of F-score on the Hudong encyclopedia datasets was 80.9%. The experimental result shows that this method can enhance the quality of training corpus and runs a better extraction performance.
Key words ��
relation extraction
weak supervision
Chinese encyclopedia
Naive Bayes classification
Conditional Random Field (CRF)
�ո�����: 2013-07-29
��������: 2014-02-14
�������: �����Ȼ��ѧ���������Ŀ;�����У�����ҵ���ר���ʽ�������Ŀ;�й��ѧԺ�Զ�������ϵͳ����������ص�ʵ���ҿ��ſ���
ͨѶ����:
����
E-mail: 729380204@qq.com
����� : �����(1988-),��,����פ�����,˶ʿ�о���,��Ҫ�о�����:��Ϣ��ȡ;����(1963-),��,�Ĵ��ɶ���,������,��Ҫ�о�����:����ھ�������Ϣ����;����(1975-),Ů,���Ͽ�����,��ʦ,˶ʿ,��Ҫ�о�����:��Ϣ��ȡ,���ݰ�ȫ;����(1964-),��,����������,����,��ʿ,��Ҫ�о�����:����ݡ�����������
[1]
���� �ƴ� ��Ԫ. ���ڸĽ����ر�Ҷ˹�������Ŀ���ѵ����Ϊʶ�� [J]. �����Ӧ��, 2013, 33(11): 3187-3189.
[2]
���ƿ� ���� ����� ����. ���ڷֲ��������������Ϊʶ�� [J]. �����Ӧ��, 2013, 33(04): 957-959.
[3]
������ ��� Ǯ�� �ܹ�. �ʻ�������Ϣ������ʵ���ϵ��ȡӰ��ıȽ� [J]. �����Ӧ��, 2012, 32(08): 2238-2244.
[4]
�� ������. ���ڳ����ص��������ͼ����� [J]. �����Ӧ��, 2012, 32(05): 1272-1275.
[5]
��ϣ��. ��λ��ע����ִ�����������Ч��Χ�������� [J]. �����Ӧ��, 2012, 32(05): 1340-1342.
[6]
���� ������ �ֺ�� ��־��. ���������Ļ����;䷨�����ĵ����ʹ�ϵ��ȡ [J]. �����Ӧ��, 2012, 32(04): 1074-1077.
[7]
�Ӿ� ����ΰ ����. Web�ı���ά���������������Զ����� [J]. �����Ӧ��, 2012, 32(02): 407-410.
[8]
���� ������ ��ѧԨ ���� ����. ����������Ȩ���ر�Ҷ˹�㷨�������û�ʶ�� [J]. �����Ӧ��, 2011, 31(12): 3268-3270.
[9]
��ά ������ ����ܿ ����. ����ͼ��������������������ͼ��ָ� [J]. �����Ӧ��, 2011, 31(08): 2249-2252.
[10]
�Ŵ�Ʒ ������ �ⳤï. �����ִʷ���IJ�ηִʷ����о� [J]. �����Ӧ��, 2010, 30(8): 2034-2037.
[11]
Ӧ���� ��� �ڴ���� �캣. �������������ɹ�����Ա�ע���� [J]. �����Ӧ��, 2010, 30(8): 2038-2041.
[12]
���� ��� ���� �����. �����ı����������������ȡ�о� [J]. �����Ӧ��, 2009, 29(4): 1171-1173.
[13]
�κ��� ������. ���ڱ����ĸ��Ի��ͻ���Ϊģ���о� [J]. �����Ӧ��, 2009, 29(12): 3283-3286.
[14]
��· ������ ���ȷ�. ��������ѵ����SVM����ʵ���ϵ��ȡ [J]. �����Ӧ��, 2008, 28(6): 1444-1446.
[15]
��� ������ ������. �������ر�Ҷ˹�����㷨�Ļ�Ծ����ṹ�ھ� [J]. �����Ӧ��, 2007, 27(6): 1548-1550.