%0 Journal Article %A 李鑫 %A 刘启和 %A 蒲强 %A 杨国纬 %T 一种Web主题文本通用提取方法 %D 2007 %R %J 计算机应用 %P 1394-1396 %V 27 %N 6 %X 为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的HTML标记分析,其通用性较强。实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求。 %U http://www.joca.cn/CN/abstract/article_10223.shtml