计算机应用 ›› 2014, Vol. 34 ›› Issue (10): 2865-2868.DOI: 10.11772/j.issn.1001-9081.2014.10.2865
罗永莲,赵昌垣
收稿日期:
2014-05-08
修回日期:
2014-06-18
发布日期:
2014-10-30
出版日期:
2014-10-01
通讯作者:
罗永莲
作者简介:
基金资助:
山西省高等学校教学改革项目;山西省教育科学“十一五”规划课题
LUO Yonglian,ZHAO Changyuan
Received:
2014-05-08
Revised:
2014-06-18
Online:
2014-10-30
Published:
2014-10-01
Contact:
LUO Yonglian
摘要:
针对突发事件新闻网页语料处理问题,提出了一种基于此类新闻特点与网页标记信息的抽取和定位新闻内容的方法。该方法将网页标记与文本相似度作为机器学习的特征项,利用贝叶斯分类方法提取新闻标题。利用事件新闻的用词稳定性与网页标记的嵌套特点,减少了文本处理数量,降低了文本向量维数,在此基础上计算向量相似度以定位新闻篇首与篇尾。实验结果表明,该方法抽取标题的准确率达到86.5%,抽取正文的平均准确率在78%以上,能有效抽取新闻内容,且易于实现,对其他网页文本处理中挖掘标记信息与文本自身信息具有一定的借鉴意义。
中图分类号:
罗永莲 赵昌垣. 突发事件新闻标题与正文提取方法[J]. 计算机应用, 2014, 34(10): 2865-2868.
LUO Yonglian ZHAO Changyuan. Extracting method of emergency news headline and text from webpages[J]. Journal of Computer Applications, 2014, 34(10): 2865-2868.
[1]ZHANG C, GU X, BAI Y. The progress of Web data extraction technology [J]. Computers Science, 2004,31(2):129-131.(张成洪,古晓洪,白延红.Web数据抽取技术研究进展[J].计算机科学,2004,31(2):129-131.) |
[1] | 张庆 杨凡 方宇涵. 基于多模态信息融合的中文拼写纠错算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[2] | 高颖杰, 林民, 斯日古楞null, 李斌, 张树钧. 基于片段抽取原型网络的古籍文本断句标点提示学习方法[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3815-3822. |
[3] | 王猛 张大千 周冰艳 马倩影 吕继东. 基于时序知识图谱补全的CTCS-3级列控车载接口设备故障诊断方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[4] | 杨青 朱焱. 改进语言规则中的表示的隐喻识别技术[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[5] | 余婧 陈艳平 扈应 黄瑞章 秦永彬. 结合实体边界偏移的序列标注优化方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[6] | 张伟 牛家祥 马继超 沈琼霞. 深层语义特征增强的ReLM中文拼写纠错模型[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[7] | 徐章杰 陈艳平 扈应 黄瑞章 秦永彬. 联合边界生成的多目标学习嵌套命名实体识别[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[8] | 代震龙 韩萌 杨文艳 朱诗能 杨书蓉. 序列模式挖掘综述[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[9] | 徐乐 黄瑞章 白瑞娜 秦永彬. 基于意图正则化的深度半监督文本聚类[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[10] | 彭一峰 朱焱. 结合预处理方法和对抗学习的公平链接预测[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[11] | 赵彪 秦玉华 田荣坤 胡月航 陈芳锐. 依赖类型及距离增强的方面级情感分析模型[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[12] | 任登燃 王淑营. 基于差分边界增强的风电装备嵌套实体识别模型[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[13] | 田海燕 黄赛豪 张栋 李寿山. 视觉指导的分词和词性标注[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[14] | 帅健 王中卿 陈嘉沥. 基于代码生成的细粒度情感分析方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[15] | 姜雨杉, 张仰森. 大语言模型驱动的立场感知事实核查[J]. 《计算机应用》唯一官方网站, 2024, 44(10): 3067-3073. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||