改进的中文静态网页新闻正文自动抽取算法被引量：2

Improved Automatic Extraction Algorithm for Chinese Static Web Page News Body

下载PDF

导出

摘要网页新闻正文自动抽取属于信息抽取领域中的重要研究问题,现有基于行块分布进行新闻正文自动抽取的方法对短文本段落的新闻正文抽取效果较差。为了改善这种现状,提出了一种改进的中文静态网页新闻正文自动抽取算法。该方法给出了较好的行块分割策略来构建行块分布函数,并提出使用最长公共子序列作为新闻正文内容起始行块和结束行块的快速定位方法的判别准则。最后在1 000个新闻网页上对算法的性能进行了实验验证,得出新算法的平均抽取准确率为95. 0%,平均召回率为96. 54%,正文平均遗失率为1. 6%,抽取单个网页的平均耗时为0. 13 s。实验结果充分说明了新算法能适应大规模的网页新闻正文自动抽取任务。 The automatic extraction of web page news content is an important research issue in the field of information extraction.The current method of automatic extraction of news body based on the blocks distribution is less effective in extracting short text paragraph.In order to improve this situation,an improved automatic text extraction algorithm for Chinese static web pages is proposed.This method gives a better block segmentation strategy to build a block distribution function,and puts forward using the longest common subsequence as a rapid positioning method norm for the start and end blocks of news content.Finally,the performance of the algorithm was tested on 1 000 news web pages.The average extraction accuracy rate of the new algorithm was 95.0%,the average recall rate was 96.54%,the content average loss rate was 1.6%,and the average time consumed to extract single web page was 0.13 seconds.The experimental results fully illustrate that the new algorithm can adapt to the large-scale automatic extraction of web news content.

作者何春辉王孟然 HE Chunhui;WANG Mengran(Engineering Training Center,Xiangtan University,Xiangtan 411105,China)

机构地区湘潭大学工程训练中心

出处《东莞理工学院学报》 2018年第5期46-50,共5页 Journal of Dongguan University of Technology

关键词行块分布自动抽取快速定位最长公共子序列 block distribution automatic extraction rapid positioning longest common subsequence

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1潘心宇,陈长福,刘蓉,王美清.基于网页DOM树节点路径相似度的正文抽取[J].微型机与应用,2016,35(19):74-77. 被引量：4
2马晓慧,李泓莹.一种DOM树标签路径和行块密度结合的Web信息抽取方法[J].智能计算机与应用,2017,7(4):13-16. 被引量：4
3朱泽德,李淼,张健,陈雷,曾新华.基于文本密度模型的Web正文抽取[J].模式识别与人工智能,2013,26(7):667-672. 被引量：13
4钱爱兵.一种基于统计的中文网页正文抽取方法[J].情报学报,2009,28(2):187-194. 被引量：3
5林子熠,沈备军.基于统计的自动化Web新闻正文抽取[J].计算机应用与软件,2010,27(12):232-235. 被引量：6
6姬鑫,钟诚.基于分块的新闻网页信息抽取算法[J].计算机应用与软件,2015,32(4):317-322. 被引量：6
7邱江涛,唐常杰,李川,朱军.基于块分布的新闻网页内容提取[J].吉林大学学报（工学版）,2009,39(5):1326-1330. 被引量：4
8李烯,徐朝军.基于分块和统计相结合的新闻正文抽取[J].情报理论与实践,2010,33(1):117-120. 被引量：4
9罗永莲,赵昌垣,贾玉芳,芦彩林.基于朴素贝叶斯Web新闻内容的抽取方法[J].计算机与现代化,2016(1):59-63. 被引量：4

二级参考文献61

1荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
2黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
3王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
4张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
5程岚岚,何丕廉,孙越恒.基于朴素贝叶斯模型的中文关键词提取算法研究[J].计算机应用,2005,25(12):2780-2782. 被引量：13
6朱永盛,武港山.基于Web的新闻信息抽取[J].计算机工程,2006,32(10):74-76. 被引量：11
7邹腊梅,肖基毅,龚向坚.Web文本挖掘技术研究[J].情报杂志,2007,26(2):53-55. 被引量：14
8罗永莲,张永奎.基于发布时间的新闻网页去重方法研究[J].计算机工程与应用,2007,43(6):119-121. 被引量：3
9黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
10Line Eikvil.Information Extraction from World Wide Web -A Survey[OL].[2007-11-19].http://www.nr.no/files/samba/bamg/webIE-rep945.ps.

共引文献34

1柳刚,吴德萍.Web Proxy在高校图书馆数字资源中的应用[J].电脑编程技巧与维护,2010(22):100-102.
2张宇萍.对高校新闻发布系统的研究[J].数字技术与应用,2010,28(12):54-56. 被引量：6
3孙楠,张华伟.一种新的用于数据挖掘工具的网页净化算法[J].郑州轻工业学院学报（自然科学版）,2011,26(3):85-87.
4邵振凯.网页信息提取技术[J].计算机技术与发展,2013,23(9):36-38. 被引量：1
5张丽丽.高校图书馆读者决策采购模式的风险及规避策略[J].图书馆学研究,2013(23):30-33. 被引量：8
6姬鑫,钟诚.基于分块的新闻网页信息抽取算法[J].计算机应用与软件,2015,32(4):317-322. 被引量：6
7秦成磊,魏晓,杨阳.一种基于统计的复杂页面正文提取方法[J].计算机应用与软件,2015,32(7):90-92. 被引量：1
8沈娜.基于WEB新闻内容的信息抽取方法研究[J].江西科技学院学报,2015,10(3):25-29.
9刘忠宝,赵文娟.融合全局和局部特征的文本特征提取方法研究[J].情报探索,2016(1):1-3. 被引量：2
10宋硕.基于Web信息抽取技术的企业情报分析系统的研究[J].数字技术与应用,2016,34(2):91-92. 被引量：1

同被引文献1

1路璐,李涓子,侯磊,张蓝姗.面向话题的新闻综述报告自动生成研究[J].北京大学学报（自然科学版）,2014,50(1):194-200. 被引量：2

引证文献2

1黄颖杰,朱静,杨晋昌.常见神经网络模型在古诗词自动生成中的应用与对比分析[J].东莞理工学院学报,2020,27(5):55-60. 被引量：2
2王茹皓,朱静,杨晋昌,黄颖杰.融合门控注意力机制的基于生成对抗网络模型的新闻评论自动生成方法研究[J].科教文汇,2020(29):89-90. 被引量：1

二级引证文献3

1常磊.新媒体新闻稿件标题的重要性分析[J].传播力研究,2020,4(25):102-103.
2罗璐莹,李婧妍,丁思文,李兆发,王梦琴,晏嘉俊,吴文娟,王淑琴.移动端古诗词学习系统[J].计算机系统应用,2022,31(5):102-110. 被引量：1
3施峰,周坤晓.基于Siren函数改进的循环神经网络机器阅读理解[J].东莞理工学院学报,2022,29(5):47-52. 被引量：1

1熊淑华.网页设计中JSP和ASP技术的应用研究[J].网络安全技术与应用,2018(11):48-48. 被引量：6
2江卓军,陈璇,苏晓兰,宋春鹏,陈晓杰.一种复杂约束下的采购评审专家自动抽取算法[J].现代电子技术,2018,41(3):75-79. 被引量：2
3吴东根,周小安.基于最长公共子序列的DNA序列相似性分析[J].智能计算机与应用,2018,8(6):22-26. 被引量：2
4周小平.高职静态网页设计课程基于工作过程的项目化教学模式设计[J].广西教育,2018,0(39):62-63. 被引量：1
5张祈添.新媒体时代守住新闻专业主义——评《镇版报道的气质养成》[J].新闻爱好者,2018(11):97-97.
6黄政豪,崔荣一.基于术语自动抽取的科技文献翻译辅助系统的设计[J].延边大学学报（自然科学版）,2017,43(3):259-263. 被引量：4
7李文龙,袁纵横,孙伟.一种PCBA图像的快速定位方法[J].电子科技,2018,31(12):63-67. 被引量：2
8李海林,邬先利.基于频繁模式发现的时间序列异常检测方法[J].计算机应用,2018,38(11):3204-3210. 被引量：11
9毛海波,马国鹏,徐庆峰,安静.特高压GIS故障快速定位方法研究[J].电气时代,2018(11):52-53. 被引量：1

东莞理工学院学报

2018年第5期

浏览历史

内容加载中请稍等...

改进的中文静态网页新闻正文自动抽取算法被引量：2

参考文献9

二级参考文献61

共引文献34

同被引文献1

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

改进的中文静态网页新闻正文自动抽取算法 被引量：2

参考文献9

二级参考文献61

共引文献34

同被引文献1

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

改进的中文静态网页新闻正文自动抽取算法被引量：2