一种统一的Web新闻对象自动抽取方法被引量：4

Unified and Automatic Web News Object Extraction Approach

下载PDF

导出

摘要提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板。 This paper proposes a unified and automatic approach for extracting Web news object.By extracting the category,title,date,source,author,content,comments,related links and news links in the news pages as category properties,and through page analysis,candidate extraction and true value identification,news object can be extracted automatically.Experimental results show that the method for extracting information of objects multiple properties has high accuracy,and the result does not depend on a specific page template.

作者刘伟严华梁

机构地区中国科学技术信息研究所北京大学计算机科学技术研究所

出处《计算机工程》 CAS CSCD 2012年第11期167-169,共3页 Computer Engineering

基金国家"863"计划基金资助项目(2008AA01Z421) 中国科学技术信息研究所预研基金资助项目(YY-201103)

关键词 WEB数据抽取视觉特征序列标注网页模板新闻属性新闻对象 Web data extraction visual feature sequence tagging Web page template news attribute news object

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Xue Yewei, Hu Yunhua, Xin Guomao. Web Page Title Extraction and Its Application[J]. Information Processing Management, 2007, 43(5): 1332-1347.
2胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
3钱爱兵.一种基于统计的中文网页正文抽取方法[J].信息学报,2009,28(2):187-194.
4Lafferty J D, McCallum A, Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proc. of International Conference on Machine Learning. San Francisco, USA: Morgan Kaufmann Publishers Inc., 2001.
5于江德,樊孝忠,尹继豪,顾益军.基于隐马尔可夫模型的中文科研论文信息抽取[J].计算机工程,2007,33(19):190-192. 被引量：9
6Zhao Hongkun, Meng Weiyi, Wu Zonghuan, et al. Fully Automatic Wrapper Generation for Search Engines[C]//Proc. of WWW'05. New York, USA: [s. n.], 2005.
7Cai Deng, Yu Shiping, Wen Jirong, et al. VIPS: A Vision-based Page Segmentation Algorithm[R]. Microsoft, Technical Report: MSR-TR-2003-79, 2003.
8Quinlan J R. C4.5: Programs for Machine Learning[M]. San Francisco, USA: Morgan Kaufmann Publishers Inc., 1993.
9Cortes C, Vapnik V. Support-Vector Networks[J]. Machine Learning, 1995, 20(3): 273-297.

二级参考文献17

1许勇,荀恩东,贾爱平,宋柔.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):37-43. 被引量：13
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
4David Buttler,Ling Liu,et al.A Fully Automated Object Extraction System for the World Wide Web[A].In:Proceedings of the 2001 International Conference on Distributed Computing Systems[C].2001:361-370.
5Yunhua Hu,Guomao Xin,Ruihua Song,Guoping Hu,Shuming Shi,Yunbo Cao and Hang Li.Title Extraction from Bodies of HTML Documents and Its Application to Web Page Retrieval.[A]Proc.of ACM-SIGIR'05[C].2005.
6Valter Crescenzi,Giansalvatore Mecca.RoadRunner:Towards Automatic Data Extraction from Large Web Site[A].In:proceeding of the 26th International Conference on very Large Database Systems[C],2001:109-118.
7Alberto H.F.Laender,Berthier A.Ribeiro2Neto.A Brief Survey of Web Data Extraction Tools[J].SIGMOD Record.2002,31(2):84-93.
8Daisuke Ikeda,Yasuhiro Yamada.Expressive Power of Tree and String Based Wrapper[A].In:on2line proceedings of IJCA1p03 workshop on Information Integration on the Web[C].2003.
9T.Berners-Lee,D.Connolly,Hypertext Markup Language-2.0,MIT/W3C,1995 http://www.w3.org/MarkUp/html-spec/html-spec_toc.html.
10J.R.Quinlan.C4.5 Programs for Machine Learning[J].Morgan Kaufmannn Publishers San Meteo,California,1992.

共引文献23

1施水才,程涛,王霞,吕学强.基于网页内容的广告推介研究[J].中文信息学报,2007,21(4):42-47. 被引量：1
2冯少卿,都云程.网页结构模板生成新方法研究[J].北京机械工业学院学报,2007,22(3):15-19. 被引量：2
3韩忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].计算机应用研究,2008,25(12):3568-3571. 被引量：15
4吕聚旺,都云程,王弘蔚,施水才.基于新型主题信息量化方法的Web主题信息提取研究[J].现代图书情报技术,2008(12):48-53. 被引量：1
5张霞亮,陈家骏.基于逻辑行和最大接纳距离的网页正文抽取[J].计算机工程与应用,2009,45(25):125-128. 被引量：5
6沈劲枝,寇文波,田晨耕.基于特征定位边界预测的Web档案正文采集[J].现代图书情报技术,2009(12):52-56. 被引量：5
7尹忠刚,钟彦儒,刘静,朱权兵.基于Markov链的变频调速系统随机PWM控制技术[J].电机与控制学报,2010,14(2):41-46. 被引量：6
8王立建,尹四清.基于Web页面有效信息抽取的分类方法[J].电脑开发与应用,2010,23(6):71-73. 被引量：1
9杨进,罗漫,张启蕊.文本挖掘在中医药文献分析中的应用[J].广东药学院学报,2010,26(2):216-220. 被引量：9
10朱明,郭春生.隐马尔可夫模型及其最新应用与发展[J].计算机系统应用,2010,19(7):255-259. 被引量：24

同被引文献40

1张慧颖,曲著伟.基于子树匹配的交互式Web数据抽取方法[J].计算机工程,2006,32(9):78-80. 被引量：8
2郭志鑫,金海,陈汉华.SemreX中基于语义的文档参考文献元数据信息提取[J].计算机研究与发展,2006,43(8):1368-1374. 被引量：8
3赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
4朱红灿,龙朝阳.基于熵的新闻网页抽取方法的研究[J].现代图书情报技术,2007(4):48-51. 被引量：2
5罗永莲,秦振吉.新闻网页主题内容提取方法研究[J].微计算机应用,2007,28(5):556-560. 被引量：5
6于江德,樊孝忠,尹继豪,顾益军.基于隐马尔可夫模型的中文科研论文信息抽取[J].计算机工程,2007,33(19):190-192. 被引量：9
7Grigalis T.Towards web-scale structured Web data extraction:WSDM 2013:Proceedings of the sixth ACM international conference on Web search and data mining,Rome,February 4-8,2013[C].New York:ACM,2013.
8Furche T,Gottlob G,Grasso G,et al.OXPath:A language for scalable data extraction,automation,and crawling on the deep web[J].VLDB,2013,22(1):47-72.
9Zheng S Y, Song R H, Wen J R. Template-independent News Extraction Based on Visual Consistency[C]. In: Proceedings of the AAAI'07, Vancouver, Canada. 2007.
10王文生,谢能付,基于Web的农业信息自动抽取方法研究[C].见:全闰农业信息分析理论与方法学术研讨会.2007:77-83.

引证文献4

1陈荟慧,舒云星,林丽.多语种Web新闻语料抓取的通用模型研究[J].洛阳理工学院学报（自然科学版）,2013,23(4):34-39. 被引量：1
2王旭仁,杨硕,何发镁,王彦丽,张为群.Web页面细粒度数据抽取方法研究[J].计算机工程与设计,2014,35(2):700-704.
3李湘东,霍亚勇,黄莉.图书网页的自动识别及书目信息抽取研究[J].现代图书情报技术,2014(4):71-77. 被引量：3
4刘宝超,崔荣一.基于最大Jaccard相似度的互激励实体验证算法[J].延边大学学报（自然科学版）,2015,41(1):42-45. 被引量：1

二级引证文献5

1李晨,朱世伟,赵燕清,于俊凤.基于MapReduce的网络爬虫设计与实现[J].山东科学,2015,28(2):101-107. 被引量：1
2刘宝超,崔荣一.基于最大Jaccard相似度的互激励实体验证算法[J].延边大学学报（自然科学版）,2015,41(1):42-45. 被引量：1
3赵峰涛.基于视觉的图书馆在架错序图书自动识别技术应用研究[J].电子设计工程,2018,26(22):147-150. 被引量：3
4张雷,崔荣一.基于编辑距离的词序敏感相似度度量方法[J].延边大学学报（自然科学版）,2020,46(2):140-144. 被引量：5
5林正柏.重开发、重研制——“互联网+”背景下多语种平行语料库的建设思路[J].海外英语,2020(15):238-239.

1汪俊,赵坤坤,计一凡.垃圾评论识别的数学建模[J].科技创新与应用,2015,5(26):28-29.
2冯亮.QQ新闻去无踪[J].电脑迷,2007,0(18):77-77.
3何云.互联网上找“嫦娥”——百度视频搜索指南[J].电脑爱好者（普及版）,2008,0(2):52-53.
4陈增光.新媒体时代，网站新闻的操作策略[J].网络传播,2008(9):58-59.
5庞章彬.禁用Maxthon的RSS[J].电脑迷,2005,0(15):73-73.
6庞章彬.两招让Maxthon中RSS提示消失[J].计算机应用文摘,2006(16):110-110.
7朱欣.基于模板技术的CMS在高校信息化建设中的应用[J].软件导刊,2015,14(5):21-23. 被引量：3
8新闻链接[J].数码设计,2005(02M):12-15.
9新闻链接[J].数码设计,2005(03M):6-9.
10网络秘技篇[J].电脑应用文萃,2006(4):77-77.

计算机工程

2012年第11期

浏览历史

内容加载中请稍等...

一种统一的Web新闻对象自动抽取方法被引量：4

参考文献9

二级参考文献17

共引文献23

同被引文献40

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种统一的Web新闻对象自动抽取方法 被引量：4

参考文献9

二级参考文献17

共引文献23

同被引文献40

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种统一的Web新闻对象自动抽取方法被引量：4