基于双层决策的新闻网页正文精确抽取被引量：16

Precise Content Extraction from News Web Page Based on Decisions of Two Layers

下载PDF

导出

摘要本文提出了基于双层决策的新闻网页正文的精确抽取算法,双层决策是指对新闻网页正文所在区域的全局范围决策和对正文范围内每段文字是否确是正文的局部内容决策。首先根据实际应用的需要给出了新闻网页正文的严格界定,然后分析了新闻网页及其正文的特性,提出了基于双层决策的正文抽取策略,基于特征向量提取和决策树学习算法对上述双层决策进行了建模,并在国内10个主要新闻网站的1687个新闻页面上开展了模型训练和测试实验。实验结果表明,上述基于双层决策的方法能够精确地抽取出新闻网页的正文,最终正文抽取与人工标注不完全一致的网页比例仅为18.14%,比单纯局部正文内容决策的方法相对下降了29.85%,同时抽取误差率大于10%的网页比例更是仅为7.11%,满足了实际应用的需要。 This paper concerns content extraction from news web pages based on decisions of two layers. The first layer of decision is introduced to predict the scope of content in a webpage, and the second layer is employed to judge whether the paragraph within predicted scope is content or not. We firstly present a strict definition of content for web pages orienting to the practical applications, then analyze the characteristics of news web pages and their contents. Based on the analysis, we propose a content extraction method based on decisions of two layers, and carry out experiments on a corpus of 1867 HTMLs collected from 10 main news web sites in China. The experiment results show that our method can predict the content of news web pages quite well： the percentage of web pages which contain mismatching in extracted content is only 18.14%, which decreases 29. 85% compared to that just based on the second layer prediction, and only 7. 11% of extracted pages are with more than 10% mismatching,indicating that this method could be applied to practical applications.

作者胡国平张巍王仁华

机构地区中国科学技术大学电子工程与信息科学系讯飞语音实验室

出处《中文信息学报》 CSCD 北大核心 2006年第6期1-9,103,共10页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(69975018)

关键词计算机应用中文信息处理信息抽取特征向量决策树正文抽取 computer application Chinese information processing information extraction feature vector decision tree content extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1David Buttler,Ling Liu,et al.A Fully Automated Object Extraction System for the World Wide Web[A].In:Proceedings of the 2001 International Conference on Distributed Computing Systems[C].2001:361-370.
2高军,王腾蛟,杨冬青,唐世渭.基于Ontology的Web内容二阶段半自动提取方法[J].计算机学报,2004,27(3):310-318. 被引量：18
3张绍华,徐林昊,杨文柱,薛文玲,李天柱.基于样本实例的Web信息抽取[J].河北大学学报（自然科学版）,2001,21(4):431-437. 被引量：19
4邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
5许勇,荀恩东,贾爱平,宋柔.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):37-43. 被引量：13
6Yunhua Hu,Guomao Xin,Ruihua Song,Guoping Hu,Shuming Shi,Yunbo Cao and Hang Li.Title Extraction from Bodies of HTML Documents and Its Application to Web Page Retrieval.[A]Proc.of ACM-SIGIR'05[C].2005.
7Valter Crescenzi,Giansalvatore Mecca.RoadRunner:Towards Automatic Data Extraction from Large Web Site[A].In:proceeding of the 26th International Conference on very Large Database Systems[C],2001:109-118.
8Alberto H.F.Laender,Berthier A.Ribeiro2Neto.A Brief Survey of Web Data Extraction Tools[J].SIGMOD Record.2002,31(2):84-93.
9Daisuke Ikeda,Yasuhiro Yamada.Expressive Power of Tree and String Based Wrapper[A].In:on2line proceedings of IJCA1p03 workshop on Information Integration on the Web[C].2003.
10T.Berners-Lee,D.Connolly,Hypertext Markup Language-2.0,MIT/W3C,1995 http://www.w3.org/MarkUp/html-spec/html-spec_toc.html.

二级参考文献18

1[1]Baumgartner R.,Flesca S.,Gottlob G.. Visual web information extraction with lixto. In: Proceedings of the 27th International Conference on Very Large Data Bases, Roma, 2001,119～128
2[2]Liu L.,Pu C., Han W.. XWRAP: An XML-enabled wrapper construction system for web information sources. In: Proceedings of the 16th International Conference on Data Engineering, California, 2000, 611～621
3[3]Gottlob G., Koch C.. Monadic datalog and the expressive power of languages for web Information extraction. In: Proceedings of the 21th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, Wisconsin, 2002, 17～28
4[4]Hamer J.,Brennig M., Garcia-Molina H.. Template-based wrappers in the TSIMMIS system. In: Proceedings of the ACM SIGMOD International Conference on Management of Data, Arizona, 1997, 532～535
5[5]Atzeni P., Mecca G.. Cut and paste. In: Proceedings of the 16th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, Arizona, 1997, 144～153
6[6]Crescenzi V., Mecca G., Merialdo P.. RoadRunner: Towards automatic data extraction from large web sites. In: Proceedings of the 27th International Conference on Very Large Data Bases, Roma, 2001, 109～118
7[7]Soderland S.. Learning information extraction rules for semistructured and free text. Machine Learning,1999, 34(1～3):233～272
8[8]Adelberg B.. Nodose-A tool for semi automatically extracting structured and semi-structured data from text document. In: Proceedings of the ACM SIGMOD International Conference on Management of Data, Washington, 1998, 283～294
9[9]Ribeiro-Neto B.A., Laender A., da silva A.S.. Extracting semistructured data through examples. In: Proceedings of the 1999 ACM CIKM International Conference on Information and Knowledge Management, Missouri, 1999,94～101
10[10]EmbleyD.W., Campbell D.M., Jiang Y.S.. A conceptual-modeling approach to extracting data from web. In: Proceedings of the 17th International Conference on Conceptual Modeling, Singapore, 1998,78～91

共引文献104

1黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
2王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
3张永臣,孙乐,李飞,李文波,西野文人,于浩,方高林.基于Web数据的特定领域双语词典抽取[J].中文信息学报,2006,20(2):16-23. 被引量：11
4蓝军.EXCEL2002数据的WEB发布与利用[J].高校实验室工作研究,2006(1):27-29.
5胡安安,陈晋.基于知识库的Web文本挖掘模型K-WebMiner[J].科技导报,2006,24(4):68-71.
6崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
7任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
8李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
9邵良杉,那宝贵.基于Web挖掘的虚拟企业合作伙伴选择决策支持系统研究[J].计算机系统应用,2006,15(10):2-5. 被引量：6
10何婷婷,朱薏,张勇,任函.基于词语属性的计算机辅助获取流行词语研究[J].中文信息学报,2006,20(6):38-45. 被引量：4

同被引文献130

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2王婷,吴振新,高凡.国际网络信息资源保存的合作机制分析[J].图书馆建设,2009(3):6-9. 被引量：16
3许勇,荀恩东,贾爱平,宋柔.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):37-43. 被引量：13
4黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
5张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
6常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
7赵俊玲.澳大利亚网络信息保存项目PANDORA及其启示[J].情报理论与实践,2004,27(5):552-554. 被引量：21
8王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
9赵俊玲.美国国会图书馆网络信息保存项目Minerva及启示[J].图书馆建设,2005(5):40-42. 被引量：21
10唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报（信息科学版）,2005,23(5):535-540. 被引量：16

引证文献16

1施水才,程涛,王霞,吕学强.基于网页内容的广告推介研究[J].中文信息学报,2007,21(4):42-47. 被引量：1
2冯少卿,都云程.网页结构模板生成新方法研究[J].北京机械工业学院学报,2007,22(3):15-19. 被引量：2
3韩忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].计算机应用研究,2008,25(12):3568-3571. 被引量：15
4吕聚旺,都云程,王弘蔚,施水才.基于新型主题信息量化方法的Web主题信息提取研究[J].现代图书情报技术,2008(12):48-53. 被引量：1
5张霞亮,陈家骏.基于逻辑行和最大接纳距离的网页正文抽取[J].计算机工程与应用,2009,45(25):125-128. 被引量：5
6沈劲枝,寇文波,田晨耕.基于特征定位边界预测的Web档案正文采集[J].现代图书情报技术,2009(12):52-56. 被引量：5
7王立建,尹四清.基于Web页面有效信息抽取的分类方法[J].电脑开发与应用,2010,23(6):71-73. 被引量：1
8刘伟,严华梁.一种统一的Web新闻对象自动抽取方法[J].计算机工程,2012,38(11):167-169. 被引量：4
9段晓丽,王宇,谷静,刘玮楠.基于正文特征及网页结构的主题网页信息抽取[J].计算机工程与应用,2012,48(30):151-156. 被引量：10
10刘林浩.网页新闻信息预处理中SST树正文提取方法研究[J].微计算机信息,2012,28(10):466-468.

二级引证文献69

1廖开际,易聪.基于Web挖掘的商业信息抽取研究[J].情报杂志,2010,29(5):159-162.
2杨新华,陈蜀宇,樊承泽.Windows CE系统下WAP浏览器的研究与设计[J].计算机工程与设计,2010,31(13):3088-3091. 被引量：4
3孙镇,王惠临.组织机构文本信息资源管理应用研究[J].情报理论与实践,2010,33(9):86-88. 被引量：1
4陈雄,都云程,李渝勤,施水才.基于页面结构分析的论坛主题信息定位方法研究[J].微计算机信息,2010,26(27):168-170.
5陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22
6李文立,王乐超,宋春雷.基于HTML树和模板的文献信息提取方法研究[J].计算机应用研究,2010,27(12):4615-4617. 被引量：7
7欧阳佳,林丕源.基于DBSCAN算法的网页正文提取[J].计算机工程,2011,37(3):64-66. 被引量：6
8夏天.基于扩展标记树的网页正文抽取[J].广西师范大学学报（自然科学版）,2011,29(1):133-137. 被引量：2
9夏天.Web数据的深度定向采集[J].山东大学学报（理学版）,2011,46(5):34-38. 被引量：1
10胥桂仙,向春丞,翁彧,赵小兵,杨国胜.基于栏目的藏文网页文本自动分类方法[J].中文信息学报,2011,25(4):20-23. 被引量：7

1万文兵.基于主题型页面的正文信息抽取技术研究[J].计算机光盘软件与应用,2015,18(1):15-16. 被引量：1
2李纲,甘停,寇广增.基于文本情感分类的网络推手识别[J].图书情报工作,2010,54(8):77-80. 被引量：15
3周佳颖,朱珍民,高晓芳.基于统计与正文特征的中文网页正文抽取研究[J].中文信息学报,2009,23(5):80-85. 被引量：16
4孟川,武小年.基于文本特征值的正文抽取方法[J].桂林电子科技大学学报,2017,37(2):106-110. 被引量：2
5田京波.高校校园网用户兴趣挖掘系统的设计与实现[J].台州学院学报,2009,31(6):26-31.
6柯文德,吴佳烨.基于双层决策模型的足球机器人系统研究[J].茂名学院学报,2008,18(3):54-57.
7冯亮.QQ新闻去无踪[J].电脑迷,2007,0(18):77-77.
8何云.互联网上找“嫦娥”——百度视频搜索指南[J].电脑爱好者（普及版）,2008,0(2):52-53.
9陈增光.新媒体时代，网站新闻的操作策略[J].网络传播,2008(9):58-59.
10朱晓琨.基于神经网络的电气设备故障诊断[J].现代电子技术,2009,32(22):130-131. 被引量：4

中文信息学报

2006年第6期

浏览历史

内容加载中请稍等...

基于双层决策的新闻网页正文精确抽取被引量：16

参考文献11

二级参考文献18

共引文献104

同被引文献130

引证文献16

二级引证文献69

相关作者

相关机构

相关主题

浏览历史

基于双层决策的新闻网页正文精确抽取 被引量：16

参考文献11

二级参考文献18

共引文献104

同被引文献130

引证文献16

二级引证文献69

相关作者

相关机构

相关主题

浏览历史

基于双层决策的新闻网页正文精确抽取被引量：16