基于扩展标记树的网页正文抽取被引量：2

Content Extraction of Web Page Based on Extended Label Tree

下载PDF

导出

摘要本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取。实验结果表明:该方法可以实现常规文章类网页的高精度抽取,并具有良好的适应性。 A content extraction method based on extended label tree is proposed.Web page cleaning and auxiliary information for extracting purpose are realized,and the coordinates of position are also set during the construction phase of extended label tree.Text nodes are regarded as the identifiers of the content region,then,the neighbor text node set with maximum coverage is selected and revised to form the final content region.Through the neighbor first traversal algorithm,the title node is located and additional properties are extracted.Experimental results show that the proposed method can achieve high-precision for common article page extraction and has good adaptability.

作者夏天

机构地区数据工程与知识工程教育部重点实验室中国人民大学信息资源管理学院

出处《广西师范大学学报（自然科学版）》 CAS 北大核心 2011年第1期133-137,共5页 Journal of Guangxi Normal University:Natural Science Edition

基金国家自然科学基金资助项目(09CTQ027) 教育部科学技术研究重点项目(109005) 中国人民大学科学研究基金项目(22382078)

关键词网页正文抽取扩展标记树近邻优先遍历 Web page content extraction extended label tree neighbor first traversal

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1刘兵.Web数据挖掘[M].北京:清华大学出版社,2009.
2KUSHMERICK N. Wrapper induction for information extraction[D]. Seattle :University of Washington, 1997.
3SUHIT G,GAIL K,DAVID N,et al. DOM-based content extraction of HTML documents [C]//Proceedings of the 12th international conference on World Wide Web. New York :ACM Press ,2003:207-214.
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5任玉,樊勇,郑家恒.基于分块的网页主题文本抽取[J].广西师范大学学报（自然科学版）,2009,27(1):141-144. 被引量：5
6CAI Deng, YU Shi-peng,WEN Ji-rong, et al. VIPS.. a vision-based page segmentation algorithm: MSR-TR-2003-79 [R]. Beijing : Microsoft Research, 2003.
7张霞亮,陈家骏.基于逻辑行和最大接纳距离的网页正文抽取[J].计算机工程与应用,2009,45(25):125-128. 被引量：5
8王利,刘宗田,王燕华,廖涛.基于内容相似度的网页正文提取[J].计算机工程,2010,36(6):102-104. 被引量：20
9VNIKIC. HtmlCleaner [EB/OL]. (2008-09-02) [2010-11-01 ]. http ://htmlcleaner. sourceforge, net/.
10汉语言智能实验室.新闻类网页正文提取在线演示系统[EB/OL].(2009-08-16)[2010-11-01].http://dm.griddss.cn/contentdemo.aspx.

二级参考文献31

1张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
4陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
5朱永盛,武港山.基于Web的新闻信息抽取[J].计算机工程,2006,32(10):74-76. 被引量：11
6胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
7许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11
8赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
9黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
10段军峰,黄维通,陆玉昌.中文网页分类研究与系统实现[J].计算机科学,2007,34(6):210-213. 被引量：12

共引文献124

1赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
2张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
3吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
4吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
5贺智平,徐学洲,李爱玲.一种基于信息熵的Web页面主题信息抽取方法[J].计算机工程与应用,2007,43(4):164-166. 被引量：6
6赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
7谢华,刘卫国.基于局部语义的网页净化算法[J].计算机系统应用,2007,16(5):25-28.
8章勤,余洋,陶文兵.图像搜索中基于网页分块的图像分类研究[J].计算机工程与科学,2007,29(6):42-44. 被引量：1
9高琰,谷士文,谭立球.基于多种策略的页面内容提取算法[J].西南交通大学学报,2007,42(4):473-477. 被引量：4
10张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10

同被引文献23

1Mihalcea R, Tarau P. TextRank : Bringing Order into Texts [ C ]. In: Proceedings of Empirical Methods in Natural Language Process- ing, Barcelona, Spain. 2004:404-411.
2Frank E, Paynter G W, Witten I H, et al. Domain - Specific Key- phrase Extraction [ C ] In: Proceedings of the 16th International Joint Conference on Artificial Intelligence, Stockholm, Sweden. 1999 : 668 -673.
3Turney P D. Learning Algorithms for Keyphrase Extraction[ J]. In- formation Retrieval, 2000, 2 (4) :303 - 336.
4Pasquier C. Task 5 : Single Document Keyphrase Extraction Using Sentence Clustering and Latent Dirichlet Allocation [ C ]. In : Pro- ceedings of the 5th International Workshop on Semantic Evaluation. Stroudsburg, PA, USA : Association for Computational Linguistics, 2010:154 - 157.
5Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[ J]. Journal of Machine Learning Research, 2003, 3: 993- 1022.
6Page L, Brin S, Motwani R, et al. The PageRank Citation Rank- ing: Bringing Order to the Web [ R]. Stanford Digital Library Technologies Project, 1998.
7Rajaraman A, Ullman J D. Mining of Massive Datasets[ M]. Cam- bride University Press. 2012 : 171 - 173.
8刘知远.基于文档主题结构的关键词抽取方法研究[D].北京:清华大学,2011.
9Mihalcea R, Tarau P. TextRank: Bringing Order into Texts [C]. In: Proceedings of Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain. 2004: 404-411.
10Frank E, Paynter G W, Witten I H, et al. Domain-Specific Keyphrase Extraction [C]. In: Proceedings of the 16th International Joint Conference on Artificial Intelligence, Stockholm, Sweden. San Francisco: Morgan Kaufmann Publishers Inc., 1999: 668-673.

引证文献2

1夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
2顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70

二级引证文献120

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：19
3李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
4顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
5唐晓波,肖璐.基于依存句法网络的文本特征提取研究[J].现代图书情报技术,2014(11):31-37. 被引量：10
6姚尧.自动关键短语抽取综述[J].现代计算机,2015,21(3):13-14. 被引量：1
7赵佳鹏,林民.基于维基百科的领域历史沿革信息抽取[J].计算机应用,2015,35(4):1021-1025. 被引量：4
8马运运,孙志一,刘海波,彭勇.中文专利文档关键词自动提取方法研究进展[J].世界科学技术-中医药现代化,2015,17(1):29-34. 被引量：1
9段准,刘功申.基于TextRank的用户模板构建方法[J].计算机技术与发展,2015,25(10):1-6. 被引量：1
10谢玮,沈一,马永征.基于图计算的论文审稿自动推荐系统[J].计算机应用研究,2016,33(3):798-801. 被引量：20

1王亮,高屹.基于树先剪枝的网页正文抽取方法研究[J].科技创新与应用,2013,3(36):63-64. 被引量：1
2陈华竣,郑智,倪德明.真前缀标记树——一种面向用户的子树选取策略表示方法[J].计算机技术与发展,2006,16(12):9-12. 被引量：1
3陈华竣.真前缀标记树在子树选取策略中的应用[J].广东技术师范学院学报,2006,27(6):32-34.
4魏亮.网络与信息安全[J].现代电信科技,2010(12):30-32.
5网络与信息安全[J].世界电信,2010(12):43-44.
6夏天.中心网页中主题网页链接的自动抽取[J].山东大学学报（理学版）,2012,47(5):25-31. 被引量：4
7赵靖,潘志舟,梅芳婷,程振,钱吕见.多中文搜索引擎的联合网络爬虫及LUCENCE实现[J].安阳师范学院学报,2012(5):51-55.
8徐德智,吴敏,Nkengu Damas.XML数据库的树模型抽象及其查询[J].计算机工程,2003,29(14):12-14. 被引量：1
9陈青,周广州,王飞,夏剑峰.一种新的基于标志区的抗旋转盲水印算法[J].包装工程,2016,37(17):192-195. 被引量：1
10张霞亮,陈家骏.基于逻辑行和最大接纳距离的网页正文抽取[J].计算机工程与应用,2009,45(25):125-128. 被引量：5

广西师范大学学报（自然科学版）

2011年第1期

浏览历史

内容加载中请稍等...

基于扩展标记树的网页正文抽取被引量：2

参考文献10

二级参考文献31

共引文献124

同被引文献23

引证文献2

二级引证文献120

相关作者

相关机构

相关主题

浏览历史

基于扩展标记树的网页正文抽取 被引量：2

参考文献10

二级参考文献31

共引文献124

同被引文献23

引证文献2

二级引证文献120

相关作者

相关机构

相关主题

浏览历史

基于扩展标记树的网页正文抽取被引量：2