一种基于标点密度的网页正文提取方法被引量：2

A Method of Webpage Content Extraction based on Point Density

下载PDF

导出

摘要本文提出了一种基于DOM树的正文提取方法。该方法是在基于DOM树的文本密度的正文提取算法的框架上改进而来的。基于对文言文翻译网站的观察,本方法使用标点符号密度取代原方法的文本密度。通过随机选取50篇文言文翻译网页作为测试集,本文提出的方法获得了更好的准确率、召回率和F值。 This paper proposes a DOM based content extraction method. It is improved from the DOM based content extraction via text density. Based on the observation of classical Chinese translation websites,the paper uses point density to replace text density. 50 classical Chinese translaiton webpages are randomly chosen as the test data set,the proposed method obtains better precision,recall,and F- measure.

作者杨钦杨沐昀

机构地区哈尔滨工业大学计算机科学与技术学院

出处《智能计算机与应用》 2015年第4期42-44,47,共4页 Intelligent Computer and Applications

关键词 DOM 标点密度文本密度正文提取 DOM Point Density Text Density Content Extraction

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献15

1PUNERA K, GIBSON D, TOMKINS A. The volume and evolution ofWeb Page Templates [ C]// Special interest tracks and posters of the14th international conference on World Wide Web, Chiba: ACM,2005:830 -839.
2RAHMANA F R, ALAM H,HARTONO R. Content extraction fromhtml documents [ C ] //18t Int. Workshop on Web Document Analysis(WDA2001 ) , Seattle; [s. n. ],2001 : 1 -4.
3FINN A, KUSHMER1CK N, SMYTH B. Fact or fiction: Contentclassification for digital libraries[C]// DELOS Workshops, Citeseer:Dublin, 2001:1 -6.
4PINTOD, BRANSTEIN M, COLEMAN R, et al. QuASM: A systemfor question answering using semi - structured data[ C ] //Proceedingsof the 2nd ACM/IEEE - CS joint conference on Digital libraries, NewYork:ACM, 2002: 46-55.
5DEBNATHS,MITRA P,GILES C L. Automatic extraction of in-formative blocks from webpages [ C ]//Proceedings of the Acm Sac,Santa Fe : ACM,2005 : 1722 - 1726.
6GUPTA S,KAISER G,STOLFO S. Extracting context to improve ac-curacy for HTML content extraction [ C ]//Special interest tracks andposters of the 14th international conference on World Wide Web, Chi-ba; ACM, 2005: 1114-1115.
7G0TTR0N T. Combining content extraction heuristics: the combinEsystem[ C ]//Proceedings of the 10th International Conference on In-formation Integration and Web - based Applications & Services,Linz:ACM, 2008: 591 -595.
8MANTRATZIS C,ORGUN M,CASSIDY S. Separating XHTML con-tent from navigation clutter using DOM — structure block analysis[C ] // Hypertext ’ 05 Proceedings of the Sixteenth Acm Conferenceon Hypertext & Hypermedia, New York: ACM, 2005 : 145 -147.
9GOTTRONT. Content code blurring: A new approach to content ex-traction[ C]// Proceedings of the 2008 19th International Conferenceon Database and Expert Systems Application,[ S. 1. ] : IEEE Comput-er Society, 2008:29 -33.
10WENINGERT, HSU W H, HAN J. CETR: content extraction viatag ratios[ C]// Proceedings of the 19th international conference onWorld wide web, Raleigh:ACM, 2010:971 -980.

同被引文献12

1胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
2韩忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].计算机应用研究,2008,25(12):3568-3571. 被引量：15
3胡俊坤,王浩,杨静.一种基于决策树的新闻内容抽取方法[J].合肥工业大学学报（自然科学版）,2009,32(6):774-777. 被引量：2
4李烯,徐朝军.基于分块和统计相结合的新闻正文抽取[J].情报理论与实践,2010,33(1):117-120. 被引量：4
5安增文,徐杰锋.基于视觉特征的网页正文提取方法研究[J].微型机与应用,2010,29(3):38-41. 被引量：13
6刘军,张净.基于DOM的网页主题信息的抽取[J].计算机应用与软件,2010,27(5):188-190. 被引量：19
7王少康,董科军,阎保平.使用特征文本密度的网页正文提取[J].计算机工程与应用,2010,46(20):1-3. 被引量：13
8张瑞雪,宋明秋,公衍磊.逆序解析DOM树及网页正文信息提取[J].计算机科学,2011,38(4):213-215. 被引量：15
9殷彬,杨会志.灵活结构网页的正文提取[J].计算机技术与发展,2011,21(9):111-113. 被引量：3
10朱泽德,李淼,张健,陈雷,曾新华.基于文本密度模型的Web正文抽取[J].模式识别与人工智能,2013,26(7):667-672. 被引量：13

引证文献2

1廖建军.基于标签样式和密度模型的网页正文自动抽取[J].情报科学,2018,36(7):123-129. 被引量：3
2杜博远,王美清,陈长福,陈飞.基于结构一致和特征学习的网页信息标签提取[J].计算机工程与应用,2017,53(7):74-78. 被引量：2

二级引证文献5

1张杨,徐传运.QoS多层本体的双向度量模型[J].计算机工程与应用,2017,53(20):14-19.
2汤文亮,汤树芳,张平.基于余弦测度的Web指纹识别算法的研究与改进[J].计算机科学,2019,46(10):295-298. 被引量：5
3陈壮,葛斌.一种改进混合文本密度的网页信息提取方法[J].佳木斯大学学报（自然科学版）,2022,40(1):41-44. 被引量：1
4翁彬月,秦永彬,黄瑞章,任丽娜,田悦霖.NEMTF:基于多维度文本特征的新闻网页信息提取方法[J].计算机应用研究,2022,39(4):1043-1048.
5王燕萍,徐洪伟,完泾平,周熠.基于非合作博弈的电力培训平台交互信息自动抽取方法[J].自动化技术与应用,2022,41(8):52-55.

1王瑞,周喜,李晓.基于正文相关度的维吾尔网页正文提取[J].计算机工程,2012,38(21):153-156. 被引量：2
2杨丽萍.网页正文提取技术的分析与研究[J].计算机光盘软件与应用,2012,15(22):115-116. 被引量：1
3安增文,王超,徐杰锋.基于机器学习的网页正文提取方法[J].微型机与应用,2010,29(12):4-6. 被引量：7
4王少康,董科军,阎保平.使用特征文本密度的网页正文提取[J].计算机工程与应用,2010,46(20):1-3. 被引量：13
5熊忠阳,蔺显强,张玉芳,牙漫.结合网页结构与文本特征的正文提取方法[J].计算机工程,2013,39(12):200-203. 被引量：15
6付华峥,陈翀,向勇,刘春.分布式大数据采集关键技术研究与实现[J].广东通信技术,2015,35(10):7-10. 被引量：15
7程娟.基于机器学习的网页文本抽取技术[J].图书馆学研究,2008(5):21-22. 被引量：1
8秦成磊,魏晓,杨阳.一种基于统计的复杂页面正文提取方法[J].计算机应用与软件,2015,32(7):90-92. 被引量：1
9武晓宇.条码的基础知识[J].中国商人（商业经理人）,2003(10):64-65.
10刘正东,张秉权.实时浏览翻译网站的搜索引擎代理技术[J].兵工自动化,2001,20(2):54-56. 被引量：4

智能计算机与应用

2015年第4期

浏览历史

内容加载中请稍等...

一种基于标点密度的网页正文提取方法被引量：2

参考文献15

同被引文献12

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种基于标点密度的网页正文提取方法 被引量：2

参考文献15

同被引文献12

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种基于标点密度的网页正文提取方法被引量：2