基于文本对象模型的自动化网页内容提取方法被引量：3

Automated Web Page Content Extraction Method Based on Document Object Model

下载PDF

导出

摘要网页内容提取在信息检索、文本分析以及网络资源数据处理等领域具有重要的工程与应用价值.针对网页中的大量无关内容及网页结构的异构性所造成的网页内容提取难题,提出一种基于文本对象模型(DOM)的自动化网页内容提取方法.首先,在节点过滤后,对网页的DOM模型进行压缩,便于后续分析处理;然后,提出基于文本-链接密度的内容提取方法来识别网页内容;最后,基于节点熵来识别并去除网页内容中的噪声链接.实验结果表明,相比于传统的网页内容提取方法,该方法的准确率和F1分数均有明显提升,而召回率仅有轻微下降. Web content extraction has great engineering and application value in the fields of information retrieval,text analysis and network resource data processing.In view of the problem of web content extraction caused by useless information on web pages and the heterogeneity of web page structures,this paper proposes an automated web page content extraction method based on Document Object Model(DOM).Firstly,for DOMs generated from original web pages,we remove useless nodes from them and then compress the models,which facilitates subsequent processing.Then,we identify the web page content based on text and hyperlink density.Finally,we identify the noise hyperlinks based on node entropy and remove them from the content.The experimental results show that compared with the traditional methods of web page content extraction,the accuracy and F1 score of our method are obviously improved while there is only a slight decline on recall.

作者李桐宇任锐蔡鸿明姜丽红

机构地区上海交通大学软件学院

出处《上海交通大学学报》 EI CAS CSCD 北大核心 2018年第10期1363-1369,共7页 Journal of Shanghai Jiaotong University

基金国家自然科学基金资助项目(61373030)

关键词文本对象模型网页内容提取文本密度节点熵 document object model(DOM) content extraction of web pages text density node entropy

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1杨柳青,李晓东,耿光刚.基于布局相似性的网页正文内容提取研究[J].计算机应用研究,2015,32(9):2581-2586. 被引量：10

二级参考文献17

1黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
2Gupta S,Kaiser G E,Grimm P,et al.Automating content extraction of HTML documents[J].World Wide Web,2005,8(2):179-224.
3Guo Yan,Tang Huifeng,Song Linhai,et al.ECON:an approach to extract content from Web news page[C]//Proc of the 12th International Asia-Pacific Web Conference.[S.l.]:IEEE Press,2010:314-320.
4Mane T B,Potdar G P.Template extraction from heterogeneous Web pages[J].International Journal of Advanced Computer Research,2012,2(6):197-201.
5Kadam V,Devale P R.A methodology for template extraction from heterogeneous Web pages[J].Indian Journal of Compute Science and Engineering,2012(3):449-452.
6Ma Ling,Goharian N,Chowdhury A,et al.Extracting unstructed data from template generated Web documents[C]//Proc of the 12th International Conference on Information and Knowledge Management.New York:ACMPress,2003:512-515.
7Reis D,Golgher P,Silva A,et al.Automatic Web news extraction using tree edit distance[C]//Proc of the 13th International Conference on World Wide Web.New York:ACM Press,2004:502-511.
8Vieira K,SilvaI A,Pinto N,et al.A fast and robust method for Web page template detection and removal[C]//Proc of the 15th ACM International Conference on Information and Knowledge Management.New York:ACM Press,2006:258-267.
9Cai Deng,Yu Shipeng,Wen Jirong,et al.VIPS:a vision-based page segmentation algorithm,MSR-TR-3003-79[R].[S.l.]:Microsoft Research,2003.
10Cai Deng,Yu Shipeng,Wen Jirong,et al.Extracting content structure for Web pages based on visual representation[J].Web Technologies and Applications,2003,2642:406-417.

共引文献9

1王宇龙,赖华,余正涛,洪旭东,刘书龙.融合结构和内容特征提取多类型网页文本要素[J].山西大学学报（自然科学版）,2016,39(3):386-391. 被引量：1
2向菁菁,耿光刚,李晓东.一种新闻网页关键信息的提取算法[J].计算机应用,2016,36(8):2082-2086. 被引量：6
3王年丰,费潇潇.新闻正文信息在线提取方法研究[J].软件导刊,2017,16(4):9-13.
4王海涌,冯兆旭,杨海波,张津栋.基于结构相似网页聚类的正文提取算法研究[J].计算机工程与应用,2018,54(11):122-127. 被引量：2
5刘锐,谭文韬,付园斌,王红.一种通用论坛信息提取方法[J].小型微型计算机系统,2018,39(7):1398-1404.
6陈婷婷,严华,臧军.基于改进内容分析算法的网页正文提取[J].计算机工程与设计,2018,39(4):1017-1021. 被引量：3
7吕容政,刘嘉勇.基于决策树的自适应网页正文抽取方法[J].现代计算机,2019,25(7):16-22.
8刘博文,王雨琪,林果园.基于结构化文档的钓鱼网站检测算法[J].计算机工程与设计,2019,40(10):2791-2798. 被引量：3
9余杨奎,王旅,李婉茹,程振林,刘洁.一种基于页面赋权的网页内容提取方法[J].通化师范学院学报,2021,42(10):20-28.

同被引文献25

1陈雪,徐慧,沈家峻.基于网页结构的网页去噪算法设计[J].软件,2013,34(8):95-97. 被引量：1
2宋明秋,张瑞雪,吴新涛,李文立.网页正文信息抽取新方法[J].大连理工大学学报,2009,49(4):594-597. 被引量：20
3毛先领,何靖,闫宏飞.网页去噪:研究综述[J].计算机研究与发展,2010,47(12):2025-2036. 被引量：18
4宋鳌,支琤,周军,罗传飞,安然.基于LCS的特征树最大相似性匹配网页去噪算法[J].电视技术,2011,35(13):44-48. 被引量：3
5刘春卫,罗健旭.基于混合核函数的PSO-SVM分类算法[J].华东理工大学学报（自然科学版）,2014,40(1):96-101. 被引量：16
6伊政,徐武平,徐爱萍.一种基于结构分析的网页主题区域发现方法[J].计算机工程与应用,2015,51(6):227-230. 被引量：1
7杨柳青,李晓东,耿光刚.基于布局相似性的网页正文内容提取研究[J].计算机应用研究,2015,32(9):2581-2586. 被引量：10
8吴共庆,胡骏,李莉,徐喆昊,刘鹏程,胡学钢,吴信东.基于标签路径特征融合的在线Web新闻内容抽取[J].软件学报,2016,27(3):714-735. 被引量：23
9王宇龙,赖华,余正涛,洪旭东,刘书龙.融合结构和内容特征提取多类型网页文本要素[J].山西大学学报（自然科学版）,2016,39(3):386-391. 被引量：1
10潘心宇,陈长福,刘蓉,王美清.基于网页DOM树节点路径相似度的正文抽取[J].微型机与应用,2016,35(19):74-77. 被引量：4

引证文献3

1余杨奎,王旅,李婉茹,程振林,刘洁.一种基于页面赋权的网页内容提取方法[J].通化师范学院学报,2021,42(10):20-28.
2陈壮,葛斌.一种改进混合文本密度的网页信息提取方法[J].佳木斯大学学报（自然科学版）,2022,40(1):41-44. 被引量：1
3严金承,王运锋.基于模板和SVM协同工作的网页去噪方法[J].计算机科学与应用,2020,10(1):51-59.

二级引证文献1

1付赛红,常汉杰.基于深度学习短文本去噪算法的研究与应用分析[J].软件,2022,43(4):35-37.

1杨贤,唐超兰,李航.基于文本块密度与标签路径等特征的正文提取[J].广东工业大学学报,2018,35(2):51-56. 被引量：1
2段红伟,郑丽娜,张娜.一种顾及语义的时空数据定位搜索引擎[J].地理空间信息,2018,16(11):17-20.
3刘锐,谭文韬,付园斌,王红.一种通用论坛信息提取方法[J].小型微型计算机系统,2018,39(7):1398-1404.
4廖建军.基于标签样式和密度模型的网页正文自动抽取[J].情报科学,2018,36(7):123-129. 被引量：3
5王鑫,陈喜,钱付兰,张燕平.结合共同邻居贡献度的节点相似性链路预测算法[J].数据采集与处理,2018,33(5):900-910. 被引量：5
6梁东,杨永全,魏志强.基于支持向量机的网页正文内容提取方法[J].计算机与现代化,2018(9):21-26. 被引量：2
7耿楠,陈明选.网络学习资源个性化推荐研究现状与发展趋势[J].中国教育信息化,2018,24(21):1-6. 被引量：7
8朱兴萍.风险自适应访问控制算法研究[J].电脑知识与技术,2018,14(10):12-14.
9陶倩文,沈兴蓉,冯瑞,王德斌.国内互联网可得吸烟相关信息调查分析[J].泰山医学院学报,2018,39(11):1201-1205. 被引量：1
10陈韦旭,陈建平,文万志,蔡亮.基于空样式的网页水印方法[J].计算机科学,2018,45(B11):338-341. 被引量：1

上海交通大学学报

2018年第10期

浏览历史

内容加载中请稍等...

基于文本对象模型的自动化网页内容提取方法被引量：3

参考文献1

二级参考文献17

共引文献9

同被引文献25

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于文本对象模型的自动化网页内容提取方法 被引量：3

参考文献1

二级参考文献17

共引文献9

同被引文献25

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于文本对象模型的自动化网页内容提取方法被引量：3