基于文本及HTML标签密度的网页正文提取被引量：1

Text Extraction Method Based on Page Text and HTML Tag Density

下载PDF

导出

摘要大多数资讯类网页都包含了与资讯正文无关的内容,如推荐、广告等,这些噪声对获取资讯正文具有较大干扰性。针对基于文本及符号密度的网页正文提取方法(TSD)没有考虑段落标签对提取效果的影响部分进行改进,提出基于文本及HTML标签密度的网页正文提取方法(TTD),通过对页面文本内容和标签的统计分析,可以快速提取正文内容,适用于常见的资讯网站,具有较强的通用性。实验表明,该方法的提取效果较当前常用的方法在准确度上有较大提升,具有较高的实用性。 Most information web pages contain content that has nothing to do with the infor-mation body,such as recommendations,advertisements and so on.These noises have consider-able interference with the acquisition of information text and should be removed.For the im-provement of text extraction method based on text and symbol density(TSD)based on text and symbol density without considering the influence of paragraph tags on the extraction effect,this paper proposes a web page text content extraction method based on text and HTML tag density(TTD).Through the statistical analysis of the page text content,the text content can be ex-tracted quickly,which is suitable for common information websites and has strong universality.Experiments show that the extraction effect of this method is greatly improved in accuracy and practicability compared with the current commonly used methods.

作者杨大为王诗念包立岩要虹吏刘畅 YANG Dawei;WANG Shinian;BAO Liyan;YAO Hongli;LIU Chang(Shenyang Ligong University,Shenyang 110159,China)

机构地区沈阳理工大学信息科学与工程学院

出处《沈阳理工大学学报》 CAS 2022年第4期14-19,共6页 Journal of Shenyang Ligong University

基金辽宁省教育厅科学研究经费项目(LG201915) 沈阳理工大学科研创新团队建设计划资助项目(SYLUTD202105)。

关键词标签密度 HTML标签网页正文提取 tag density HTML tag web page text extract

分类号 TU528 [建筑科学—建筑技术科学]

引文网络
相关文献

参考文献11

1王孟博.一种网页信息抽取算法的研究与实现[J].青岛远洋船员职业学院学报,2021,42(4):32-37. 被引量：1
2陈迎仁,郭莹楠,郭享,倪一涛,陈星.基于特征相似度计算的网页包装器自适应[J].计算机科学,2021,48(S02):218-224. 被引量：1
3曾燕清,陈志德,李翔宇.应用树结构的Xpath自动提取算法[J].福建电脑,2020,36(7):34-38. 被引量：4
4张鑫,陈梅,王翰虎,王嫣然.基于视觉特征和领域本体的Web信息抽取[J].计算机技术与发展,2011,21(2):58-61. 被引量：5
5朱泽德,李淼,张健,陈雷,曾新华.基于文本密度模型的Web正文抽取[J].模式识别与人工智能,2013,26(7):667-672. 被引量：13
6洪鸿辉,丁世涛,黄傲,郭致远.基于文本及符号密度的网页正文提取方法[J].电子设计工程,2019,27(8):133-137. 被引量：1
7张奇,郝志峰,温雯,蔡瑞初.基于互信息度量的Web信息抽取[J].计算机应用与软件,2013,30(12):15-18. 被引量：5
8吴共庆,刘鹏程,胡骏,胡学钢.基于块密度加权标签路径特征的Web新闻在线抽取[J].中国科学：信息科学,2017,47(8):1078-1094. 被引量：3
9李慧,王琢.一种基于无监督集成学习的虚假评论检测方法[J].沈阳理工大学学报,2021,40(6):31-35. 被引量：2
10陈巧灵,廖祥文,魏晶晶,陈国龙.基于DOM树层次特征的多记录网页抽取[J].模式识别与人工智能,2015,28(2):125-131. 被引量：6

二级参考文献82

1潘泉,于昕,程咏梅,张洪才.信息融合理论的基本方法与进展[J].自动化学报,2003,29(4):599-615. 被引量：183
2郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
3荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
4方美玉,郑小林,陈德人,华艺,施艳.商品评论聚焦爬虫算法设计与实现[J].吉林大学学报（工学版）,2012,42(S1):377-381. 被引量：10
5周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
6王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
7刘耀,穗志方.领域Ontology概念描述体系构建方法探析[J].大学图书馆学报,2006,24(5):28-33. 被引量：15
8邓健爽,郑启伦,彭宏,林旭东.基于关键词聚类和节点距离的网页信息抽取[J].计算机科学,2007,34(4):213-216. 被引量：8
9Byeong H K, Yang S K. Noise Elimination from the Web Documents by Using URL paths and Information Redundancy [ C ]//The 2006 Inter-national Conference on Information & Knowledge Engineering, 2006: 135 -141.
10Chang C H, Kayed M, Girgis R, et al. A survey of web information ex- traction systems[J]. IEEE Transactions on Knowledge and Data Engi- neering,2006, 15 (10) :1411-1428.

共引文献33

1金燕.基于本体的Web信息抽取研究综述[J].图书馆学研究,2012(16):2-6. 被引量：2
2姚望,王军锋.基于主平面和两个次主平面的三维模型检索[J].计算机技术与发展,2012,22(10):18-21.
3丁玉飞,王曰芬,刘卫江.面向半结构化文本的知识抽取研究[J].情报理论与实践,2015,38(3):101-106. 被引量：7
4何云钢,曹宝香.基于DOM树和DBSCAN算法的Web信息提取[J].电子技术（上海）,2015,42(6):88-92. 被引量：1
5秦成磊,魏晓,杨阳.一种基于统计的复杂页面正文提取方法[J].计算机应用与软件,2015,32(7):90-92. 被引量：1
6程玉胜,梁辉,王一宾,任勇.结合关键词微变和LD算法的文本相似性研究[J].计算机工程与应用,2016,52(8):70-73.
7王宇龙,赖华,余正涛,洪旭东,刘书龙.融合结构和内容特征提取多类型网页文本要素[J].山西大学学报（自然科学版）,2016,39(3):386-391. 被引量：1
8魏晶晶,廖祥文,陈巧灵,马飞翔,陈国龙.结合主动学习的多记录网页属性抽取方法[J].模式识别与人工智能,2016,29(8):673-681. 被引量：1
9刘华春,王星捷.网络舆情信息提取技术研究与实现[J].计算机技术与发展,2016,26(9):8-11. 被引量：4
10贺杰.基于Webdriver爬虫技术的研究[J].科技广场,2016(10):27-31. 被引量：1

同被引文献4

1王勇,洪进,杜兰兰,王圣波.基于Java Swing的找点软件设计与实现[J].现代计算机,2022,28(16):96-100. 被引量：2
2郭婺,郭建,张劲松,石翠萍,刘道森,刘超.基于Python的网络爬虫的设计与实现[J].信息记录材料,2023,24(4):159-162. 被引量：5
3古志敏,吴明珠.基于Python网络爬虫设计与实现[J].电脑编程技巧与维护,2023(9):163-166. 被引量：4
4刘晓旭.主题网络爬虫研究综述[J].电脑知识与技术,2024,20(8):97-99. 被引量：1

引证文献1

1宋宇.基于Swing的HTML解析器的实现与应用[J].科技资讯,2024,22(14):43-45.

1曾瑞,刘志钢,罗紫君.仓储物流作业中动态资源定位精度分析[J].物流科技,2022,45(9):146-150. 被引量：1
2王小娟,魏雅芬,江海燕,吴韶源.浅析消费者对粤港澳大湾区旅游网站的需求[J].特区经济,2022(4):48-51.
3侯阿美,储继军,汪小莉,郭锦晨.补肾安胎冲剂治疗复发性流产的潜在分子机制[J].中医药临床杂志,2022,34(7):1288-1294.
4刘金涛,尚津锋,刘茜,李姝靓,姚克宇,王慧如,朱格巩铭,翟双庆.基于生物信息学探究刘柏龄国医大师治疗颈椎病用药规律和作用机制[J].国际中医中药杂志,2022,44(7):786-795.
5王诗怡,杨宇峰,石岩.基于网络药理学研究黄连-半夏药对治疗代谢综合征作用机制[J].辽宁中医药大学学报,2022,24(5):60-66. 被引量：6
6徐桂琴,李国强,付苗,李忠志,李雪苓.基于网络药理学探讨手拈散治疗冠心病、癌性疼痛和胃食管反流病异病同治的作用机制[J].中国处方药,2022,20(7):16-19. 被引量：1
7王佳,王冬梅,木本荣.基于网络药理学和分子对接技术对木香顺气丸治疗抑郁症的作用机制分析[J].中医学,2022,11(4):716-728.

沈阳理工大学学报

2022年第4期

浏览历史

内容加载中请稍等...

基于文本及HTML标签密度的网页正文提取被引量：1

参考文献11

二级参考文献82

共引文献33

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于文本及HTML标签密度的网页正文提取 被引量：1

参考文献11

二级参考文献82

共引文献33

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于文本及HTML标签密度的网页正文提取被引量：1