基于文本块密度与标签路径等特征的正文提取被引量：1

Text Extraction Based on Text Block Density with Tag Path and Other Features

下载PDF

导出

摘要为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法.首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容.该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理.从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法. Most of web pages contain content information as well as a lot of noisy information.In order to address this problem and improve the accuracy of web page extraction,a web page extraction method is proposed via text block density with tap path and other features.The proposed method mostly combines the advantages of text block extraction method and label path extraction method.First,the block of the text is determined according to the density feature of the text block,and then the tag path method is used to remove the noisy node in the block,the text node in the text block is extracted from the content finally.This solution effectively solves the problem that the noisy information in the text block is difficult to filter and the tag path method is easy to extract the long text from the noisy block.In the end,experiments show that the solution is better than CETR and CETD in most cases.

作者杨贤唐超兰李航 Yang Xian;Tang Chao-lan;Li Hang(School of Art and Design, Guangdong University of Technology, Guangzhou, 510090, China;School of computers, Guangdong University of Technology, Guangzhou 510006, China)

机构地区广东工业大学艺术与设计学院广东工业大学计算机学院

出处《广东工业大学学报》 CAS 2018年第2期51-56,共6页 Journal of Guangdong University of Technology

基金广东省部产学研专项资金企业创新平台资助项目(2013B090800042)

关键词正文抽取文本块标签路径文本密度 content extraction text block tag path text density

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1李萍,朱建波,周立新,廖彬.基于快速构建模板的购物信息抽取方法[J].计算机应用,2014,34(3):733-737. 被引量：4
2杨贤,何汉武.基于互联网文本挖掘的用户意图感知[J].广东工业大学学报,2017,34(3):54-58. 被引量：3
3Gong-Qing Wu,Lei Li,Xindong Wu.Web News Extraction via Tag Path Feature Fusion Using DS Theory[J].Journal of Computer Science & Technology,2016,31(4):661-672. 被引量：4
4贺科达,朱铮涛,程昱.基于改进TF-IDF算法的文本分类方法研究[J].广东工业大学学报,2016,33(5):49-53. 被引量：23

二级参考文献61

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
2林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
3张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
4谷小青,易当祥,刘春和.遗传算法优化神经网络的拓扑结构与权值[J].广东工业大学学报,2006,23(4):64-69. 被引量：13
5刘兵.Web数据挖掘[M].北京:清华大学出版社,2009.
6WANG J, LOCHOVSKY F H. Data-rich section extraction from HT- ML pages [ C]// Proceedings of the Third International Conference on Web Information Systems Engineering. Washington, DC: IEEE Computer Society, 2002:313 - 322.
7CHANG C H, HSU C N, LUI S C. Automatic information extraction from semi-structured Web pages by pattern discovery [ J]. Decision Support Systems, 2003, 35(1) : 129 - 147.
8EMBLEY D W, CAMPBELL D M, SMITH R D, et al. Ontology- based extraction and structuring of information from data-rich un- structured documents [ C]//Proceedings of the Seventh Intemational Conference on Information and Knowledge Management. New York: ACM Press, 1998:52-59.
9ARASU P, GERCIA-MOLINA P. Extracting structured data from Web pages [ C]//Proceedings of the 2003 ACM SIGMOD Interna- tional Conference on Management of Data. New York: ACM Press, 2003:337 - 348.
10ZHAO HK, MENG W Y, WU Z H, et al. Fully automatic wrapper generation for search engines [ C]//Proceedings of the 14th Inter- national Conferenee on World Wide Web. New York: ACM Press, 2005:66 - 75.

共引文献29

1刘全志,于治楼.基于Heritrix和Jsoup的信息抽取系统的设计与实现[J].山东师范大学学报（自然科学版）,2015,30(2):16-19. 被引量：2
2李萍,杨勇,赛买提.艾力,任鸽.基于HMM的维吾尔语词性标注研究[J].现代计算机,2017,23(5):11-14. 被引量：1
3郑步青,邹红霞,王琳,王桢.网络舆情主动感知技术探析[J].兵器装备工程学报,2017,38(8):131-135. 被引量：2
4陈光武,王迪,刘射德,李鹏.基于GNSS的列车定位信号完好性提高方法(英文)[J].中国惯性技术学报,2017,25(4):500-509. 被引量：2
5李心蕾,王昊,刘小敏,邓三鸿.面向微博短文本分类的文本向量化方法比较研究[J].数据分析与知识发现,2018,2(8):41-50. 被引量：15
6杨贤,何汉武.基于互联网文本挖掘的用户意图感知[J].广东工业大学学报,2017,34(3):54-58. 被引量：3
7何晶晶,蔡德胜,介飞,吴共庆.利用D-S证据理论进行特征融合的同义实体识别[J].计算机应用研究,2018,35(5):1429-1433. 被引量：7
8陈平华,黄辉,麦淼,周宏虹.结合ReliefF和互信息的多标签特征选择算法[J].广东工业大学学报,2018,35(5):20-25. 被引量：6
9隗中杰.文本分类中TF-IDF权重计算方法改进[J].软件导刊,2018,17(12):39-42. 被引量：12
10高军,黄献策.基于Hadoop平台的相关性权重算法设计与实现[J].计算机工程,2019,45(3):26-31. 被引量：8

同被引文献10

1陈雪,徐慧,沈家峻.基于网页结构的网页去噪算法设计[J].软件,2013,34(8):95-97. 被引量：1
2毛先领,何靖,闫宏飞.网页去噪:研究综述[J].计算机研究与发展,2010,47(12):2025-2036. 被引量：18
3宋鳌,支琤,周军,罗传飞,安然.基于LCS的特征树最大相似性匹配网页去噪算法[J].电视技术,2011,35(13):44-48. 被引量：3
4刘春卫,罗健旭.基于混合核函数的PSO-SVM分类算法[J].华东理工大学学报（自然科学版）,2014,40(1):96-101. 被引量：16
5伊政,徐武平,徐爱萍.一种基于结构分析的网页主题区域发现方法[J].计算机工程与应用,2015,51(6):227-230. 被引量：1
6王健,张金.基于节点权重的网页去噪方法的研究[J].计算机技术与发展,2017,27(10):83-86. 被引量：2
7梁东,杨永全,魏志强.基于支持向量机的网页正文内容提取方法[J].计算机与现代化,2018(9):21-26. 被引量：2
8郗家贞,郭岩,黎强,赵岭,刘悦,俞晓明,程学旗.一种短正文网页的正文自动化抽取方法[J].中文信息学报,2016,30(1):8-15. 被引量：2
9周艳平,李金鹏,宋群豹.一种基于SVM及文本密度特征的网页信息提取方法[J].计算机应用与软件,2019,36(10):251-255. 被引量：13
10李桐宇,任锐,蔡鸿明,姜丽红.基于文本对象模型的自动化网页内容提取方法[J].上海交通大学学报,2018,52(10):1363-1369. 被引量：3

引证文献1

1严金承,王运锋.基于模板和SVM协同工作的网页去噪方法[J].计算机科学与应用,2020,10(1):51-59.

1陈勤,车杨,陈强.抽水蓄能机组检修工作精细化管控的探索与实践[J].水电站机电技术,2017,40(9):60-62. 被引量：2
2刘志杰,潘洋.基于文本行特征的网页正文信息抽取方法研究[J].软件导刊,2017,16(10):15-18.
3陈瑛.磁性教育:关注教师身心健康[J].新课程（综合版）,2017,0(6):53-54.
4免责声明[J].电网与水力发电进展,2007,23(7):84-84.
5Vaclav Smil.电动汽车：没有那么快[J].科技纵览,2017,0(12):24-24.
6杨超.电子烟的四大危害[J].保健与生活,2018,0(3):34-34.
7我问你答[J].博物,2018,0(2):95-95.
8彭艳兵,谢馨庭.基于单DOM树特征预分类的自适应Web信息抽取方法[J].电子设计工程,2017,25(19):56-59. 被引量：4
9马凯凯,钱亚赫,阮东跃.基于文本频率页面分割算法对论坛正文提取[J].中国水运（下半月）,2018,18(2):78-79.
10朱建宁.走进“汽车之家”[J].创新作文（小学3-4年级）,2017,0(12):8-8.

广东工业大学学报

2018年第2期

浏览历史

内容加载中请稍等...

基于文本块密度与标签路径等特征的正文提取被引量：1

参考文献4

二级参考文献61

共引文献29

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于文本块密度与标签路径等特征的正文提取 被引量：1

参考文献4

二级参考文献61

共引文献29

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于文本块密度与标签路径等特征的正文提取被引量：1