一种基于统计的中文网页正文抽取方法被引量：3

A Statistical Way to Extract Full Text from Chinese Web Pages

下载PDF

导出

摘要针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文,即大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文。通过使用中文新闻类网页对该方法的有效性进行验证,结果表明：该方法虽然简单,但是抽取准确率极高且易于实现。 In view of the shortcomings of traditional methods,this paper proposed a statistical method for extracting full text from Chinese web pages.It is simple,but accurate and easy to be implemented.This approach extracted full text of Chinese web pages based on the text density of each text node which is computed by caculating the ratio of text to html code length according to DOM tree.The pretty good full text is filtered out by comparing the text density to a fixed threshold.The fixed threshold of text density is got by using Bayesian criteria.Experimental results show that the proposed method is an effective solution to extract full text from Chinese web pages,especially for Chinese web news.

作者钱爱兵

机构地区南京中医药大学经贸管理学院

出处《情报学报》 CSSCI 北大核心 2009年第2期187-194,共8页 Journal of the China Society for Scientific and Technical Information

关键词文本密度文本结点正文抽取贝叶斯判别准则 DOM树 text density text node fulltext extraction Bayesian criteria DOM tree

分类号 TP391.4 [自动化与计算机技术—计算机应用技术] H152.3 [语言文字—汉语]

引文网络
相关文献

参考文献4

1Line Eikvil.Information Extraction from World Wide Web -A Survey[OL].[2007-11-19].http://www.nr.no/files/samba/bamg/webIE-rep945.ps.
2Alberto H.F.Laender,Berthier A.Ribeiro-Neto.A Brief Survey of Web Data Extraction Tools[J].ACM SIGMOD Record.2002,31(2):84-93.
3高军,王腾蛟,杨冬青,唐世渭.基于Ontology的Web内容二阶段半自动提取方法[J].计算机学报,2004,27(3):310-318. 被引量：18
4Andy Powney.Html Parser For.NET v2.0[OL].[2007-11-19].http://www.planetsourcecode.com/URLSEO/vb/scripts/ShowCode!asp/txtCodeId!2201/lngWid!10/anyname.htm.

二级参考文献11

1[1]Baumgartner R.,Flesca S.,Gottlob G.. Visual web information extraction with lixto. In: Proceedings of the 27th International Conference on Very Large Data Bases, Roma, 2001,119～128
2[2]Liu L.,Pu C., Han W.. XWRAP: An XML-enabled wrapper construction system for web information sources. In: Proceedings of the 16th International Conference on Data Engineering, California, 2000, 611～621
3[3]Gottlob G., Koch C.. Monadic datalog and the expressive power of languages for web Information extraction. In: Proceedings of the 21th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, Wisconsin, 2002, 17～28
4[4]Hamer J.,Brennig M., Garcia-Molina H.. Template-based wrappers in the TSIMMIS system. In: Proceedings of the ACM SIGMOD International Conference on Management of Data, Arizona, 1997, 532～535
5[5]Atzeni P., Mecca G.. Cut and paste. In: Proceedings of the 16th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, Arizona, 1997, 144～153
6[6]Crescenzi V., Mecca G., Merialdo P.. RoadRunner: Towards automatic data extraction from large web sites. In: Proceedings of the 27th International Conference on Very Large Data Bases, Roma, 2001, 109～118
7[7]Soderland S.. Learning information extraction rules for semistructured and free text. Machine Learning,1999, 34(1～3):233～272
8[8]Adelberg B.. Nodose-A tool for semi automatically extracting structured and semi-structured data from text document. In: Proceedings of the ACM SIGMOD International Conference on Management of Data, Washington, 1998, 283～294
9[9]Ribeiro-Neto B.A., Laender A., da silva A.S.. Extracting semistructured data through examples. In: Proceedings of the 1999 ACM CIKM International Conference on Information and Knowledge Management, Missouri, 1999,94～101
10[10]EmbleyD.W., Campbell D.M., Jiang Y.S.. A conceptual-modeling approach to extracting data from web. In: Proceedings of the 17th International Conference on Conceptual Modeling, Singapore, 1998,78～91

共引文献17

1黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
2李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
3胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
4张瑞,李石君.网上表格数据到XML的自动转换[J].计算机工程与应用,2007,43(2):190-192. 被引量：5
5卢林兰,李明.利用ontology实现的多库知识获取方法[J].计算机工程与设计,2007,28(15):3731-3733. 被引量：1
6任仲晟,薛永生.基于页面标签的Web结构化数据抽取[J].计算机科学,2007,34(10):133-136. 被引量：8
7李纲,戴强斌.WNBTE网页正文抽取方法研究[J].情报科学,2008,26(3):333-336. 被引量：5
8刘辉,陈静玉,徐学洲.基于模板流程配置的Web信息抽取[J].计算机工程,2008,34(20):55-57. 被引量：5
9柳佳刚,陈山,贺令亚.基于本体和DOM相结合的Web信息抽取器[J].现代图书情报技术,2009(5):44-49. 被引量：5
10于红,刘溪婧.基于知识库的渔业领域本体学习算法[J].大连海洋大学学报,2011,26(2):168-172. 被引量：2

同被引文献27

1游贵荣,陆玉昌.基于统计和机器学习的中文Web网页正文内容抽取[J].福建商业高等专科学校学报,2009(2):68-72. 被引量：5
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3高茂庭,王正欧.几种文本特征降维方法的比较分析[J].计算机工程与应用,2006,42(30):157-159. 被引量：16
4孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007(9):49-53. 被引量：6
5程娟.基于机器学习的网页文本抽取技术[J].图书馆学研究,2008(5):21-22. 被引量：1
6刘海峰,王元元,姚泽清,张述祖.文本分类中一种混合型特征降维方法[J].计算机工程,2009,35(2):194-196. 被引量：11
7邱江涛,唐常杰,李川,朱军.基于块分布的新闻网页内容提取[J].吉林大学学报（工学版）,2009,39(5):1326-1330. 被引量：4
8崔自峰,吉小华.基于线性判别分析的特征选择[J].计算机应用,2009,29(10):2781-2785. 被引量：8
9李烯,徐朝军.基于分块和统计相结合的新闻正文抽取[J].情报理论与实践,2010,33(1):117-120. 被引量：4
10王允,李弼程,林琛.基于网页布局相似度的Web论坛数据抽取[J].中文信息学报,2010,24(2):68-75. 被引量：9

引证文献3

1刘忠宝,赵文娟.融合全局和局部特征的文本特征提取方法研究[J].情报探索,2016(1):1-3. 被引量：2
2彭圳生,巩青歌,高志强,段妍羽,曾子贤.基于密度及文本特征的新闻标题抽取算法[J].中文信息学报,2018,32(10):78-86. 被引量：6
3何春辉,王孟然.改进的中文静态网页新闻正文自动抽取算法[J].东莞理工学院学报,2018,25(5):46-50. 被引量：2

二级引证文献10

1徐彤阳,邓颖慧.基于知识融合的微信多媒体检索研究[J].情报科学,2019,37(1):129-133. 被引量：2
2徐彤阳,邓颖慧.微信中基于语义关联的跨媒体检索研究[J].情报科学,2018,36(7):158-162. 被引量：1
3吕容政,刘嘉勇.基于决策树的自适应网页正文抽取方法[J].现代计算机,2019,25(7):16-22.
4陈志泊,李钰曼,许福,冯国明,师栋瑜,崔晓晖.基于TextRank和簇过滤的林业文本关键信息抽取研究[J].农业机械学报,2020,51(5):207-214. 被引量：13
5黄颖杰,朱静,杨晋昌.常见神经网络模型在古诗词自动生成中的应用与对比分析[J].东莞理工学院学报,2020,27(5):55-60. 被引量：2
6王茹皓,朱静,杨晋昌,黄颖杰.融合门控注意力机制的基于生成对抗网络模型的新闻评论自动生成方法研究[J].科教文汇,2020(29):89-90. 被引量：1
7汪涛,夏彬.基于文本集密度的社交媒体软件内容推荐系统设计研究[J].现代电子技术,2021,44(12):73-77. 被引量：3
8邱桂华,李贤阳,肖宝,阳建中.一种基于智能组卷的试题库随机分段抽题算法[J].北部湾大学学报,2020,35(11):31-35. 被引量：4
9邓子云.一种通过筛选和位置感知精准提取资讯类网页标题的方法[J].信息化研究,2021,47(4):8-15.
10杨宇环,张开生.基于特征聚类的文本信息检索算法研究[J].陕西科技大学学报,2022,40(4):178-182. 被引量：1

1郗家贞,郭岩,黎强,赵岭,刘悦,俞晓明,程学旗.一种短正文网页的正文自动化抽取方法[J].中文信息学报,2016,30(1):8-15. 被引量：2
2孟川,武小年.基于文本特征值的正文抽取方法[J].桂林电子科技大学学报,2017,37(2):106-110. 被引量：2
3安增文,王超,徐杰锋.基于机器学习的网页正文提取方法[J].微型机与应用,2010,29(12):4-6. 被引量：7
4王少康,董科军,阎保平.使用特征文本密度的网页正文提取[J].计算机工程与应用,2010,46(20):1-3. 被引量：13
5朱泽德,李淼,张健,陈雷,曾新华.基于文本密度模型的Web正文抽取[J].模式识别与人工智能,2013,26(7):667-672. 被引量：13
6万文兵.基于主题型页面的正文信息抽取技术研究[J].计算机光盘软件与应用,2015,18(1):15-16. 被引量：1
7李纲,甘停,寇广增.基于文本情感分类的网络推手识别[J].图书情报工作,2010,54(8):77-80. 被引量：14
8梁建飞,吐尔根.依布拉音,田生伟,赛依旦.阿不力米提.汉维主题网页自动获取技术的研究[J].计算机应用与软件,2012,29(1):42-45. 被引量：2
9刘喜平,万常选,刘德喜.XML关键词搜索结果的多样化[J].计算机科学与探索,2012,6(10):935-947. 被引量：1
10周佳颖,朱珍民,高晓芳.基于统计与正文特征的中文网页正文抽取研究[J].中文信息学报,2009,23(5):80-85. 被引量：16

情报学报

2009年第2期

浏览历史

内容加载中请稍等...

一种基于统计的中文网页正文抽取方法被引量：3

参考文献4

二级参考文献11

共引文献17

同被引文献27

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种基于统计的中文网页正文抽取方法 被引量：3

参考文献4

二级参考文献11

共引文献17

同被引文献27

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种基于统计的中文网页正文抽取方法被引量：3