灵活结构网页的正文提取被引量：3

Content Extraction Based on Unknown Structure Web

下载PDF

导出

摘要在Web数据挖掘中,由于网页大多都含有指向其他页面的超链接等噪音信息,为了减少噪音信息对Web数据挖掘效果的影响,有必要对网页进行净化处理,提取其中的正文,同时,现实中很多网页的代码结构不是特别规范,对此,提出一种对灵活结构网页适用的正文抽取算法。将网页用HTML标签分割成节点形式,找出其中含有正文内容的一个节点,以此节点为基础向前和向后进行余下正文内容的抽取。实验结果表明,本算法的适用性强、正确率较高。 There is often some useless information in the Web page,such as hyperlinks,copyright,which will affect the accurateness of Web data mining results.Extracting useful text content from a Web page for the mining is necessary.On the other hand,some pages＇ HTML codes are not standard.To solve this problem,propose an approach of Web information extraction based on unknown structure Web.It splits a Web page into a lot of nodes using HTML tags,then finds out one of the nodes which contained valuable information,and searches out other informative content nodes in front or back of the node,finally extracts the article from the Web page after connecting all found nodes＇ contents together.Experiments show that the arithmetic can deal with unstructured Web pages and is effective.

作者殷彬杨会志

机构地区电子科技大学中山学院

出处《计算机技术与发展》 2011年第9期111-113,117,共4页 Computer Technology and Development

基金中山市科技计划项目(20092A210)

关键词 WEB数据挖掘网页内容提取正文节点超链接节点节点权值链接密度 Web data mining Web information extraction content node hyperlink node node weight link density

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1黄豫清,戚广志,张福炎.从WEB文档中构造半结构化信息的抽取器[J].软件学报,2000,11(1):73-78. 被引量：47
2杨建武,陈晓鸥.半结构化文档集的结构模式提取的研究与实现[J].计算机工程,2001,27(10):19-21. 被引量：5
3仲华,崔志明.基于XML的信息抽取和多层向量空间技术研究[J].计算机技术与发展,2007,17(7):49-52. 被引量：4
4赵金仿,赵艳,缪建明.网页信息抽取及其自动文本分类的实现[J].计算机技术与发展,2008,18(10):37-39. 被引量：7
5Burget R. Layout Based Information Extraction from HTML Documents[ C ]/The Ninth International Conference on Document Analysis and Recognition. [ s. l. ] : [s. n. ],2007.
6李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
7Li Yu, Meng Xiaofeng, Li Qing, et al. Hybrid Method for Automated News Content Extraction from the Web[ C ]//Web Information Systems Engineering ( WISE2006 ). Wuhan: [ s. n.], 2006.
8Gupta S, Kaiser G, Neistadt D, et al. DOM-based Content Extraction of HTML Documents [ C ]//The 12th International Conference on World Wide Web. [ s. l. ] : [ s. n. ], 2003.
9Geng Hua ,Gao Qiang,pan Jingui. Extracting Content for News Web Pages Based on DOM[J]. International Journal of Computer Science and Network Security, 2007, 7 (2) : 124-129.
10Lin Shian-hua, Ho Jan-ming. Discovering informative content blocks from Web documents[ C]//ACM SIGKDD Inter- national Conference on Knowledge Discovery & Data Mining. [s.l. ]: [s.n. l, 2002.

二级参考文献37

1常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
2胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量：21
3王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
4彭智勇,罗义,单喆,李青.基于对象代理模型的工作流视图实现[J].计算机学报,2005,28(4):651-660. 被引量：7
5冯伟华,苗长芬.基于Web的网页信息抽取方法的研究[J].洛阳工业高等专科学校学报,2005,15(3):30-31. 被引量：4
6李萍.浅析可扩展置标语言XML[J].运城学院学报,2005,23(5):58-59. 被引量：1
7王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
8刘斌,陈桦.向量空间模型信息检索技术讨论[J].情报杂志,2006,25(7):92-93. 被引量：20
9刘艳敏,刘飚,封化民,宋国森,方勇.Web页面主题信息抽取研究与实现[J].计算机工程与应用,2006,42(21):146-148. 被引量：11
10李剑波,李小华,董树明,杨科华.一种基于XML的Web信息抽取方法[J].情报杂志,2006,25(8):49-51. 被引量：7

共引文献86

1明廷波,左志宏,史永刚,林琳.Web信息抽取中基于神经网络的规则学习方法[J].南京大学学报（自然科学版）,2005,41(z1):1-6. 被引量：1
2倪丽萍,张维勇,金麒.XML搜索引擎技术的实现与探讨[J].合肥工业大学学报（自然科学版）,2004,27(7):774-777. 被引量：1
3胡晓江,苑伟政,朱名铨.IIE环境下数字民航的虚拟数据仓库研究[J].小型微型计算机系统,2003,24(1):68-71. 被引量：4
4GU Ning.A Semantic Approach for Web Document Processing[J].Journal of Shanghai University(English Edition),2001,5(z1):82-85.
5李文奇,张忠能.页面包装器自动生成的改进算法[J].计算机工程与应用,2004,40(22):113-115. 被引量：3
6李泽文.基于Web的数据挖掘技术[J].现代计算机,2004,10(7):29-33. 被引量：10
7刘金红,夏阳,陆余良.基于Ontology的网络元数据抽取系统的研究与实现[J].安徽电子信息职业技术学院学报,2004,3(5):10-13. 被引量：3
8程渤,浮花玲,杨国纬.基于工作流及集成中间件技术的电力信息一体化设计及实现[J].电力系统自动化,2004,28(19):80-83. 被引量：15
9许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
10张阔,徐鹏,李涓子,王克宏.基于优化层次聚类的文档逻辑结构抽取[J].清华大学学报（自然科学版）,2005,45(4):471-474. 被引量：2

同被引文献29

1常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
2Laender A, Ribeiro-Neto B, Silva A. A brief survey of web data ex- traction Tools[ J]. SIGMOD Record, 2002,31 (2) :84 - 93.
3Soderland S. Learning Information extraction rules for semi-structured and free text [ J ]. Machine Learning, 1999,34 ( 1 - 3 ) :233 - 272.
4Kushmerik N. Wrapper induction: efficiency and expressiveness [ J]. Artificial Intelligence, 2000,118 ( 1-2 ) : 15 - 68.
5Chung C Y, Gertz M, Sundaresan N. Reverse engineering for web da- ta: from visual to semantic Structures [ C ]//Proceedings of 18th Inter- national Conference on Data Engineering, San Jose, California, USA, 2002:53 - 63.
6Arocena G O, Mendelzon A O. Web-OQL: restructuring documents, databases and webs[ C ]//Proceedings of 14th International Conference on Date Engineering. Orlando. Florida. USA. 1998..24-33.
7李芳芳,葛斌.基于统计的中文网页正文信息抽取方法研究[c]//第三届全国社会计算会议,张家界,湖南,中国,2011:1-7.
8Herl HE, Jr HFO, Chung GKWK, et al. Reliability and validity of a computer-based knowledge mapping system to measure content understanding [J]. Computers in Human Behavior (S0747-5632),1999, 15(3/4)! 315-333.
9Keim D A. Information Visualization and Visual Data Mining [J]. mEE Transactions on Visualization (S1077-2626),2002, 8(1): 1-8.
10Gupta S, Kaiser G E, Grin P, et al. Automating Content Extraction of HTML Documents [J]. World Wide Web-interact & Web Information Systems (S1386-145X), 2005, 8(2): 179-224.

引证文献3

1姬鑫,钟诚.基于分块的新闻网页信息抽取算法[J].计算机应用与软件,2015,32(4):317-322. 被引量：6
2周亦,周明全,王学松,黄友良.大数据环境下历史人物知识图谱构建与实现[J].系统仿真学报,2016,28(10):2560-2566. 被引量：16
3杜博远,王美清,陈长福,陈飞.基于结构一致和特征学习的网页信息标签提取[J].计算机工程与应用,2017,53(7):74-78. 被引量：2

二级引证文献24

1袁琦,刘渊,谢振平,陆菁.宠物知识图谱的半自动化构建方法[J].计算机应用研究,2020,37(1):178-182. 被引量：5
2宋硕.基于Web信息抽取技术的企业情报分析系统的研究[J].数字技术与应用,2016,34(2):91-92. 被引量：1
3刘华春,王星捷.网络舆情信息提取技术研究与实现[J].计算机技术与发展,2016,26(9):8-11. 被引量：4
4李煜甫,黄蔚,胡国超.弱监督军事实体关系识别[J].电子设计工程,2018,26(1):74-78. 被引量：3
5荣雪琴,刘勇,刘昊,卜树坡.基于时序数据库的电力运维系统关键技术研究[J].电测与仪表,2018,55(9):48-51. 被引量：19
6李健,马延周.支持DOM模板可视化配置的网页抽取方法[J].现代计算机,2018,24(7):56-60. 被引量：4
7赵元元.唐代墓志数据化处理刍论[J].图书馆论坛,2018,38(6):49-55.
8张杨,徐传运.QoS多层本体的双向度量模型[J].计算机工程与应用,2017,53(20):14-19.
9何春辉,王孟然.改进的中文静态网页新闻正文自动抽取算法[J].东莞理工学院学报,2018,25(5):46-50. 被引量：2
10单良,刘欣.基于中国历史人物知识的智能问答系统构建[J].情报探索,2019,0(6):101-105. 被引量：6

1王悠悠,吴中博.网页内容提取工具的设计与实现[J].电脑知识与技术（过刊）,2011,17(11X):7878-7879. 被引量：3
2宋坤,秦宏胜,周卫华,车云霞,申泮文.Office 2000中Add-in的开发及对未来软件结构的启示[J].计算机与应用化学,2000,17(6):561-567. 被引量：1
3高爽,王润孝,段清娟,王立刚.基于DSP的仿生机器人平台[J].机械与电子,2005,23(11):50-51.
4邱江涛,唐常杰,李川,朱军.基于块分布的新闻网页内容提取[J].吉林大学学报（工学版）,2009,39(5):1326-1330. 被引量：4
5赵泳鑫,钟诚.识别稳定的局部社区结构算法[J].信息技术,2016,40(3):19-23.
6杨丽萍.网页正文提取技术的分析与研究[J].计算机光盘软件与应用,2012,15(22):115-116. 被引量：1
7高瑜,徐玉斌.基于节点权值的簇头选举优化算法[J].太原科技大学学报,2011,32(6):427-431. 被引量：3
8魏佳杰,郭晓金.无线传感网发展综述[J].江西通信科技,2008(4):12-17. 被引量：3
9何云钢,曹宝香.基于DOM树和DBSCAN算法的Web信息提取[J].电子技术（上海）,2015,42(6):88-92. 被引量：1
10熊忠阳,蔺显强,张玉芳,牙漫.结合网页结构与文本特征的正文提取方法[J].计算机工程,2013,39(12):200-203. 被引量：15

计算机技术与发展

2011年第9期

浏览历史

内容加载中请稍等...

灵活结构网页的正文提取被引量：3

参考文献12

二级参考文献37

共引文献86

同被引文献29

引证文献3

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

灵活结构网页的正文提取 被引量：3

参考文献12

二级参考文献37

共引文献86

同被引文献29

引证文献3

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

灵活结构网页的正文提取被引量：3