节点频度和语义距离相结合的网页正文信息抽取被引量：3

Combing node frequency and semantic feature for webpage informative content extraction

下载PDF

导出

摘要提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在96%以上,优于基于信息熵的抽取方法。 A new module named BF-DOM tree is proposed in this paper,which extends the Document Object Module Tree by adding two properties,i.e. ,block node frequency and relativity,to some nodes.Using this module combined with semantic distance, this method extracts the primary content accurately from the same source based on three facts：noise nodes always have high node frequency property within a given website;primary content blocks are often made up of few link words and many text words;useful links are contained in a useful content blocks and have a close semantic distance with page titles.Experiment on eight respective websites shows the proposed method can identify the primary content blocks with higher precision and recall rate both above 96% which is better than the entropy based method.The method can reduce the storage requirement for search engines;thus,result in smaller indexes,faster search time, and better user satisfaction.

作者孟军刘秋水王秀坤

机构地区大连理工大学计算机科学与工程系

出处《计算机工程与应用》 CSCD 北大核心 2009年第1期140-143,共4页 Computer Engineering and Applications

基金国家自然科学基金~~

关键词信息提取带有节点频度的文档对象模型树节点频度语义距离 information extraction Block node Frequency-Document Object Module（BF-DOM） tree node frequency semantic distance

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Lin Shianhua,Ho Janming.Discovering informative content blocks from Web document[C]//Proc of Conference on Knowledge Discovery and Data Mining,2002:588-593.
2贺智平,徐学洲,李爱玲.一种基于信息熵的Web页面主题信息抽取方法[J].计算机工程与应用,2007,43(4):164-166. 被引量：6
3刘艳敏,刘飚,封化民,宋国森,方勇.Web页面主题信息抽取研究与实现[J].计算机工程与应用,2006,42(21):146-148. 被引量：11
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5Buyukkokten O,Garcia-Molina H,Paepcke A.Accordion summarization for end-game browsing on PDAs and cellular phones[C]//Proc of Conf on Human Factors in Computing Systems,2001:213-220.
6赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33

二级参考文献30

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2崔继馨,张鹏,杨文柱.基于DOM的Web信息抽取[J].河北农业大学学报,2005,28(3):90-93. 被引量：12
3O Buyukkokten, H Garcia-Molina, A Paepcke. Accordion summarization for end-game browsing on PDAs and cellular phones. In: Proc of ACM Conf on Human Factors in Computing Systems(CHI 2001). New York: ACM Press, 2001. 213～220
4Wang Tengjiao, Tang Shiwei, Yang Dongqing, et al. COMIIX:Towards effective WEB information extraction, integration and query answering. In: Proc of SIGMOD' 02. New York: ACM Press, 2002. 620
5Liu Ling, Pu Calton, Han Wei. XWRAP: An XML-enabled wrapper construction system for Web information sources. In:Proc of the 16th Int'l Conf on Data Engineering. Washington:IEEE Computer Society Press, 2000. 611～621
6R Baumgartner, S Flesca, G Gottlob. Visual Web information extraction with Lixto. In: Proc of the 27th Int'l Conf on Very Large Data Bases. San Francisco: Morgan Kaufmann, 2001. 119～ 128
7D Freitag. Machine learning for information extraction in information domains. Machine Learning, 2000, 39 (2-3): 169 ～202
8S SoderLan. Learning information extraction rules for semistructured and free text. Machine Learning, 1999, 34(1-3): 233～ 272
9R D Doorenbos, O Etzioni, D S Weld. A scalable comparasonshopping agent for the World-Wide Web. In: ACM Agents' 97.New York: ACM Press, 1997. 39～48
10D W Embley, et al. Conceptual-model-based data extraction from multiple-record Web pages. Data and Knowledge Engineering,1999, 31(3): 227～251

共引文献117

1赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
2张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
3吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
4吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
5贺智平,徐学洲,李爱玲.一种基于信息熵的Web页面主题信息抽取方法[J].计算机工程与应用,2007,43(4):164-166. 被引量：6
6赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
7谢华,刘卫国.基于局部语义的网页净化算法[J].计算机系统应用,2007,16(5):25-28.
8章勤,余洋,陶文兵.图像搜索中基于网页分块的图像分类研究[J].计算机工程与科学,2007,29(6):42-44. 被引量：1
9高琰,谷士文,谭立球.基于多种策略的页面内容提取算法[J].西南交通大学学报,2007,42(4):473-477. 被引量：4
10张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10

同被引文献25

1李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
2仲华,崔志明.基于XML的信息抽取和多层向量空间技术研究[J].计算机技术与发展,2007,17(7):49-52. 被引量：4
3Eikvil L.Information extraction from World Wide Web-A survey[R].Norwegian Computing Center,1999.
4Nechyba M C,Xu Yang-sheng.Stochastic similarity for validating human control strategy models[J].IEEE Trans on Robotics and Automation,1998,14(3):437-451.
5Wang Ji-ying,Lochovsky F H.Data-rich section extraction from HTML pages[C] //Proceedings of the 3rd International Conference on Web Information Systems Engineering.Singapore:IEEE Computer Society Press,2002:313-322.
6Lerman K,Knoblock C,Minton S.Automatic data extraction from lists and tables in web sources[C] //Proceedings of the Workshop on Advances in Text Extraction and Mining.Menlo Park:AAAI Press,2001:149-181.
7Lin Shianhua,Ho Janming.Discovering informative content blocks from Web document[C] //Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Edmonton:ACM Press,2002:588-593.
8Stenback J,Hegaret P L,Hors A L.Document Object Model(DOM) Level 2 HTML specification[EB/OL].(2003).http://www.w3.org/TR/2003/REC-DOM-Level-2-HTML-20030109/DOM2-HTML.html# html-ID-1176245063.
9Burget R. Layout Based Information Extraction from HTML Documents[ C ]/The Ninth International Conference on Document Analysis and Recognition. [ s. l. ] : [s. n. ],2007.
10Li Yu, Meng Xiaofeng, Li Qing, et al. Hybrid Method for Automated News Content Extraction from the Web[ C ]//Web Information Systems Engineering ( WISE2006 ). Wuhan: [ s. n.], 2006.

引证文献3

1王少康,董科军,阎保平.使用特征文本密度的网页正文提取[J].计算机工程与应用,2010,46(20):1-3. 被引量：13
2殷彬,杨会志.灵活结构网页的正文提取[J].计算机技术与发展,2011,21(9):111-113. 被引量：3
3杨晓娟,廖晨辉.一种两阶段的多媒体教育资源网页消重方法[J].现代教育技术,2012,22(9):93-96.

二级引证文献15

1于成龙.中文网页信息抽取技术及分类算法研究[J].山东理工大学学报（自然科学版）,2011,25(3):108-110.
2陈阳,陈兴蜀,吴麒.基于信息量衰减幅度的网页正文提取[J].计算机工程与设计,2012,33(7):2555-2560. 被引量：1
3段晓丽,王宇,谷静,刘玮楠.基于正文特征及网页结构的主题网页信息抽取[J].计算机工程与应用,2012,48(30):151-156. 被引量：10
4汪洋,帅建梅.基于语义扩展模型的中文网页关键词抽取[J].计算机工程,2012,38(22):163-166. 被引量：4
5伍杰华,倪振声,陈有青.一种基于逆序匹配重复模式的主题信息提取方法[J].计算机应用与软件,2013,30(4):88-91.
6伍杰华,倪振声.改进多分类器集成AdaBoost算法的Web主题分类[J].计算机应用与软件,2013,30(11):64-67. 被引量：2
7伊政,徐武平,徐爱萍.一种基于结构分析的网页主题区域发现方法[J].计算机工程与应用,2015,51(6):227-230. 被引量：1
8姬鑫,钟诚.基于分块的新闻网页信息抽取算法[J].计算机应用与软件,2015,32(4):317-322. 被引量：6
9周亦,周明全,王学松,黄友良.大数据环境下历史人物知识图谱构建与实现[J].系统仿真学报,2016,28(10):2560-2566. 被引量：17
10石锦涛.基于文字密度提取网页正文[J].福建电脑,2017,33(4):116-117.

1技术热线[J].电脑迷,2009(18):91-91.
2王志军.激活IE8光标浏览模式[J].电脑迷,2009(3):69-69.
3刘亚清,陈荣.基于隐马尔可夫模型的Web信息抽取[J].计算机工程,2009,35(18):25-27. 被引量：6
4卢晓燕.客户端Java技术的应用[J].电脑知识与技术,2006(8):59-61.
5刘必广.基于扩展DOM树的XML SCHEMA文档转换为数据库模式算法[J].武夷学院学报,2011,30(2):56-60.
6去掉超链接的下划线[J].计算机与网络,2001,0(Z1):47-47.
7付鑫,陈睿,唐雁.基于频度中心理论的三维模型简化方法[J].计算机科学,2008,35(7):216-218. 被引量：4
8王磊,蒋建中,郭军利.基于扩展DOM树的Web页面信息抽取[J].计算机应用与软件,2007,24(6):137-139. 被引量：12
9茹立云,李智超,马少平.搜索引擎索引网页集合选取方法研究[J].计算机研究与发展,2014,51(10):2239-2247. 被引量：9
10孙宝华.企业社会媒体主题信息提取算法研究[J].煤,2014,23(1):72-76. 被引量：1

计算机工程与应用

2009年第1期

浏览历史

内容加载中请稍等...

节点频度和语义距离相结合的网页正文信息抽取被引量：3

参考文献6

二级参考文献30

共引文献117

同被引文献25

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

节点频度和语义距离相结合的网页正文信息抽取 被引量：3

参考文献6

二级参考文献30

共引文献117

同被引文献25

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

节点频度和语义距离相结合的网页正文信息抽取被引量：3