期刊文献+

中文网页信息抽取技术及分类算法研究

Chinese webpage information extraction technology and classification algorithm research
下载PDF
导出
摘要 对信息抽取的关键技术及评价标准进行分析,通过具体设计模块实现了信息抽取及分类,并通过实验得出结论. Key technologies and the evaluation criteria of information extraction are analysed.Finally the information extraction module and classifer is implemented through the specific design,and the conclusions are given.
作者 于成龙
出处 《山东理工大学学报(自然科学版)》 CAS 2011年第3期108-110,共3页 Journal of Shandong University of Technology:Natural Science Edition
关键词 信息抽取 分类 算法 information extraction classification algorithm
  • 相关文献

参考文献4

  • 1Adami G, Avesani P,Sona D. Clustering documents into a web directory for bootstrapping a supervised classification [ J ]. DataKnowledge Engineering, 2005,54(3) : 301-325.
  • 2宋明秋,张瑞雪,吴新涛,李文立.网页正文信息抽取新方法[J].大连理工大学学报,2009,49(4):594-597. 被引量:20
  • 3王少康,董科军,阎保平.使用特征文本密度的网页正文提取[J].计算机工程与应用,2010,46(20):1-3. 被引量:13
  • 4Caulkins J P,Ding W,Duncan G. A method for managing access to web pages: filtering by statistical classifleation(FSC) applied to text[J]. Decision Support Sytems,2006,42 : 144-161.

二级参考文献11

  • 1常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量:24
  • 2王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量:12
  • 3Eikvil L.Information extraction from World Wide Web-A survey[R].Norwegian Computing Center,1999.
  • 4Nechyba M C,Xu Yang-sheng.Stochastic similarity for validating human control strategy models[J].IEEE Trans on Robotics and Automation,1998,14(3):437-451.
  • 5Wang Ji-ying,Lochovsky F H.Data-rich section extraction from HTML pages[C] //Proceedings of the 3rd International Conference on Web Information Systems Engineering.Singapore:IEEE Computer Society Press,2002:313-322.
  • 6Lerman K,Knoblock C,Minton S.Automatic data extraction from lists and tables in web sources[C] //Proceedings of the Workshop on Advances in Text Extraction and Mining.Menlo Park:AAAI Press,2001:149-181.
  • 7Lin Shianhua,Ho Janming.Discovering informative content blocks from Web document[C] //Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Edmonton:ACM Press,2002:588-593.
  • 8Stenback J,Hegaret P L,Hors A L.Document Object Model(DOM) Level 2 HTML specification[EB/OL].(2003).http://www.w3.org/TR/2003/REC-DOM-Level-2-HTML-20030109/DOM2-HTML.html# html-ID-1176245063.
  • 9孙承杰,关毅.基于统计的网页正文信息抽取方法的研究[J]中文信息学报,2004(05).
  • 10孟军,刘秋水,王秀坤.节点频度和语义距离相结合的网页正文信息抽取[J].计算机工程与应用,2009,45(1):140-143. 被引量:3

共引文献31

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部