期刊文献+

基于机器学习的网页文本抽取技术 被引量:1

Web text extraction technology based on machine learning
下载PDF
导出
摘要 本文主要研究了从不同类型的html页面中根据需要抽取指定文本的技术。首先分析了目前主流的文本抽取技术的优点及缺点,并针对传统文本抽取技术的不足提出了基于机器学习的网页文本抽取技术;然后重点分析了此技术的实现原理,并在最后以案例方式介绍了使用java语言构建基于此技术的文本抽取系统。 This paper studies on the technology extracting giving text on demand from different html pages. The paper first analyzes the merits and flaws of current text extracting technology used most widely, and brings up the web text extraction technology based on machine learning based on the traditional theory; secondly, it analyzes the principle of realization of the technology; at last, it introduces an example of constructing the text extracting system based using java.
作者 程娟
出处 《图书馆学研究》 CSSCI 2008年第5期21-22,共2页 Research on Library Science
关键词 文本抽取 文本密度 机器学习 神经网络java text extraction text density machine learning neural networks java
  • 相关文献

参考文献4

  • 1吴卫华,袁宁,周劲,王洪军.基于文本集密度的特征词选择与权重计算方法[J].计算机与数字工程,2005,33(3):11-13. 被引量:4
  • 2Derrick Oswald. HtmlPaser Documentation. http: // sourceforge.net. 2007--10--01
  • 3Jeff Heaton. Using JOONE for Artificial Intelligence Programming. http: //www. developer. com, 2007--10--01
  • 4Jeff Heaton. Programming Neurol Networks in Jova. http: // www. sys-con.com, 2007-10-01

二级参考文献4

  • 1Yiming Yang, Thomas Ault, Thomas Pierce and Charles W Lattimer. Improving text categorization methods for event tracking[C]. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'00), 2000:65-72.
  • 2Lewis. Feature selection and feature extraction for text categorization: In Speech and Natural Language[C]. Proceedings of a workshop held at Harriman, 1992:212 -217.
  • 3刁倩,王永成,张惠惠.中文信息自动分类系统及其神经网络优化算法[J].信息与控制,1999,28(3):179-184. 被引量:6
  • 4鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量:120

共引文献3

同被引文献11

引证文献1

二级引证文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部