期刊文献+

面向网络评论的文本信息抽取方法研究 被引量:1

Research on the Method of Network Review Extraction
下载PDF
导出
摘要 为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性. In order to efficiently analyze and extract online reviews,this paper proposed a parsing algorithm of text extraction based on HtmlParser.First,we realized the algorithm through the language and format rules to filter tags.Secondly,we used the Regex model for text cleaning and denoising.Finally,we verified the validity of the algorithm by the experiment of combining the accuracy and the recall rate.
出处 《北方工业大学学报》 2015年第1期7-12,50,共7页 Journal of North China University of Technology
基金 国家自然科学基金(61103112) 北京市哲学社会科学规划基金(13SHC031) 北京市青年拔尖人才培育计划(CIT&TCD201404005)
关键词 网页提取 信息抽取 URL采集 模式匹配 HtmlParser information extraction URL collection pattern matching
  • 相关文献

参考文献13

  • 1陈少飞,郝亚南,李天柱,徐林昊,杨文柱.Web信息抽取技术研究进展[J].河北大学学报(自然科学版),2003,23(1):106-112. 被引量:19
  • 2宫进,胡长军,曾广平.互联网信息定向采集系统的设计与实现[J].计算机应用,2007,27(B06):16-17. 被引量:7
  • 3郭冲,王振宇.面向细粒度意见挖掘的情感本体树及自动构建[J].中文信息学报,2013,27(5):75-83. 被引量:11
  • 4Califf M, Mooney R. Relational learning of pat tern-match rules for information extraction[J]. In Proceedings of the Sixteenth National Conference on Artificial Intelligence and Eleventh Conference on Innovative Applications of Artificial Intelli gence, 1999 : 328-334.
  • 5Soderland S. Learning information extraction rules for semi structured and free text [J]. Machine Learning, 1999,34:233 272.
  • 6Freitag D. Machine learning for information ex traction in information domains [J]. Machine Learning,2000,39(2) .. 169 202.
  • 7崔新华.自然语言处理在信息检索中的应用研究[J].贵阳学院学报(自然科学版),2012,7(3):37-40. 被引量:3
  • 8Muslea I, Minton S, Craig A, et al. Active learning for hierarchical wrapper induction[C]. In Pro ceedings of the Sixteenth National Conference on Artificial Intelligence and Eleventh Conference on Innovative Applications of Artificial Intelligence, 2007.
  • 9Hsu C N,Dung M. Generating finite-state trans- ducers for semi-structured data extraction from the web[J]. Information System, 1998 : 521-538.
  • 10Kushmerick N. Wrapper induction: efficiency and expressiveness[J]. Artifical Intelligence Journal, 2000:15 68.

二级参考文献36

共引文献41

同被引文献6

引证文献1

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部