摘要
为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性.
In order to efficiently analyze and extract online reviews,this paper proposed a parsing algorithm of text extraction based on HtmlParser.First,we realized the algorithm through the language and format rules to filter tags.Secondly,we used the Regex model for text cleaning and denoising.Finally,we verified the validity of the algorithm by the experiment of combining the accuracy and the recall rate.
出处
《北方工业大学学报》
2015年第1期7-12,50,共7页
Journal of North China University of Technology
基金
国家自然科学基金(61103112)
北京市哲学社会科学规划基金(13SHC031)
北京市青年拔尖人才培育计划(CIT&TCD201404005)
关键词
网页提取
信息抽取
URL采集
模式匹配
HtmlParser
information extraction
URL collection
pattern matching