期刊文献+

网页新闻信息预处理中SST树正文提取方法研究

Preprocessing of SST Tree Body Web News Information Based on a Template
下载PDF
导出
摘要 论文详细描述了在新闻信息挖掘和分析系统中的数据准备阶段中信息获取和信息处理模块的实现细节。从网页获取方式的采用开始,到网页获取的具体实现,再介绍了网页信息预处理实现的整个过程。其中,重点提到了网页正文信息的提取过程中,对基于模板的SST树的正文提取方法的优化,通过优化从而使得对正文提取的准确度更高,对后续的分析过程也提供了帮助。接着描述了为了提高网页信息分析阶段效率而进行的索引建立的过程以及数据存储的方式。并在最后对整个实验进行了功能性的分析和展望。 The paper gives brief details of implementation details of information acquisition and message processing module in news mining and data preparation phase. It starts with employment of web page access, and then goes to concrete implementation of web access, and ends with preprocessing of web news information. It focuses on the optimization of SST tree extraction method based on a template which makes extraction more accurate and helps the following analysis process. It also covers the establishment of index in order to improve the efficiency of analysis and functional prospect.
作者 刘林浩
机构地区 湖南文理学院
出处 《微计算机信息》 2012年第10期466-468,共3页 Control & Automation
关键词 新闻信息预处理 网页抓取 基于模版的SST树提取方法 preprocessing of web news information web capture SST tree extraction method based on a template
  • 相关文献

参考文献7

二级参考文献34

共引文献70

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部