期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Nutch的专题网页资源采集服务系统的设计与实现 被引量:3
1
作者 常智荣 马自卫 李高虎 《现代图书情报技术》 CSSCI 北大核心 2010年第3期19-26,共8页
在数字图书馆系统集成应用的框架下,提出基于Nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专... 在数字图书馆系统集成应用的框架下,提出基于Nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专题性和系统的可管理性以及易用性。重点对文本解析过滤、Plugin插件开发以及搜索结果的层次化自动聚类等相关技术进行深入研究。通过基于Webservice的服务接口,实现其在数字图书馆资源层的集成应用。 展开更多
关键词 nutch 网页资源采集 中文分词插件 webservice 集成服务
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部