期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于语义分析的主题信息采集系统的设计与实现 被引量:14
1
作者 赵佳鹤 王秀坤 刘亚欣 《计算机应用》 CSCD 北大核心 2007年第2期406-408,共3页
设计并实现了一个基于语义分析的主题信息采集系统(SAFWC),提出一种链接价值预测算法(SPageRank)。该算法从语义的角度出发,结合“知网”,通过对扩展元数据进行主题相关性判定来选择、预测与主题相关的URL。实验结果表明,该系统具有较... 设计并实现了一个基于语义分析的主题信息采集系统(SAFWC),提出一种链接价值预测算法(SPageRank)。该算法从语义的角度出发,结合“知网”,通过对扩展元数据进行主题相关性判定来选择、预测与主题相关的URL。实验结果表明,该系统具有较高的采集效率及精度。 展开更多
关键词 主题信息采集 知网 扩展元数据 搜索策略
下载PDF
一种基于搜索策略的多主题信息采集方法 被引量:2
2
作者 仲兆满 李存华 +1 位作者 刘宗田 管燕 《电子学报》 EI CAS CSCD 北大核心 2014年第12期2352-2358,共7页
本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置... 本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置搜索和通用搜索不同的原子规则分配策略,这样做一方面提高主题信息采集的准确率,另一方面减少搜索采集的次数.针对原子规则直接搜索结果的准确率不高的问题,提出了基于句群的主题与信息相关性的过滤方法.设置138条主题规则(拆分后的原子规则为8223条),14个内置搜索引擎和4个通用搜索引擎,在单位时间内采集到的信息总条数与采集到的相关信息的条数两个方面进行了实验比较.结果表明,所提方法在信息采集数目及相关信息采集数目方面均具有较好的性能. 展开更多
关键词 主题信息采集 原子规则 内置搜索 通用搜索 相关性计算
下载PDF
基于主题的智能Web信息采集系统的研究与实现 被引量:15
3
作者 李卫 刘建毅 +1 位作者 何华灿 王枞 《计算机应用研究》 CSCD 北大核心 2006年第2期163-166,共4页
研究并实现了一个基于主题的智能信息采集系统IFWC,该系统以全信息理论为支撑,吸收传统向量空间模型的思想,采用基于概念的向量空间模型,从词的语义层次对文本进行主题相关性分析;使用扩展元数据的语义相关性判定算法,对页面内的URL进... 研究并实现了一个基于主题的智能信息采集系统IFWC,该系统以全信息理论为支撑,吸收传统向量空间模型的思想,采用基于概念的向量空间模型,从词的语义层次对文本进行主题相关性分析;使用扩展元数据的语义相关性判定算法,对页面内的URL进行主题相关性预测。实验证明,该系统采集速度快,采集下来的页面精度高。 展开更多
关键词 基于主题信息采集 信息 扩展元数据 概念向量空间模型
下载PDF
基于主题的网络舆情分析模型及其实现 被引量:72
4
作者 钱爱兵 《现代图书情报技术》 CSSCI 北大核心 2008年第4期49-55,共7页
网络舆情分析是信息处理领域内的一个新兴且有实用价值的方向。分析网络舆情分析的基本问题,提出难点以及相关的解决方案,并在此基础上设计基于主题的网络舆情分析模型。
关键词 主题信息采集 网络舆情 舆情分析
下载PDF
基于主题的网络舆情分析模型及其研究
5
作者 王飞 《发展》 2014年第12期127-127,共1页
网络舆情分析是信息处理领域内的一个新兴且有实用价值的方向。分析网络舆情分析的基本问题,提出难点以及相关的解决方案,并在此基础上设计基于主题的网络舆情分析模型。
关键词 舆情分析 主题信息采集监测机制
下载PDF
利用构建语义词典的查询自动分类方法 被引量:3
6
作者 岳峰 孙亮 +2 位作者 王宽全 王永吉 左旺孟 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2008年第7期1094-1098,共5页
为解决传统的文档分类方法和手工分类方法都不适宜于处理查询分类的问题,提出了一种基于Web的自动构建特定主题的语义词典的方法来分类搜索查询,通过基于主题的Web信息采集和bootstrap-ping,由某个主题的少量关键词逐步扩充,最终得到该... 为解决传统的文档分类方法和手工分类方法都不适宜于处理查询分类的问题,提出了一种基于Web的自动构建特定主题的语义词典的方法来分类搜索查询,通过基于主题的Web信息采集和bootstrap-ping,由某个主题的少量关键词逐步扩充,最终得到该主题的语义词典及词典中每个单词的相对词频.Web中信息的冗余和各主题语义上的差别使各主题的语义词典中单词的种类和数量存在很大差异,这种差异可以用来对用户的搜索查询进行分类.实验结果表明,利用语义词典可以较准确地将用户的查询分类,同时该分类方法基本上不需要人工介入,且可适应搜索查询覆盖面广和实时性强的特点,较好地解决了搜索查询分类的问题. 展开更多
关键词 搜索引擎 查询分类 语义词典 基于主题的Web信息采集
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部