期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于概念树的主题爬取技术研究 被引量:3
1
作者 曾义聪 杨贯中 刘柯 《科学技术与工程》 2005年第12期785-790,796,共7页
提出了一种新型主题爬取方法。采用概念树构造主题层次图,赋予待爬取URL对象以层次语义信息,按照语义相关性与重要性选择待爬取URL对象,搜索属于特定语义相关主题的重要Web文档的WWW子集。
关键词 概念 概念树 主题爬取 主题层次
下载PDF
面向主题爬取的多粒度URLs优先级计算方法 被引量:1
2
作者 陈竹敏 马军 +1 位作者 韩晓晖 雷景生 《中文信息学报》 CSCD 北大核心 2009年第3期31-38,共8页
垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对... 垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法。在此基础上,提出基于上述方法的主题爬取算法。实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法。 展开更多
关键词 计算机应用 中文信息处理 主题爬取 优先级计算 网页分块 相关度计算
下载PDF
基于本体概念图的web文档主题爬取探讨
3
作者 曾义聪 邱春荣 《科技创新导报》 2010年第8期24-25,共2页
提出了基于本体概念图的web文档的主题爬取,采用本体概念图构造主题层次图,赋予待爬取的URL对象以层次语义信息,按照语义相关性与重要性选择爬取URL对象,搜索属于特定语义相关主题的重要web文档的WWW子集。
关键词 本体 本体概念图 主题爬取 语义相关
下载PDF
基于语景图的主题爬取器的初步设计
4
作者 李道生 赵强 《计算机工程》 EI CAS CSCD 北大核心 2006年第12期208-209,228,共3页
介绍了一个基于语景图的Web主题爬取器的初步设计。描述了NB分类器的文本学习的向量空间模型——Bernoulli模型及NaiveBayes分类器设计提出了简化的前端队列优先排序的设计方案,即下载文档的归一化文档向量与查询向量的余弦相似度,作为... 介绍了一个基于语景图的Web主题爬取器的初步设计。描述了NB分类器的文本学习的向量空间模型——Bernoulli模型及NaiveBayes分类器设计提出了简化的前端队列优先排序的设计方案,即下载文档的归一化文档向量与查询向量的余弦相似度,作为层内下载文档的排序准则,以便与各层队列中文档的类似然率得分排序进行对比。介绍了自动实现爬取结果与主题分类目录的集成设想。 展开更多
关键词 主题爬取 机器学习 语景图
下载PDF
一种主题爬虫文本分类器的构建 被引量:1
5
作者 姜鹏 宋继华 《中文信息学报》 CSCD 北大核心 2010年第6期92-96,共5页
该文利用DF与CHI统计量相结合的特征选取方法,针对互联网上对外汉语相关领域的网页进行特征提取,并在此基础上,构建了基于标题与正文相结合的两步式主题相关度判定分类器。基于该分类器做对外汉语相关主题的网页爬取工作,实验表明,效率... 该文利用DF与CHI统计量相结合的特征选取方法,针对互联网上对外汉语相关领域的网页进行特征提取,并在此基础上,构建了基于标题与正文相结合的两步式主题相关度判定分类器。基于该分类器做对外汉语相关主题的网页爬取工作,实验表明,效率和召回率比传统分类器都有较大程度的提高,目前该分类器已经用于为大型对外汉语语料库构建提供数据源。 展开更多
关键词 DF CHI统计量 分类器 主题爬取
下载PDF
基于概念树的主题搜索机器人系统研究 被引量:3
6
作者 曾义聪 杨贯中 《科学技术与工程》 2006年第16期2458-2463,共6页
采用基于概念树的主题爬取算法,构造了一个主题搜索机器人系统。对文档与主题层的向量表示进行简化,设计与实现了一个主题搜索机器人原型。
关键词 概念树 主题爬取 主题搜索机器人
下载PDF
基于链接聚类的Shark-Search算法 被引量:8
7
作者 苏祺 项锟 孙斌 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期139-143,共5页
根据对Shark-Search主题爬取算法的分析,提出了一种基于链接聚类的改进Shark-Search算法.并通过几个对比实验对该算法进行了验证.实验结果表明,新算法能够更有效地识别链接与主题的相关性.
关键词 Shark-Search算法 主题爬取 链接聚类
下载PDF
基于网页分块的Shark-Search算法 被引量:7
8
作者 陈军 陈竹敏 《山东大学学报(理学版)》 CAS CSCD 北大核心 2007年第9期62-66,共5页
Shark-Search算法是一个经典的主题爬取算法.针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题,提出了基于网页分块的Shark-Search算法,该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤.实验证明,改进的S... Shark-Search算法是一个经典的主题爬取算法.针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题,提出了基于网页分块的Shark-Search算法,该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤.实验证明,改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高. 展开更多
关键词 Shark-Search算法 主题爬取 页面分块 相关性计算
下载PDF
基于层次语义的URL排序方法研究 被引量:1
9
作者 曾义聪 杨贯中 +1 位作者 周志光 曾强聪 《计算机工程与设计》 CSCD 北大核心 2008年第13期3365-3367,3371,共4页
为了提高主题爬取的采集性能,提出了基于层次语义的URL排序算法。主题爬取过程中引入了层次语义的启发信息,采用层次语义组合排序度量进行URL排序,并对层次语义引导主题爬取的采集率性能进行实验研究。实验表明,采用基于层次语义的URL... 为了提高主题爬取的采集性能,提出了基于层次语义的URL排序算法。主题爬取过程中引入了层次语义的启发信息,采用层次语义组合排序度量进行URL排序,并对层次语义引导主题爬取的采集率性能进行实验研究。实验表明,采用基于层次语义的URL排序方法,爬取过程中由初始URL链接能快速导向某目标主题集的Web文档。同时,当目标主题集的邻近区域没有相关的页面时,逐步放宽主题范围,在较宽的主题区域中爬取,能较快地导向其它不相邻的主题区域。 展开更多
关键词 采集率 层次语义 URL排序 概念树 主题爬取
下载PDF
基于本体概念图的电子课本系统构造技术研究
10
作者 曾义聪 《计算机系统应用》 2008年第1期31-34,共4页
提出一种在Web上自动构造电子课本学习系统的方法。学习者通过遍历域本体库的本体概念图,指定主题层次。引导主题爬取Web文档,自动构造电子课本,在Web上学习就像在读一本书。
关键词 本体 本体概念图 电子课本 主题爬取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部