期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
10
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于概念树的主题爬取技术研究
被引量:
3
1
作者
曾义聪
杨贯中
刘柯
《科学技术与工程》
2005年第12期785-790,796,共7页
提出了一种新型主题爬取方法。采用概念树构造主题层次图,赋予待爬取URL对象以层次语义信息,按照语义相关性与重要性选择待爬取URL对象,搜索属于特定语义相关主题的重要Web文档的WWW子集。
关键词
概念
概念树
主题爬取
主题
层次
下载PDF
职称材料
面向主题爬取的多粒度URLs优先级计算方法
被引量:
1
2
作者
陈竹敏
马军
+1 位作者
韩晓晖
雷景生
《中文信息学报》
CSCD
北大核心
2009年第3期31-38,共8页
垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对...
垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法。在此基础上,提出基于上述方法的主题爬取算法。实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法。
展开更多
关键词
计算机应用
中文信息处理
主题爬取
优先级计算
网页分块
相关度计算
下载PDF
职称材料
基于本体概念图的web文档主题爬取探讨
3
作者
曾义聪
邱春荣
《科技创新导报》
2010年第8期24-25,共2页
提出了基于本体概念图的web文档的主题爬取,采用本体概念图构造主题层次图,赋予待爬取的URL对象以层次语义信息,按照语义相关性与重要性选择爬取URL对象,搜索属于特定语义相关主题的重要web文档的WWW子集。
关键词
本体
本体概念图
主题爬取
语义相关
下载PDF
职称材料
基于语景图的主题爬取器的初步设计
4
作者
李道生
赵强
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第12期208-209,228,共3页
介绍了一个基于语景图的Web主题爬取器的初步设计。描述了NB分类器的文本学习的向量空间模型——Bernoulli模型及NaiveBayes分类器设计提出了简化的前端队列优先排序的设计方案,即下载文档的归一化文档向量与查询向量的余弦相似度,作为...
介绍了一个基于语景图的Web主题爬取器的初步设计。描述了NB分类器的文本学习的向量空间模型——Bernoulli模型及NaiveBayes分类器设计提出了简化的前端队列优先排序的设计方案,即下载文档的归一化文档向量与查询向量的余弦相似度,作为层内下载文档的排序准则,以便与各层队列中文档的类似然率得分排序进行对比。介绍了自动实现爬取结果与主题分类目录的集成设想。
展开更多
关键词
主题爬取
机器学习
语景图
下载PDF
职称材料
一种主题爬虫文本分类器的构建
被引量:
1
5
作者
姜鹏
宋继华
《中文信息学报》
CSCD
北大核心
2010年第6期92-96,共5页
该文利用DF与CHI统计量相结合的特征选取方法,针对互联网上对外汉语相关领域的网页进行特征提取,并在此基础上,构建了基于标题与正文相结合的两步式主题相关度判定分类器。基于该分类器做对外汉语相关主题的网页爬取工作,实验表明,效率...
该文利用DF与CHI统计量相结合的特征选取方法,针对互联网上对外汉语相关领域的网页进行特征提取,并在此基础上,构建了基于标题与正文相结合的两步式主题相关度判定分类器。基于该分类器做对外汉语相关主题的网页爬取工作,实验表明,效率和召回率比传统分类器都有较大程度的提高,目前该分类器已经用于为大型对外汉语语料库构建提供数据源。
展开更多
关键词
DF
CHI统计量
分类器
主题爬取
下载PDF
职称材料
基于概念树的主题搜索机器人系统研究
被引量:
3
6
作者
曾义聪
杨贯中
《科学技术与工程》
2006年第16期2458-2463,共6页
采用基于概念树的主题爬取算法,构造了一个主题搜索机器人系统。对文档与主题层的向量表示进行简化,设计与实现了一个主题搜索机器人原型。
关键词
概念树
主题爬取
主题
搜索机器人
下载PDF
职称材料
基于链接聚类的Shark-Search算法
被引量:
8
7
作者
苏祺
项锟
孙斌
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2006年第3期139-143,共5页
根据对Shark-Search主题爬取算法的分析,提出了一种基于链接聚类的改进Shark-Search算法.并通过几个对比实验对该算法进行了验证.实验结果表明,新算法能够更有效地识别链接与主题的相关性.
关键词
Shark-Search算法
主题爬取
链接聚类
下载PDF
职称材料
基于网页分块的Shark-Search算法
被引量:
7
8
作者
陈军
陈竹敏
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2007年第9期62-66,共5页
Shark-Search算法是一个经典的主题爬取算法.针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题,提出了基于网页分块的Shark-Search算法,该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤.实验证明,改进的S...
Shark-Search算法是一个经典的主题爬取算法.针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题,提出了基于网页分块的Shark-Search算法,该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤.实验证明,改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高.
展开更多
关键词
Shark-Search算法
主题爬取
页面分块
相关性计算
下载PDF
职称材料
基于层次语义的URL排序方法研究
被引量:
1
9
作者
曾义聪
杨贯中
+1 位作者
周志光
曾强聪
《计算机工程与设计》
CSCD
北大核心
2008年第13期3365-3367,3371,共4页
为了提高主题爬取的采集性能,提出了基于层次语义的URL排序算法。主题爬取过程中引入了层次语义的启发信息,采用层次语义组合排序度量进行URL排序,并对层次语义引导主题爬取的采集率性能进行实验研究。实验表明,采用基于层次语义的URL...
为了提高主题爬取的采集性能,提出了基于层次语义的URL排序算法。主题爬取过程中引入了层次语义的启发信息,采用层次语义组合排序度量进行URL排序,并对层次语义引导主题爬取的采集率性能进行实验研究。实验表明,采用基于层次语义的URL排序方法,爬取过程中由初始URL链接能快速导向某目标主题集的Web文档。同时,当目标主题集的邻近区域没有相关的页面时,逐步放宽主题范围,在较宽的主题区域中爬取,能较快地导向其它不相邻的主题区域。
展开更多
关键词
采集率
层次语义
URL排序
概念树
主题爬取
下载PDF
职称材料
基于本体概念图的电子课本系统构造技术研究
10
作者
曾义聪
《计算机系统应用》
2008年第1期31-34,共4页
提出一种在Web上自动构造电子课本学习系统的方法。学习者通过遍历域本体库的本体概念图,指定主题层次。引导主题爬取Web文档,自动构造电子课本,在Web上学习就像在读一本书。
关键词
本体
本体概念图
电子课本
主题爬取
下载PDF
职称材料
题名
基于概念树的主题爬取技术研究
被引量:
3
1
作者
曾义聪
杨贯中
刘柯
机构
湖南大学软件学院
出处
《科学技术与工程》
2005年第12期785-790,796,共7页
基金
教育部科研基金(200146)资助
文摘
提出了一种新型主题爬取方法。采用概念树构造主题层次图,赋予待爬取URL对象以层次语义信息,按照语义相关性与重要性选择待爬取URL对象,搜索属于特定语义相关主题的重要Web文档的WWW子集。
关键词
概念
概念树
主题爬取
主题
层次
Keywords
concept concept tree focused crawling topic levels
分类号
TP393.03 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向主题爬取的多粒度URLs优先级计算方法
被引量:
1
2
作者
陈竹敏
马军
韩晓晖
雷景生
机构
山东大学计算机科学与技术学院
海南大学信息科学技术学院
出处
《中文信息学报》
CSCD
北大核心
2009年第3期31-38,共8页
基金
高等学校博士学科点专项科研基金项目(20070422107)
山东省科技攻关项目(2007GG10001002)
海南省自然科学基金项目(80546)
文摘
垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法。在此基础上,提出基于上述方法的主题爬取算法。实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法。
关键词
计算机应用
中文信息处理
主题爬取
优先级计算
网页分块
相关度计算
Keywords
computer application
Chinese information processing
focused crawling
URLs priority computation page segmentation
relevance computation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于本体概念图的web文档主题爬取探讨
3
作者
曾义聪
邱春荣
机构
长沙民政职业技术学院电子工程系
长沙民政职业技术学院软件学院
出处
《科技创新导报》
2010年第8期24-25,共2页
文摘
提出了基于本体概念图的web文档的主题爬取,采用本体概念图构造主题层次图,赋予待爬取的URL对象以层次语义信息,按照语义相关性与重要性选择爬取URL对象,搜索属于特定语义相关主题的重要web文档的WWW子集。
关键词
本体
本体概念图
主题爬取
语义相关
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于语景图的主题爬取器的初步设计
4
作者
李道生
赵强
机构
中国工程物理研究院计算机应用研究所
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第12期208-209,228,共3页
文摘
介绍了一个基于语景图的Web主题爬取器的初步设计。描述了NB分类器的文本学习的向量空间模型——Bernoulli模型及NaiveBayes分类器设计提出了简化的前端队列优先排序的设计方案,即下载文档的归一化文档向量与查询向量的余弦相似度,作为层内下载文档的排序准则,以便与各层队列中文档的类似然率得分排序进行对比。介绍了自动实现爬取结果与主题分类目录的集成设想。
关键词
主题爬取
机器学习
语景图
Keywords
Focused crawling
Machine learning
Context graph
分类号
TP393.07 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种主题爬虫文本分类器的构建
被引量:
1
5
作者
姜鹏
宋继华
机构
北京师范大学信息科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2010年第6期92-96,共5页
文摘
该文利用DF与CHI统计量相结合的特征选取方法,针对互联网上对外汉语相关领域的网页进行特征提取,并在此基础上,构建了基于标题与正文相结合的两步式主题相关度判定分类器。基于该分类器做对外汉语相关主题的网页爬取工作,实验表明,效率和召回率比传统分类器都有较大程度的提高,目前该分类器已经用于为大型对外汉语语料库构建提供数据源。
关键词
DF
CHI统计量
分类器
主题爬取
Keywords
DF
CHI
classifier
focused crawler
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于概念树的主题搜索机器人系统研究
被引量:
3
6
作者
曾义聪
杨贯中
机构
长沙民政职业技术学院电子工程系
湖南大学软件学院
出处
《科学技术与工程》
2006年第16期2458-2463,共6页
基金
教育部科学基金项目(20014)资助
文摘
采用基于概念树的主题爬取算法,构造了一个主题搜索机器人系统。对文档与主题层的向量表示进行简化,设计与实现了一个主题搜索机器人原型。
关键词
概念树
主题爬取
主题
搜索机器人
Keywords
concept tree focused crawling focused crawler
分类号
TP316.8 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于链接聚类的Shark-Search算法
被引量:
8
7
作者
苏祺
项锟
孙斌
机构
北京大学计算语言学研究所
出处
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2006年第3期139-143,共5页
基金
国家自然科学基金重点项目(60435020)
国家自然科学基金项目(60475020)
文摘
根据对Shark-Search主题爬取算法的分析,提出了一种基于链接聚类的改进Shark-Search算法.并通过几个对比实验对该算法进行了验证.实验结果表明,新算法能够更有效地识别链接与主题的相关性.
关键词
Shark-Search算法
主题爬取
链接聚类
Keywords
Shark-Search algorithm
focused crawling
link clustering
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于网页分块的Shark-Search算法
被引量:
7
8
作者
陈军
陈竹敏
机构
山东大学网络中心
山东大学计算机科学与技术学院
出处
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2007年第9期62-66,共5页
基金
国家科技支撑计划子课题资助项目(2006BAH02A29)
山东省博士基金资助项目(2006BS01016)
文摘
Shark-Search算法是一个经典的主题爬取算法.针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题,提出了基于网页分块的Shark-Search算法,该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤.实验证明,改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高.
关键词
Shark-Search算法
主题爬取
页面分块
相关性计算
Keywords
Shark-Search algorithm
focused crawling
page segmentation
relevance computation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于层次语义的URL排序方法研究
被引量:
1
9
作者
曾义聪
杨贯中
周志光
曾强聪
机构
长沙民政职业技术学院电子工程系
湖南大学软件学院
出处
《计算机工程与设计》
CSCD
北大核心
2008年第13期3365-3367,3371,共4页
基金
教育部科学基金项目(200146)
湖南省“十一五”规划基金项目(ZC062)
文摘
为了提高主题爬取的采集性能,提出了基于层次语义的URL排序算法。主题爬取过程中引入了层次语义的启发信息,采用层次语义组合排序度量进行URL排序,并对层次语义引导主题爬取的采集率性能进行实验研究。实验表明,采用基于层次语义的URL排序方法,爬取过程中由初始URL链接能快速导向某目标主题集的Web文档。同时,当目标主题集的邻近区域没有相关的页面时,逐步放宽主题范围,在较宽的主题区域中爬取,能较快地导向其它不相邻的主题区域。
关键词
采集率
层次语义
URL排序
概念树
主题爬取
Keywords
harvest rate
layer semantic
URL ordering
concept tree
focused crawl
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于本体概念图的电子课本系统构造技术研究
10
作者
曾义聪
机构
长沙民政职业技术学院电子工程系
出处
《计算机系统应用》
2008年第1期31-34,共4页
文摘
提出一种在Web上自动构造电子课本学习系统的方法。学习者通过遍历域本体库的本体概念图,指定主题层次。引导主题爬取Web文档,自动构造电子课本,在Web上学习就像在读一本书。
关键词
本体
本体概念图
电子课本
主题爬取
分类号
TP311.52 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于概念树的主题爬取技术研究
曾义聪
杨贯中
刘柯
《科学技术与工程》
2005
3
下载PDF
职称材料
2
面向主题爬取的多粒度URLs优先级计算方法
陈竹敏
马军
韩晓晖
雷景生
《中文信息学报》
CSCD
北大核心
2009
1
下载PDF
职称材料
3
基于本体概念图的web文档主题爬取探讨
曾义聪
邱春荣
《科技创新导报》
2010
0
下载PDF
职称材料
4
基于语景图的主题爬取器的初步设计
李道生
赵强
《计算机工程》
EI
CAS
CSCD
北大核心
2006
0
下载PDF
职称材料
5
一种主题爬虫文本分类器的构建
姜鹏
宋继华
《中文信息学报》
CSCD
北大核心
2010
1
下载PDF
职称材料
6
基于概念树的主题搜索机器人系统研究
曾义聪
杨贯中
《科学技术与工程》
2006
3
下载PDF
职称材料
7
基于链接聚类的Shark-Search算法
苏祺
项锟
孙斌
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2006
8
下载PDF
职称材料
8
基于网页分块的Shark-Search算法
陈军
陈竹敏
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2007
7
下载PDF
职称材料
9
基于层次语义的URL排序方法研究
曾义聪
杨贯中
周志光
曾强聪
《计算机工程与设计》
CSCD
北大核心
2008
1
下载PDF
职称材料
10
基于本体概念图的电子课本系统构造技术研究
曾义聪
《计算机系统应用》
2008
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部