期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
107
篇文章
<
1
2
…
6
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于支持向量机与无监督聚类相结合的中文网页分类器
被引量:
108
1
作者
李晓黎
刘继敏
史忠植
《计算机学报》
EI
CSCD
北大核心
2001年第1期62-68,共7页
提出了一种将支持向量机与无监督聚类相结合的新分类算法 ,给出了一种新的网页表示方法并应用于网页分类问题 .该算法首先利用无监督聚类分别对训练集中正例和反例聚类 ,然后挑选一些例子训练 SVM并获得 SVM分类器 .任何网页可以通过比...
提出了一种将支持向量机与无监督聚类相结合的新分类算法 ,给出了一种新的网页表示方法并应用于网页分类问题 .该算法首先利用无监督聚类分别对训练集中正例和反例聚类 ,然后挑选一些例子训练 SVM并获得 SVM分类器 .任何网页可以通过比较其与聚类中心的距离决定采用无监督聚类方法或 SVM分类器进行分类 .该算法充分利用了 SVM准确率高与无监督聚类速度快的优点 .实验表明它不仅具有较高的训练效率 ,而且有很高的精确度 .
展开更多
关键词
支持向量机
无监督聚类
中文网页
分类器
INTERNET
机器学习
下载PDF
职称材料
几种典型特征选取方法在中文网页分类上的效果比较
被引量:
76
2
作者
单松巍
冯是聪
李晓明
《计算机工程与应用》
CSCD
北大核心
2003年第22期146-148,共3页
针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使...
针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使用普通英文文本和中文网页评测特征选取方法的结果是一致的。
展开更多
关键词
机器学习
中文网页
分类
特征选取
评测
下载PDF
职称材料
一种基于预分类的高效SVM中文网页分类器
被引量:
19
3
作者
许世明
武波
+3 位作者
马翠
邸思
徐洪奎
杜如虚
《计算机工程与应用》
CSCD
北大核心
2010年第1期125-128,共4页
中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重...
中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重计算等。提出了一种利用预置关键词表进行预分类的方法,并详细说明了该方法的原理与实现。实验结果表明,该方法与单独使用SVM分类器相比,不仅大大减少了分类时间,准确率和召回率也明显提高。
展开更多
关键词
支持向量机
中文网页
分类
文本分类
机器学习
下载PDF
职称材料
基于决策支持向量机的中文网页分类器
被引量:
19
4
作者
贺海军
王建芬
+1 位作者
周青
曹元大
《计算机工程》
CAS
CSCD
北大核心
2003年第2期47-48,共2页
提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减...
提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。
展开更多
关键词
决策
支持向量机
中文网页
分类器
决策树
统计学习理论
下载PDF
职称材料
一种中文网页自动分类方法的实现及应用
被引量:
15
5
作者
冯是聪
张志刚
李晓明
《计算机工程》
CAS
CSCD
北大核心
2004年第5期19-20,108,共3页
为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在“天网”搜索引擎上实现了大规模中文网页的目录导航服务。实验结果表明该分类器有较高的分类质量,满足了中文网页自动...
为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在“天网”搜索引擎上实现了大规模中文网页的目录导航服务。实验结果表明该分类器有较高的分类质量,满足了中文网页自动分类的要求。
展开更多
关键词
机器学习
中文网页
分类
特征选取
目录导航
下载PDF
职称材料
中文网页分类研究与系统实现
被引量:
12
6
作者
段军峰
黄维通
陆玉昌
《计算机科学》
CSCD
北大核心
2007年第6期210-213,共4页
近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多。本文详细介绍了一个中文网页分类系统的设计与实现,并且提出了一些网页预处理和特征处理的方法。实验结果表明,本文的方法可以使中文网页...
近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多。本文详细介绍了一个中文网页分类系统的设计与实现,并且提出了一些网页预处理和特征处理的方法。实验结果表明,本文的方法可以使中文网页分类性能由81.5%提高至94.9%。
展开更多
关键词
中文网页
分类
网页
预处理
特征抽取
下载PDF
职称材料
基于语义关联的中文网页主题词提取方法研究
被引量:
5
7
作者
李芳芳
葛斌
+1 位作者
毛星亮
汤大权
《计算机应用研究》
CSCD
北大核心
2011年第1期105-107,123,共4页
提出了一种基于语义关联的中文网页主题词提取方法,首先借助滑动窗口和"知网"计算词语间的语义相似度,形成候选名词对集合;然后基于该集合生成无向图表示词语间的语义联系,并通过该无向图对主题词权重进行建模;最后选取权值...
提出了一种基于语义关联的中文网页主题词提取方法,首先借助滑动窗口和"知网"计算词语间的语义相似度,形成候选名词对集合;然后基于该集合生成无向图表示词语间的语义联系,并通过该无向图对主题词权重进行建模;最后选取权值较高的名词作为主题词。实验结果表明,相比未建立语义关联的主题词提取方法,本方法在查准率、召回率和F1测度值上均有一定的提高,当提取主题词个数为7时,本方法召回率和F1测度值达到最大值,且分别较传统方法最大值提高了12.5%和9.53%。
展开更多
关键词
语义关联
中文网页
主题词
权重
下载PDF
职称材料
基于内容的中文网页自动分类研究
被引量:
5
8
作者
张义忠
赵明生
朱精南
《信息与控制》
CSCD
北大核心
2001年第5期408-412,共5页
本文主要介绍基于内容的网页自动分类系统 ,具体介绍了类别词典的建造方法 ,网页超文本类别词切分的方法 ,中文网页自动分类算法以及利用类别词与网页间的模糊关系对网页文本进行自动分类等内容 .通过对旅游网页进行测试 ,自动分类正确...
本文主要介绍基于内容的网页自动分类系统 ,具体介绍了类别词典的建造方法 ,网页超文本类别词切分的方法 ,中文网页自动分类算法以及利用类别词与网页间的模糊关系对网页文本进行自动分类等内容 .通过对旅游网页进行测试 ,自动分类正确率可达 93.37%以上 。
展开更多
关键词
自动分类
信息检索
中文网页
计算机网络
下载PDF
职称材料
基于统计分词的中文网页分类
被引量:
16
9
作者
黄科
马少平
《中文信息学报》
CSCD
北大核心
2002年第6期25-31,共7页
本文将基于统计的二元分词方法应用于中文网页分类 ,实现了在事先没有词表的情况下通过统计构造二字词词表 ,从而根据网页中的文本进行分词 ,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别 ,新词...
本文将基于统计的二元分词方法应用于中文网页分类 ,实现了在事先没有词表的情况下通过统计构造二字词词表 ,从而根据网页中的文本进行分词 ,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别 ,新词不断出现 ,而且易于获得大量的同类型文本作为训练语料。这些都为实现统计分词提供了条件。本文通过试验测试了统计分词构造二字词表用于中文网页分类的效果。试验表明 ,在统计阈值选择合适的时候 ,通过构建的词表进行分词进而进行网页分类 ,能有效地提高网页分类的分类精度。此外 ,本文还分析了单字和分词对于文本分类的不同影响及其原因。
展开更多
关键词
中文网页
分类
文本分类
统计分词
机器学习
计算机网络
汉字识别
下载PDF
职称材料
基于语义的中文网页检索
被引量:
4
10
作者
余一骄
刘芹
《计算机科学》
CSCD
北大核心
2012年第8期79-87,共9页
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用...
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。
展开更多
关键词
语义检索
中文网页
本体
分类
聚类
信息抽取
下载PDF
职称材料
关于“中文网页自动分类竞赛”结果的分析
被引量:
6
11
作者
冯是聪
王继民
《中文信息学报》
CSCD
北大核心
2003年第5期34-40,共7页
在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前...
在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。
展开更多
关键词
计算机应用
中文
信息处理
机器学习
中文网页
自动分类
TREC评测
下载PDF
职称材料
基于KNN及相关链接的中文网页分类研究
被引量:
2
12
作者
金一宁
王华兵
王德峰
《哈尔滨商业大学学报(自然科学版)》
CAS
2011年第2期203-207,共5页
提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量空间模型,采用KNN对中文网页进行分类,比较了基于网页标题分类、基于网页正文分类,以及将正文与相关链接...
提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量空间模型,采用KNN对中文网页进行分类,比较了基于网页标题分类、基于网页正文分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的设想,最终分类的准确率达到80%以上.
展开更多
关键词
中文网页
分类
网页
提取
相关链接
KNN
下载PDF
职称材料
基于语义扩展模型的中文网页关键词抽取
被引量:
4
13
作者
汪洋
帅建梅
《计算机工程》
CAS
CSCD
2012年第22期163-166,共4页
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方...
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。
展开更多
关键词
中文网页
关键词抽取
语义扩展模型
邻接变化数
聚类算法
n—gram语言模型
下载PDF
职称材料
可分性判据在中文网页分类中的应用
被引量:
5
14
作者
秦兵
郑实福
+2 位作者
刘挺
张刚
李生
《微处理机》
2002年第1期26-28,共3页
提出了一种改进的基于统计的中文网页的分类算法,通过对传统的基于计算相似度文本分类方法和基于贝叶斯模型文本分类算法的研究,我们对贝叶斯模型分类算法进行了改进,提出了利用一种基于概率分布的可分性判据分类方法,即用类别密度...
提出了一种改进的基于统计的中文网页的分类算法,通过对传统的基于计算相似度文本分类方法和基于贝叶斯模型文本分类算法的研究,我们对贝叶斯模型分类算法进行了改进,提出了利用一种基于概率分布的可分性判据分类方法,即用类别密度函数似然比来增加特征词的可分性信息的算法。通过对计算相似度方法、贝叶斯方法及改进的贝叶斯方法的对比实验表明,改进算法可以使类与类的间隔最大化,因而具有较高的分类精确率和召回率。
展开更多
关键词
可分性判据
贝叶斯方法
文本概率模型
中文网页
分类
计算机网络
下载PDF
职称材料
结合EM算法的朴素贝叶斯方法在中文网页分类上的应用
被引量:
4
15
作者
刘青
何政
《计算机工程与科学》
CSCD
2005年第7期65-66,90,共3页
本文描述一种利用未标记的中文网页进行分类的新EM方法,即通过不断地改变EM收敛的初始条件来改善最终的收敛结果。我们通过做实验对该方法进行了测试,获得了满意的结果。
关键词
中文网页
分类
朴素贝叶斯方法
EM算法
下载PDF
职称材料
中文网页自动分类研究
被引量:
3
16
作者
徐德智
阳绿云
《计算机工程与科学》
CSCD
2001年第6期33-35,42,共4页
本文以实践经验为基础 ,对网页的源程序公共结构进行了分析 ,并充分考虑到中文网页的文字特点 ,给出了一种中文网页的分类方法与实现手段 。
关键词
中文网页
自动分类
WWW
信息搜索
INTERNET
下载PDF
职称材料
用ASP实现中文网页文本的加密与解密
被引量:
1
17
作者
罗克
闵华清
《计算机应用》
CSCD
北大核心
2001年第2期54-55,共2页
在Internet网络信息传递中如何将明文变换成密文 ,或将密文变换成明文 ,即保护信息在传递中不被他人窃取或修改是一个需要解决的问题 .本文讨论了一种利用维尔南 (Vernam)加密算法和ASP代码对中文网络信息进行加密与解密的方案 ,并给出...
在Internet网络信息传递中如何将明文变换成密文 ,或将密文变换成明文 ,即保护信息在传递中不被他人窃取或修改是一个需要解决的问题 .本文讨论了一种利用维尔南 (Vernam)加密算法和ASP代码对中文网络信息进行加密与解密的方案 ,并给出了实现相应功能的源程序。
展开更多
关键词
中文网页
ASP
维尔南加密算法
加密
解密
功能模块
INTERNET
下载PDF
职称材料
中文网页分类中特征提取的研究
被引量:
2
18
作者
程传鹏
李钜
《中原工学院学报》
CAS
2005年第6期42-44,共3页
针对中文网页分类技术中的一些特征选择方法存在的问题.分析了常用的网页分类特征选择方法,提出了一种比较适合中文网页分类的特征选择方法.该方法将已有的X2统计方法进行了一些变形处理,并把该方法应用到后续的网页分类中,分类实验结...
针对中文网页分类技术中的一些特征选择方法存在的问题.分析了常用的网页分类特征选择方法,提出了一种比较适合中文网页分类的特征选择方法.该方法将已有的X2统计方法进行了一些变形处理,并把该方法应用到后续的网页分类中,分类实验结果表明,准确率得到了一定的提高.
展开更多
关键词
网页
分类
特征提取
X^2统计量
中文网页
下载PDF
职称材料
中文网页自动摘要系统的研究
被引量:
2
19
作者
徐晓丹
《计算机与现代化》
2006年第9期120-122,126,共4页
自动摘要是自然语言处理中的一个重要但又困难的分支,在Web信息检索中起着重要作用。文章采用拟人思维,提出了一种篇章结构分析和统计相结合的自动摘要方法,并实现了一个中文网页自动摘要实验系统。该方法首先对文本进行篇章结构分析,...
自动摘要是自然语言处理中的一个重要但又困难的分支,在Web信息检索中起着重要作用。文章采用拟人思维,提出了一种篇章结构分析和统计相结合的自动摘要方法,并实现了一个中文网页自动摘要实验系统。该方法首先对文本进行篇章结构分析,得到段落的位置信息和各级小标题信息;然后综合这些结构信息使用统计方法和启发式规则来提取文档的关键词、关键句,生成文档的摘要。在实验评估中,该方法取得了令人满意的摘要质量和速度。
展开更多
关键词
自动摘要
中文网页
篇章结构
信息检索
下载PDF
职称材料
中文网页自动分类现状的研究
被引量:
1
20
作者
张莉
康耀红
+1 位作者
王曙光
张春元
《福建电脑》
2004年第5期3-4,共2页
本文重点阐述中文网页自动分类关键技术的现状,介绍分析了两个中文网页自动分类系统。并在文章最后对未来研究提出建议。
关键词
中文网页
自动分类系统
特征提取
分类算法
网页
下载PDF
职称材料
题名
基于支持向量机与无监督聚类相结合的中文网页分类器
被引量:
108
1
作者
李晓黎
刘继敏
史忠植
机构
中国科学院计算技术研究所
出处
《计算机学报》
EI
CSCD
北大核心
2001年第1期62-68,共7页
基金
国家自然科学基金!(6 980 30 10 )
国家"八六三"高技术研究发展计划!(86 3-5 11-946 -0 10 )资助
文摘
提出了一种将支持向量机与无监督聚类相结合的新分类算法 ,给出了一种新的网页表示方法并应用于网页分类问题 .该算法首先利用无监督聚类分别对训练集中正例和反例聚类 ,然后挑选一些例子训练 SVM并获得 SVM分类器 .任何网页可以通过比较其与聚类中心的距离决定采用无监督聚类方法或 SVM分类器进行分类 .该算法充分利用了 SVM准确率高与无监督聚类速度快的优点 .实验表明它不仅具有较高的训练效率 ,而且有很高的精确度 .
关键词
支持向量机
无监督聚类
中文网页
分类器
INTERNET
机器学习
Keywords
support vector machine, clustering, text classification
分类号
TP393.409 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
几种典型特征选取方法在中文网页分类上的效果比较
被引量:
76
2
作者
单松巍
冯是聪
李晓明
机构
北京大学计算机科学与技术系
出处
《计算机工程与应用》
CSCD
北大核心
2003年第22期146-148,共3页
基金
国家973重大基础研究项目(编号:G1999032706)资助
文摘
针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使用普通英文文本和中文网页评测特征选取方法的结果是一致的。
关键词
机器学习
中文网页
分类
特征选取
评测
Keywords
Machine Learning,Chinese Web Page Categorization,Feature Selection,Evaluation
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
一种基于预分类的高效SVM中文网页分类器
被引量:
19
3
作者
许世明
武波
马翠
邸思
徐洪奎
杜如虚
机构
西安电子科技大学计算机学院
中国科学院深圳先进技术研究院
出处
《计算机工程与应用》
CSCD
北大核心
2010年第1期125-128,共4页
文摘
中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重计算等。提出了一种利用预置关键词表进行预分类的方法,并详细说明了该方法的原理与实现。实验结果表明,该方法与单独使用SVM分类器相比,不仅大大减少了分类时间,准确率和召回率也明显提高。
关键词
支持向量机
中文网页
分类
文本分类
机器学习
Keywords
support vector machine
Chinese Web page classification
text classification
machine learning
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于决策支持向量机的中文网页分类器
被引量:
19
4
作者
贺海军
王建芬
周青
曹元大
机构
北京理工大学计算机科学工程系
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第2期47-48,共2页
文摘
提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。
关键词
决策
支持向量机
中文网页
分类器
决策树
统计学习理论
Keywords
Support vector machine(SVM)
Decision tree
Web page
Classification
分类号
TP393.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种中文网页自动分类方法的实现及应用
被引量:
15
5
作者
冯是聪
张志刚
李晓明
机构
北京大学计算机科学技术系
出处
《计算机工程》
CAS
CSCD
北大核心
2004年第5期19-20,108,共3页
基金
国家"973"计划重大基础研究项目(G1999032706)
文摘
为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在“天网”搜索引擎上实现了大规模中文网页的目录导航服务。实验结果表明该分类器有较高的分类质量,满足了中文网页自动分类的要求。
关键词
机器学习
中文网页
分类
特征选取
目录导航
Keywords
Machine learning
Chinese Web page categorization
Feature selection
Category navigation
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
中文网页分类研究与系统实现
被引量:
12
6
作者
段军峰
黄维通
陆玉昌
机构
清华大学计算机科学与技术系
出处
《计算机科学》
CSCD
北大核心
2007年第6期210-213,共4页
基金
国家自然科学基金项目(60473115)资助。
文摘
近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多。本文详细介绍了一个中文网页分类系统的设计与实现,并且提出了一些网页预处理和特征处理的方法。实验结果表明,本文的方法可以使中文网页分类性能由81.5%提高至94.9%。
关键词
中文网页
分类
网页
预处理
特征抽取
Keywords
Chinese Web-page classification,Web-page preprocessing,Feature extraction
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于语义关联的中文网页主题词提取方法研究
被引量:
5
7
作者
李芳芳
葛斌
毛星亮
汤大权
机构
国防科学技术大学C
中共湖南省委互联网新闻宣传办公室
出处
《计算机应用研究》
CSCD
北大核心
2011年第1期105-107,123,共4页
基金
国家自然科学基金资助项目(60903225)
湖北省自然科学基金资助项目(2008CDB388)
文摘
提出了一种基于语义关联的中文网页主题词提取方法,首先借助滑动窗口和"知网"计算词语间的语义相似度,形成候选名词对集合;然后基于该集合生成无向图表示词语间的语义联系,并通过该无向图对主题词权重进行建模;最后选取权值较高的名词作为主题词。实验结果表明,相比未建立语义关联的主题词提取方法,本方法在查准率、召回率和F1测度值上均有一定的提高,当提取主题词个数为7时,本方法召回率和F1测度值达到最大值,且分别较传统方法最大值提高了12.5%和9.53%。
关键词
语义关联
中文网页
主题词
权重
Keywords
semantic relations
Chinese Web pages
thematic words
weight
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于内容的中文网页自动分类研究
被引量:
5
8
作者
张义忠
赵明生
朱精南
机构
清华大学电子工程系
出处
《信息与控制》
CSCD
北大核心
2001年第5期408-412,共5页
基金
清华大学 985项目基金
国家自然科学基金( 6 0 0 0 30 14 )
863-317-0 1-0 6 -99项目资助
文摘
本文主要介绍基于内容的网页自动分类系统 ,具体介绍了类别词典的建造方法 ,网页超文本类别词切分的方法 ,中文网页自动分类算法以及利用类别词与网页间的模糊关系对网页文本进行自动分类等内容 .通过对旅游网页进行测试 ,自动分类正确率可达 93.37%以上 。
关键词
自动分类
信息检索
中文网页
计算机网络
Keywords
extraction, the automatic classification algorithm of Chinese web pages. The algorithm decides on membership function of indexing descriptors belonging in each of classification by statistics and classifies archives with fuzzy relation. The res
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于统计分词的中文网页分类
被引量:
16
9
作者
黄科
马少平
机构
清华大学计算机科学与技术系智能技术与系统国家重点实验室
出处
《中文信息学报》
CSCD
北大核心
2002年第6期25-31,共7页
基金
国家重点基础研究 973(G19980 30 5 0 9)
86 3高技术项目 (2 0 0 1AA114 0 82 )
文摘
本文将基于统计的二元分词方法应用于中文网页分类 ,实现了在事先没有词表的情况下通过统计构造二字词词表 ,从而根据网页中的文本进行分词 ,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别 ,新词不断出现 ,而且易于获得大量的同类型文本作为训练语料。这些都为实现统计分词提供了条件。本文通过试验测试了统计分词构造二字词表用于中文网页分类的效果。试验表明 ,在统计阈值选择合适的时候 ,通过构建的词表进行分词进而进行网页分类 ,能有效地提高网页分类的分类精度。此外 ,本文还分析了单字和分词对于文本分类的不同影响及其原因。
关键词
中文网页
分类
文本分类
统计分词
机器学习
计算机网络
汉字识别
Keywords
text categorization
statistical word segmentation
machine learning
computer network
分类号
TP391.43 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于语义的中文网页检索
被引量:
4
10
作者
余一骄
刘芹
机构
华中师范大学语言学系
武汉大学计算机学院
出处
《计算机科学》
CSCD
北大核心
2012年第8期79-87,共9页
基金
教育部人文社会科学研究项目(10YJA740120)
湖北省教育厅人文社会科学研究项目(2010b032)资助
文摘
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。
关键词
语义检索
中文网页
本体
分类
聚类
信息抽取
Keywords
Semantic information retrieval
Chinese Web page
Ontology
Classification
Clustering
Information extraction
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
关于“中文网页自动分类竞赛”结果的分析
被引量:
6
11
作者
冯是聪
王继民
机构
北京大学计算机科学与技术系
出处
《中文信息学报》
CSCD
北大核心
2003年第5期34-40,共7页
基金
国家973重大基础研究项目资助(G1999032706)
文摘
在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。
关键词
计算机应用
中文
信息处理
机器学习
中文网页
自动分类
TREC评测
Keywords
computer application
Chinese information processing
machine learning
Chinese Web page automatic categorization
TREC evaluation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于KNN及相关链接的中文网页分类研究
被引量:
2
12
作者
金一宁
王华兵
王德峰
机构
哈尔滨商业大学计算机与信息工程学院
出处
《哈尔滨商业大学学报(自然科学版)》
CAS
2011年第2期203-207,共5页
基金
哈尔滨商业大学青年骨干教师科研创新项目(SD06030)
文摘
提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量空间模型,采用KNN对中文网页进行分类,比较了基于网页标题分类、基于网页正文分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的设想,最终分类的准确率达到80%以上.
关键词
中文网页
分类
网页
提取
相关链接
KNN
Keywords
chinese webpages classification
webpage theme extraction
relative hyperlinks
KNN
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于语义扩展模型的中文网页关键词抽取
被引量:
4
13
作者
汪洋
帅建梅
机构
中国科学技术大学信息科学技术学院
出处
《计算机工程》
CAS
CSCD
2012年第22期163-166,共4页
基金
国家"863"计划基金资助项目"结合语义的视频服务网站自动发现与分析评估"(2008AA01Z408)
文摘
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。
关键词
中文网页
关键词抽取
语义扩展模型
邻接变化数
聚类算法
n—gram语言模型
Keywords
Chinese Webpage keyword extraction
semantics extension model
Accessor Variety(AV)
clustering algorithm
n-gram language model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
可分性判据在中文网页分类中的应用
被引量:
5
14
作者
秦兵
郑实福
刘挺
张刚
李生
机构
哈尔滨工业大学信息检索组
出处
《微处理机》
2002年第1期26-28,共3页
文摘
提出了一种改进的基于统计的中文网页的分类算法,通过对传统的基于计算相似度文本分类方法和基于贝叶斯模型文本分类算法的研究,我们对贝叶斯模型分类算法进行了改进,提出了利用一种基于概率分布的可分性判据分类方法,即用类别密度函数似然比来增加特征词的可分性信息的算法。通过对计算相似度方法、贝叶斯方法及改进的贝叶斯方法的对比实验表明,改进算法可以使类与类的间隔最大化,因而具有较高的分类精确率和召回率。
关键词
可分性判据
贝叶斯方法
文本概率模型
中文网页
分类
计算机网络
Keywords
separable criterion,Bayes model,text probability model,web page classification
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
结合EM算法的朴素贝叶斯方法在中文网页分类上的应用
被引量:
4
15
作者
刘青
何政
机构
中国人民大学信息学院
华中科技大学计算机科学与技术学院
出处
《计算机工程与科学》
CSCD
2005年第7期65-66,90,共3页
基金
国家"十五"重大科技专项(2001BA102A0611)
文摘
本文描述一种利用未标记的中文网页进行分类的新EM方法,即通过不断地改变EM收敛的初始条件来改善最终的收敛结果。我们通过做实验对该方法进行了测试,获得了满意的结果。
关键词
中文网页
分类
朴素贝叶斯方法
EM算法
Keywords
Chinese Webpage classification
Nae Bayesianmethod
EM algorithm
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
中文网页自动分类研究
被引量:
3
16
作者
徐德智
阳绿云
机构
中南工业大学信息科学与工程学院
出处
《计算机工程与科学》
CSCD
2001年第6期33-35,42,共4页
文摘
本文以实践经验为基础 ,对网页的源程序公共结构进行了分析 ,并充分考虑到中文网页的文字特点 ,给出了一种中文网页的分类方法与实现手段 。
关键词
中文网页
自动分类
WWW
信息搜索
INTERNET
Keywords
classification
web page
active text
word
分类号
TP393.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
用ASP实现中文网页文本的加密与解密
被引量:
1
17
作者
罗克
闵华清
机构
武汉化工学院计算机科学与工程系
出处
《计算机应用》
CSCD
北大核心
2001年第2期54-55,共2页
文摘
在Internet网络信息传递中如何将明文变换成密文 ,或将密文变换成明文 ,即保护信息在传递中不被他人窃取或修改是一个需要解决的问题 .本文讨论了一种利用维尔南 (Vernam)加密算法和ASP代码对中文网络信息进行加密与解密的方案 ,并给出了实现相应功能的源程序。
关键词
中文网页
ASP
维尔南加密算法
加密
解密
功能模块
INTERNET
分类号
TP393.409 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
中文网页分类中特征提取的研究
被引量:
2
18
作者
程传鹏
李钜
机构
中原工学院
出处
《中原工学院学报》
CAS
2005年第6期42-44,共3页
文摘
针对中文网页分类技术中的一些特征选择方法存在的问题.分析了常用的网页分类特征选择方法,提出了一种比较适合中文网页分类的特征选择方法.该方法将已有的X2统计方法进行了一些变形处理,并把该方法应用到后续的网页分类中,分类实验结果表明,准确率得到了一定的提高.
关键词
网页
分类
特征提取
X^2统计量
中文网页
Keywords
web page classification
feature selection
X^2 statistics
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
中文网页自动摘要系统的研究
被引量:
2
19
作者
徐晓丹
机构
浙江师范大学信息科学与工程学院
出处
《计算机与现代化》
2006年第9期120-122,126,共4页
文摘
自动摘要是自然语言处理中的一个重要但又困难的分支,在Web信息检索中起着重要作用。文章采用拟人思维,提出了一种篇章结构分析和统计相结合的自动摘要方法,并实现了一个中文网页自动摘要实验系统。该方法首先对文本进行篇章结构分析,得到段落的位置信息和各级小标题信息;然后综合这些结构信息使用统计方法和启发式规则来提取文档的关键词、关键句,生成文档的摘要。在实验评估中,该方法取得了令人满意的摘要质量和速度。
关键词
自动摘要
中文网页
篇章结构
信息检索
Keywords
automatic abstract
Chinese Web page
text structure
information retrieval
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
中文网页自动分类现状的研究
被引量:
1
20
作者
张莉
康耀红
王曙光
张春元
机构
海南大学信息学院
出处
《福建电脑》
2004年第5期3-4,共2页
文摘
本文重点阐述中文网页自动分类关键技术的现状,介绍分析了两个中文网页自动分类系统。并在文章最后对未来研究提出建议。
关键词
中文网页
自动分类系统
特征提取
分类算法
网页
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于支持向量机与无监督聚类相结合的中文网页分类器
李晓黎
刘继敏
史忠植
《计算机学报》
EI
CSCD
北大核心
2001
108
下载PDF
职称材料
2
几种典型特征选取方法在中文网页分类上的效果比较
单松巍
冯是聪
李晓明
《计算机工程与应用》
CSCD
北大核心
2003
76
下载PDF
职称材料
3
一种基于预分类的高效SVM中文网页分类器
许世明
武波
马翠
邸思
徐洪奎
杜如虚
《计算机工程与应用》
CSCD
北大核心
2010
19
下载PDF
职称材料
4
基于决策支持向量机的中文网页分类器
贺海军
王建芬
周青
曹元大
《计算机工程》
CAS
CSCD
北大核心
2003
19
下载PDF
职称材料
5
一种中文网页自动分类方法的实现及应用
冯是聪
张志刚
李晓明
《计算机工程》
CAS
CSCD
北大核心
2004
15
下载PDF
职称材料
6
中文网页分类研究与系统实现
段军峰
黄维通
陆玉昌
《计算机科学》
CSCD
北大核心
2007
12
下载PDF
职称材料
7
基于语义关联的中文网页主题词提取方法研究
李芳芳
葛斌
毛星亮
汤大权
《计算机应用研究》
CSCD
北大核心
2011
5
下载PDF
职称材料
8
基于内容的中文网页自动分类研究
张义忠
赵明生
朱精南
《信息与控制》
CSCD
北大核心
2001
5
下载PDF
职称材料
9
基于统计分词的中文网页分类
黄科
马少平
《中文信息学报》
CSCD
北大核心
2002
16
下载PDF
职称材料
10
基于语义的中文网页检索
余一骄
刘芹
《计算机科学》
CSCD
北大核心
2012
4
下载PDF
职称材料
11
关于“中文网页自动分类竞赛”结果的分析
冯是聪
王继民
《中文信息学报》
CSCD
北大核心
2003
6
下载PDF
职称材料
12
基于KNN及相关链接的中文网页分类研究
金一宁
王华兵
王德峰
《哈尔滨商业大学学报(自然科学版)》
CAS
2011
2
下载PDF
职称材料
13
基于语义扩展模型的中文网页关键词抽取
汪洋
帅建梅
《计算机工程》
CAS
CSCD
2012
4
下载PDF
职称材料
14
可分性判据在中文网页分类中的应用
秦兵
郑实福
刘挺
张刚
李生
《微处理机》
2002
5
下载PDF
职称材料
15
结合EM算法的朴素贝叶斯方法在中文网页分类上的应用
刘青
何政
《计算机工程与科学》
CSCD
2005
4
下载PDF
职称材料
16
中文网页自动分类研究
徐德智
阳绿云
《计算机工程与科学》
CSCD
2001
3
下载PDF
职称材料
17
用ASP实现中文网页文本的加密与解密
罗克
闵华清
《计算机应用》
CSCD
北大核心
2001
1
下载PDF
职称材料
18
中文网页分类中特征提取的研究
程传鹏
李钜
《中原工学院学报》
CAS
2005
2
下载PDF
职称材料
19
中文网页自动摘要系统的研究
徐晓丹
《计算机与现代化》
2006
2
下载PDF
职称材料
20
中文网页自动分类现状的研究
张莉
康耀红
王曙光
张春元
《福建电脑》
2004
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
6
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部