期刊文献+
共找到107篇文章
< 1 2 6 >
每页显示 20 50 100
基于支持向量机与无监督聚类相结合的中文网页分类器 被引量:108
1
作者 李晓黎 刘继敏 史忠植 《计算机学报》 EI CSCD 北大核心 2001年第1期62-68,共7页
提出了一种将支持向量机与无监督聚类相结合的新分类算法 ,给出了一种新的网页表示方法并应用于网页分类问题 .该算法首先利用无监督聚类分别对训练集中正例和反例聚类 ,然后挑选一些例子训练 SVM并获得 SVM分类器 .任何网页可以通过比... 提出了一种将支持向量机与无监督聚类相结合的新分类算法 ,给出了一种新的网页表示方法并应用于网页分类问题 .该算法首先利用无监督聚类分别对训练集中正例和反例聚类 ,然后挑选一些例子训练 SVM并获得 SVM分类器 .任何网页可以通过比较其与聚类中心的距离决定采用无监督聚类方法或 SVM分类器进行分类 .该算法充分利用了 SVM准确率高与无监督聚类速度快的优点 .实验表明它不仅具有较高的训练效率 ,而且有很高的精确度 . 展开更多
关键词 支持向量机 无监督聚类 中文网页分类器 INTERNET 机器学习
下载PDF
几种典型特征选取方法在中文网页分类上的效果比较 被引量:76
2
作者 单松巍 冯是聪 李晓明 《计算机工程与应用》 CSCD 北大核心 2003年第22期146-148,共3页
针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使... 针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使用普通英文文本和中文网页评测特征选取方法的结果是一致的。 展开更多
关键词 机器学习 中文网页分类 特征选取 评测
下载PDF
一种基于预分类的高效SVM中文网页分类器 被引量:19
3
作者 许世明 武波 +3 位作者 马翠 邸思 徐洪奎 杜如虚 《计算机工程与应用》 CSCD 北大核心 2010年第1期125-128,共4页
中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重... 中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重计算等。提出了一种利用预置关键词表进行预分类的方法,并详细说明了该方法的原理与实现。实验结果表明,该方法与单独使用SVM分类器相比,不仅大大减少了分类时间,准确率和召回率也明显提高。 展开更多
关键词 支持向量机 中文网页分类 文本分类 机器学习
下载PDF
基于决策支持向量机的中文网页分类器 被引量:19
4
作者 贺海军 王建芬 +1 位作者 周青 曹元大 《计算机工程》 CAS CSCD 北大核心 2003年第2期47-48,共2页
提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减... 提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 决策 支持向量机 中文网页分类器 决策树 统计学习理论
下载PDF
一种中文网页自动分类方法的实现及应用 被引量:15
5
作者 冯是聪 张志刚 李晓明 《计算机工程》 CAS CSCD 北大核心 2004年第5期19-20,108,共3页
为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在“天网”搜索引擎上实现了大规模中文网页的目录导航服务。实验结果表明该分类器有较高的分类质量,满足了中文网页自动... 为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在“天网”搜索引擎上实现了大规模中文网页的目录导航服务。实验结果表明该分类器有较高的分类质量,满足了中文网页自动分类的要求。 展开更多
关键词 机器学习 中文网页分类 特征选取 目录导航
下载PDF
中文网页分类研究与系统实现 被引量:12
6
作者 段军峰 黄维通 陆玉昌 《计算机科学》 CSCD 北大核心 2007年第6期210-213,共4页
近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多。本文详细介绍了一个中文网页分类系统的设计与实现,并且提出了一些网页预处理和特征处理的方法。实验结果表明,本文的方法可以使中文网页... 近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多。本文详细介绍了一个中文网页分类系统的设计与实现,并且提出了一些网页预处理和特征处理的方法。实验结果表明,本文的方法可以使中文网页分类性能由81.5%提高至94.9%。 展开更多
关键词 中文网页分类 网页预处理 特征抽取
下载PDF
基于语义关联的中文网页主题词提取方法研究 被引量:5
7
作者 李芳芳 葛斌 +1 位作者 毛星亮 汤大权 《计算机应用研究》 CSCD 北大核心 2011年第1期105-107,123,共4页
提出了一种基于语义关联的中文网页主题词提取方法,首先借助滑动窗口和"知网"计算词语间的语义相似度,形成候选名词对集合;然后基于该集合生成无向图表示词语间的语义联系,并通过该无向图对主题词权重进行建模;最后选取权值... 提出了一种基于语义关联的中文网页主题词提取方法,首先借助滑动窗口和"知网"计算词语间的语义相似度,形成候选名词对集合;然后基于该集合生成无向图表示词语间的语义联系,并通过该无向图对主题词权重进行建模;最后选取权值较高的名词作为主题词。实验结果表明,相比未建立语义关联的主题词提取方法,本方法在查准率、召回率和F1测度值上均有一定的提高,当提取主题词个数为7时,本方法召回率和F1测度值达到最大值,且分别较传统方法最大值提高了12.5%和9.53%。 展开更多
关键词 语义关联 中文网页 主题词 权重
下载PDF
基于内容的中文网页自动分类研究 被引量:5
8
作者 张义忠 赵明生 朱精南 《信息与控制》 CSCD 北大核心 2001年第5期408-412,共5页
本文主要介绍基于内容的网页自动分类系统 ,具体介绍了类别词典的建造方法 ,网页超文本类别词切分的方法 ,中文网页自动分类算法以及利用类别词与网页间的模糊关系对网页文本进行自动分类等内容 .通过对旅游网页进行测试 ,自动分类正确... 本文主要介绍基于内容的网页自动分类系统 ,具体介绍了类别词典的建造方法 ,网页超文本类别词切分的方法 ,中文网页自动分类算法以及利用类别词与网页间的模糊关系对网页文本进行自动分类等内容 .通过对旅游网页进行测试 ,自动分类正确率可达 93.37%以上 。 展开更多
关键词 自动分类 信息检索 中文网页 计算机网络
下载PDF
基于统计分词的中文网页分类 被引量:16
9
作者 黄科 马少平 《中文信息学报》 CSCD 北大核心 2002年第6期25-31,共7页
本文将基于统计的二元分词方法应用于中文网页分类 ,实现了在事先没有词表的情况下通过统计构造二字词词表 ,从而根据网页中的文本进行分词 ,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别 ,新词... 本文将基于统计的二元分词方法应用于中文网页分类 ,实现了在事先没有词表的情况下通过统计构造二字词词表 ,从而根据网页中的文本进行分词 ,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别 ,新词不断出现 ,而且易于获得大量的同类型文本作为训练语料。这些都为实现统计分词提供了条件。本文通过试验测试了统计分词构造二字词表用于中文网页分类的效果。试验表明 ,在统计阈值选择合适的时候 ,通过构建的词表进行分词进而进行网页分类 ,能有效地提高网页分类的分类精度。此外 ,本文还分析了单字和分词对于文本分类的不同影响及其原因。 展开更多
关键词 中文网页分类 文本分类 统计分词 机器学习 计算机网络 汉字识别
下载PDF
基于语义的中文网页检索 被引量:4
10
作者 余一骄 刘芹 《计算机科学》 CSCD 北大核心 2012年第8期79-87,共9页
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用... 用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。 展开更多
关键词 语义检索 中文网页 本体 分类 聚类 信息抽取
下载PDF
关于“中文网页自动分类竞赛”结果的分析 被引量:6
11
作者 冯是聪 王继民 《中文信息学报》 CSCD 北大核心 2003年第5期34-40,共7页
在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前... 在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。 展开更多
关键词 计算机应用 中文信息处理 机器学习 中文网页自动分类 TREC评测
下载PDF
基于KNN及相关链接的中文网页分类研究 被引量:2
12
作者 金一宁 王华兵 王德峰 《哈尔滨商业大学学报(自然科学版)》 CAS 2011年第2期203-207,共5页
提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量空间模型,采用KNN对中文网页进行分类,比较了基于网页标题分类、基于网页正文分类,以及将正文与相关链接... 提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量空间模型,采用KNN对中文网页进行分类,比较了基于网页标题分类、基于网页正文分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的设想,最终分类的准确率达到80%以上. 展开更多
关键词 中文网页分类 网页提取 相关链接 KNN
下载PDF
基于语义扩展模型的中文网页关键词抽取 被引量:4
13
作者 汪洋 帅建梅 《计算机工程》 CAS CSCD 2012年第22期163-166,共4页
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方... 提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。 展开更多
关键词 中文网页关键词抽取 语义扩展模型 邻接变化数 聚类算法 n—gram语言模型
下载PDF
可分性判据在中文网页分类中的应用 被引量:5
14
作者 秦兵 郑实福 +2 位作者 刘挺 张刚 李生 《微处理机》 2002年第1期26-28,共3页
提出了一种改进的基于统计的中文网页的分类算法,通过对传统的基于计算相似度文本分类方法和基于贝叶斯模型文本分类算法的研究,我们对贝叶斯模型分类算法进行了改进,提出了利用一种基于概率分布的可分性判据分类方法,即用类别密度... 提出了一种改进的基于统计的中文网页的分类算法,通过对传统的基于计算相似度文本分类方法和基于贝叶斯模型文本分类算法的研究,我们对贝叶斯模型分类算法进行了改进,提出了利用一种基于概率分布的可分性判据分类方法,即用类别密度函数似然比来增加特征词的可分性信息的算法。通过对计算相似度方法、贝叶斯方法及改进的贝叶斯方法的对比实验表明,改进算法可以使类与类的间隔最大化,因而具有较高的分类精确率和召回率。 展开更多
关键词 可分性判据 贝叶斯方法 文本概率模型 中文网页分类 计算机网络
下载PDF
结合EM算法的朴素贝叶斯方法在中文网页分类上的应用 被引量:4
15
作者 刘青 何政 《计算机工程与科学》 CSCD 2005年第7期65-66,90,共3页
本文描述一种利用未标记的中文网页进行分类的新EM方法,即通过不断地改变EM收敛的初始条件来改善最终的收敛结果。我们通过做实验对该方法进行了测试,获得了满意的结果。
关键词 中文网页分类 朴素贝叶斯方法 EM算法
下载PDF
中文网页自动分类研究 被引量:3
16
作者 徐德智 阳绿云 《计算机工程与科学》 CSCD 2001年第6期33-35,42,共4页
本文以实践经验为基础 ,对网页的源程序公共结构进行了分析 ,并充分考虑到中文网页的文字特点 ,给出了一种中文网页的分类方法与实现手段 。
关键词 中文网页 自动分类 WWW 信息搜索 INTERNET
下载PDF
用ASP实现中文网页文本的加密与解密 被引量:1
17
作者 罗克 闵华清 《计算机应用》 CSCD 北大核心 2001年第2期54-55,共2页
在Internet网络信息传递中如何将明文变换成密文 ,或将密文变换成明文 ,即保护信息在传递中不被他人窃取或修改是一个需要解决的问题 .本文讨论了一种利用维尔南 (Vernam)加密算法和ASP代码对中文网络信息进行加密与解密的方案 ,并给出... 在Internet网络信息传递中如何将明文变换成密文 ,或将密文变换成明文 ,即保护信息在传递中不被他人窃取或修改是一个需要解决的问题 .本文讨论了一种利用维尔南 (Vernam)加密算法和ASP代码对中文网络信息进行加密与解密的方案 ,并给出了实现相应功能的源程序。 展开更多
关键词 中文网页 ASP 维尔南加密算法 加密 解密 功能模块 INTERNET
下载PDF
中文网页分类中特征提取的研究 被引量:2
18
作者 程传鹏 李钜 《中原工学院学报》 CAS 2005年第6期42-44,共3页
针对中文网页分类技术中的一些特征选择方法存在的问题.分析了常用的网页分类特征选择方法,提出了一种比较适合中文网页分类的特征选择方法.该方法将已有的X2统计方法进行了一些变形处理,并把该方法应用到后续的网页分类中,分类实验结... 针对中文网页分类技术中的一些特征选择方法存在的问题.分析了常用的网页分类特征选择方法,提出了一种比较适合中文网页分类的特征选择方法.该方法将已有的X2统计方法进行了一些变形处理,并把该方法应用到后续的网页分类中,分类实验结果表明,准确率得到了一定的提高. 展开更多
关键词 网页分类 特征提取 X^2统计量 中文网页
下载PDF
中文网页自动摘要系统的研究 被引量:2
19
作者 徐晓丹 《计算机与现代化》 2006年第9期120-122,126,共4页
自动摘要是自然语言处理中的一个重要但又困难的分支,在Web信息检索中起着重要作用。文章采用拟人思维,提出了一种篇章结构分析和统计相结合的自动摘要方法,并实现了一个中文网页自动摘要实验系统。该方法首先对文本进行篇章结构分析,... 自动摘要是自然语言处理中的一个重要但又困难的分支,在Web信息检索中起着重要作用。文章采用拟人思维,提出了一种篇章结构分析和统计相结合的自动摘要方法,并实现了一个中文网页自动摘要实验系统。该方法首先对文本进行篇章结构分析,得到段落的位置信息和各级小标题信息;然后综合这些结构信息使用统计方法和启发式规则来提取文档的关键词、关键句,生成文档的摘要。在实验评估中,该方法取得了令人满意的摘要质量和速度。 展开更多
关键词 自动摘要 中文网页 篇章结构 信息检索
下载PDF
中文网页自动分类现状的研究 被引量:1
20
作者 张莉 康耀红 +1 位作者 王曙光 张春元 《福建电脑》 2004年第5期3-4,共2页
本文重点阐述中文网页自动分类关键技术的现状,介绍分析了两个中文网页自动分类系统。并在文章最后对未来研究提出建议。
关键词 中文网页自动分类系统 特征提取 分类算法 网页
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部