期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种基于KNN的文本分类算法 被引量:1
1
作者 余悦蒙 黄小斌 《电脑知识与技术》 2012年第3期1564-1566,共3页
KNN(K—Nearest Neighbor)是向量空间模型中最好的文本分类算法之一。但是,当样本集较大以及文本向量维数较多时,KNN算法分类的效率和准确率就会大大降低。该文提出了一种提高KNN分类效率的改进算法,并且改进了相似度的计算方法,... KNN(K—Nearest Neighbor)是向量空间模型中最好的文本分类算法之一。但是,当样本集较大以及文本向量维数较多时,KNN算法分类的效率和准确率就会大大降低。该文提出了一种提高KNN分类效率的改进算法,并且改进了相似度的计算方法,能更准确的判断维数高且样本集大的文本向量。算法在训练过程中计算出各类文本在向量空间中的分布范围,在分类过程中,根据待分类文本向量在样本空间中的分布位置,缩小其K最近邻搜索范围。实验证实改进的算法可以在保持KNN分类性能基本不变的情况下,显著提高分类效率。 展开更多
关键词 文本分类 K-最近邻 算法
下载PDF
一种词法分析与字标注分词结合的方法 被引量:1
2
作者 黄小斌 余悦蒙 《电脑知识与技术(过刊)》 2012年第3X期1814-1817,1820,共5页
提出了一种新的字位置信息标记,使用该标记可以实现字标注分词和词性分析的一体化。通过设计一套包含了词性信息的字位置信息标记,在训练前对训练语料进行改造,将训练语料转化成用新标记标注的语料,然后根据转化的结果进行训练,并用训... 提出了一种新的字位置信息标记,使用该标记可以实现字标注分词和词性分析的一体化。通过设计一套包含了词性信息的字位置信息标记,在训练前对训练语料进行改造,将训练语料转化成用新标记标注的语料,然后根据转化的结果进行训练,并用训练产生的隐马模型(HMM)对待分词字符串进行字标注,最后找出最大概率路径作为分词结果,该分词结果同时也包含了词法分析的结果。该文将隐马模型中的viterbi算法修改成N-viterbi算法,采用N-viterbi算法可以实现查找分词图中的前N条最大概率路径。实验表明,该模型可以较准确的完成分词操作,同时可以产生有一定引导作用的词法分析结果。 展开更多
关键词 分词 词法分析 字标注 N-viterbi 隐马模型 一体化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部