-
题名一种基于KNN的文本分类算法
被引量:1
- 1
-
-
作者
余悦蒙
黄小斌
-
机构
厦门大学信息科学与技术学院
-
出处
《电脑知识与技术》
2012年第3期1564-1566,共3页
-
文摘
KNN(K—Nearest Neighbor)是向量空间模型中最好的文本分类算法之一。但是,当样本集较大以及文本向量维数较多时,KNN算法分类的效率和准确率就会大大降低。该文提出了一种提高KNN分类效率的改进算法,并且改进了相似度的计算方法,能更准确的判断维数高且样本集大的文本向量。算法在训练过程中计算出各类文本在向量空间中的分布范围,在分类过程中,根据待分类文本向量在样本空间中的分布位置,缩小其K最近邻搜索范围。实验证实改进的算法可以在保持KNN分类性能基本不变的情况下,显著提高分类效率。
-
关键词
文本分类
K-最近邻
算法
-
Keywords
text classification
KNN
algorithm
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名一种词法分析与字标注分词结合的方法
被引量:1
- 2
-
-
作者
黄小斌
余悦蒙
-
机构
厦门大学信息科学与技术学院
-
出处
《电脑知识与技术(过刊)》
2012年第3X期1814-1817,1820,共5页
-
文摘
提出了一种新的字位置信息标记,使用该标记可以实现字标注分词和词性分析的一体化。通过设计一套包含了词性信息的字位置信息标记,在训练前对训练语料进行改造,将训练语料转化成用新标记标注的语料,然后根据转化的结果进行训练,并用训练产生的隐马模型(HMM)对待分词字符串进行字标注,最后找出最大概率路径作为分词结果,该分词结果同时也包含了词法分析的结果。该文将隐马模型中的viterbi算法修改成N-viterbi算法,采用N-viterbi算法可以实现查找分词图中的前N条最大概率路径。实验表明,该模型可以较准确的完成分词操作,同时可以产生有一定引导作用的词法分析结果。
-
关键词
分词
词法分析
字标注
N-viterbi
隐马模型
一体化
-
Keywords
word segmentation
lexical analysis
word-position tagging
N-viterbi
Hidden Markov Model
integration
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-