基于改进的kNN算法的中文网页自动分类方法研究被引量：20

Research of Chinese Web classification method based on improved kNN algorithm

下载PDF

导出

摘要概述了中文网页分类的一般过程,重点论述了在分类过程中特征词提取、训练库建立和文本分类算法等关键问题,针对向量空间模型的文本特征表示方法中特征词数量的多少与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,并且在文本相似度计算时,融入传统的特征向量的比较方法来对kNN算法进行改进,提出了基于特征词减少的改进kNN算法,提高了分类算法的效率和性能. The procedure of Chinese Web classification is described; and the keys of this classification including feature selection, building the training collection and text categorization algorithm are discussed crucially. The quantity of characteristic word in the text characteristic expression method of vector space model has an intimate relationship with the efficiency of classification algorithm. A characteristic word extraction method has been deeloped based on word gender. By fusing the traditional method which comparing the feature vectors when computing the similarity of texts to reform the k-nearest neighbor （kNN） algorithm, a modified kNN algorithm, which is based on lessening of characteristic words and data division respectively, has been proposed; so that the efficiency and performance of classification algorithm are improved.

作者胡燕吴虎子钟珞

机构地区武汉理工大学计算机科学与技术学院

出处《武汉大学学报（工学版）》 CAS CSCD 北大核心 2007年第4期141-144,共4页 Engineering Journal of Wuhan University

关键词特征词训练库文本相似度 KNN算法 characteristic words training collection similarity of the text kNN algorithm.

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1Nievergelt J,Hinterberger H,Sevcik K.The gridfile:an adaptable symmetric multikey file stucture[C]//ACM Trans.on Database Systems,1984,9(1):38-71.
2Bentley J L.Multidimensional binary search trees in database applications[J].Software Engineering,1979,5(4):333-340.
3Beckmann N,Kriegel H,Schneider R,et al.R*-tree:an efficient and robust access method for points and rectangles[C]//ACM SIGMOD,1990:322-231.
4Berchtold S,Keim D,Kriegel H P.The X-tree:an index structures for high-dimensional data[C]//22th VLDB,1996:28-39.
5White D A,Jzin R.Similarity indexing with the SS-tree[C]//Proceedings of the Twelfth International Conference on Data Engineering,1996:516-523.
6Jin H,Ooi B B,Shen H T,Ao Ying Zhou.An adaptive and efficient dimensionality reduction algorithm for high-dimensional indexing[C]//Proceedings of the 19th International Conference on Data Engineering,2003:87-98.
7Flickner M,Sawhney H,Niblack W,et al.Query by image and video content:the QBIC system[J].Computer,1995,28(9):23-32.
8Wu P,Manjunath B S,Chandrasekaran S.An adaptive index structure for high-dimensional similarity search[C]//PCM 2001,LNCS 2195,2001:71-78.
9Cha G-H,Zhu X,Petkovic D,Chung C-W.An efficient indexing method for nearest neighbor searches in high-dimensional image databases[J].IEEE Transactions on Multimedia,2002,4(1):76-87.
10Hanan Samet.Depth-first k-nearest neighbor finding using the maxnearestdist estimator[C]//Proceedings of the 12th International Conference on Image Analysis and Proceeding,2003:486-491.

二级参考文献4

1Kjersti Aas,Line Eikvil.Text Categorisation:A Survey,Technical Report,Norwegian Computing Center[EB/OL].[1999-06-09].http://citeseer.nj.nec.com/aas99text.html.
2黄萱菁,吴立德,石崎洋之,徐国伟.独立于语种的文本分类方法[J].中文信息学报,2000,14(6):1-7. 被引量：52
3李辉,史忠植,许卓群.运用文本领域的常识改善基于支撑向量机的文本分类器性能[J].中文信息学报,2002,16(2):7-13. 被引量：16
4代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228

共引文献25

1卢向华,胡燕.粗糙集和神经网络在文本分类中的应用研究[J].洛阳工业高等专科学校学报,2007,17(6):8-10.
2胡燕,张颂扬.基于Google Web API的中文训练库自动获取方法研究[J].计算机与数字工程,2008,36(5):8-10. 被引量：1
3符发.中文文本分类中特征选择方法的比较[J].现代计算机,2008,14(6):43-45. 被引量：7
4吴青,夏红霞,赵广辉,刘春燕.基于Lucene全文检索引擎的应用与改进[J].武汉理工大学学报,2008,30(7):145-148. 被引量：9
5姚兴山.基于词频的中文文本分类研究[J].现代情报,2009,29(2):179-181. 被引量：4
6朱磊,沈焕生.一种基于数字水印和信息内容的网络信息安全技术[J].解放军理工大学学报（自然科学版）,2010,11(1):19-25. 被引量：3
7李琳,胡燕,刘东飞.个性化Web信息检索排序算法优化研究[J].武汉理工大学学报,2010,32(16):177-180. 被引量：4
8杨帆,孙强.从Web网页上获取一价事件常识的方法[J].科学技术与工程,2010,10(25):6300-6304. 被引量：1
9丁荩,涂浩.微博感知突发重大新闻事件的研究与分析[J].广西大学学报（自然科学版）,2011,36(A01):335-338. 被引量：6
10袁路妍,顾国强,鲍世方.多层文本分类器的研究及应用[J].计算机应用与软件,2012,29(3):139-140. 被引量：2

同被引文献166

1苏贵洋,李建华,马颖华,李生红.用于中文色情文本过滤的近邻法构造算法[J].上海交通大学学报,2004,38(z1):76-79. 被引量：6
2钟迅科,张益新.公钥基础设施的架构及.NET下的设计开发[J].微机发展,2004,14(10):131-134. 被引量：3
3鲁庆,余永权.分析服务组件模型在数据挖掘中的研究与应用[J].广东工业大学学报,2005,22(1):53-56. 被引量：1
4高飞,李志勇,李强.基于XKMS构建安全的Web Services[J].计算机与网络,2005,31(19):55-57. 被引量：1
5杨立,左春,王裕国.基于语义距离的K-最近邻分类方法[J].软件学报,2005,16(12):2054-2062. 被引量：31
6刘维光,陈立伟.一种基于DHT的P2P搜索方法[J].微计算机信息,2006,22(03X):131-133. 被引量：26
7庞景安.Web文本特征提取方法的研究与发展[J].情报理论与实践,2006,29(3):338-340. 被引量：17
8陈作平,叶正麟,赵红星,郑红婵.结合K均值聚类和KD-Tree搜索的快速分形编码方法[J].计算机辅助设计与图形学学报,2006,18(7):965-970. 被引量：6
9谢庆华,梁剑,左洪福.基于变精度粗糙集的航空发动机送修等级决策[J].系统工程理论方法应用,2006,15(4):380-384. 被引量：20
10陈莉,张浩军,祝跃飞.基于XKMS的PKI系统的研究与实现[J].计算机工程与设计,2006,27(18):3335-3337. 被引量：4

引证文献20

1胡燕,张颂扬.基于Google Web API的中文训练库自动获取方法研究[J].计算机与数字工程,2008,36(5):8-10. 被引量：1
2赖坤锋,徐洁,李巧勤.一种基于DHT的多关键字搜索新机制[J].微计算机信息,2008,24(33):88-90.
3石永革,虞艳琼,石峰.基于Web的公钥基础设施优化与实现[J].计算机工程与设计,2009,30(9):2129-2131. 被引量：1
4张孝飞,黄河燕.一种采用聚类技术改进的KNN文本分类方法[J].模式识别与人工智能,2009,22(6):936-940. 被引量：33
5田京波.高校校园网用户兴趣挖掘系统的设计与实现[J].台州学院学报,2009,31(6):26-31.
6鞠小林,陈继红,邵浩然.基于向量空间模型的分层网页分类方法[J].南通大学学报（自然科学版）,2010,9(1):24-29.
7刘卓.K-最邻近算法在文本自动分类中的应用[J].苏州市职业大学学报,2010,21(2):58-60.
8周靖,刘晋胜.特征联合熵的一种改进K近邻分类算法[J].计算机应用,2011,31(7):1785-1788. 被引量：8
9余鹰,苗夺谦,刘财辉,王磊.基于变精度粗糙集的KNN分类改进算法[J].模式识别与人工智能,2012,25(4):617-623. 被引量：32
10周靖.平均互信息和类别区分性修剪规则的KNN算法[J].计算机应用,2013,33(2):558-562.

二级引证文献100

1胡燕,吴韦.IUC算法及其在Web编码中的应用研究[J].武汉理工大学学报,2009,31(3):150-153.
2周靖,刘晋胜.特征联合熵的一种改进K近邻分类算法[J].计算机应用,2011,31(7):1785-1788. 被引量：8
3刘海峰,庞秀梅,张学仁.一种聚类模式下基于密度的改进KNN算法[J].微电子学与计算机,2011,28(7):125-127. 被引量：5
4封薇.基于PKI与云计算的数字图书馆框架研究与设计[J].图书馆学刊,2011,33(9):109-112.
5陈军,邱保印.基于TM遥感影像的诸暨市森林资源监测[J].林业资源管理,2011(6):104-109. 被引量：2
6冯进玫,卢志茂,陈纯锴.一种基于均值更新的分类模型[J].计算机系统应用,2012,21(8):123-126. 被引量：1
7余鹰,苗夺谦,刘财辉,王磊.基于变精度粗糙集的KNN分类改进算法[J].模式识别与人工智能,2012,25(4):617-623. 被引量：32
8胡元,石冰.基于区域划分的kNN文本快速分类算法研究[J].计算机科学,2012,39(10):182-186. 被引量：23
9奉国和,吴敬学.KNN分类算法改进研究进展[J].图书情报工作,2012,56(21):97-100. 被引量：29
10周靖.平均互信息和类别区分性修剪规则的KNN算法[J].计算机应用,2013,33(2):558-562.

1盛魁,赵鹏.中文网页自动分类综述[J].电脑知识与技术,2010,6(9X):7558-7560. 被引量：2
2贾泂,梁久祯.基于支持向量机的中文网页自动分类[J].计算机工程,2005,31(10):145-147. 被引量：12
3廖文军,叶喜民.中文网页自动分类系统研究[J].新乡师范高等专科学校学报,2007,21(2):67-69.
4郑津,景彦昊.中文网页自动分类构架设计[J].福建电脑,2014,30(4):153-154. 被引量：1
5徐德智,阳绿云.中文网页自动分类研究[J].计算机工程与科学,2001,23(6):33-35. 被引量：3
6刘慧,杨宏光.应用于中文文本分类的改进KNN算法[J].今日科苑,2010(8):54-55. 被引量：2
7林啟锋,蒙祖强,陈秋莲,陈智敏.结合语义和文本特征位串的高效KNN算法[J].计算机工程与设计,2013,34(7):2417-2421. 被引量：1
8孔令成,郑诚,吴永俊.一种基于VSM的中文网页分类方法[J].信息化纵横,2009(17):56-58.
9胡燕,张颂扬.基于Google Web API的中文训练库自动获取方法研究[J].计算机与数字工程,2008,36(5):8-10. 被引量：1
10张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1

武汉大学学报（工学版）

2007年第4期

浏览历史

内容加载中请稍等...

基于改进的kNN算法的中文网页自动分类方法研究被引量：20

参考文献11

二级参考文献4

共引文献25

同被引文献166

引证文献20

二级引证文献100

相关作者

相关机构

相关主题

浏览历史

基于改进的kNN算法的中文网页自动分类方法研究 被引量：20

参考文献11

二级参考文献4

共引文献25

同被引文献166

引证文献20

二级引证文献100

相关作者

相关机构

相关主题

浏览历史

基于改进的kNN算法的中文网页自动分类方法研究被引量：20