期刊文献+

基于KNN算法的医药信息文本分类系统的研究 被引量:6

Research of Medical Information Text Categorization Based on KNN Algorithm
下载PDF
导出
摘要 针对目前医药信息文本分类领域的现状,设计并实现了一种基于KNN算法的医药信息文本分类系统。该系统充分利用了向量空间模型在表示方法上的优势和快速KNN算法的特点,并采用逆向最大匹配分词方法进行分词,可有效提高医药信息分类的准确性和信息处理效率。此外,构建了一个医药信息数据集,该数据集包含582篇医药类文本,其中训练文本433篇,测试文本149篇,并在该数据集上对医药信息文本分类系统进行了测试,得到了74.83%的F1值。实验证明,该系统可以较好地实现医药信息文本分类。 Designs and implements a system of medical information text categorization based on KNN algorithm. This system uses the vector space model to represent a text, uses the fast KNN algorithm to classify a text, and uses the reverse maximum match to segment the words. Therefore, it improves the accuracy of medical information classification and the efficiency of information processing. In addition, constructs a dataset of medical information including 582 medical documents, which is randomly divides into a training set including 433 documents and 149 documents. The system of medical information text classification is tested on our dataset and a F1 score of 74.83% is obtained. The result shows the better classification performance on medical information.
作者 许幸 张启蕊
出处 《计算机技术与发展》 2009年第4期206-209,共4页 Computer Technology and Development
基金 广东省医学科研基金资助项目(B2008088) 广东药学院科研基金资助项目(2007YGY01)
关键词 医药信息 文本分类 向量空间模型 KNN算法 medical information text categorization vector space model KNN algorithm
  • 相关文献

参考文献7

二级参考文献19

  • 1李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量:13
  • 2黎铭,薛晓冰,周志华.基于多示例学习的中文Web目录页面推荐[J].软件学报,2004,15(9):1328-1335. 被引量:17
  • 3王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量:13
  • 4杨丽华,戴齐,杨占华.文本分类技术研究[J].微计算机信息,2006(05X):209-211. 被引量:13
  • 5Vries A D,Mamoulis N,Nes N,et al.Efficient KNN search on vertically decomposed data//Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data,Madison,Wisconsin.Madison:ACM Press,2002:322-333.
  • 6Hart P E.The condensed nearest neighbor rule.IEEE Trans.on Information Theory,1968,14(3):515-516.
  • 7Wilson D L.Asymptotic properties of nearest neighbor rules using edited data.IEEE Trans.on Systems,Man and Cybernetics,1972,2(3):408-421.
  • 8Devijver P,Kittler J.Pattern Recognition:A Statistical Approach.Englewood Cliffs:Prentice Hall,1982.
  • 9Kuncheva L I.Fitness functions in editing KNN reference set by genetic algorithms.Pattern Recognition,1997,30(6):1041-1049.
  • 10Zaher Al Aghbari.Array-index:a plug & search K nearest neighbors method for high-dimensional data.Data & Knowledge Engineering,2005,52:333-352.

共引文献69

同被引文献63

引证文献6

二级引证文献26

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部