基于KNN算法的医药信息文本分类系统的研究被引量：6

Research of Medical Information Text Categorization Based on KNN Algorithm

下载PDF

导出

摘要针对目前医药信息文本分类领域的现状,设计并实现了一种基于KNN算法的医药信息文本分类系统。该系统充分利用了向量空间模型在表示方法上的优势和快速KNN算法的特点,并采用逆向最大匹配分词方法进行分词,可有效提高医药信息分类的准确性和信息处理效率。此外,构建了一个医药信息数据集,该数据集包含582篇医药类文本,其中训练文本433篇,测试文本149篇,并在该数据集上对医药信息文本分类系统进行了测试,得到了74.83%的F1值。实验证明,该系统可以较好地实现医药信息文本分类。 Designs and implements a system of medical information text categorization based on KNN algorithm. This system uses the vector space model to represent a text, uses the fast KNN algorithm to classify a text, and uses the reverse maximum match to segment the words. Therefore, it improves the accuracy of medical information classification and the efficiency of information processing. In addition, constructs a dataset of medical information including 582 medical documents, which is randomly divides into a training set including 433 documents and 149 documents. The system of medical information text classification is tested on our dataset and a F1 score of 74.83% is obtained. The result shows the better classification performance on medical information.

作者许幸张启蕊

机构地区广东药学院医药信息工程学院

出处《计算机技术与发展》 2009年第4期206-209,共4页 Computer Technology and Development

基金广东省医学科研基金资助项目(B2008088) 广东药学院科研基金资助项目(2007YGY01)

关键词医药信息文本分类向量空间模型 KNN算法 medical information text categorization vector space model KNN algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1唐菁,沈记全,杨炳儒.基于Web的文本挖掘系统的研究与实现[J].计算机科学,2003,30(1):60-62. 被引量：22
2张启蕊,张凌,董守斌,谭景华.基于免疫算法的文本分类研究[J].微计算机信息,2007(24):210-212. 被引量：6
3Sebastiani F. Machine learning in automated text categorization[J ]. ACM Computing Surveys, 2002, 34(1):1 -47.
4王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
5印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13
6杨超.分词技术研究报告[R/OL].2008-03.教学资源网,计算机网络专栏,http://www.tingko.com/Lunwen/86083.html.
7国家食品药品监督管理局.处方药与非处方药分类管理办法[S/OL].1999-06-11.http://www.sda.gov.on/WS01/CLD288/24524.html.

二级参考文献19

1李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
2黎铭,薛晓冰,周志华.基于多示例学习的中文Web目录页面推荐[J].软件学报,2004,15(9):1328-1335. 被引量：17
3王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13
4杨丽华,戴齐,杨占华.文本分类技术研究[J].微计算机信息,2006(05X):209-211. 被引量：13
5Vries A D,Mamoulis N,Nes N,et al.Efficient KNN search on vertically decomposed data//Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data,Madison,Wisconsin.Madison:ACM Press,2002:322-333.
6Hart P E.The condensed nearest neighbor rule.IEEE Trans.on Information Theory,1968,14(3):515-516.
7Wilson D L.Asymptotic properties of nearest neighbor rules using edited data.IEEE Trans.on Systems,Man and Cybernetics,1972,2(3):408-421.
8Devijver P,Kittler J.Pattern Recognition:A Statistical Approach.Englewood Cliffs:Prentice Hall,1982.
9Kuncheva L I.Fitness functions in editing KNN reference set by genetic algorithms.Pattern Recognition,1997,30(6):1041-1049.
10Zaher Al Aghbari.Array-index:a plug & search K nearest neighbors method for high-dimensional data.Data & Knowledge Engineering,2005,52:333-352.

共引文献69

1何文才,张琼,余菲,都婧,焦黎冰.基于树状SVM的网页分类与信息安全过滤系统研究[J].网络安全技术与应用,2008(8):27-29.
2刘丽珍,宋瀚涛,陆玉昌.基于二次熵的互信息特征选取方法的研究[J].计算机科学,2004,31(12):135-136. 被引量：2
3倪现君.文本挖掘在Web中的技术分析[J].中国科技信息,2006(03A):23-23. 被引量：1
4马金娜,田大钢.基于SVM的中文文本自动分类研究[J].计算机与现代化,2006(8):5-8. 被引量：8
5张宏松,刘建辉.面向Web的文本信息挖掘研究[J].计算机系统应用,2006,15(9):50-53. 被引量：2
6张帆,杨炳儒.基于文本过滤的数字图书馆个性化服务技术[J].计算机工程与应用,2006,42(31):206-208. 被引量：4
7马金娜,田大钢.基于支持向量机的中文文本自动分类研究[J].系统工程与电子技术,2007,29(3):475-478. 被引量：14
8刘海峰,王元元,张学仁.文本分类中一种改进的特征选择方法[J].情报科学,2007,25(10):1534-1537. 被引量：9
9刘海峰,王元元,刘守生.一种组合型中文文本分类特征选择方法[J].广西师范大学学报（自然科学版）,2007,25(4):208-211. 被引量：9
10刘希宋,喻登科,李玥.基于客户知识的客户CABOSFV聚类[J].情报杂志,2008,27(2):7-9. 被引量：3

同被引文献63

1袁方,杨柳,张红霞.基于k-近邻方法的渐进式中文文本分类技术[J].华南理工大学学报（自然科学版）,2004,32(z1):88-91. 被引量：7
2薛春香,侯汉清.数字信息资源的自动分类和主题识别——OCLC“蝎子计划”研究[J].图书馆杂志,2005,24(1):24-28. 被引量：7
3张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：99
4叶新明.基于《中图法》的中文文献自动分类[J].情报学报,1995,14(6):423-433. 被引量：11
5薛春香,夏祖奇,侯汉清.基于语料和基于标引经验的自动分类模式比较[J].南京农业大学学报（社会科学版）,2005,5(4):85-92. 被引量：10
6饶文碧,柯慧燕.Web文本分类技术研究及其实现[J].计算机技术与发展,2006,16(3):116-118. 被引量：5
7李森,马军,赵嫣,雷景生.对数字化科技论文的自动分类研究[J].山东大学学报（理学版）,2006,41(3):14-16. 被引量：5
8顾燕萍,侯汉清,王晓红.中文图书自动标引与分类加权设计研究[J].中国图书馆学报,2006,32(6):69-72. 被引量：6
9何琳,侯汉清,白振田,张雪英.基于标引经验和机器学习相结合的多层自动分类[J].情报学报,2006,25(6):725-729. 被引量：19
10程传鹏.中文网页分类的研究与实现[J].中原工学院学报,2007,18(1):61-64. 被引量：13

引证文献6

1李湘东,徐朋,黄莉,沈祥兴.基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例[J].图书情报知识,2010,27(4):71-76. 被引量：7
2黄莉,李湘东.基于《中图法》的自动分类研究现状与展望[J].图书情报知识,2012,29(4):30-36. 被引量：7
3黄莉,李湘东.两种相似度计算方法对KNN分类效果的影响研究[J].情报杂志,2012,31(7):177-181. 被引量：5
4王宇伟,牛耘.基于关系相似性的蛋白质交互作用识别[J].计算机技术与发展,2015,25(2):42-46. 被引量：3
5王宇伟,牛耘,魏欧.基于相似性混合模型的蛋白质交互识别[J].计算机工程,2015,41(7):25-30. 被引量：2
6李小整,王华珍,熊英杰,曾宇晨,何霆,吴谨准,陈坚.卷积神经网络模型在儿科疾病预测中的应用[J].中国数字医学,2018,13(10):11-13. 被引量：3

二级引证文献26

1杨敏,谷俊.基于SVM的中文书目自动分类及应用研究[J].图书情报工作,2012,56(9):114-119. 被引量：18
2黄莉,李湘东.基于《中图法》的自动分类研究现状与展望[J].图书情报知识,2012,29(4):30-36. 被引量：7
3黄莉,李湘东.两种相似度计算方法对KNN分类效果的影响研究[J].情报杂志,2012,31(7):177-181. 被引量：5
4李静.基于云计算平台的分布式KNN分类算法的设计与实施[J].科技通报,2013,29(6):92-94.
5宋培彦,李俊莉,王芳.跨语言术语自动分类方法及其实证[J].图书情报工作,2013,57(16):20-24.
6陶秀杰,龚婷,吴志强.基于交互式情报用户需求深度挖掘的电网信息检索方法研究[J].图书情报知识,2014,31(4):57-62. 被引量：11
7陆海锋,张志华,陈航,谢嵘.一种基于MapReduce的贝叶斯海量文本并行分类算法[J].肇庆学院学报,2015,36(2):17-22.
8艾雰.2010-2016年《中国图书馆分类法》(第5版)研究现状分析[J].图书馆建设,2017(5):39-44. 被引量：2
9李湘东,阮涛.互信息特征选择法在《中图法》内容相似类目中的运用及改进——以E271和E712.51为例[J].数字图书馆论坛,2018(1):46-52. 被引量：2
10蔡松成,牛耘.基于最大期望算法的蛋白质交互关系识别[J].计算机技术与发展,2018,28(8):48-52.

1田泽,颜松远,徐敬东.基于改进K近邻的垃圾邮件过滤技术[J].计算机工程与应用,2007,43(25):178-181. 被引量：8
2王辉东,刘连忠.“大数据”时代的信息处理技术分析[J].网络安全技术与应用,2017(3):83-83. 被引量：2
3孙统风,姜利群.基于EJB和CORBA的应用集成[J].微机发展,2003,13(10):114-116. 被引量：3
4郑娜,金花,马文惠.信息处理中的应用集成研究[J].农业网络信息,2009(8):76-78.
5郑博熙,杜英.关于网络安全发展趋势探讨[J].网络安全技术与应用,2015(8):74-74. 被引量：2
6孟祥英.基于圆环空间相关性的无线传感网事件监测算法[J].科技创业家,2012(23):199-199.
7易连军.一种基于ASP.NET的学生管理系统设计[J].科技广场,2013(6):60-63.
8林永康.浅谈中医药类学校中的计算机基础教学[J].大众科技,2015,17(6):143-144.
9万中钰.大数据样本分析中的快速KNN算法[J].信息系统工程,2017,30(1):153-153. 被引量：1
10王长波,王晓.慕课理念下医药类信息技术课程教学改革研究[J].福建电脑,2016,32(5):83-84. 被引量：1

计算机技术与发展

2009年第4期

浏览历史

内容加载中请稍等...

基于KNN算法的医药信息文本分类系统的研究被引量：6

参考文献7

二级参考文献19

共引文献69

同被引文献63

引证文献6

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于KNN算法的医药信息文本分类系统的研究 被引量：6

参考文献7

二级参考文献19

共引文献69

同被引文献63

引证文献6

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于KNN算法的医药信息文本分类系统的研究被引量：6