基于K-means和TF-IDF的中文药名聚类分析被引量：2

Chinese drug name cluster analysis based on K-means and TF-IDF

下载PDF

导出

摘要针对药名聚类中药物命名特殊性导致的命名准确率低的问题,提出了基于TF-IDF和K-means的药名聚类方法。药物命名具有一定的规律性且中西药名命名形式不同等特点,基于字词共现频率的方法难以取得较好的聚类效果,因此,使用TF-IDF方法计算药名相似的方法并采用K-means聚类算法进行药名的聚类。实验结果表明,TFIDF的聚类准确率高于TF的聚类方法,按字切分的聚类准确率高于分词后的聚类准确率,基于字和TF-IDF的聚类准确率最高且稳定,准确率达到96.77%。 Because of the problem of low accuracy of Chinese name clustering, the method of durg name clustering based on TF-IDF （Term Frequency-Inverse Document Frequency） and K- means was proposed. As the durg name is with a certain regularity and western medicine is named in different forms, it＇s difficult to obtain better clustering results based on word co- occurrence frequency, so, TF-IDF method was used to identify similar drug names and K- means clustering algorithm was used for clustering drug names. Experimental results show that TF-IDF clusters drug names with high accuracy, the clustering of word-segmentation has higher accuracy than the clustering of participle. The clustering of words and TF-IDF has the higher accuracy and stablility, and its aeeuraey rate reaches 96.77%.

作者黄运高王妍邱武松向林泓赵学良

机构地区重庆药品交易所股份有限公司中国科学院重庆绿色智能技术研究院高性能计算应用研究中心

出处《计算机应用》 CSCD 北大核心 2014年第A01期173-174,210,共3页 journal of Computer Applications

基金国家科技支撑计划项目(2012BAH19F01)

关键词 TF-IDF K-MEANS 中文药名聚类药名分析字词共现频率 TF-IDF K- means Chinese drug name clustering drug name analysis word co-occurrence frequency

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1HAN J,KAMBER M.数据挖掘概念与技术[M].北京:机械工业出版社,2007:251-261.
2JONES K S. A statistical interpretation of term specificity and its ap- plication in retrieval[ J]. Journal of documentation, 1972, 28 (1) : 11 -21.
3SALTON G, BUCKLEY C. Term weighting approaches in automatic text retrieval[J]. Information Processing & Management, 1988, 24 (5): 513-523.
4施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
5王字.基于TFIDF的文本分类算法研究[D].郑州:郑州大学,2006.
6周琳娜.中成药药名的语言结构分析[J].锦州医学院学报（社会科学版）,2005,3(3):85-87. 被引量：1
7Wiki.文本聚类[EB/OL].[2013-04-01].http://zh.wikipedia.org/wiki/文本聚类.
8Wiki.欧几里德距离[EB/OL].[2013-07-21].http://zh.wikipedia.org/wiki/欧儿里德距离.
9Wiki.曼哈顿距离[EB/OLl.[2013-08-12].http://zh.wikipedia.org/wiki/曼哈顿距离.
10张华平.NLPIR汉语分词系统[EB/OL].[2013-11-11].http://ictelas.nlpir.org/.

二级参考文献13

1谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
2许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
3柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息,2006,22(08X):24-26. 被引量：32
4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
5初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14
6[2]王艾录,司富珍.语言理据研究[M].北京:中国社会科学出版社,2001.
7周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007,43(35):156-158. 被引量：28
8王美方,刘培玉,朱振方.基于TFIDF的特征选择方法[J].计算机工程与设计,2007,28(23):5795-5796. 被引量：23
9熊忠阳,黎刚,陈小莉,陈伟.文本分类中词语权重计算方法的改进与应用[J].计算机工程与应用,2008,44(5):187-189. 被引量：28
10徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：65

共引文献229

1王琳,姜立新,杨天青,张维佳.地震应急信息自动分类方法研究[J].震灾防御技术,2019,14(4):907-916. 被引量：8
2席志武,范龙燕,于瑞.县级融媒体中心招聘需求对新闻教育改革的启示——基于2022年240则县级融媒体中心招聘信息文本的词频考察[J].中国新闻传播研究,2023(2):17-30. 被引量：1
3田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
4吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：2
5王胜源,谭棋,何江林.物流服务质量对生鲜电商顾客购买意愿的影响研究——基于京东生鲜商品在线评论的用户情感分析[J].辽宁工程技术大学学报（社会科学版）,2023(3):174-181. 被引量：2
6陈小妹,赵华,武浩.基于证据理论的多特征融合Web API推荐[J].计算机应用研究,2020,37(S01):221-223. 被引量：2
7杨海晨,康益豪.基于网络议程设置理论的体育争议性事件研究——以“飞盘争议”为例[J].北京体育大学学报,2023,46(3):73-87. 被引量：3
8任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
9丁春,冯志勇.面向波动复杂性的上下文预测[J].浙江大学学报（工学版）,2010,44(2):220-224.
10司红娜,姚力文,李向军.基于同义替换和相邻词合并的关键词特征权重计算新方法[J].计算机与现代化,2010(4):115-117. 被引量：1

同被引文献11

1张燕,高非.电子病案结构和临床辅助决策系统设计[J].中国病案,2009,10(4):28-30. 被引量：5
2操牡丹,何前锋,王柏.中医药方剂相似度模型[J].计算机工程,2009,35(16):275-277. 被引量：10
3顾铮.基于文本分类技术计算中医方剂相似度[J].微计算机信息,2010,26(12):199-201. 被引量：5
4徐建民,王金花,马伟瑜.利用本体关联度改进的TF-IDF特征词提取方法[J].情报科学,2011,29(2):279-283. 被引量：29
5宋丽,范理宏,谭申生.临床路径知识库及诊疗决策支持系统研究[J].中国医院管理,2012,32(2):66-67. 被引量：7
6穆瑞辉,苗国义.基于粒子群优化的模糊K-Means目标分类算法[J].计算机测量与控制,2013,21(5):1266-1268. 被引量：7
7吕明磊,刘冬梅,曾智勇.一种改进的K-means聚类算法的图像检索方法[J].计算机科学,2013,40(8):285-288. 被引量：18
8张焕君,杨小宁.基于模糊聚类分析的临床路径决策研究[J].控制工程,2013,20(6):1118-1122. 被引量：17
9陈思慧.基于MIP和改进模糊K-Means算法的大数据聚类设计[J].计算机测量与控制,2014,22(4):1270-1272. 被引量：4
10王向阳,牛盼盼,张宇.基于模糊支持向量机的曲波域图像去噪算法[J].辽宁师范大学学报（自然科学版）,2016,39(1):44-49. 被引量：2

引证文献2

1郑帅,吕芳.模糊K-means算法在临床路径决策中的应用[J].辽宁师专学报（自然科学版）,2019,21(3):81-88. 被引量：3
2郭文龙,罗熊,姜惠娟,谢永红,陈茂建.基于TF-IDF算法的方剂构成相似度可视化研究[J].中国中医药信息杂志,2019,26(7):104-108. 被引量：7

二级引证文献10

1周晟,佟旭.中医医案方剂多维相似度算法设计与探索[J].世界科学技术-中医药现代化,2021,23(8):2864-2870. 被引量：2
2文晓棠,吴少强.混合贝叶斯个性化排序与内容的推荐算法研究[J].现代计算机,2019,0(30):10-14. 被引量：4
3高彦静,朱晓文,张卫东,王丹,张元晶.专利地图视角下的工程开发前沿[J].化工管理,2020(30):11-17. 被引量：1
4王天皓.基于改进模糊K-means算法的大数据处理方法[J].电子技术与软件工程,2021(22):187-189. 被引量：1
5李新龙,刘岩,王宁,田贵华,商洪才.方剂间相似性的量化表征方法及模型应用[J].中华中医药杂志,2022,37(4):2120-2124. 被引量：2
6钱文丽,王黎.基于模糊聚类和关联分析的临床路径优化决策分析[J].河南医学高等专科学校学报,2022,34(3):314-316.
7李大硕,张宏军,程恺,徐有为,王航,李逸林.中药方剂数据分析系统设计与实现[J].计算机时代,2022(12):100-105.
8佟旭,周晟,王连心.基于弹性权重的中医医案整体相似度计算策略与方法[J].中国中医基础医学杂志,2023,29(7):1086-1090.
9沈蓝,浦同青,周志聪,陆春梅,邓学林,谢好,陈朝明.基于医疗大数据的老年骨质疏松性骨折院前急救分类优化研究[J].实用临床医药杂志,2023,27(15):7-13. 被引量：1
10李蕙质,周小玲,杨玉杰,章新友.数据挖掘算法在中药方剂研究中的应用现状[J].中国药房,2024,35(1):112-118. 被引量：3

1王莉,刘大鹏,佟铁.网络文本中文药名实体识别[J].辽宁科技大学学报,2015,38(2):127-130. 被引量：1
2许颖泉.用神经网络进行数字图象识别研究[J].科技风,2008(24):59-60. 被引量：11
3马晓慧.一种改进的可并行的K-medoids聚类算法[J].智能计算机与应用,2016,6(3):100-102. 被引量：1
4何林娜,杨志豪,林鸿飞,李彦鹏,唐利娟.基于特征耦合泛化的药名实体识别[J].中文信息学报,2014,28(2):72-77. 被引量：11
5王旭阳,萧波.基于概念关联度的智能检索研究[J].计算机工程与设计,2013,34(4):1415-1419. 被引量：5
6周丽杰,于伟海,郭成.基于关键词协同投票过滤的短文本特征提取算法研究[J].泰山学院学报,2015,37(6):43-47. 被引量：2
7程兴国,肖南峰.词类共现频率的MapReduce并行生成方法[J].重庆理工大学学报（自然科学）,2013,27(11):53-57. 被引量：1
8林建方,牛成,李生,郑德权.Web数据反馈的搭配抽取方法[J].哈尔滨工业大学学报,2010,42(2):281-285.
9秦姣华,向旭宇.文本字切分的研究与实践[J].益阳师专学报,2000,17(5):54-55.
10庄秀丽.Web2.0教育应用[J].信息技术教育,2006(4):10-12. 被引量：19

计算机应用

2014年第A01期

浏览历史

内容加载中请稍等...

基于K-means和TF-IDF的中文药名聚类分析被引量：2

参考文献10

二级参考文献13

共引文献229

同被引文献11

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于K-means和TF-IDF的中文药名聚类分析 被引量：2

参考文献10

二级参考文献13

共引文献229

同被引文献11

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于K-means和TF-IDF的中文药名聚类分析被引量：2