基于信息增益的中医体质多标记分类方法研究

Study on Multi-label Classification Method of TCM Constitutions Based on Information Gain

下载PDF

导出

摘要目的为降低中医体质传统分类方法主观性误差,兼顾兼夹体质,提出基于信息增益的中医体质多标记分类方法。方法采用多标记方法进行中医体质分类。为解决多标记分类方法中不同特征对分类标签的影响不同的问题,通过体质分类数据计算各特征项的信息增益,计算体质分类特征对分类标签的权重,进而通过加权的多标签分类器,得出体质数据多标记分类。结果与传统判别分析法相比,基于信息增益的多标记分类方法在1-错误率(16.33%)、汉明损失(15.44%)、平均准确率(82.61%)方面均有一定优势。结论基于信息增益的多标记分类方法在保证准确率同时可兼顾兼夹体质,实现对体质特征差异性及趋同性的更好描述。 Objective To propose a multi-label classification method of TCM constitutions based on information gain;To reduce the subjective error of traditional classification methods of TCM constitutions and take into account the combination of constitutions. Methods The multi-label method was used to classify TCM constitutions. In order to solve the problem that different features of multi-label classification method had different influence on the classification label, the information gain of each feature item was calculated by the physique classification data, and the weight of classification features were calculated. Then multi-label classification of physique data was obtained by weighted multi-label classifier. Results Compared with the traditional discriminant analysis method, the multi-label classification method based on information gain had certain advantages in 1-error rate (16.33%), hamming loss (15.44%), and average accuracy (82.61%). Conclusion The multi-label classification method based on information gain can ensure the accuracy. Taking into account the combination of constitutions can realize the better description of the difference in constitution characteristics and convergence.

作者吕庆莉 LYU Qingli(Basic Medical College,Shaanxi University of Chinese Medicine,Xianyang 712046,China)

机构地区陕西中医药大学基础医学院

出处《中国中医药信息杂志》 CAS CSCD 2019年第6期97-100,共4页 Chinese Journal of Information on Traditional Chinese Medicine

基金国家自然科学基金(81503195) 陕西省教育厅重点实验室项目(16JS025) 陕西省科技厅项目(2014k14-02-02)

关键词中医体质分类信息增益多标记分类 TCM constitutions information gain multi-label classification

分类号 R2-05 [医药卫生—中医学] R229 [医药卫生—中医基础理论]

引文网络
相关文献

参考文献10

1危凌云,李灿东,黄文金,姚明龙,黄守清,杨雪梅.中医体质类型分布及兼杂规律研究[J].山东中医药大学学报,2016,40(2):102-104. 被引量：18
2彭长根,丁红发,朱义杰,田有亮,符祖峰.隐私保护的信息熵模型及其度量方法[J].软件学报,2016,27(8):1891-1903. 被引量：56
3李学明,李海瑞,薛亮,何光军.基于信息增益与信息熵的TFIDF算法[J].计算机工程,2012,38(8):37-40. 被引量：48
4陈科文,张祖平,龙军.文本分类中基于熵的词权重计算方法研究[J].计算机科学与探索,2016,10(9):1299-1309. 被引量：11
5广凯,潘金贵.一种基于向量夹角的k近邻多标记文本分类算法[J].计算机科学,2008,35(4):205-206. 被引量：6
6张顺,张化祥.用于多标记学习的K近邻改进算法[J].计算机应用研究,2011,28(12):4445-4446. 被引量：10
7李峰,苗夺谦,张志飞,张维.基于互信息的粒化特征加权多标签学习k近邻算法[J].计算机研究与发展,2017,54(5):1024-1035. 被引量：22
8潘主强,张林,张磊,李国正,颜仕星.中医临床疾病数据多标记分类方法研究[J].计算机科学与探索,2018,12(8):1295-1304. 被引量：1
9郝春风,王忠民.一种用于大规模文本分类的特征表示方法[J].计算机工程与应用,2007,43(15):170-172. 被引量：12
10龚静,黄欣阳.基于隐性语义索引的多标签文本分类集成方法[J].计算机工程与设计,2017,38(9):2556-2561. 被引量：6

二级参考文献62

1张云涛,龚玲,王永成.An improved TF-IDF approach for text classification[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2005,6(1):49-55. 被引量：4
2龚静,周经野.一种基于多重因子加权的文本特征项权值计算方法[J].计算技术与自动化,2007,26(1):81-83. 被引量：10
3GUILLAUMIN M, MENSINK T, VERBEEK J, et al. TagProp : discrim- inative metric learning in nearest neighbor models for image auto-an- notation[ C ]//Proc of International Conference of Computer Vision. 2009:309-316.
4CLARE A, KING R D. Knowledge discovery in multi-label phenotype data [ C]//kecture Notes in Computer Science,vol 2168. 2001:42-53.
5ELISSEEFF A,WESTON J. A kernel method for multi-labeled classifica- tion [ C]//Proc of Annual ACM Conference on Research and I)evelop- ment in Information Retrieval. New York:ACM Press.2005:274-281.
6COMITE F D, GILLERON R,TOMMASI M. Learning multi-label al- ternating decision tree from texts and data [ C ]//Lecture Notes in Computer Science, vol 2734. 2003:35-49.
7SCHAPIRE R E, SINGER Y. BoosTexter:a boosting-based system for text categorization [ J ]. Machine Learning, 2000, 39 ( 2/3 ) : 135- 168.
8ELISSEEFF A, WESTON J. A kernel method for multi-labeled classi- fication [ C ]//Advances in Neural Information Processing Systems. Cambridge : MIT Press,2002:681 -687.
9ZHANG Min-ling, ZHOU Zhi-hua ML-KNN : a lazy learning approach to multi-label learning [ J ]. Parttam Recognition, 2007,40 ( 7 ) : 2038-2048.
10CHEN M S,HAN J H,YU P S. Data mining:an overview from a data- base perspective [ J]. IEEE Trans on Knowledge and Data Engi-.

共引文献178

1杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
2曹鸿猷,孙文.基于马氏距离及K最近邻算法的结构优化设计[J].武汉理工大学学报,2022,44(10):60-71. 被引量：1
3葛志,常青,江山,柯文俊,杜泽峰.典型软件的故障仿真和预测方法[J].计算机应用研究,2020,37(S01):230-234.
4刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
5刘怀亮,张治国,马志辉,赵捧未.基于KNN的中文文本分类反馈学习研究[J].图书情报工作,2008,52(10):101-104. 被引量：3
6邢海燕,祝咏晨.基于模糊相关的文本特征选择方法[J].现代计算机,2008,14(12):86-88.
7倪洁琼,吴耿锋,郑宇.基于关系权重的文本表示法[J].计算机应用与软件,2009,26(5):68-69.
8赵俊杰.论文抄袭检测中特征选择[J].计算机系统应用,2009,18(9):101-103. 被引量：3
9肖可,奉国和.1999～2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687. 被引量：6
10秦锋,黄俊,程泽凯.用于多标记学习的阈值确定算法[J].计算机工程,2010,36(21):214-216. 被引量：1

1黄琴,钱文彬,王映龙,吴兵龙.面向代价敏感的多标记不完备数据特征选择算法[J].小型微型计算机系统,2018,39(12):2617-2624. 被引量：5
2马鸿超,张坤丽,赵悦淑,昝红英,庄雷.基于特征融合的产科多标记辅助诊断研究[J].中文信息学报,2018,32(5):128-136. 被引量：3
3陈盼盼,林梦雷,刘景华,林国平.基于邻域粗糙集的多标记属性约简算法[J].闽南师范大学学报（自然科学版）,2018,31(4):1-11. 被引量：1
4颜红艳.SYX小学2016年体质健康测试数据分析报告[J].当代体育科技,2019,9(5):140-141.
5蒋芸,肖潇,侯金泉,陈莉.融合标记独有属性特征的k近邻多标记分类新算法[J].计算机工程与科学,2019,41(3):513-519. 被引量：8
6刘海洋,王志海,张志东.基于ReliefF剪枝的多标记分类算法[J].计算机学报,2019,42(3):483-496. 被引量：9
7余鹰,王乐为,吴新念,伍国华,张远健.基于改进卷积神经网络的多标记分类算法[J].智能系统学报,2019,14(3):566-574. 被引量：9
8应航海.中职男生引体向上能力提升的途径与策略——基于2014-2016年杭州市旅职学校园林专业体质数据的分析[J].科学与信息化,2016,0(30):84-86.
9罗计根,杜建强,聂斌,李欢,贺佳.融合GINI指数的ID3改进算法[J].南昌大学学报（工科版）,2019,41(1):80-84. 被引量：9
10许二戗,于化龙.基于粒子群的多标记阈值自适应极限学习机[J].计算机技术与发展,2019,29(4):47-52. 被引量：1

中国中医药信息杂志

2019年第6期

浏览历史

内容加载中请稍等...

基于信息增益的中医体质多标记分类方法研究

参考文献10

二级参考文献62

共引文献178

相关作者

相关机构

相关主题

浏览历史