中医方剂数据库文本挖掘数据预处理的尝试被引量：6

An Attempt on Data Preprocessing for Text Mining in TCM Prescription Database

下载PDF

导出

摘要目的针对中医方剂数据挖掘需要提出一套以数据清洗为主的数据预处理方法,使数据规范、准确和有序,利于后续处理。方法通过检索技术,在方剂数据库中获取文本数据源,将非规范化的数据通过辅助词群行处理、正则表达式替换、异名处理等步骤进行清洗,改进数据质量。结果在中国方剂数据库共检索到1758条记录,在方剂现代应用数据库共检索到91条记录。源文本数据经预处理后共得到有效记录6913味药,可成功导入相关信息挖掘系统进行方剂名称和中药名词的信息抽取。结论本方法适用于基于中医方剂数据库的文本挖掘和知识发现,可成功对源文本数据实施清洗,得到标准统一、无噪声的数据,实现所需方药信息的有效抽取,可为中医方剂文本型数据信息分析与挖掘研究提供有益的借鉴。 Objective To propose a set of data preprocessing method based on data cleaning for TCM prescription database;To make data more standard, accurate and orderly, and convenient for follow-up processing. Methods The text data source was retrieved from prescription databases by bibliographic searching techniques. Non-normalized data were processed through steps followed by auxiliary word group line processing, regular expression substitution, and synonyms processing, with a purpose to improve data quality. Results Totally 1758 effective records were retrieved from TCM prescription database, and 91 records were retrieved from prescription modern application database. 6913 effective Chinese herbal medicines were retrieved after preprocessing, which can be successfully imported into relevant information mining system, and information about prescription and herb names can be extracted. Conclusion This method is applicable for text mining and knowledge discovery in TCM prescription database. It can successfully implement data cleaning for source text data, get data with unified standard and without noise, and finally realize the effective extraction of prescription information, which can provide references for researches on analysis and mining of TCM prescription text data.

作者吴磊李舒

机构地区辽宁中医药大学信息工程学院中国医科大学医学信息学系

出处《中国中医药图书情报杂志》 2015年第3期8-11,共4页 Chinese Journal of Library and Information Science for Traditional Chinese Medicine

基金辽宁省教育厅科研课题(L2012345)

关键词中医方剂方剂数据库文本挖掘数据预处理数据清洗 TCM prescriptions prescription database text mining data preprocessing data cleaning

分类号 R812 [医药卫生—放射医学]

引文网络
相关文献

参考文献5

1魏琳.基于区间值聚类的锥栗数据挖掘研究与分析[J].无线互联科技,2013,10(12):127-128. 被引量：1
2乔磊,李存华,仲兆满,王俊,刘冬冬.基于规则的人物信息抽取算法的研究[J].南京师大学报（自然科学版）,2012,35(4):134-139. 被引量：10
3高学敏.中药学[M].北京:中国中医药出版社,2007:322--435.
4南京中医药大学.中药大辞典[M].2版.上海:上海科学技术出版社,2006.
5崔雷,刘伟,闫雷,张晗,侯跃芳,黄莹娜,张浩.文献数据库中书目信息共现挖掘系统的开发[J].现代图书情报技术,2008(8):70-75. 被引量：544

二级参考文献18

1沈永宝,施季森,林同龙.RAPD标记鉴定锥栗栽培品种[J].林业科技开发,2004,18(4):24-25. 被引量：6
2尹云飞,钟智,张师超.一种区间值聚类的数据挖掘模型[J].计算机与现代化,2004(10):34-36. 被引量：1
3张晗,王晓瑜,崔雷.共词分析法与文献被引次数结合研究专题领域的发展态势[J].情报理论与实践,2007,30(3):378-380. 被引量：68
4张晗,刘鹏年,崔雷.国外消化性溃疡文献研究热点的分析[J].世界华人消化杂志,2007,15(10):1150-1155. 被引量：24
5李范,王飞,侯跃芳,赵玉虹.病案相关研究的文献计量学分析[J].中华医学图书情报杂志,2007,16(3):70-72. 被引量：4
6Ding J, Berleant D. MedKit:A Helper Toolkit for Automatic Mining of MEDLINE/PubMed Citations [ J ]. Bioinformatics, 2005, 21 (5) :694 -695.
7Luhn H P. The automatic creation of literature abstracts[J].IBM Journal of Research and Development,1958,(02):159.
8Schiffman B,Mani I,Concepcion K. Producing biographical summaries:combining linguistic knowledge with corpus statistics[A].New Brunswick,New Jersey:Association for Computational Linguistics,2001.450-457.
9Han Y J;Park S Y;Park S B.Reconstruction of people information based on an event ontology[A]北京,2007446-451.
10Zhong Z M,Liu Z T,Li C H. Identifying key people from a single document using people event map[J].Journal of Computer Information Systems,2010,(01):17-23.

共引文献555

1郑嘉玲.知识图谱镜像下我国高职院校课程思政研究[J].教育科学论坛,2020(36):12-21. 被引量：2
2徐朔,王俏,张宏.基于文献计量学直肠肿瘤研究现状及热点聚类分析[J].中国实用外科杂志,2020,40(12):1433-1437. 被引量：1
3车佳郡,刘海宁,张琳钰,刘海虹,李宇彤,李现文.2011~2021年国内随迁老人研究的文献计量与可视化分析[J].心理月刊,2023(6):6-9. 被引量：1
4叶美辰,卢天舒,魏峰,崔雷,张斯扬,项荣武.程序性细胞死亡蛋白-1抑制剂不良反应的热点分析[J].沈阳药科大学学报,2023,40(2):212-218.
5张蕴娣,于宁,赵闯.国内图情领域区块链研究热点与展望[J].情报科学,2022,40(10):187-192. 被引量：4
6吕春祥.我国信息素养研究热点与发展趋势——基于共词分析的知识图谱研究[J].中国多媒体与网络教学学报（电子版）,2020(31):80-83. 被引量：1
7谢珺,王元姣,杨思,何叶.2015年—2020年我国急救护理学研究热点的共词聚类分析[J].中华急危重症护理杂志,2020,1(5):416-420. 被引量：1
8侯跃芳,张浩,潘雪.共词聚类法和主题词聚类法挖掘专题热点的效果评价——以鼻咽部肿瘤为例[J].中华医学图书情报杂志,2009,18(5):44-47. 被引量：9
9潘现伟,温立洁,崔雷.基于文献计量学方法的中国医科大学基础医学院科研活动的分析[J].中国医科大学学报,2010,39(11):979-985. 被引量：6
10闫雷,关晶,姜鹏,崔雷.主题词与自然语言相结合挖掘急性白血病与相关基因的关系[J].医学信息学杂志,2010,31(12):47-51. 被引量：2

同被引文献96

1陶全意.曲美他嗪联合甘草汤治疗心绞痛30例临床疗效分析[J].求医问药（下半月）,2013(2):708-708. 被引量：1
2王耘,张燕玲,郭亦然,陶欧,乔延江.应用涌现性原理研究方剂配伍规律[J].中国临床康复,2005,9(21):155-157. 被引量：13
3周子洋.方剂配伍中的动静开合规律探讨[J].安徽中医学院学报,2006,25(1):5-6. 被引量：6
4雍小嘉,彭京,宋姚屏.采用高维数据归约由药物判定方剂功效[J].上海中医药大学学报,2006,20(1):54-56. 被引量：9
5柳润辉,苏娟,徐希科,张川,张卫东,闵莉.药对“丹参-黄芪”有效组分的最佳配伍配比研究[J].中国药学杂志,2006,41(11):815-817. 被引量：15
6朱金伟,鞠时光,辛燕.基于数据挖掘的中医药数据预处理方法[J].计算机工程,2006,32(15):280-282. 被引量：23
7王喜军,张宁,常存库,曹洪欣.方剂配伍规律的研究现状和未来发展[J].世界科学技术-中医药现代化,2006,8(4):13-16. 被引量：23
8杨雪梅,林端宜,翁晓红,肖林榕.明清脾胃湿热方用药分类关联规则挖掘[J].中国中医药信息杂志,2006,13(10):106-107. 被引量：5
9孙燕,臧佳新,任廷革.基于数据挖掘技术的医案整理方法探讨[J].中国中医药信息杂志,2006,13(11):106-107. 被引量：35
10戴水平,谢鸣.建立中医方剂数据挖掘系统的探讨[J].湖南中医药大学学报,2007,27(1):39-41. 被引量：15

引证文献6

1王小龙,亓咏梅.基于数据挖掘探讨甘草在冠心病心绞痛中的配伍应用[J].中医药导报,2018,24(23):74-76. 被引量：4
2图雅,张春生.蒙医方剂数据挖掘系统数据库构建与预处理技术研究[J].时珍国医国药,2016,27(11):2793-2795. 被引量：7
3毛卓鹏,刘红宁,熊延熙,默啸筝,齐城成.数据挖掘在方剂配伍规律研究中的应用述评[J].江西中医药大学学报,2017,29(6):118-121. 被引量：5
4王小龙,亓咏梅,席永宽.基于网络药理学探讨黄芪-丹参配伍在糖尿病肾病中的应用[J].中成药,2020,42(5):1351-1356. 被引量：21
5张杰,丁权威,张玉柱,王人彦.基于数据挖掘法探讨张玉柱教授治疗神经根型颈椎病的辨证用药规律[J].中医正骨,2021,33(11):41-44. 被引量：2
6白扬,林江,任素剑,丘志良.数据挖掘在方剂学研究中的应用与发展[J].山东中医药大学学报,2019,43(1):24-27. 被引量：5

二级引证文献43

1卢明星,赵茂,王道平,曾永江,蒋文雯.基于网络药理学-分子对接探讨黄芪生脉散对糖尿病的作用机制[J].世界科学技术-中医药现代化,2022,24(9):3449-3464. 被引量：3
2何玉华,瞿波,陈文,何金室,朱家恒,李明权.基于数据挖掘技术总结中药灌肠治疗慢性肾脏病的用药规律[J].四川中医,2022,40(8):212-215. 被引量：4
3杨继,张垚,王强,翟国超.基于关联规则及复杂系统熵聚类方法的孙增涛辨治肺系疾病用药规律研究[J].辽宁中医杂志,2020(8):142-146. 被引量：1
4邹天骏,林江,童远明,易劲苍,张荻娅,李天依.数据挖掘技术在方剂学研究中的应用[J].广西医学,2018,40(24):2936-2937. 被引量：5
5曹继忠,陈菊,温川飙.民族医药数据库亟待解决的问题与发展方向[J].医学争鸣,2019,10(2):6-9. 被引量：3
6钟霞,焦华琛,李运伦,赵天恩,张磊,李焱.冠心病中医证候数据挖掘研究进展[J].山东中医杂志,2019,38(6):607-611. 被引量：11
7图雅.一款蒙文在线编辑器的设计与实现[J].电脑知识与技术,2019,15(6Z):92-94.
8黄科,贺梅红.基于数据挖掘中药治疗学龄前儿童呼吸系统疾病用药规律分析[J].山东中医药大学学报,2019,43(4):354-358. 被引量：7
9吴宝林.多语种蒙医蒙药信息资源数据库建设（项目）研究[J].内蒙古民族大学学报（自然科学版）,2019,34(6):489-492. 被引量：3
10宁志平,杨晶,刘格,张瑜.栝蒌薤白半夏汤合血府逐瘀汤治疗冠心病心绞痛痰瘀互结证临床疗效的Meta分析[J].中医药导报,2020,26(9):123-127. 被引量：23

1刘宝善,郭小朝,马雪松.第三次中国男性飞行员人体测量的数据质量[J].中华航空航天医学杂志,2002,13(2):123-123. 被引量：1
2杨星福.中医方剂在胆汁反流性胃炎治疗中的临床应用[J].中外医疗,2011,30(22):136-136. 被引量：3
3方纯洁,王波,罗杰,吴彦.基于信息抽取的中医药文献知识发现[J].浙江中医药大学学报,2012,36(1):88-90. 被引量：5
4许子建.议中医方剂的组合特点[J].云南中医学院学报,1989,12(3):1-6.
5黄林.X线摄影系统的影像信息量分析(二)体层摄影照片检查的评价[J].华西医讯,1990,5(2):234-236.
6宋爱军.PICKER IQ xtra CT机数据采集原理分析[J].医疗装备,2001,14(7):3-4. 被引量：2
7马帅,王霄英.自然语言处理在医学影像中的应用[J].放射学实践,2016,31(12):1120-1123. 被引量：5
8王丰富,徐启怀,徐晓剑,戚洪波.MSCT腰椎连续扫描与MPR重建的应用价值[J].医学影像学杂志,2006,16(11):1222-1223.
9李树平,田建明,王培军,王敏杰,田军,邵成伟,史丽静,左长京,吕桃珍.气管支气管内膜结核的多层螺旋CT及其三维重组表现[J].放射学实践,2005,20(5):386-389. 被引量：16
10孙亮.Vondrak数据平滑方法在放射性药物生物动力学数据预处理中的应用[J].核技术,2004,27(8):604-607. 被引量：3

中国中医药图书情报杂志

2015年第3期

浏览历史

内容加载中请稍等...

中医方剂数据库文本挖掘数据预处理的尝试被引量：6

参考文献5

二级参考文献18

共引文献555

同被引文献96

引证文献6

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

中医方剂数据库文本挖掘数据预处理的尝试 被引量：6

参考文献5

二级参考文献18

共引文献555

同被引文献96

引证文献6

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

中医方剂数据库文本挖掘数据预处理的尝试被引量：6