基于文本分类算法梳理MedDRA中文术语集被引量：1

Using text classification algorithm to sort out MedDRA Chinese terminology

导出

摘要目的基于单字和穷举分词的文本分类算法构建负例分析和类别相似度偏度分析方法,查找、发现和修正《国际医学术语词典》(MedDRA)可能存在的问题。方法选择MedDRA 25.1中文版,使用单字和穷举分词生成术语的文本向量,采用逆频率指数和卡方加权生成类特征向量,采用余弦相似度计算文本向量与类特征向量的相似度。负例分析以相似度最大值作为术语类别判定标准。穷举分词向量取各术语前20位余弦相似度计算偏度,在两种类特征下余弦相似度分布均为负偏度,作为判定易混淆术语的指标。人工校验和分析计算结果。结果负例分析发现低位语594个分类错误,其中346个为首选语一致的同义词,154个错误因罗马数字造成,94个因字符增减和字序变化造成,其中16个疑似为翻译错误和不准确。类别相似度偏度分析发现各术语层级字面上易混淆的医学术语共165个,其中以涉及卵巢生殖细胞、淋巴瘤的医学术语最为典型。结论文本分类算法的负例分析可反推字典数据本身的错误,类别相似度偏度分析可发现字面易混淆的医学术语。 AIM To construct negative cases analysis and category similarity skewness analysis methods based on text classification algorithm using single word and exhaustive tokenlization,in order to find and correct the possible problems in Medical Dictionary for Regulatory Activities(MedDRA).METHODS Single word and exhaustive tokenlization were used to generate the text vector of MedDRA terms.The inverse document frequency and chi-square weighting were used to generate class feature vectors.The cosine similarity was used to calculate the similarity between text vectors and generate class feature vectors.Negative cases analysis used the maximum similarity as the criterion for determining the category of terms.The first 20 cosine similarity of each term were used to calculate skewness.Both of the term skewness were negative under the two kinds of features,which is used as an index to determine confusing terms.Manually check and analyze the calculated results.RESULTS The negative cases analysis found 594 classification errors of the low level term(LLT),among which 346 were the synonyms because of the same preferred term(PT),and 154 were caused by Roman numerals,and 94 were caused by the increase or decrease of characters and the change of word order,of which including 16 errors weretranslation errors and inaccuracy.The category similarity skewness analysis found that there were 165 confusing medical terms in LLT and PT,among which the medical terms related to ovarian germ cell and lymphoma were the most typical.CONCLUSION The negative cases analysis of text classification can infer the error of dictionary data itself,and the category similarity skewness analysis can find the literal confusing medical terms.

作者韩兵杨桂秀磨筱垚 HAN Bin;YANG Gui-xiu;MO Xiao-yao(Bejing Shijitan Hospital,Capital Medical University,BEIJING 100038,China;Bejing PVing Medical Technology Co.,Ltd.,BEIJING 100120,China)

机构地区首都医科大学附属北京世纪坛医院北京信安佳康医疗科技有限公司

出处《中国新药与临床杂志》 CAS CSCD 北大核心 2023年第5期331-336,共6页 Chinese Journal of New Drugs and Clinical Remedies

关键词 MedDRA 术语算法文本挖掘负例分析相似度 MedDRA terminology algorithm text mining negative cases analysis similarity

分类号 R95 [医药卫生—药学]

引文网络
相关文献

参考文献9

1黄子阳,王诗远,刘癸壬,刘沛.基于SAS软件开发的MedDRA自动编码系统[J].中国卫生统计,2021,38(2):315-318. 被引量：1
2马丹华,刘红亮,王丹,李明,田春华.ICH二级指导原则M1适用性研究-国家药品不良反应术语集映射可行性[J].中国药物警戒,2019,16(6):329-332. 被引量：4
3刘翠丽,田春华,夏东胜,朱兰,刘红亮,申长慧,漆燕,王涛.药品不良反应报告中《监管活动医学词典》编码相关思考及建议[J].中国药物警戒,2021,18(11):1055-1057. 被引量：5
4刘晶,谢雁鸣,盖国忠,廖星.药品不良反应术语集WHOART与MedDRA的应用探析[J].中国中药杂志,2015,40(24):4728-4733. 被引量：30
5李超凡,马凯.基于词嵌入结合BiLSTM-CRF模型的病历实体识别[J].中国数字医学,2022,17(4):32-37. 被引量：3
6陈振明,李太顺,杨嘉莹,王诗远,刘沛.基于MedDRA系统的药物安全性多重比较贝叶斯层次模型构建及应用[J].中国卫生统计,2020,37(3):367-371. 被引量：3
7李超凡,马凯.基于注意力机制结合CNN-BiLSTM模型的电子病历文本分类[J].科学技术与工程,2022,22(6):2363-2370. 被引量：21
8杨桂秀,谷红俊,王杰,陈俊峰,陈勇强,磨国鑫.文本相似度计算方法在诊断名称数据标准化中的应用[J].中国病案,2021,22(4):9-12. 被引量：6
9王露瑶,张涛,陈才,朱安琥,罗启明.基于卡方统计改进的TF-IDF的文本分类的研究[J].电子世界,2019,0(6):24-25. 被引量：5

二级参考文献48

1卜擎燕,熊宁宁,邹建东,蒋萌,刘芳,Anna Zhao-Wong.ICH国际医学用语词典(MedDRA):药事管理的标准医学术语集[J].中国临床药理学与治疗学,2007,12(5):586-590. 被引量：40
2WHO.ART:structure[EB/OL].[2015-07-18].http://www.umc-products.com/DynPage.aspx? id =73558&mnl =1107& mn2-1664&mn3=6043.
3Mozzicato P.Standardised MedDRA queries:their role in signal detection[J].Drug Safe,2007,30(7):617.
4侯永芳.乌普萨拉监测中心在Vigibase数据库中应用MedDRA术语集[J].中国药物警戒,2008,5(4):242-243. 被引量：12
5林伟兴,叶小飞,姚洪祥,贺佳.药品不良反应术语集现状分析[J].中国药物警戒,2009,6(12):713-716. 被引量：19
6吴桂芝,田春华,王丹,冯红云,陈易新.WHOART和MedDRA在药品不良反应监测中的应用[J].中国药物警戒,2010,7(2):81-85. 被引量：34
7叶枫,陈莺莺,周根贵,李昊旻,李莹.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262. 被引量：47
8侯永芳,田春华,刘翠丽,杨乐,冯红云,夏东胜,孟康康,王玲.标准MedDRA查询浅析及启示[J].中国药物警戒,2011,8(7):438-441. 被引量：5
9侯永芳,王玲,郭秀花,杜晓曦.信号检测在药品不良反应监测系统中的应用[J].中国药物警戒,2012,9(9):539-541. 被引量：25
10曾艳,闫素英.北京地区2007～2011年1 416例莫西沙星不良反应/事件分析[J].药物流行病学杂志,2013,22(7):370-374. 被引量：13

共引文献66

1郭小萍,钟道金,李元.基于AMSDAE-BLSTM的工业过程质量预测[J].电子测量技术,2023,46(4):19-24.
2尹燕高,王晓骏,王玲,田月洁.山东省药品不良反应数据标准化的分析与思考[J].药学研究,2016,35(6):370-372.
3李瑞丽,傅金英,于胜男,邓迎莹,夏晴,王杰.不良事件与随机对照试验[J].中国临床研究,2016,29(11):1561-1564. 被引量：4
4叶凯宏,邹祝慧.106例药品不良反应报告分析[J].深圳中西医结合杂志,2017,27(10):142-143.
5田雅兰,边桂芝,曹培,张志勇.达沙替尼上市后呼吸系统不良反应信号的检测与分析[J].中国新药杂志,2018,27(2):236-241. 被引量：4
6陈力,吴邦华,闫康.比例失衡法在贝伐珠单抗药品不良反应信号挖掘中的应用[J].中南药学,2018,16(2):174-178. 被引量：23
7彭媛,李胜前,刘福.基于自发呈报系统恩格列净安全信号的挖掘与评价[J].中南药学,2018,16(7):1026-1029.
8彭媛,钟燕,刘福.基于美国不良事件报告系统恩格列净安全信号的检测与分析[J].药物流行病学杂志,2018,27(8):509-511. 被引量：1
9杜延茹,宋秋洁,沈晶赞,郑荣远,徐惠琴.1170例抗癫痫药单药治疗致药品不良反应分析[J].中国药物警戒,2019,16(2):101-105. 被引量：6
10侯永芳,田春华,刘红亮,刘翠丽,李明,王新敏.ICH二级指导原则M1适用性研究-国家药品不良反应术语集映射实践[J].中国药物警戒,2019,16(6):333-337. 被引量：6

同被引文献10

1李庆娜,陆芳,赵阳,高洪阳,高蕊.构建基于MedDRA术语的中医临床试验编码术语集初探[J].中国药物警戒,2015,12(1):53-55. 被引量：10
2陆梦洁,刘玉秀.MedDRA及其在不良事件分析中的应用[J].药学学报,2015,50(11):1396-1401. 被引量：12
3刘晶,谢雁鸣,盖国忠,廖星.药品不良反应术语集WHOART与MedDRA的应用探析[J].中国中药杂志,2015,40(24):4728-4733. 被引量：30
4李庆娜,陆芳,赵阳,李睿,赵迎盼,訾明杰,唐旭东,高蕊.研制中医学不良反应编码术语集[J].中国循证医学杂志,2018,18(11):1169-1172. 被引量：9
5田春华,刘巍,刘翠丽,侯永芳,王丹.我国药品上市后监测实施《M1:监管活动医学词典》进展及思考[J].中国药物警戒,2021,18(8):763-765. 被引量：4
6余玥,蒲嘉琪,薄兵兵,周思源,李楠楠.我国ICH工作回顾与展望[J].中国食品药品监管,2021(10):4-13. 被引量：5
7Anna C Zhao-Wong,朱丽琳.监管活动医学词典术语集简介与应用[J].中国药物警戒,2022,19(1):74-78. 被引量：17
8王春洋,杜雪晨,庄铭,安佳丽,钟梦媛,郑文科.国际不良反应术语集对建立中医药不良反应术语集的启示[J].天津中医药大学学报,2023,42(6):786-795. 被引量：2
9袁林.构建更加科学高效权威的药品上市后监管体系更好保障公众用药安全[J].中国食品药品监管,2024(1):6-13. 被引量：2
10林鑫,郭进京,任慧玲.药品不良反应术语系统构建探析[J].医学信息学杂志,2019,40(6):60-65. 被引量：7

引证文献1

1朱彦,李庆娜,朱兰,谢江安,姚克宇,黄光瑞,杨啸林,关健.MedDRA在中国药品监测应用实施的现状分析及建议[J].中国药物警戒,2024,21(7):746-751.

1王顺天.“生态批评”的理论输入与本土化实践[J].文艺争鸣,2022(11):130-135.
2杨晓瑞,李欣,丁赫,王军,吕文发,刘红羽,赵静.坏死性凋亡对卵巢生殖细胞影响的研究进展[J].中国畜牧杂志,2023,59(1):94-99. 被引量：1
3王俊杰,曹峻宇,张文秀.动物警戒行为及其中文术语探析[J].甘肃林业科技,2022,47(4):52-56.
4陈维兴,刘雪.基于接触图的机坪感知网络机会控制[J].计算机工程与设计,2023,44(3):656-663.
5邓发友,夏才初,许崇帮.基于中智理论的公路隧道健康状态评价方法研究[J].中外公路,2023,43(2):173-177. 被引量：2
6刘玥彤,吴迪,滕华.基于改进胶囊神经网络的乐音主频识别研究[J].南京理工大学学报,2023,47(2):207-213.
7胡德胜,杨焱.国内法律文本中shall和must的使用和翻译研究[J].贵州大学学报（社会科学版）,2023,41(2):90-99. 被引量：1
8荆楠楠,张丽娜,纪亚忠.基质金属蛋白酶家族与卵巢疾病的研究进展[J].同济大学学报（医学版）,2023,44(1):150-156. 被引量：1
9周筱雨,胡良皞.慢性胰腺炎并发症研究进展[J].中华消化杂志,2023,43(3):201-205.
10陈路军.掘进机回转台受力分析及优化设计[J].矿山机械,2023,51(5):8-11.

中国新药与临床杂志

2023年第5期

浏览历史

内容加载中请稍等...

基于文本分类算法梳理MedDRA中文术语集被引量：1

参考文献9

二级参考文献48

共引文献66

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于文本分类算法梳理MedDRA中文术语集 被引量：1

参考文献9

二级参考文献48

共引文献66

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于文本分类算法梳理MedDRA中文术语集被引量：1