基于在线医疗咨询文本的抑郁症症状短语的自动识别

Automatic Identifying the Depression Symptoms fromOnline Medical Consultation Text

下载PDF

导出

摘要 [目的/意义]利用在线医疗咨询文本探索抑郁症症状的自动抽取方法,推进健康大数据的深层次应用。[方法/过程]以在线问诊平台“好大夫在线”的患者问诊记录为语料,选择无监督机器学习法,运用短语识别和深度学习语义建模技术实现抑郁症症状的快速提取。算法通过了测试语料的评估,并在抑郁症典型症状分析和抑郁症人群预测两个任务中得以检验。[结果/结论]运用本文算法识别抑郁症症状短语的准确率为73.85%,模型表现优良。用该方法分析抑郁症患者的典型表现,结论与心理学临床检验结果一致,抑郁症人群预测的精准度则可以达到78.81%。对于3个症状短语的分布表示模型,具备深层次语义表达能力Sentence-BERT表现最好,说明强化短语的语义表达,运用无监督机器学习方法能够实现疾病症状的快速提取,有效提升大规模文本信息的处理能力。 [Purpose/Significance]This study explores how to identify depression symptoms from online medical consultation,which profoundly enhances health big-data utilization and adds data value.[Method/Process]Using the patient consultation text on“HaoDaiFu”,an online medical platform,the study employed unsupervised machine learning,phrase recognition,and deep-learning modeling to identify depression symptoms.The algorithm was evaluated on test data and tested further in two tasks:depression symptom analysis and depression patient identification.[Results/Conclusion]The model s accuracy is 73.85%in the symptom extraction task,indicating it performs well.In the task of analyzing depressed patients features,the conclusion is consistent with the clinical psychological tests,and the accuracy in the task of recognizing depresses patients can reach 78.81%,which verifies the effectiveness of the algorithm.Among the three semantic models describing symptoms,Sentence-BERT performs the best,confirming that strengthening the semantics of symptom phrases and using unsupervised machine learning can extract disease symptoms swiftly and effectively improve the efficiency of processing large-scale textual information.

作者聂卉吴晓燕 Nie Hui;Wu Xiaoyan(School of Information Management,Sun Yat-Sen University,Guangzhou 510006,China)

机构地区中山大学信息管理学院

出处《现代情报》 CSSCI 2023年第9期63-73,共11页 Journal of Modern Information

基金 2022广州社会科学基金项目“双循环新发展格局下粤港澳大湾区社会保障高效协同研究”(项目编号:10000-42220402) 2023广州市哲学社会科学发展“十四五”规划项目“健康中国背景下面向互联网医疗大数据的抑郁症风险预测研究”(项目编号:2023GZGJ259)。

关键词在线医疗咨询文本抑郁症语义建模短语识别 online medical consultation text depression semantic modeling phrase recognition

分类号 G202 [文化科学—传播学] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1王若佳,赵常煜,王继民.中文电子病历的分词及实体识别研究[J].图书情报工作,2019,63(2):34-42. 被引量：19
2郑强,刘齐军,王正华,朱云平.生物医学命名实体识别的研究与进展[J].计算机应用研究,2010,27(3):811-815. 被引量：25
3叶枫,陈莺莺,周根贵,李昊旻,李莹.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262. 被引量：47
4唐晓波,刘亚岚.基于Sentence-BERT语义表示的咨询问题提示列表自动构建方法研究——以糖尿病咨询为例[J].现代情报,2021,41(8):3-15. 被引量：14
5陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15

二级参考文献82

1黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：21
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3孔东林,罗向阳,邓崎皓,罗军勇.基于AC自动机匹配算法的入侵检测系统研究[J].微电子学与计算机,2005,22(3):89-92. 被引量：7
4俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：160
5TANABE L, WILBUR W J. A priority model for named entities [ C ]//Proc of Human Language Technology Conference. Morristown : Association for Computational Linguistics, 2006 : 33-40.
6GU Bao-hua. Recognizing nested named entities in GENIA corpus [ C ]//Proc of Human Language Technology Conference. Morristown : Association for Computational Linguistics, 2006 : 112-113.
7SUNDHEIM B M. Overview of results of the M UC-6 evaluation [ C ]// Proc of the 6th Conference on Message Under Standing. Morristown: Association for Computational Linguistics, 1996:423-442.
8KIM J, OHTA T, TSURUOKA Y, et al. Introduction to the bio-entity recognition task at JNLPBA[ C ]//Proc of International Workshop on Natural Language Processing in Biomedicine and It's Applications. 2004 : 70 - 75.
9YEH A, MORGAN A, COLOSIMO M, et al. BioCreAtIvE task 1A: gene mention finding evaluation[ J]. BMC Bioinformatics, 2005,6 (1) : S2.
10LEAMAN R, GONZALEZ G. BANNER: an executable survey of advances in biomedical named entity recognition [ C ]//Proc of Pacific Symposium on Biocomputing. 2008:652-663.

共引文献114

1姜会珍,胡海洋,马琏,赵从朴,张锋,陈婕卿,曾可,王晓露,朱卫国.基于医患对话的病历自动生成技术研究[J].中国数字医学,2021,16(10):36-40. 被引量：3
2赵奎,杜昕娉,高延军,马慧敏.融合文字与标签的电子病历命名实体识别[J].计算机系统应用,2022,31(10):375-381. 被引量：1
3赵梓博,王昊,刘友华,张卫,孟镇.多任务环境下融合迁移学习的新冠疫情新闻要素识别研究[J].知识管理论坛,2021(1):2-13. 被引量：2
4屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：7
5刘龙航,赵铁军.融合知识的中文医疗实体识别模型[J].智能计算机与应用,2021,11(3):94-97.
6叶枫,陈莺莺,周根贵,李昊旻,李莹.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262. 被引量：47
7陈阳,赵跃华,程显毅.基于用字共现频率统计的外国译名自动识别[J].计算机工程与设计,2012,33(1):362-366. 被引量：1
8胡双,陆涛,胡建华.文本挖掘技术在药物研究中的应用[J].医学信息学杂志,2013,34(8):49-53. 被引量：9
9刘俊丽,张秀梅,蒋勇青.基于文本挖掘的乙型肝炎相关文献知识图谱分析[J].医学信息学杂志,2014,35(1):48-53. 被引量：11
10谢翠萍,陈家益,白金山.基于全文索引与余弦公式医学文本相似性分析[J].微型电脑应用,2014(1):25-27. 被引量：1

1孟佳娜,单明,孙世昶,姜笑君,刘玉宁,马腾飞.融入历史信息的多轮对话意图识别[J].大连民族大学学报,2023,25(3):244-249. 被引量：2
2郝彩霞,刘彬.阴道分泌物对尿常规临床检验结果的影响研究[J].中文科技期刊数据库（全文版）医药卫生,2023(7):0066-0069.
3胡子希.沉浸式戏剧的文本特点研究[J].戏剧文学,2023(6):95-99. 被引量：7
4陆晓艳,田荣荣,常立阳,黄春香.基于胃肠道症状分级量表评分的血液透析患者胃肠道症状分析[J].中国现代医生,2023,61(22):11-13.
5付之倩.对乙型肝炎患者血清免疫球蛋白水平临床检验结果的分析[J].当代医药论丛,2023,21(14):129-131.
6李金玲.阴道分泌物对尿常规临床检验结果的影响研究[J].中文科技期刊数据库（文摘版）医药卫生,2023(8):25-27.
7刘炜,刘倩倩,付雅明,祝蕊.人工智能时代的元数据方法论[J].图书馆理论与实践,2023(4):16-29.
8庞宁.基于深度学习的非结构化敏感信息识别系统设计[J].微型电脑应用,2023,39(7):146-148. 被引量：1
9赵晓华,张正,陈曾煜,田于胜,陈海燕,周建松.工作场所暴力对医务工作者职业倦怠的影响:抑郁的中介作用[J].中南大学学报（医学版）,2023,48(6):903-908. 被引量：3
10陈安.循证护理在治疗神经根型颈椎病患者护理中的效果分析[J].中国伤残医学,2023,31(13):84-87.

现代情报

2023年第9期

浏览历史

内容加载中请稍等...

基于在线医疗咨询文本的抑郁症症状短语的自动识别

参考文献5

二级参考文献82

共引文献114

相关作者

相关机构

相关主题

浏览历史