基于对比学习的临床领域意图识别算法研究

Contrastive Learning-Based Algorithm for Clinic Intent Recognition

下载PDF

导出

摘要随着电子信息化的发展,智能搜索、知识问答等应用被越来越多地应用在临床领域中.意图识别作为其中重要的一部分,随着这类应用的逐渐兴起,受到越来越多的关注.意图识别即理解用户问句的意图.在自然语言处理中,意图识别的本质是文本分类问题.针对意图识别工作,大量的研究和探索用以理解用户的文本输入,并将其映射到预先给定的意图类别中.本文提出一种基于对比学习的意图识别算法,根据文本的长度和意图类别的数量,将意图识别定义为短文本多分类问题.通过将对比学习引入到分类模型的训练中,提高模型的最终效果.在有监督学习场景中,采用R-drop对比学习方法.该方法选择dropout作为数据增强的方式,同时通过增加一个正则项来强化模型对dropout的鲁棒性.同时,对数据进行无监督训练,作为预训练阶段.并在预训练过程中选择SimCSE对比学习方法.最终将无监督学习与有监督学习结合,形成基于半监督学习的R-SimCSE模型.实验选取textCNN、textRNN、textRCNN、BERT-base、prompt等多种分类模型进行对比.实验结果显示,基于对比学习的分类模型效果优于文中选择的其他分类算法模型,在CHIP-QIC数据集上,准确率提升了0.0097~0.0493. With the development of electronic informatization,applications such as intelligent search and knowledge Q&A are being increasingly explored in the clinical field.As a crucial element of such applications,intent recognition has received immense attention.Intent recognition involves the understanding of the intent of user questions.In natural language processing,intent recognition is a text classification problem wherein substantial research and exploration are conducted to understand the users’text inputs and map them into the prespecified intent categories.This paper proposes an intent recognition algorithm based on contrastive learning,which defines intent recognition as a short text multiclassification problem based on the length of the text and the number of intent categories.The effect has been enhanced using contrastive learning in the classification model training.Furthermore,in the supervised learning scenario,the R-drop contrastive learning method is adopted.This method chooses dropout for data enhancement and increases the robustness of the model to dropout by adding a regular term.Concurrently,unsupervised training is performed as a pretraining stage.The SimCSE contrastive learning method is chosen in the pretraining process.Finally,the combination of unsupervised and supervised learning forms the R-SimCSE model based on semisuper-vised learning.Moreover,several classification models are selected for comparison in the experiment,such as textCNN,textRNN,textRCNN,BERT-base,and prompt.The result shows that the classification model based on contrastive learning is superior to the other selected classification algorithm models.On the CHIP-QIC datasets,the accuracy rate is enhanced by 0.0097-0.0493.

作者曹天甲程龙龙李世锋曹琉崔丙剑倪广健 Cao Tianjia;Cheng Longlong;Li Shifeng;Cao Liu;Cui Bingjian;Ni Guangjian(Academy of Medical Engineering and Translational Medicine,Tianjin University,Tianjin 300072,China;China Electronics Cloud Brain(Tianjin)Technology Co.,Ltd.,Tianjin 300384,China;Key Laboratory for Knowledge Mining and Service of Medical Journals,Beijing 100010,China;Haihe Laboratory of Brain-Computer Interaction and Human-Machine Integration,Tianjin 300392,China)

机构地区天津大学医学工程与转化医学研究院中电云脑(天津)科技有限公司医学期刊知识挖掘与服务重点实验室脑机交互与人机共融海河实验室

出处《天津大学学报（自然科学与工程技术版）》 EI CAS CSCD 北大核心 2024年第8期821-827,共7页 Journal of Tianjin University：Science and Technology

基金国家重点研发计划资助项目(2022YFF1202400) 天津市自然科学基金资助项目(20JCZDJC00810).

关键词意图识别文本分类对比学习 intent recognition text classification contrastive learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1孙斌,常开志,李树涛.面向医疗咨询的复杂问句意图智能理解[J].中文信息学报,2023,37(1):112-120. 被引量：2
2王宇亮,杨观赐,罗可欣.基于意图—槽位注意机制的医疗咨询意图理解与实体抽取算法[J].计算机应用研究,2023,40(5):1402-1409. 被引量：3
3迟海洋,严馨,徐广义,陈玮,周枫.融合主题信息和Transformer模型的健康问句意图分类[J].小型微型计算机系统,2021,42(12):2519-2524. 被引量：4
4郑承宇,王新,王婷,邓亚萍,尹甜甜.基于ALBERT-TextCNN模型的多标签医疗文本分类方法[J].山东大学学报（理学版）,2022,57(4):21-29. 被引量：12

二级参考文献31

1周奇安,李舟军.基于BERT的任务导向对话系统自然语言理解的改进模型与调优方法[J].中文信息学报,2020(5):82-90. 被引量：14
2金碧漪,许鑫.网络健康社区中的主题特征研究[J].图书情报工作,2015,59(12):100-105. 被引量：47
3郭海红,李姣,代涛.中文健康问句分类与语料构建[J].情报工程,2016,2(6):39-49. 被引量：9
4刘雄,张宇,张伟男,刘挺.基于依存句法分析的复合事实型问句分解方法[J].中文信息学报,2017,31(3):140-146. 被引量：7
5钱岳,丁效,刘挺,陈毅恒.聊天机器人中用户出行消费意图识别方法[J].中国科学：信息科学,2017,47(8):997-1007. 被引量：9
6余慧,冯旭鹏,刘利军,黄青松.聊天机器人中用户就医意图识别方法[J].计算机应用,2018,38(8):2170-2174. 被引量：8
7周博通,孙承杰,林磊,刘秉权.基于LSTM的大规模知识库自动问答[J].北京大学学报（自然科学版）,2018,54(2):286-292. 被引量：38
8黄贤英,谢晋,龙姝言.融合词向量及BTM模型的问题分类方法[J].计算机工程与设计,2019,40(2):384-388. 被引量：8
9华冰涛,袁志祥,肖维民,郑啸.基于BLSTM-CNN-CRF模型的槽填充与意图识别[J].计算机工程与应用,2019,55(9):139-143. 被引量：13
10杨志明,王来奇,王泳.深度学习算法在问句意图分类中的应用研究[J].计算机工程与应用,2019,55(10):154-160. 被引量：12

共引文献17

1陈燕,龚庆悦,戴彩艳.基于句法抽取与图结构编码的患者问询意图识别[J].计算机与数字工程,2021,49(11):2276-2281.
2陈海红,司威,黄凤坡.中文文本分类模型对比研究[J].赤峰学院学报（自然科学版）,2023,39(1):12-15.
3昌磊,王依伦,陈艳平.基于Bert模型的文本多分类应用研究[J].电脑知识与技术,2023,19(4):40-41.
4支港,钟学燕,王欣,何山,石佳.基于Transformer的序列生成多标签文本分类[J].山西大学学报（自然科学版）,2023,46(1):10-19. 被引量：2
5王宇亮,杨观赐,罗可欣.基于意图—槽位注意机制的医疗咨询意图理解与实体抽取算法[J].计算机应用研究,2023,40(5):1402-1409. 被引量：3
6谢崇波.基于自然语言处理的医疗问答系统研究与实现[J].现代信息科技,2023,7(12):1-5. 被引量：1
7周天益,范永全,杜亚军,李显勇.基于细粒度信息集成的意图识别和槽填充联合模型[J].计算机应用研究,2023,40(9):2669-2673.
8邢子瑶,董芯蕊,昝糈莉,杨帅,黄梓焓,刘哲,张晓东.融合VGI和遥感等多源数据的洪涝范围提取与模拟方法[J].地球信息科学学报,2023,25(9):1869-1881. 被引量：1
9荆沁璐,冯林,王旭,龚勋,胡议月.改进路由机制的元学习少样本文本分类模型[J].小型微型计算机系统,2023,44(11):2392-2400.
10王娟,侯丽.医疗健康领域问题分类探析[J].医学信息学杂志,2023,44(12):20-28.

1梁洁.电子工程中智能化技术的运用研究[J].中文科技期刊数据库（引文版）工程技术,2016(9):11-11.
2苏琳琳.电子信息化技术在电子产品中的应用探讨[J].电子元器件与信息技术,2024,8(4):8-11.
3梁洁.关于电子工程中智能化技术的运用研究[J].中文科技期刊数据库（引文版）工程技术,2016(12):4-4.
4曹天甲,程龙龙,李世锋,曹琉,崔丙剑,倪广健.面向中文临床术语标准化的ESim-SimCSE融合算法[J].天津大学学报（自然科学与工程技术版）,2024,57(7):751-758.
5刘新忠,赵澳庆,谢文武,杨志和.基于BERT-GAT-CorNet多标签中文短文本分类方法[J].计算机应用,2023,43(S02):18-21. 被引量：1
6丁大雷.事业单位电子信息化档案管理模式运用分析[J].中文科技期刊数据库（文摘版）社会科学,2024(6):0032-0035.
7林仁回,李国练,赵雨.基于五级电子病历的医院信息基础建设历程与实践成果[J].中国卫生标准管理,2024,15(12):6-9.
8胡瀚中.媒体宣传运营城市文化节的燃点痛点与关键拐点——以荆州城市文化节宣传为例[J].现代广告,2024(8):75-80.
9许彩霞.让幼儿拥有一双明亮的眼睛健康[J].山西教育（幼教）,2024(5):77-78.
10田昌园,张红丽,汪军红,李嘉宁,张艺,查同刚.近30年皖西大别山土壤侵蚀时空变化及其对景观格局的响应[J].水土保持学报,2024,38(3):37-44.

天津大学学报（自然科学与工程技术版）

2024年第8期

浏览历史

内容加载中请稍等...

基于对比学习的临床领域意图识别算法研究

参考文献4

二级参考文献31

共引文献17

相关作者

相关机构

相关主题

浏览历史