期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
中文健康问句分类与语料构建 被引量:9
1
作者 郭海红 李姣 代涛 《情报工程》 2016年第6期39-49,共11页
本文旨在构建一个中文健康问句分类方法,并通过对高血压相关的健康问句进行人工分类标注,分析公众的高血压相关健康信息需求,同时为研发高血压相关的智能中文问答系统提供语料基础。本研究基于临床问句分类及公众健康信息查询场景层次模... 本文旨在构建一个中文健康问句分类方法,并通过对高血压相关的健康问句进行人工分类标注,分析公众的高血压相关健康信息需求,同时为研发高血压相关的智能中文问答系统提供语料基础。本研究基于临床问句分类及公众健康信息查询场景层次模型,构建一个四级中文健康问句主题分类方法,并由5位标注员独立地对从某中文健康网站上收集的将近10万条高血压相关提问数据中随机抽取的2000条样本数据进行人工分类标注,以优化和测试该问句分类方法的可靠性,构建标注语料库,并分析公众的高血压相关健康信息需求。5位标注员使用该分类方法进行独立标注的四级类目评判者间信度kappa值为0.63,意味着分类结果可靠,一级大类获得高度一致性(kappa=0.82),略优于国际上的同类研究。分布在治疗、诊断、健康生活方式、临床发现/病情管理、流行病学、择医六个一级类别中的问句分别占样本总量的48.1%、23.8%、11.9%、5.2%、9.0%和1.9%。所构建的健康问句分类方法可用于组织大型健康问题集,以提高检索效率;分类标注的样本问句可作为高血压相关健康问句自动分类研究的语料;得出的高血压相关健康问句主题分布有助于指导健康网站的知识资源建设。此外,所设计和采用的问句分类方法构建方式、语料标注流程、评判者间信度测量方法等,也可为开放领域及其他受限领域开展用户问句分类与语料构建提供借鉴。 展开更多
关键词 健康问句 问句分类 语料构建 公众健康 信息需求
下载PDF
融合局部语义和全局结构信息的健康问句分类 被引量:5
2
作者 张志昌 张治满 张珍文 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2020年第2期9-15,共7页
针对已有的中文医疗健康问句分类方法的不足,提出了一种融合句子局部语义信息和全局结构信息的中文医疗健康问句分类方法。首先,通过卷积神经网络和独立循环神经网络获得医疗健康问句的局部语义表示和全部结构表示;然后,利用自注意力机... 针对已有的中文医疗健康问句分类方法的不足,提出了一种融合句子局部语义信息和全局结构信息的中文医疗健康问句分类方法。首先,通过卷积神经网络和独立循环神经网络获得医疗健康问句的局部语义表示和全部结构表示;然后,利用自注意力机制将得到的局部语义表示和全局结构表示向量融合,生成医疗健康问句的最终语义表示向量;最后,通过分类层分类并输出分类结果。实验结果表明,这种方法可以有效地提高模型的语义表示能力,且有效地改善了梯度消失和梯度爆炸问题,在中文医疗健康问句数据集上具有很好的性能。 展开更多
关键词 中文医疗健康问句分类 局部语义表示 全局结构表示 卷积神经网络 独立循环神经网络
下载PDF
基于BERT的中文健康问句分类研究
3
作者 徐星昊 《电视技术》 2022年第3期67-70,共4页
现有的医学健康问句数据大多数都是短文本,但短文本存在特征稀疏的局限性。对此,提出一种融合特征的方法,首先通过基于变换器的双向编码器表征技术(Bidirectional Encoder Representations from Transformers,BERT)字符级特征的输出取... 现有的医学健康问句数据大多数都是短文本,但短文本存在特征稀疏的局限性。对此,提出一种融合特征的方法,首先通过基于变换器的双向编码器表征技术(Bidirectional Encoder Representations from Transformers,BERT)字符级特征的输出取平均并与BERT句子级特征的输出进行拼接,然后使用分类器进行分类。实验结果表明,本模型可以有效地提高模型提取特征的能力,在处理Kesci公众健康问句分类数据集上F1值达到83.92%,在处理中文健康公众问句数据集时F1值达到87%。 展开更多
关键词 基于变换器的双向编码器表征(BERT) 健康问句 字符级特征 句子级特征
下载PDF
基于迁移学习和集成学习的医疗文本分类 被引量:1
4
作者 郑承宇 王新 +1 位作者 王婷 徐权峰 《计算机技术与发展》 2022年第4期28-33,共6页
针对医疗文本语义稀疏、维度过高的问题,提出一种基于迁移学习和集成学习的多标签医疗文本分类算法(Trans-LSTM-CNN-Multi,TLCM)。该算法采用ALBERT(A Lite BERT)模型内部的多层双向Transfomer结构对大型语料库展开训练,获取通用领域的... 针对医疗文本语义稀疏、维度过高的问题,提出一种基于迁移学习和集成学习的多标签医疗文本分类算法(Trans-LSTM-CNN-Multi,TLCM)。该算法采用ALBERT(A Lite BERT)模型内部的多层双向Transfomer结构对大型语料库展开训练,获取通用领域的文本动态字向量表示。然后,利用医学领域目标数据集通过迁移学习和模型微调技术实现ALBERT预训练语言模型在医学领域的文本语义增强。在此基础上,将上述通过迁移学习得到的文本语义增强模型输入到Bi-LSTM-CNN集成学习模块,进一步提取医学文本内容的重要信息特征。最后,基于二元交叉熵损失函数构造文本多标签分类器实现医疗文本分类。实验结果表明,通过迁移学习和集成学习的TLCM文本分类算法能有效提升医疗文本的分类性能,在中文健康问句数据集上整体F1值达到了91.8%。 展开更多
关键词 迁移学习 集成学习 ALBERT Bi-LSTM-CNN 医疗文本 健康问句
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部