中文电子病历命名实体识别主要是研究电子病历病程记录文书数据集,文章提出对医疗手术麻醉文书数据集进行命名实体识别的研究。利用轻量级来自Transformer的双向编码器表示(A Lite Bidirectional Encoder Representation from Transform...中文电子病历命名实体识别主要是研究电子病历病程记录文书数据集,文章提出对医疗手术麻醉文书数据集进行命名实体识别的研究。利用轻量级来自Transformer的双向编码器表示(A Lite Bidirectional Encoder Representation from Transformers,ALBERT)预训练模型微调数据集和Tranfomers中的trainer训练器训练模型的方法,实现在医疗手术麻醉文书上识别手术麻醉事件命名实体与获取复杂麻醉医疗质量控制指标值。文章为医疗手术麻醉文书命名实体识别提供了可借鉴的思路,并且为计算复杂麻醉医疗质量控制指标值提供了一种新的解决方案。展开更多
针对先前提示学习方法中存在的模板迭代更新周期长、泛化能力差等问题,基于改进的提示学习方法提出一种双通道的情感分析模型。首先,将序列化后的提示模板与输入词向量一起引入注意力机制结构,在输入词向量在多层注意力机制中更新的同...针对先前提示学习方法中存在的模板迭代更新周期长、泛化能力差等问题,基于改进的提示学习方法提出一种双通道的情感分析模型。首先,将序列化后的提示模板与输入词向量一起引入注意力机制结构,在输入词向量在多层注意力机制中更新的同时迭代更新提示模板;其次,在另一通道采用ALBERT(A Lite BERT(Bidirectional Encoder Representations from Transformers))模型提取语义信息;最后,输出用集成方式提取的语义特征,提升整体模型的泛化能力。所提模型在SemEval2014的Laptop和Restaurants数据集、ACL(Association for Computational Linguistics)的Twitter数据集和斯坦福大学创建的SST-2数据集上进行实验,分类准确率达到80.88%、91.78%、76.78%和95.53%,与基线模型BERT_Large相比,分别提升0.99%、1.13%、3.39%和2.84%;与P-tuning v2相比,所提模型的分类准确率在Restaurants数据集、Twitter数据集以及SST-2数据集上分别有2.88%、3.60%和2.06%的提升,且比原方法更早达到收敛状态。展开更多
随着智慧政务的深入发展,针对政务平台在答复群众留言的质量与效率方面产生的多方面问题,依据政务绩效评估理论,结合ALBERT(A Lite BERT)等算法,研究了政务答复的及时性、相关性、详尽性、信息强度、可解释性和规范性;并根据自编码器提...随着智慧政务的深入发展,针对政务平台在答复群众留言的质量与效率方面产生的多方面问题,依据政务绩效评估理论,结合ALBERT(A Lite BERT)等算法,研究了政务答复的及时性、相关性、详尽性、信息强度、可解释性和规范性;并根据自编码器提取的潜在空间表征和熵权法确定的表征权重,构建政务答复质量的综合评价模型。对海关业务咨询的答复质量进行评价,其中各表征权重分别为0.098、0.436、0.466;归一化评分在0.2~0.4之间的答复最多,占比39.7%;模型对3000条随机选取的答复评分与人工评分的一致性程度为0.777,MSE为0.035,表明该模型能够反映真实的答复质量。展开更多
中文化学命名实体结构没有严格的构词规律可循,识别实体中包含字母、数字、特殊符号等多种形式,传统字向量模型无法有效区分化学术语中存在的嵌套实体和歧义实体。为此,将高中化学试题资源的命名实体划分为物质、性质、量值、实验四大类...中文化学命名实体结构没有严格的构词规律可循,识别实体中包含字母、数字、特殊符号等多种形式,传统字向量模型无法有效区分化学术语中存在的嵌套实体和歧义实体。为此,将高中化学试题资源的命名实体划分为物质、性质、量值、实验四大类,并构建化学学科实体词汇表辅助人工标注。通过ALBERT预训练模型提取文本特征并生成动态字向量,结合BILSTM-CRF(Bidirectional Long Short-Term Memory with Conditional Random Field)模型对高中化学试题文本进行命名实体识别。实验结果表明,该模型的精确率、召回率和F1值分别达到了95.24%、95.26%、95.25%。展开更多
针对军事重要目标实体自动获取的问题,提出一种将基于转换器的轻量级双向编码表征(a lite BERT,ALBERT)、双向门控循环单元(Bi-Gated recurrent unit,BiGRU)、条件随机场(conditional random field,CRF)相结合的小样本数据集命名实体识...针对军事重要目标实体自动获取的问题,提出一种将基于转换器的轻量级双向编码表征(a lite BERT,ALBERT)、双向门控循环单元(Bi-Gated recurrent unit,BiGRU)、条件随机场(conditional random field,CRF)相结合的小样本数据集命名实体识别方法.考虑到军事重要目标公开数据相对较少实体种类较多的问题,使用基于迁移学习的ALBERT作为分布式字符向量的生成模型;通过参数相对较少、泛化能力较强的BiGRU模型获取序列文本的上下文特征;通过CRF对输出添加约束,最终得到序列标注结果.实验结果表明:与传统的隐马尔卡夫模型(hidden Markov model,HMM)和双向长短期记忆-条件随机场(BiLSTM-CRF)模型相比,提出的方法F1值分别提升了7.1%和6.5%;与CRF模型相比,解决了人工定义特征模板效率低的问题,F1值提升了2.6%,为后续军事重要目标知识图谱的自动化构建提供了方法支撑.展开更多
文摘中文电子病历命名实体识别主要是研究电子病历病程记录文书数据集,文章提出对医疗手术麻醉文书数据集进行命名实体识别的研究。利用轻量级来自Transformer的双向编码器表示(A Lite Bidirectional Encoder Representation from Transformers,ALBERT)预训练模型微调数据集和Tranfomers中的trainer训练器训练模型的方法,实现在医疗手术麻醉文书上识别手术麻醉事件命名实体与获取复杂麻醉医疗质量控制指标值。文章为医疗手术麻醉文书命名实体识别提供了可借鉴的思路,并且为计算复杂麻醉医疗质量控制指标值提供了一种新的解决方案。
文摘针对先前提示学习方法中存在的模板迭代更新周期长、泛化能力差等问题,基于改进的提示学习方法提出一种双通道的情感分析模型。首先,将序列化后的提示模板与输入词向量一起引入注意力机制结构,在输入词向量在多层注意力机制中更新的同时迭代更新提示模板;其次,在另一通道采用ALBERT(A Lite BERT(Bidirectional Encoder Representations from Transformers))模型提取语义信息;最后,输出用集成方式提取的语义特征,提升整体模型的泛化能力。所提模型在SemEval2014的Laptop和Restaurants数据集、ACL(Association for Computational Linguistics)的Twitter数据集和斯坦福大学创建的SST-2数据集上进行实验,分类准确率达到80.88%、91.78%、76.78%和95.53%,与基线模型BERT_Large相比,分别提升0.99%、1.13%、3.39%和2.84%;与P-tuning v2相比,所提模型的分类准确率在Restaurants数据集、Twitter数据集以及SST-2数据集上分别有2.88%、3.60%和2.06%的提升,且比原方法更早达到收敛状态。
文摘当前检测虚假新闻的方法往往依赖于人工设计的特征,并且需要提供大量如用户信息、传播路径等不宜获取的隐私信息,使得模型泛化性较差。针对上述问题,提出一种基于图卷积网络(GCN)和预训练ALBERT(A-Lite-Bidirectional Encoder Representations from Transformers)构建的新闻检测模型GCN-ALBERT。首先,利用GCN捕获文本全局信息,提取新闻文本的全局语义信息;其次,利用自注意力机制融合ALBERT生成的局部信息与全局信息;最后,建立包含局部信息和全局信息的分类表示,从而实现虚假新闻检测。实验结果表明,所提模型在两个真实的英文数据集上与预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)相比,宏F1值分别提高了3.0%和4.2%。所提模型能够有效融合新闻文本的全局信息和局部信息,准确率更高。
文摘随着智慧政务的深入发展,针对政务平台在答复群众留言的质量与效率方面产生的多方面问题,依据政务绩效评估理论,结合ALBERT(A Lite BERT)等算法,研究了政务答复的及时性、相关性、详尽性、信息强度、可解释性和规范性;并根据自编码器提取的潜在空间表征和熵权法确定的表征权重,构建政务答复质量的综合评价模型。对海关业务咨询的答复质量进行评价,其中各表征权重分别为0.098、0.436、0.466;归一化评分在0.2~0.4之间的答复最多,占比39.7%;模型对3000条随机选取的答复评分与人工评分的一致性程度为0.777,MSE为0.035,表明该模型能够反映真实的答复质量。
文摘中文化学命名实体结构没有严格的构词规律可循,识别实体中包含字母、数字、特殊符号等多种形式,传统字向量模型无法有效区分化学术语中存在的嵌套实体和歧义实体。为此,将高中化学试题资源的命名实体划分为物质、性质、量值、实验四大类,并构建化学学科实体词汇表辅助人工标注。通过ALBERT预训练模型提取文本特征并生成动态字向量,结合BILSTM-CRF(Bidirectional Long Short-Term Memory with Conditional Random Field)模型对高中化学试题文本进行命名实体识别。实验结果表明,该模型的精确率、召回率和F1值分别达到了95.24%、95.26%、95.25%。
文摘针对军事重要目标实体自动获取的问题,提出一种将基于转换器的轻量级双向编码表征(a lite BERT,ALBERT)、双向门控循环单元(Bi-Gated recurrent unit,BiGRU)、条件随机场(conditional random field,CRF)相结合的小样本数据集命名实体识别方法.考虑到军事重要目标公开数据相对较少实体种类较多的问题,使用基于迁移学习的ALBERT作为分布式字符向量的生成模型;通过参数相对较少、泛化能力较强的BiGRU模型获取序列文本的上下文特征;通过CRF对输出添加约束,最终得到序列标注结果.实验结果表明:与传统的隐马尔卡夫模型(hidden Markov model,HMM)和双向长短期记忆-条件随机场(BiLSTM-CRF)模型相比,提出的方法F1值分别提升了7.1%和6.5%;与CRF模型相比,解决了人工定义特征模板效率低的问题,F1值提升了2.6%,为后续军事重要目标知识图谱的自动化构建提供了方法支撑.