电网现场作业风险等级影响着作业的安全性和经济性,目前风险等级评级主要依赖于人工评级,存在一定的错误率。以国网公司的作业风险分级表与实际现场历史文本库作为研究对象,在充分分析各自文本特点的基础上,提出了基于BERT(bidirectiona...电网现场作业风险等级影响着作业的安全性和经济性,目前风险等级评级主要依赖于人工评级,存在一定的错误率。以国网公司的作业风险分级表与实际现场历史文本库作为研究对象,在充分分析各自文本特点的基础上,提出了基于BERT(bidirectional encoder representations from transformers)模型的电网现场作业风险自动评级方法。考虑作业风险分级表的概括性,提出对作业风险分级表进行文本增强;考虑实际现场历史文本库中存在一定比例的冗余内容和错误评级,提出冗余文本去除方法和基于文本挖掘技术的风险等级纠错方法;以经过上述方法处理后的2类现场作业文本为样本,构建了基于BERT单文本主题分类微调模型的文本分类模型,实现了对电网现场作业风险的自动评级。算例对比了该文模型与其他分类模型在不同样本集下的评级效果,表明BERT模型能够更全面地获取作业文本的语义特征,分级表的文本增强方法和历史库的风险等级纠错方法能提升评级效果,而冗余文本去除会导致作业文本样本数量减少较多,反而降低评级效果。上述结果表明,该文方法能够实现电网现场作业文本的自动评级,并具有较高的准确性。展开更多
文本分类技术能够帮助心理咨询对话系统自动判别用户的心理状态,以便在聊天过程中正确对用户进行心理治疗及心理健康干预,在心理学领域中具有良好的应用前景。本文在近年提出的Emotional First Aid Dataset心理咨询语料库上依次构建了...文本分类技术能够帮助心理咨询对话系统自动判别用户的心理状态,以便在聊天过程中正确对用户进行心理治疗及心理健康干预,在心理学领域中具有良好的应用前景。本文在近年提出的Emotional First Aid Dataset心理咨询语料库上依次构建了烦恼类型、心理疾病、伤害身体倾向三个文本多分类任务,提出了该语料库的数据预处理方案,同时研究了BERT、Ro BERTa等6个深度学习语言模型在这些多分类任务上的性能,并以这些模型作为基学习器构建了集成模型。实验结果表明,XLNet、RoBERTa、ERNIE模型在多个任务上的表现较为突出,同时集成学习能显著地提高分类模型的预测准确率,整体取得了良好的效果。展开更多
随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,...随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,从而促进学术文本挖掘研究的发展。本文以学术文本的不同结构功能为研究对象,以Journal of the Association for Information Science and Technology(JASIST)上发表的1579篇论文为数据集,进行双向长短时记忆神经网络、支持向量机和条件随机场三种模型上的预实验,并对比实验结果的性能,最终确定利用条件随机场模型做进一步探究。利用条件随机场模型,本文将学术文本结构功能识别问题转化为对句子单元的序列标注问题,寻找最优识别模型并探究不同特征对结构功能识别的影响,最终获得开放测试的调和平均值为92.88%的结构整体识别效果。实验结果表明,章节标题中词汇信息和章节内容的特征词汇信息对学术文本的功能结构识别起到巨大作用,可以达到令人满意的效果,而结构的长度特征则干扰条件随机场方法的性能。在最后,本文对学术文本结构功能识别出错原因进行总结,指出进一步探讨的问题和方向。展开更多
文摘电网现场作业风险等级影响着作业的安全性和经济性,目前风险等级评级主要依赖于人工评级,存在一定的错误率。以国网公司的作业风险分级表与实际现场历史文本库作为研究对象,在充分分析各自文本特点的基础上,提出了基于BERT(bidirectional encoder representations from transformers)模型的电网现场作业风险自动评级方法。考虑作业风险分级表的概括性,提出对作业风险分级表进行文本增强;考虑实际现场历史文本库中存在一定比例的冗余内容和错误评级,提出冗余文本去除方法和基于文本挖掘技术的风险等级纠错方法;以经过上述方法处理后的2类现场作业文本为样本,构建了基于BERT单文本主题分类微调模型的文本分类模型,实现了对电网现场作业风险的自动评级。算例对比了该文模型与其他分类模型在不同样本集下的评级效果,表明BERT模型能够更全面地获取作业文本的语义特征,分级表的文本增强方法和历史库的风险等级纠错方法能提升评级效果,而冗余文本去除会导致作业文本样本数量减少较多,反而降低评级效果。上述结果表明,该文方法能够实现电网现场作业文本的自动评级,并具有较高的准确性。
文摘文本分类技术能够帮助心理咨询对话系统自动判别用户的心理状态,以便在聊天过程中正确对用户进行心理治疗及心理健康干预,在心理学领域中具有良好的应用前景。本文在近年提出的Emotional First Aid Dataset心理咨询语料库上依次构建了烦恼类型、心理疾病、伤害身体倾向三个文本多分类任务,提出了该语料库的数据预处理方案,同时研究了BERT、Ro BERTa等6个深度学习语言模型在这些多分类任务上的性能,并以这些模型作为基学习器构建了集成模型。实验结果表明,XLNet、RoBERTa、ERNIE模型在多个任务上的表现较为突出,同时集成学习能显著地提高分类模型的预测准确率,整体取得了良好的效果。
文摘随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,从而促进学术文本挖掘研究的发展。本文以学术文本的不同结构功能为研究对象,以Journal of the Association for Information Science and Technology(JASIST)上发表的1579篇论文为数据集,进行双向长短时记忆神经网络、支持向量机和条件随机场三种模型上的预实验,并对比实验结果的性能,最终确定利用条件随机场模型做进一步探究。利用条件随机场模型,本文将学术文本结构功能识别问题转化为对句子单元的序列标注问题,寻找最优识别模型并探究不同特征对结构功能识别的影响,最终获得开放测试的调和平均值为92.88%的结构整体识别效果。实验结果表明,章节标题中词汇信息和章节内容的特征词汇信息对学术文本的功能结构识别起到巨大作用,可以达到令人满意的效果,而结构的长度特征则干扰条件随机场方法的性能。在最后,本文对学术文本结构功能识别出错原因进行总结,指出进一步探讨的问题和方向。