期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
问答式林业预训练语言模型ForestBERT
1
作者 谭晶维 张怀清 +2 位作者 刘洋 杨杰 郑东萍 《林业科学》 EI CAS CSCD 北大核心 2024年第9期99-110,共12页
【目的】针对林业文本利用率低、通用领域预训练语言模型对林业知识理解不足以及手动标注数据耗时费力等问题,基于大量林业文本,提出一种融合林业领域知识的预训练语言模型,并通过自动标注训练数据,高效实现林业抽取式问答,为林业决策... 【目的】针对林业文本利用率低、通用领域预训练语言模型对林业知识理解不足以及手动标注数据耗时费力等问题,基于大量林业文本,提出一种融合林业领域知识的预训练语言模型,并通过自动标注训练数据,高效实现林业抽取式问答,为林业决策管理提供智能化信息服务。【方法】首先,基于网络爬虫技术构建包含术语、法律法规和文献3个主题的林业语料库,使用该语料库对通用领域预训练语言模型BERT进行继续预训练,再通过掩码语言模型和下一句预测这2个任务进行自监督学习,使BERT能够有效地学习林业语义信息,得到具有林业文本通用特征的预训练语言模型ForestBERT。然后,对预训练语言模型mT5进行微调,实现样本的自动标注,通过人工校正后,构建包含3个主题共2280个样本的林业抽取式问答数据集。基于该数据集对BERT、RoBERTa、MacBERT、PERT、ELECTRA、LERT 6个通用领域的中文预训练语言模型以及本研究构建的ForestBERT进行训练和验证,以明确ForestBERT的优势。为探究不同主题对模型性能的影响,分别基于林业术语、林业法律法规、林业文献3个主题数据集对所有模型进行微调。将ForestBERT与BERT在林业文献中的问答结果进行可视化比较,以更直观展现ForestBERT的优势。【结果】ForestBERT在林业领域的抽取式问答任务中整体表现优于其他6个对比模型,与基础模型BERT相比,精确匹配(EM)分数和F1分数分别提升1.6%和1.72%,在另外5个模型的平均性能上也均提升0.96%。在各个模型最优划分比例下,ForestBERT在EM上分别优于BERT和其他5个模型2.12%和1.2%,在F1上分别优于1.88%和1.26%。此外,ForestBERT在3个林业主题上也均表现优异,术语、法律法规、文献任务的评估分数分别比其他6个模型平均提升3.06%、1.73%、2.76%。在所有模型中,术语任务表现最佳,F1的平均值达到87.63%,表现较差的法律法规也达到82.32%。在文献抽取式问答任务中,ForestBERT相比BERT可提供更准确、全面的答案。【结论】采用继续预训练的方式增强通用领域预训练语言模型的林业专业知识,可有效提升模型在林业抽取式问答任务中的表现,为林业文本和其他领域的文本处理和应用提供一种新思路。 展开更多
关键词 林业文本 BERT 训练语言模型 特定领域预训练 抽取式问答任务 自然语言处理
下载PDF
基于中文预训练的安全事件实体识别研究 被引量:1
2
作者 朱磊 董林靖 +4 位作者 黑新宏 王一川 彭伟 刘雁孝 盘隆 《信息安全研究》 2021年第7期652-660,共9页
为提高公共安全事件中中文命名实体识别的效率,对《中文突发事件语料库》进行研究,通过对预训练任务的优化和训练集的迁移学习,提出基于领域预训练的公共安全事件实体识别方法.首先,对预训练模型RoBERTa进行优化,更新安全领域词典,实现... 为提高公共安全事件中中文命名实体识别的效率,对《中文突发事件语料库》进行研究,通过对预训练任务的优化和训练集的迁移学习,提出基于领域预训练的公共安全事件实体识别方法.首先,对预训练模型RoBERTa进行优化,更新安全领域词典,实现数据增强,并将中文单字符的掩码机制替换为全词掩码机制,获取公共安全事件中领域实体特征和语义信息.接着,使用10万条在线新闻语料进行领域预训练,生成了公共安全领域预训练模型RoBERTa+,增强下游任务命名实体识别的能力.最后,采用双向长短时记忆网络BiLSTM获取语料文本的上下文信息特征,经过条件随机场CRF进行序列解码标注,完成公共安全领域的中文命名实体识别任务.实验结果表明,改进的模型在中文突发事件语料库中准确率平均可达到87%以上,召回率和F1值都达到了80%以上,从而证明了领域预训练可以有效提升公共安全事件中实体信息的识别能力. 展开更多
关键词 公共安全事件 中文实体识别 领域预训练 双向长短时记忆网络 条件随机场 RoBERTa训练语言模型
下载PDF
基于多元组匹配损失的司法论辩理解方法
3
作者 张可 艾中良 +2 位作者 刘忠麟 顾平莉 刘学林 《计算机与现代化》 2024年第6期115-120,共6页
司法论辩理解是论辩挖掘任务在司法领域的具体应用,旨在从诉辩双方观点中挖掘存在交互的观点对。司法领域论辩挖掘任务存在数据样本少、句子长度长、领域专业性强等问题,现有的司法论辩理解模型多基于文本分类思想,构建的模型文本语义... 司法论辩理解是论辩挖掘任务在司法领域的具体应用,旨在从诉辩双方观点中挖掘存在交互的观点对。司法领域论辩挖掘任务存在数据样本少、句子长度长、领域专业性强等问题,现有的司法论辩理解模型多基于文本分类思想,构建的模型文本语义表示能力差。为进一步提高论辩交互观点对的识别准确率,提出一种基于多元组匹配损失函数(Multiplet Loss)的司法论辩理解模型,该模型基于文本匹配的思想,将诉称观点与辩称观点分别进行语义相似性匹配,通过优化交互观点对的匹配度实现论辩交互观点对的挖掘。为提升模型对于论辩交互观点对的匹配度,提出多元组匹配损失函数,通过减小论辩交互观点对的语义距离,加大非交互观点的语义距离,使观点间的语义距离能更好地反应其交互性,采用司法领域预训练模型作为文本语义识别模型,进一步提高了文本的语义表达能力。采用CAIL2022论辩理解赛道数据进行测试,实验结果表明基于多元组匹配损失函数的司法论辩理解模型相较于采用分类思想的模型,准确率能够提高2.04个百分点,达到85.19%,提高了司法论辩理解任务精度。 展开更多
关键词 多元组匹配损失 司法领域预训练模型 司法论辩理解 论辩挖掘 文本分类 自然语言处理 深度学习
下载PDF
融合预训练模型文本特征的短文本分类方法 被引量:9
4
作者 陈杰 马静 李晓峰 《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第9期21-30,共10页
【目的】综合运用不同预训练模型的词向量进行文本语义增强,解决基于Word2Vec、BERT等模型所表示的词向量存在先验知识缺失的问题,提升在新闻数据集上的分类效果。【方法】以今日头条新闻公开数据集和THUCNews新闻数据集为实验对象,使用... 【目的】综合运用不同预训练模型的词向量进行文本语义增强,解决基于Word2Vec、BERT等模型所表示的词向量存在先验知识缺失的问题,提升在新闻数据集上的分类效果。【方法】以今日头条新闻公开数据集和THUCNews新闻数据集为实验对象,使用BERT、ERNIE模型通过领域预训练,分别提取上下文语义信息和实体、短语的先验知识信息;结合TextCNN模型生成高阶文本特征向量并进行特征融合,实现语义增强,进而提升短文本分类效果。【结果】相较于传统的Word2Vec词向量表示,使用预训练词向量表示的分类算法模型准确率分别提升了6.37个百分点和3.50个百分点;相较于BERT和ERNIE词向量表示,融合BERTERNIE词向量表示的分类算法模型准确率分别提升1.98个百分点和1.51个百分点。【局限】领域预训练采用的新闻领域语料有待进一步丰富。【结论】所提方法能够对海量的短文本数据实现快速而准确的分类,对后续文本挖掘工作具有重要意义。 展开更多
关键词 BERT ERNIE 短文本分类 文本特征融合 领域预训练
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部