期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于ALBERT-Seq2Seq模型的多标签农业文本分类方法
1
作者 香慧敏 李东亚 白涛 《信息技术》 2024年第5期22-29,37,共9页
针对多标签分类采用现有静态词向量模型无法捕获文本完整语义的问题,文中结合ALBERT与序列到序列模型,提出一种用于农业文本多标签分类的神经网络模型ALBERT-Seq2Seq。该模型采用ALBERT预训练语言模型动态获取农业文本语义信息,利用其... 针对多标签分类采用现有静态词向量模型无法捕获文本完整语义的问题,文中结合ALBERT与序列到序列模型,提出一种用于农业文本多标签分类的神经网络模型ALBERT-Seq2Seq。该模型采用ALBERT预训练语言模型动态获取农业文本语义信息,利用其内部多层双向Transformer架构挖掘农业文本信息的深层特征,接着引入Seq2Seq模型构造出多标签分类器并进行训练。在AGRI-ML2020农业文本多标签数据集上进行算法性能测试,实验结果表明,该模型分类F1值达89.5%,能够有效提升农业文本多标签分类效果。 展开更多
关键词 自然语言处理 多标签分类 序列到序列模型 农业文本 深度学习
下载PDF
基于RoBERTa多特征融合的棉花病虫害命名实体识别
2
作者 李东亚 白涛 +3 位作者 香慧敏 戴硕 王震鲁 陈珍 《河南农业科学》 北大核心 2024年第2期152-161,共10页
针对棉花病虫害文本语料数据匮乏且缺少中文命名实体识别语料库,棉花病虫害实体内容复杂、类型多样且分布不均等问题,构建了包含11种类别的棉花病虫害中文实体识别语料库CDIPNER,提出了一种基于RoBERTa多特征融合的命名实体识别模型。... 针对棉花病虫害文本语料数据匮乏且缺少中文命名实体识别语料库,棉花病虫害实体内容复杂、类型多样且分布不均等问题,构建了包含11种类别的棉花病虫害中文实体识别语料库CDIPNER,提出了一种基于RoBERTa多特征融合的命名实体识别模型。该模型采用掩码学习能力更强的RoBERTa预训练模型进行字符级嵌入向量转换,通过BiLSTM和IDCNN模型联合抽取特征向量,分别捕捉文本的时序和空间特征,使用多头自注意力机制将抽取的特征向量进行融合,最后利用CRF算法生成预测序列。结果表明,该模型对于棉花病虫害文本中命名实体的识别精确率为96.60%,召回率为95.76%,F1值为96.18%;在ResumeNER等公开数据集上也有较好的效果。表明该模型能有效地识别棉花病虫害命名实体且具有一定的泛化能力。 展开更多
关键词 棉花 病虫害 RoBERTa模型 命名实体识别 多特征融合 多头注意力机制
下载PDF
基于ERNIE及改进DPCNN的棉花病虫害问句意图识别
3
作者 李东亚 白涛 +2 位作者 香慧敏 戴硕 王震鲁 《山东农业科学》 北大核心 2024年第6期143-151,共9页
针对目前没有公开的棉花病虫害相关问句数据集且问句较短、类型多样等问题,本研究通过查阅文献及咨询相关领域专家,构建了棉花病虫害问句数据集CQCls,定义了78种棉花病虫害实体和9种问句类型;同时提出了一种基于ERNIE预训练模型的棉花... 针对目前没有公开的棉花病虫害相关问句数据集且问句较短、类型多样等问题,本研究通过查阅文献及咨询相关领域专家,构建了棉花病虫害问句数据集CQCls,定义了78种棉花病虫害实体和9种问句类型;同时提出了一种基于ERNIE预训练模型的棉花病虫害问句意图识别模型,首先通过ERNIE模型将输入问句映射到向量空间,使用融合词位置信息的DPCNN模型进行特征向量的抽取,与基础的DPCNN模型相比,通过融合词位置信息能有效提高模型的表达能力,然后经过Softmax得到最终结果。实验结果表明,本研究提出的意图识别模型相较于其他模型取得了较好的结果,宏平均和加权平均的F1分数值分别为97.45%和97.31%;在文本语料数据内容复杂多样且文本格式不规范的DMSCD数据集上,训练结果中不同类别的F1分数的权重平均也能达到73.42%,进一步证明了该模型的有效性及泛化能力。 展开更多
关键词 棉花病虫害 问句意图识别 ERNIE模型 DPCNN模型 词位置信息
下载PDF
基于词向量与多特征融合的农业文本自动标引研究
4
作者 香慧敏 白涛 +1 位作者 李东亚 马楠 《新疆农业大学学报》 CAS 2022年第6期486-492,共7页
针对TF-IDF算法未考虑到文本关键词分布以及受不均衡数据集影响的问题,提出了一种多特征融合的术语频率-逆文档逆词频率(TF-IDIWF)自动标引算法,并与TF-IDF、TF-IWF、TextRank、LSI及LDA基线算法进行对比验证。利用python爬虫技术获取2... 针对TF-IDF算法未考虑到文本关键词分布以及受不均衡数据集影响的问题,提出了一种多特征融合的术语频率-逆文档逆词频率(TF-IDIWF)自动标引算法,并与TF-IDF、TF-IWF、TextRank、LSI及LDA基线算法进行对比验证。利用python爬虫技术获取20万条农业文本语料以csv文件格式存储,用于训练农业词向量模型,随机抽取政策法规类、新闻资讯类、市场类、科技类文章各1000篇并进行多人独立标注,标注词个数为5~13个,将标注结果整合归纳后生成AGRI2020农业文本均衡数据集。为验证TF-IDIWF算法能否降低不均衡数据集带来的影响,从AGRI2020中随机抽取新闻资讯类1000篇,其余3个类别各100篇构建出农业文本不均衡数据集。首先利用TF-IDF融合词向量技术对分词后的词语进行过滤、筛选以及近义词归并,再引入词位置、词性及词跨度特征权重融合逆文档频率及逆词频率对农业文本进行关键词自动标引。结果表明,在不均衡数据集上的F1值为57.08%,相较于TF-IDF、TF-IWF算法分别提高了9.12%、1.24%;在均衡数据集上的平均F1值为60.80%,相较于TF-IDF、TextRank、LSI及LDA算法分别提高了10.48%、10.04%、18.83%、14.89%。多特征融合的TF-IDIWF自动标引算法能有效提高农业文本标引准确性。 展开更多
关键词 词向量 多特征融合 TF-IDIWF 自动标引 农业文本
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部