期刊文献+
共找到5,921篇文章
< 1 2 250 >
每页显示 20 50 100
短文长教,长足发展——以《马说》《记承天寺夜游》为例
1
作者 陈蒙 《语文世界(中旬刊)》 2025年第1期27-28,共2页
短文由于字数简短,若不加以精心地设计,学生难以体会其中的丰富意蕴。因此,进行有效、深入的短文扩充教学,就需要用“长”的手段、适切的教学方式,引领学生深入品味“长”的内涵,并使学生获得长足的发展。本文以《马说》和《记承天寺夜... 短文由于字数简短,若不加以精心地设计,学生难以体会其中的丰富意蕴。因此,进行有效、深入的短文扩充教学,就需要用“长”的手段、适切的教学方式,引领学生深入品味“长”的内涵,并使学生获得长足的发展。本文以《马说》和《记承天寺夜游》为例,探索“短文长教”的新路径。 展开更多
关键词 初中语文 短文长教 《马说》 《记承天寺夜游》
下载PDF
基于字词向量融合的民航智慧监管短文本分类 被引量:1
2
作者 王欣 干镞锐 +2 位作者 许雅玺 史珂 郑涛 《中国安全科学学报》 CAS CSCD 北大核心 2024年第2期37-44,共8页
为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题... 为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题。为解决类别不平衡问题,采用数据增强算法在原始文本上进行变换,生成新的样本,使各个类别的样本数量更加均衡。将字向量和词向量按字融合拼接,得到具有词特征信息的字向量。将字词融合的向量分别送入到文本卷积神经网络(TextCNN)和双向长短期记忆(BiLSTM)模型中进行不同维度的特征提取,从局部的角度和全局的角度分别提取特征,并在民航监管事项检查记录数据集上进行试验。结果表明:该模型准确率为0.9837,F 1值为0.9836。与一些字嵌入模型和词嵌入模型相对比,准确率提升0.4%。和一些常用的单通道模型相比,准确率提升3%,验证了双通道模型提取的特征具有全面性和有效性。 展开更多
关键词 字词向量融合 民航监管 短文 文本卷积神经网络(TextCNN) 双向长短期记忆(BiLSTM)
下载PDF
面向短文本的增强上下文神经主题模型
3
作者 刘刚 王同礼 +2 位作者 唐宏伟 战凯 杨雯莉 《计算机工程与应用》 CSCD 北大核心 2024年第1期154-164,共11页
目前的主题模型大多数基于自身文本的词共现信息进行建模,并没有引入主题的稀疏约束来提升模型的主题抽取能力,此外短文本本身存在词共现稀疏的问题,该问题严重影响了短文本主题建模的准确性。针对以上问题,提出了一种增强上下文神经主... 目前的主题模型大多数基于自身文本的词共现信息进行建模,并没有引入主题的稀疏约束来提升模型的主题抽取能力,此外短文本本身存在词共现稀疏的问题,该问题严重影响了短文本主题建模的准确性。针对以上问题,提出了一种增强上下文神经主题模型(enhanced context neural topic model,ECNTM)。ECNTM基于主题控制器对主题进行稀疏性约束,过滤掉不相关的主题,同时模型的输入变成BOW向量和SBERT句子嵌入的拼接,在高斯解码器中,通过在嵌入空间中将单词上的主题分布处理为多元高斯分布或高斯混合分布,显式地丰富了短文本有限的上下文信息,解决了短文本词共现特征稀疏问题。在WS、Reuters、KOS、20 NewsGroups四个公开数据集上的实验结果表明,该模型在困惑度、主题一致性以及文本分类准确率上相较基准模型均有明显提升,证明了引入主题稀疏约束特性以及丰富的上下文信息到短文本主题建模的有效性。 展开更多
关键词 神经主题模型 短文 稀疏约束 变分自编码器 主题建模
下载PDF
基于词-主题-文本异质网络的短文本分类方法
4
作者 徐涛 赵星甲 卢敏 《计算机应用与软件》 北大核心 2024年第1期146-152,182,共8页
针对现有分类方法未考虑长距离词的语义相关性和文本间潜在主题共享的问题,提出一种基于词-主题-文本异质网络(WTDHN)的短文本分类方法。通过Word2vec训练词的上下文语义向量;构建词相关性矩阵以充足的词共现信息增强短文本各级别语义学... 针对现有分类方法未考虑长距离词的语义相关性和文本间潜在主题共享的问题,提出一种基于词-主题-文本异质网络(WTDHN)的短文本分类方法。通过Word2vec训练词的上下文语义向量;构建词相关性矩阵以充足的词共现信息增强短文本各级别语义学;构建以词、主题和文本为节点的异质网络,并采用图卷积学习节点之间的高阶邻域信息,丰富短文本语义。相较于基准分类模型,该方法在五个公开短文本数据集上的分类准确率平均提高1.56%。 展开更多
关键词 词-主题-文本异质网络 词共现 文本-主题分布 短文本分类
下载PDF
基于多元语义特征和图卷积神经网络的短文本分类模型
5
作者 鲁富宇 冷泳林 崔洪霞 《河南科学》 2024年第5期625-630,共6页
在互联网和社交媒体迅猛发展的背景下,网络中出现了大量的短文本数据,这些数据在舆情监控、情感分析和新闻分类等自然语言处理领域展现出了非常高的经济和学术价值.但短文本数据固有的特征给短文本分类带来了不小的挑战,如文本稀疏和缺... 在互联网和社交媒体迅猛发展的背景下,网络中出现了大量的短文本数据,这些数据在舆情监控、情感分析和新闻分类等自然语言处理领域展现出了非常高的经济和学术价值.但短文本数据固有的特征给短文本分类带来了不小的挑战,如文本稀疏和缺乏丰富的上下文语义等.针对这些问题,提出了一种结合多元语义特征和图卷积神经网络(GCN)的短文本分类模型,该模型通过哈尔滨工业大学的语言技术平台获取短文本的多种语义特征,并将这些语义特征同短文本一起构建一个多元异构图,然后将其作为GCN的输入,利用GCN学习短文本更深层特征,最后通过Softmax函数获取每个类别的概率分布,进而实现短文本分类.试验结果表明,本模型在短文本分类的F1评分上比传统单一模型提高了4%. 展开更多
关键词 短文 多元异构图 语义特征 图卷积神经网络 分类模型
下载PDF
融合标签语义嵌入和图卷积的短文本特征扩展及分类方法
6
作者 张灵 李荣臻 郑苏 《广东工业大学学报》 CAS 2024年第1期69-78,共10页
针对短文本长度过短、关键词偏少和标签信息利用不足造成的分类过程中面临特征稀疏和语义不明确的问题,提出了融合标签语义嵌入的图卷积网络模型。首先,在传统的术语频率和逆文档频率算法基础上,提出了融合单词所属文本的类间、类内分... 针对短文本长度过短、关键词偏少和标签信息利用不足造成的分类过程中面临特征稀疏和语义不明确的问题,提出了融合标签语义嵌入的图卷积网络模型。首先,在传统的术语频率和逆文档频率算法基础上,提出了融合单词所属文本的类间、类内分布关系的全局词频提取算法。其次,利用融合标签嵌入的方法,将每条训练文本与相对应的标签引入到同一个特征空间内,通过筛选聚合提取更能突显文本类别的近义词嵌入,作为文本图的文档节点的嵌入表示。最后,将文本图输入到图卷积神经网络学习后,获得的特征与预训练模型提取文本上下文的特征相融合,提升短文本的分类质量以及整个模型的泛化能力,在4个短文本数据集MR、web_snippets、R8和R52上对本文模型和14个基线算法进行了对比实验,结果表明本文提出的模型相比于对比模型具有更优的结果,在识别精度、召回率以及F_1值上有着更好的表现。 展开更多
关键词 短文 标签语义 特征空间 图卷积网络 预训练模型
下载PDF
融合概率类别特征增强的短文本分类
7
作者 廖列法 李奎 姚秀 《计算机工程与设计》 北大核心 2024年第7期2074-2081,共8页
对短文本所含信息量缺乏而导致分类准确度难以提升的问题进行研究,提出一种融合概率类别特征增强的短文本分类网络模型FT_BDCNN。将N-gram处理后产生的N元词典通过TF-IDF分离出具有概率类别区分度的特征信息(FT模块);将向量化表示后的... 对短文本所含信息量缺乏而导致分类准确度难以提升的问题进行研究,提出一种融合概率类别特征增强的短文本分类网络模型FT_BDCNN。将N-gram处理后产生的N元词典通过TF-IDF分离出具有概率类别区分度的特征信息(FT模块);将向量化表示后的文本信息输入到改进后的特征提取模块中;将两个模块的输出进行特征融合,完成文本分类。实验结果表明,所提模型在THUCNews数据集上的F1值达到91.91%。FT模块可以与现有分类模型进行融合,提升模型的分类性能。 展开更多
关键词 类别特征增强 短文 双池化 特征融合 统计算法 快速分类 深度学习
下载PDF
结合注意力机制和Mengzi模型的短文本分类
8
作者 陈雪松 李衡 王浩畅 《计算机与现代化》 2024年第9期101-106,120,共7页
如何使用短文本分类技术挖掘有用的文本信息,是当前热门的研究方向之一。为了解决短文本特征信息稀疏和特征信息难以提取的问题,提出一种Mengzi-ADCBU短文本分类模型,该模型利用Mengzi预训练模型将输入的文本信息转化为相应的文本表示,... 如何使用短文本分类技术挖掘有用的文本信息,是当前热门的研究方向之一。为了解决短文本特征信息稀疏和特征信息难以提取的问题,提出一种Mengzi-ADCBU短文本分类模型,该模型利用Mengzi预训练模型将输入的文本信息转化为相应的文本表示,再将获得的文本向量分别输入改进的深度金字塔卷积神经网络和融合了多头注意力机制的双向门控单元中提取文本特征信息,将两者提取到的特征信息进行融合之后,输送给全连接层和Softmax函数完成短文本分类。在公开的短文本数据集THUCNews和SougouCS上分别进行多组模型对比实验,实验结果表明本文提出的MengziADCBU模型在短文本分类的准确率、精确度、召回率和F1值等评价指标上都比现在的主流模型性能更优,具有较好的短文本分类能力。 展开更多
关键词 短文 多头注意力 深度金字塔卷积神经网络 双向门控单元
下载PDF
基于BERTopic主题模型融合RoBERTa算法的短文本分类方法研究
9
作者 刘桂锋 陈亦侯 +1 位作者 包翔 韩牧哲 《情报工程》 2024年第5期85-98,共14页
[目的/意义]针对短文本分类中的稀疏问题,提出一种基于BERTopic-RoBERTa-PCA-CatBoost模型进行主题概率特征扩展的短文本分类方法。[方法/过程]使用RoBERTa模型获取短文本的词向量表示,使用BERTopic主题模型提取主题概率特征向量,二者... [目的/意义]针对短文本分类中的稀疏问题,提出一种基于BERTopic-RoBERTa-PCA-CatBoost模型进行主题概率特征扩展的短文本分类方法。[方法/过程]使用RoBERTa模型获取短文本的词向量表示,使用BERTopic主题模型提取主题概率特征向量,二者融合进行特征扩展,最后通过CatBoost算法分类。[局限]在分类层面,未使用深度学习算法进行验证;在特征融合层面,未来可以考虑其他的特征融合方法。[结果/结论]提出的BERTopic-RoBERTa-PCACatBoost模型与LDA-CatBoost模型相比在准确率上提升10.90%,精确率上提升10.91%,召回率上提升10.68%。基于主题概率特征扩展的短文本分类方法能够克服单一模型的不足,提高短文本分类的效果。 展开更多
关键词 短文本分类 词向量 BERTopic模型 RoBERTa模型
下载PDF
基于转折词的图卷积短语音-短文本模态转换的分类方法
10
作者 徐克圣 毛寅辉 陈胜男 《信息技术与信息化》 2024年第5期31-35,共5页
提出了一种增加转折词后实体词注意力权重的短文本分类方法,旨在提高短文本分类的准确性和可靠性。所提出的方法结合了文本构图和图卷积网络技术,通过将文本数据转换为图形结构,利用图卷积神经网络对图形结构进行特征提取和模式识别,以... 提出了一种增加转折词后实体词注意力权重的短文本分类方法,旨在提高短文本分类的准确性和可靠性。所提出的方法结合了文本构图和图卷积网络技术,通过将文本数据转换为图形结构,利用图卷积神经网络对图形结构进行特征提取和模式识别,以捕捉文本数据的内在结构和语义关系。在训练过程中,使用转折词和置信度高的实体词作为关键信息,通过注意力机制强化这些信息在分类中的作用。通过多次循环训练,得到了一个高效的文本分类模型。实验结果表明,所提出的模型在短文本分类任务中具有较好的性能表现,能够有效提高分类的准确性和可靠性。为了验证模型的性能和泛化能力,选取了三个公开的短文本数据集Ohsumed、AGNews和MR数据集以及一个公开的短语音数据集MELD数据集。这些数据集具有不同的主题和领域,可以更好地评估模型的泛化能力。实验结果表明,所提出的模型在四个数据集上都取得了优于基线的分类效果,证明了模型的有效性和泛化能力。 展开更多
关键词 图卷积网络 文本构图 注意力机制 短文 语音数据
下载PDF
面向不平衡短文本情感多分类的三阶语义图数据增广方法
11
作者 颜学明 黄翰 +2 位作者 金耀初 钟国 郝志峰 《计算机学报》 EI CAS CSCD 北大核心 2024年第12期2742-2759,共18页
文本增广技术可以有效提升不平衡情感分类任务的性能.若文本增广过程中生成的少数类短文本数据未能体现完整的情感语义特征,则可能会导致不同类别之间的情感重叠问题出现.为了充分学习和理解少数类别的情感特征,本文提出一种面向不平衡... 文本增广技术可以有效提升不平衡情感分类任务的性能.若文本增广过程中生成的少数类短文本数据未能体现完整的情感语义特征,则可能会导致不同类别之间的情感重叠问题出现.为了充分学习和理解少数类别的情感特征,本文提出一种面向不平衡文本情感多分类的三阶语义图数据增广方法,首先采用三阶语义图在多个词之间建立复杂的关系语义模型,用于表示多种可能的短文本局部情感语义和词节点依赖关系,然后提出了基于三阶语义图数据增广方法以平衡多分类文本的情感类别分布,从而有效实现不平衡短文本的情感分类.与传统的文本增广方法相比,在印尼语不平衡数据集上,本文提出的方法在少数类评价指标F1-measure和F2-measure上分别提升了5.75%和9.65%,在平衡情感识别能力指标G-means值上提升了2.91%;在马来语不平衡数据集上,本文提出的方法在少数类评价指标F1-measure和F3-measure上也分别提升了2.45%和4.81%,在平衡情感识别能力指标G-means值上提升了1.24%.此外,与传统的机器学习方法、深度网络模型等情感分类模型以及传统的短文本增广过采样模型相比,本文提出的方法在公开的印尼语、马来语、英语以及中文四个不平衡短文本数据集上都获得了最高的准确率Accuracy值.以上实验结果表明,融合不同模体的三阶语义图结构信息不仅可以有效表达文本中的局部情感语义以及词节点之间的依赖关系,还可以有效降低短文本数据增广过采样过程中引入新噪声的风险,并提升不平衡短文本的多分类性能. 展开更多
关键词 三阶语义图 文本增广 平衡策略 短文本情感分类 模体
下载PDF
知识增强的BERT短文本分类算法
12
作者 傅薛林 金红 +2 位作者 郑玮浩 张奕 陶小梅 《计算机工程与设计》 北大核心 2024年第7期2027-2033,共7页
为解决短文本信息不全且缺乏领域知识导致关键信息难以充分挖掘而造成的深度学习模型分类性能不足等问题,提出一种知识增强的双向编码器表示转换器(BERT)短文本分类算法(KE-BERT)。提出一种建模短文本与领域知识的方法,通过知识图谱进... 为解决短文本信息不全且缺乏领域知识导致关键信息难以充分挖掘而造成的深度学习模型分类性能不足等问题,提出一种知识增强的双向编码器表示转换器(BERT)短文本分类算法(KE-BERT)。提出一种建模短文本与领域知识的方法,通过知识图谱进行领域知识的引入;提出一种知识适配器,通过知识适配器在BERT的各个编码层之间进行知识增强。通过在公开的短文本数据集上,将KE-BERT与其它深度学习模型相比较,该模型的F1均值和准确率均值达到93.46%和91.26%,结果表明了所提模型性能表现良好。 展开更多
关键词 短文本分类 深度学习 双向编码器表示转换器 知识图谱 领域知识 知识适配器 知识增强
下载PDF
基于DAN与FastText的藏文短文本分类研究
13
作者 李果 陈晨 +1 位作者 杨进 群诺 《计算机科学》 CSCD 北大核心 2024年第S01期103-107,共5页
随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行... 随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行无监督训练获得预训练的藏文音节向量集,使用预训练的音节向量集将藏文短文本信息转化为音节向量,把音节向量送入DAN(Deep Averaging Networks)网络并在输出阶段融合经过FastText网络训练的句向量特征,最后通过全连接层和softmax层完成分类。在公开的TNCC(Tibetan News Classification Corpus)新闻标题数据集上所提模型的Macro-F1是64.53%,比目前最好评测结果TiBERT模型的Macro-F1得分高出2.81%,比GCN模型的Macro-F1得分高出6.14%,融合模型具有较好的藏文短文本分类效果。 展开更多
关键词 藏文短文本分类 特征融合 深度平均网络 快速文本
下载PDF
基于改进TF-IDF融合二进制灰狼优化的短文本分类
14
作者 杨东 毋涛 +1 位作者 赵雪青 李猛 《计算机技术与发展》 2024年第8期37-41,共5页
为了提高特殊类型短文本分类准确度和降低特征维度,提出了基于改进TF-IDF方法融合二进制灰狼优化的短文本分类。为了提高特征向量文本权重计算准确度,提出了点赞排列因子,并融合了文本特征集中度,对附有点赞数的特殊类型文本进行权重计... 为了提高特殊类型短文本分类准确度和降低特征维度,提出了基于改进TF-IDF方法融合二进制灰狼优化的短文本分类。为了提高特征向量文本权重计算准确度,提出了点赞排列因子,并融合了文本特征集中度,对附有点赞数的特殊类型文本进行权重计算,设计改进了TF-IDF-RANK方法对特征进行加权;同时,基于初选特征向量,设计优化了二进制灰狼优化算法(BGWO)搜寻最优特征子集,引入衰减系数向量和多优解迭代机制,提高灰狼搜寻性能。结果表明,该方法有效地提升了权重准确率,更好地表征初选特征向量,增强特征选择时寻找全局最优解的能力,进而提高短文本的分类效果。通过LABIC和抖音开放平台数据集测试,综合指标F1值分别提高了14.76%和14.02%,验证了该方法对于特殊类型文本分类的有效性。 展开更多
关键词 短文本分类 特征加权 TF-IDF-RANK方法 特征选择 二进制灰狼优化
下载PDF
基于短文本扩展和特征融合的市民热线文本分类 被引量:1
15
作者 郭小磊 张吴波 《山西大同大学学报(自然科学版)》 2024年第1期42-47,62,共7页
针对市民热线多为短文本和特征稀疏的特点。提出了一种短文本扩展法和基于双通道特征融合的文本分类(BERT-BiGRU-TextCNN,BGTC)模型,实现了对市民热线文本的自动识别与归类。首先使用TF-IWF模型以及LDA主题模型构建核心词库;然后利用Wor... 针对市民热线多为短文本和特征稀疏的特点。提出了一种短文本扩展法和基于双通道特征融合的文本分类(BERT-BiGRU-TextCNN,BGTC)模型,实现了对市民热线文本的自动识别与归类。首先使用TF-IWF模型以及LDA主题模型构建核心词库;然后利用Word2Vec计算词语相似度,完成对短文本内容和词向量特征的扩展;最终通过融合BERT-TextCNN和BERT-BiGRU-Attention两个通道特征信息的BGTC模型实现了对扩展后文本的分类。经过多组对比实验,结果表明该方法在市民热线文本分类任务中具有更好的性能,准确率和F1值分别达到了85.6%和85.8%。 展开更多
关键词 市民热线 短文本扩展 文本分类 特征融合
下载PDF
基于Bi-LSTM神经网络的短文本敏感词识别方法 被引量:2
16
作者 周军芽 吴进伟 +1 位作者 吴广飞 张何为 《武汉理工大学学报(信息与管理工程版)》 CAS 2024年第2期312-316,共5页
为了准确识别与处理敏感词,针对分词时延较高、识别精度较低的问题,提出基于双向长短期记忆(Bi-LSTM)神经网络的短文本敏感词识别方法。分析敏感词库,将敏感词库划分为两大类、三个等级,预处理短文本干扰信息(特殊字符、繁体字与拆分汉... 为了准确识别与处理敏感词,针对分词时延较高、识别精度较低的问题,提出基于双向长短期记忆(Bi-LSTM)神经网络的短文本敏感词识别方法。分析敏感词库,将敏感词库划分为两大类、三个等级,预处理短文本干扰信息(特殊字符、繁体字与拆分汉字),引入Bi-LSTM神经网络构建短文本分词模型,二次训练确定最佳参数,反复计算词语的敏感性数值,通过敏感性对比函数,提取短文本敏感词,并匹配敏感词库,确定敏感词的类别与等级,实现短文本敏感词识别。实验结果表明:在不同实验组别下,应用本文方法获得的短文本分词时延均低于给定最大限值,短文本敏感词识别精度高于84.42%,应用性能较佳。 展开更多
关键词 短文 敏感词识别 文本过滤 编辑距离 双向长短期记忆神经网络
下载PDF
融合义原相似度矩阵与字词向量双通道的短文本语义匹配策略
17
作者 刘东旭 段利国 +1 位作者 崔娟娟 常轩伟 《计算机科学》 CSCD 北大核心 2024年第12期250-258,共9页
短文本语义匹配任务的目的是判断两个短文本句子的语义是否一致。然而,现有的许多方法往往存在短文本语义信息不足、无法有效识别同义词等问题。针对这些不足,提出一种融合义原相似度矩阵与字词向量双通道的短文本语义匹配策略。首先,... 短文本语义匹配任务的目的是判断两个短文本句子的语义是否一致。然而,现有的许多方法往往存在短文本语义信息不足、无法有效识别同义词等问题。针对这些不足,提出一种融合义原相似度矩阵与字词向量双通道的短文本语义匹配策略。首先,利用预训练模型Bert对输入的句子对进行编码;然后,对于句子中词级别的语义信息,利用FastText模型训练并获取文本的词向量,并加入BiLSTM模型进一步提取上下文语义信息。为了有效利用义原信息,在上述的双通道中分别加入多头注意力和用于对分离向量进行交互计算的协同注意力,并在注意力中分别融入对应的义原相似度矩阵,最后综合上述两部分向量推断出语义的一致性。在金融领域数据集BQ和开放域数据集LCQMC上的实验证明了所提算法的有效性。 展开更多
关键词 自然语言处理 短文 义原 协同注意力 字词向量
下载PDF
基于BERT字句向量与差异注意力的短文本语义匹配策略
18
作者 王钦晨 段利国 +2 位作者 王君山 张昊妍 郜浩 《计算机工程与科学》 CSCD 北大核心 2024年第7期1321-1330,共10页
短文本语义匹配是自然语言处理领域中的一个核心问题,可广泛应用于自动问答、搜索引擎等领域。过去的工作大多只考虑文本之间的相似部分,忽略了文本之间的差异部分,从而使模型无法充分利用到决定文本之间是否匹配的关键信息。针对上述问... 短文本语义匹配是自然语言处理领域中的一个核心问题,可广泛应用于自动问答、搜索引擎等领域。过去的工作大多只考虑文本之间的相似部分,忽略了文本之间的差异部分,从而使模型无法充分利用到决定文本之间是否匹配的关键信息。针对上述问题,提出一种基于BERT字句向量与差异注意力的短文本语义匹配策略,利用BERT对句子对进行向量化表示,使用BiLSTM并引入多头差异注意力机制获取当前字向量与文本全局语义信息之间表征意图差异的注意力权重,结合一维卷积神经网络对句子对的语义特征向量进行降维,最后拼接字句向量并送入全连接层计算出2个句子之间的语义匹配度。通过在LCQMC和BQ Corpus数据集上的实验表明,该策略可以有效提取文本语义差异信息,从而使模型表现出更好的效果。 展开更多
关键词 短文本语义匹配 字句向量 表征意图 差异注意
下载PDF
基于不平衡短文本的农业问句分类方法研究
19
作者 成继福 郭晓娟 周俊明 《河南科技学院学报(自然科学版)》 2024年第6期38-48,共11页
目的解决中国农技推广信息平台、中国农业信息网等问答社区中农业问句数据快速自动分类问题.方法针对采集的农业数据集中文本长度较短、样本类别不均衡性等问题,提出了一种文本语义信息扩展的方法.根据农业问句文本的特征,该方法采用Wor... 目的解决中国农技推广信息平台、中国农业信息网等问答社区中农业问句数据快速自动分类问题.方法针对采集的农业数据集中文本长度较短、样本类别不均衡性等问题,提出了一种文本语义信息扩展的方法.根据农业问句文本的特征,该方法采用Word2Vec模型,把问句中的关键词用TextRank算法进行抽取,在Word2Vec模型中查找关键词的近义词,并对关键词进行替换,生成新的同义问句.并用深度学习模型Bi-LSTM、Bi-GRU与增加注意力机制的Bi-LSTM-Att、Bi-GRU-Att和TextRCNN 5种模型对此方法进行验证.结果对比实验结果表明,该方法在5种模型上的Precision、Recall和F1 score均有提升,尤其在Bi-LSTM-Att模型上,Acc和平均F1值分别提升了0.8和2.5个百分点.结论实验结果表明该方法可有效地解决短文本和类别分布不平衡性问题,提高了不平衡短文本分类效果. 展开更多
关键词 短文本分类 不平衡样本 语义信息扩展 农业问句
下载PDF
融合对抗训练与ERNIE的短文本情感分析模型
20
作者 刘婷 杜奕 +1 位作者 曹晓夏 侯淏文 《上海第二工业大学学报》 2024年第1期79-87,共9页
使用深度学习技术进行文本情感分类是近年来自然语言处理领域的研究热点,好的文本表示是提升深度学习模型分类性能的关键因素。由于短文本蕴含情感信息较少、训练时易受噪声干扰,因此提出一种融合对抗训练的文本情感分析模型PERNIE RCN... 使用深度学习技术进行文本情感分类是近年来自然语言处理领域的研究热点,好的文本表示是提升深度学习模型分类性能的关键因素。由于短文本蕴含情感信息较少、训练时易受噪声干扰,因此提出一种融合对抗训练的文本情感分析模型PERNIE RCNN。该模型使用ERNIE预训练模型对输入文本进行向量化,初步提取文本的情感特征。随后在ERNIE预训练模型的输出向量上添加噪声扰动,对原始样本进行对抗攻击生成对抗样本,并将生成的对抗样本送入分类模型进行对抗训练,提高模型面临噪声攻击时的鲁棒性。实验结果表明,PERNIE RCNN模型的文本分类性能更好,泛化能力更优。 展开更多
关键词 短文本情感分析 深度学习 对抗训练 文本分类
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部