期刊文献+
共找到98篇文章
< 1 2 5 >
每页显示 20 50 100
基于对抗训练的事件要素识别方法
1
作者 廖涛 沈文龙 +1 位作者 张顺香 马文祥 《计算机工程与设计》 北大核心 2024年第2期540-545,共6页
针对目前大多数事件要素识别模型未考虑词级别的语义信息,及模型鲁棒性不高的问题,提出一种融合词信息和对抗训练的事件要素识别方法。将Bert(bidirectional encode representations from transformers)预训练语言模型生成的字向量与分... 针对目前大多数事件要素识别模型未考虑词级别的语义信息,及模型鲁棒性不高的问题,提出一种融合词信息和对抗训练的事件要素识别方法。将Bert(bidirectional encode representations from transformers)预训练语言模型生成的字向量与分词信息进行融合,在得到的融合向量中添加扰动因子产生对抗样本,将对抗样本与融合向量表示作为编码层的输入;采用BiGRU(bidirectional gating recurrent unit)网络对输入的文本进行编码,丰富文本的上下文语义信息;采用CRF(conditional random field)函数计算完成事件要素的识别任务。在CEC(Chinese emergency corpus)中文突发事件语料库上的实验结果表明,该方法能够取得较好的效果。 展开更多
关键词 事件要素识别 鲁棒性 词信息 对抗训练 预训练语言模型 扰动因子 上下文语义信息
下载PDF
基于篇章级信息特征增强的中文突发事件检测
2
作者 廖涛 吕玉成 张顺香 《阜阳师范大学学报(自然科学版)》 2024年第1期1-7,共7页
事件检测旨在检测句子中的触发词并将其分类为特定的事件类型。针对目前大多数的中文事件检测方法存在篇章内句子间相互依赖信息利用不充分的问题,提出了基于篇章级信息特征增强的中文突发事件检测方法。首先,通过BERT(Bidirectional En... 事件检测旨在检测句子中的触发词并将其分类为特定的事件类型。针对目前大多数的中文事件检测方法存在篇章内句子间相互依赖信息利用不充分的问题,提出了基于篇章级信息特征增强的中文突发事件检测方法。首先,通过BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型编码字向量,使用平均池化将字向量转换成句子表示信息;其次,利用双向门控循环神经网络(Bidirectional gated recurrent neural network,Bi-GRU)学习句子内和篇章内的上下文隐层信息,接着通过注意力机制(Attention Mechanism)分别得到句子级信息和由若干句子间的相互依赖信息生成的篇章级信息;最后,将篇章级信息融合到句子级信息上后与字向量拼接,再使用条件随机场完成对句子中触发词的识别和标注。实验结果表明,该方法有效的提升了中文突发事件检测效果,F1值达到79.95%。 展开更多
关键词 事件检测 注意力机制 篇章级信息 双向门控循环神经网络
下载PDF
融合反讽语言特征的反讽语句识别模型
3
作者 韦斯羽 朱广丽 +1 位作者 谈光璞 张顺香 《智能系统学报》 CSCD 北大核心 2024年第3期689-696,共8页
反讽是采用内隐的形式来表达情感的一种方法,反讽语句在文字和所想表达的情感上存在着不同,这使得对反讽语句进行情感分类变得更加困难。针对这一现象,提出一种融合反讽语言特征的反讽语句识别模型,通过加入反讽语言特征来提高反讽语句... 反讽是采用内隐的形式来表达情感的一种方法,反讽语句在文字和所想表达的情感上存在着不同,这使得对反讽语句进行情感分类变得更加困难。针对这一现象,提出一种融合反讽语言特征的反讽语句识别模型,通过加入反讽语言特征来提高反讽语句的识别准确率。首先,采用卡方检验算法对反讽语言进行分析并获取语言特征;然后,利用Word2Vec对语言特征进行训练获取语言特征的特征表示,同时使用注意力机制与Bi-GRU(双向门控循环神经单元)模型获取句子的特征表示;最后,将语言特征的特征表示与句子的特征表示进行融合并作为情感分类层的输入,对反讽语句进行识别。与CNN-AT、CNN-Adv、EPSN等3种模型进行对比,实验结果表明,该模型可以有效提高对于反讽语句的识别准确率。 展开更多
关键词 反讽语句识别 语言特征 卡方检验算法 Word2Vec 双向门控循环神经单元 注意力机制 深度学习 智能信息处理
下载PDF
融合多特征和表情情感词典的性别对立言论识别方法
4
作者 马子晨 张顺香 +1 位作者 刘云朵 朱广丽 《数据采集与处理》 CSCD 北大核心 2024年第3期699-709,共11页
为识别相关极端言论,提出了一种融合多特征和表情情感词典的性别对立言论识别方法。首先,使用BERT(Bidirectional encoder representation from transformer)提取输入文本的字符特征,并使用Word2Vec提取输入文本中五笔、郑码以及拼音3... 为识别相关极端言论,提出了一种融合多特征和表情情感词典的性别对立言论识别方法。首先,使用BERT(Bidirectional encoder representation from transformer)提取输入文本的字符特征,并使用Word2Vec提取输入文本中五笔、郑码以及拼音3个方面的特征;然后,将这4个方面的特征进行融合,再输入到Bi-GRU(Bi-directional gated recurrent unit)网络中学习更深层次的语义信息;最后,通过全连接层加SoftMax函数计算出情感极性概率,并融合表情情感词典判别输入文本是否为性别对立言论。通过在自行收集的中文性别对立数据集上进行实验,与未加入特征和表情情感词典的方法相比,在F1值上有5.19%的提升。同时,在公开中文情感分析数据集Weibo_senti_100k上进行验证,证明了本方法的泛化性。 展开更多
关键词 性别对立 表情情感词典 多特征 BERT Bi-GRU Word2Vec
下载PDF
基于双流特征互补的嵌套命名实体识别
5
作者 黄荣梅 廖涛 +1 位作者 张顺香 段松松 《计算机工程与设计》 北大核心 2024年第3期799-805,共7页
针对以往句子在文本编码后不能获得高效的特征信息,提出一种基于双流特征互补的嵌套命名实体识别模型。句子在嵌入时以单词的字级别和字符级别两种方式嵌入,分别通过神经网络Bi-LSTM获取句子上下文信息,两个向量进入低层级与高层级的特... 针对以往句子在文本编码后不能获得高效的特征信息,提出一种基于双流特征互补的嵌套命名实体识别模型。句子在嵌入时以单词的字级别和字符级别两种方式嵌入,分别通过神经网络Bi-LSTM获取句子上下文信息,两个向量进入低层级与高层级的特征互补模块,实体词识别模块和细粒度划分模块对实体词区间进行细粒度划分,获取内部实体。实验结果表明,模型相较于经典模型在特征提取上有较大的提升。 展开更多
关键词 命名实体识别 自然语言处理 嵌套结构 双流特征互补 神经网络 实体词识别 细粒度划分
下载PDF
融合帖文属性的性别歧视言论检测模型
6
作者 王小龙 王琰慧 +2 位作者 张顺香 汪才钦 周渝皓 《计算机科学》 CSCD 北大核心 2024年第6期338-345,共8页
性别歧视言论检测是通过自然语言处理技术来识别文本是否具有性别歧视的倾向,为净化网络环境提供有力支持。当前相关研究仅关注帖文本身,未对帖文属性(用户、帖文以及主题)间的关系进行挖掘。为此,提出一种融合帖文属性的性别歧视言论... 性别歧视言论检测是通过自然语言处理技术来识别文本是否具有性别歧视的倾向,为净化网络环境提供有力支持。当前相关研究仅关注帖文本身,未对帖文属性(用户、帖文以及主题)间的关系进行挖掘。为此,提出一种融合帖文属性的性别歧视言论检测模型,通过构建异构图来挖掘帖文属性间的关系。首先,利用ERNIE对帖文内容进行词嵌入,通过BiGRU模型提取上下文依赖关系,得到句子表征;然后,基于帖文属性关系构建异构图,并利用异构图注意力网络(Heterogeneous Graph Attention Network)得到帖文内容的关系表示;最后,融合帖文内容的关系表示与句子表征,通过Softmax函数进行分类。实验结果表明,所提模型可以提升性别歧视言论检测的准确率。 展开更多
关键词 性别歧视言论 帖文属性 BiGRU 异构图 异构图注意力网络
下载PDF
基于谐音干扰词替换的中文仇恨言论检测方法
7
作者 王琰慧 王小龙 +2 位作者 张顺香 周渝皓 汪才钦 《应用科技》 CAS 2024年第3期72-81,共10页
社交网络中的仇恨言论常含有形式多变的谐音干扰词,使得现有方法难以适应此现象,不能满足即时检测的要求。针对此问题,提出一种基于谐音干扰词替换的中文仇恨言论检测方法,提取原义词替换谐音干扰词,解决原有方法处理相对滞后问题。首先... 社交网络中的仇恨言论常含有形式多变的谐音干扰词,使得现有方法难以适应此现象,不能满足即时检测的要求。针对此问题,提出一种基于谐音干扰词替换的中文仇恨言论检测方法,提取原义词替换谐音干扰词,解决原有方法处理相对滞后问题。首先,对文本预处理,通过N-gram提取干扰词候选项,并利用点间互信息和邻接熵进行过滤;然后,计算拼音相似度筛选出谐音干扰词及其对应的候选原义词,通过语法结构和上下文语义相似确定原义词并对相应谐音干扰词进行替换,将替换后的文本作为分类层输入;最后,使用RoBERTa-wmm-ext得到语义特征,并通过Softmax计算仇恨情感倾向以实现检测任务。在数据集上进行实验,结果表明提出的模型有效地提升中文仇恨言论的检测效果。 展开更多
关键词 仇恨言论检测 谐音干扰词 拼音相似 语法结构 上下文语义 RoBERTa-wmm-ext CNN N-GRAM
下载PDF
基于TS-BiLSTM的电商平台评论质量分类模型
8
作者 高茂娇 张顺香 《计算机仿真》 2024年第5期470-475,共6页
评论质量分类可用于筛选出高质量的评论,广泛应用在电子商务等多个领域。高质量的评论能够有效为商家和消费者提供产品选择的判断依据。但由于电商平台用户评论具有交错性和分散性的特点,特征提取过程较为复杂,传统的评论质量分类普遍... 评论质量分类可用于筛选出高质量的评论,广泛应用在电子商务等多个领域。高质量的评论能够有效为商家和消费者提供产品选择的判断依据。但由于电商平台用户评论具有交错性和分散性的特点,特征提取过程较为复杂,传统的评论质量分类普遍采用机器学习的方法,分类的准确率不高。针对以上问题,提出一种基于TS-BiLSTM(TinyBERT Self-Attention BiLSTM)的电商平台评论质量分类模型。首先用TinyBERT对评论文本进行预处理,构建词向量;然后利用双向长短期记忆网络对输入的词向量进行特征提取,并使用自注意力机制对提取到的特征向量进行加权计算;最后利用全连接与Softmax对加权后的特征向量进行分类,得到分类结果。实验结果表明,所使用的模型能有效提高电商平台评论文本质量分类的准确度。 展开更多
关键词 评论质量 电子商务 双向长短期记忆网络 自注意力机制
下载PDF
面向中文文本分类的字符级对抗样本生成方法 被引量:1
9
作者 张顺香 吴厚月 +2 位作者 朱广丽 许鑫 苏明星 《电子与信息学报》 EI CSCD 北大核心 2023年第6期2226-2235,共10页
对抗样本生成是一种通过添加较小扰动信息,使得神经网络产生误判的技术,可用于检测文本分类模型的鲁棒性。目前,中文领域对抗样本生成方法主要有繁体字和同音字替换等,这些方法都存在对抗样本扰动幅度大,生成对抗样本质量不高的问题。... 对抗样本生成是一种通过添加较小扰动信息,使得神经网络产生误判的技术,可用于检测文本分类模型的鲁棒性。目前,中文领域对抗样本生成方法主要有繁体字和同音字替换等,这些方法都存在对抗样本扰动幅度大,生成对抗样本质量不高的问题。针对这些问题,该文提出一种字符级对抗样本生成方法(PGAS),通过对多音字进行替换可以在较小扰动下生成高质量的对抗样本。首先,构建多音字字典,对多音字进行标注;然后对输入文本进行多音字替换;最后在黑盒模式下进行对抗样本攻击实验。实验在多种情感分类数据集上,针对多种最新的分类模型验证了该方法的有效性。 展开更多
关键词 对抗样本生成 文本分类 情感分类 多音字 字符级对抗样本
下载PDF
基于改进编解码器和情感词典的对话生成模型 被引量:1
10
作者 张顺香 李健 +2 位作者 朱广丽 李晓庆 魏苏波 《计算机工程与设计》 北大核心 2023年第2期570-575,共6页
针对现有对话模型生成的回复语句缺乏情感共鸣、拟人效果不够理想的问题,提出一种基于改进编解码器和情感词典的对话生成模型。利用AgSeq2Seq模型对语料库进行训练并构建高质量对话生成系统,结合情感词典识别输入语句的情绪特征并计算... 针对现有对话模型生成的回复语句缺乏情感共鸣、拟人效果不够理想的问题,提出一种基于改进编解码器和情感词典的对话生成模型。利用AgSeq2Seq模型对语料库进行训练并构建高质量对话生成系统,结合情感词典识别输入语句的情绪特征并计算回复语句的情感值,基于情绪对比机制根据不同的情感特征生成相应的拟人回复。实验结果表明,相对传统的对话生成模型,提出模型可以主动识别用户情绪,生成更加合乎逻辑、适应语境的回复,实现拟人程度更高的情感对话过程。 展开更多
关键词 自然语言处理 对话模型 文本生成 情感词典 深度学习 序列到序列 注意力机制
下载PDF
基于客流类别的轨道交通客流轨迹预测模型
11
作者 张顺香 黄菊 +2 位作者 朱广丽 许鑫 张镇江 《计算机工程与设计》 北大核心 2023年第6期1829-1835,共7页
传统的客流轨迹预测忽视了不同客流类别对客流轨迹预测结果的重要影响,导致客流轨迹预测结果精确度不高,难以给轨交运营单位提供有效决策依据。为精准预测城市轨道交通的客流空间分布,提出一种基于客流类别的轨道交通客流轨迹预测模型,... 传统的客流轨迹预测忽视了不同客流类别对客流轨迹预测结果的重要影响,导致客流轨迹预测结果精确度不高,难以给轨交运营单位提供有效决策依据。为精准预测城市轨道交通的客流空间分布,提出一种基于客流类别的轨道交通客流轨迹预测模型,其核心任务是以客流类别为基础,结合路径属性,利用支持向量机(SVR)得到客流轨迹。利用成都市轨道交通自动售检票系统(AFC)数据进行实验分析,实验结果表明,所提模型具有较高的预测精确度。 展开更多
关键词 客流轨迹 客流类别 轨迹预测 轨交运营 轨道交通 客流空间分布 支持向量机
下载PDF
基于迁移学习和过滤机制的方面级情感分析
12
作者 张顺香 苏明星 李晓庆 《计算机工程与设计》 北大核心 2023年第9期2664-2670,共7页
考虑到迁移学习过程中引入大量与给定方面无关的情感噪音,提出一种基于迁移学习和过滤机制的方面级情感分析模型TLFM。利用预训练文档级情感分析模块学习文档的情感知识,通过共享参数的方式将情感知识传递给方面级情感分析模块;设计一... 考虑到迁移学习过程中引入大量与给定方面无关的情感噪音,提出一种基于迁移学习和过滤机制的方面级情感分析模型TLFM。利用预训练文档级情感分析模块学习文档的情感知识,通过共享参数的方式将情感知识传递给方面级情感分析模块;设计一个注意力过滤模块,该模块聚焦于过滤文档级知识中与给定方面无关的情感;将预学习后的模型TLFM和过滤模块进行联合训练,利用文档级知识的同时,降低噪音的影响。实验结果表明,迁移学习和过滤机制的结合能有效提高方面级情感预测的准确率。 展开更多
关键词 方面级情感分析 注意力机制 过滤机制 双向长短时记忆网络 迁移学习 文档级情感分析 自注意力机制
下载PDF
基于跨度和特征融合的实体关系联合抽取模型 被引量:1
13
作者 廖涛 孙皓洁 张顺香 《计算机工程》 CAS CSCD 北大核心 2023年第6期107-114,共8页
实体关系联合抽取模型在实体关系抽取中具有重要作用,针对现有的实体关系联合抽取模型无法有效识别重叠关系中的实体关系三元组问题,提出一种新型的基于跨度和特征融合的实体关系联合抽取模型SFFM。将文本输入BERT预训练模型转变为词向... 实体关系联合抽取模型在实体关系抽取中具有重要作用,针对现有的实体关系联合抽取模型无法有效识别重叠关系中的实体关系三元组问题,提出一种新型的基于跨度和特征融合的实体关系联合抽取模型SFFM。将文本输入BERT预训练模型转变为词向量,根据跨度进行词向量划分形成跨度序列,并基于卷积神经网络过滤跨度序列中不包含实体的跨度序列,使用双向长短时记忆提取剩余跨度序列融合文本信息后的特征并通过Softmax回归实现实体识别,将文本中的实体和关系映射到不同的跨度序列中,当重叠关系中的实体和距离较远的实体之间存在关系时,按照跨度进行划分使可能存在关系的实体对划分到同一个跨度序列中,以更好地利用文本中的重叠关系。在此基础上,通过注意力机制获取跨度序列中的依赖关系,运用Softmax回归对跨度序列中的关系进行分类。实验结果表明,与基线模型相比,该模型在CoNLL04数据集上的微平均和宏平均分别提升了1.87和1.73个百分点,在SciERC数据集上的微平均提升了5.95个百分点。 展开更多
关键词 联合抽取 实体关系抽取 神经网络 跨度 特征融合
下载PDF
基于多特征融合的双通道医疗实体识别 被引量:1
14
作者 廖涛 马文祥 张顺香 《计算机工程与设计》 北大核心 2023年第10期3146-3152,共7页
针对医疗实体识别中词向量特征单一和忽略文本中局部特征的问题,提出一种基于多特征融合的双通道医疗实体识别模型。对医疗文本字形特征和卷积神经网络进行研究,发现构造的外部特征和挖掘的内部特征进行差异融合能够丰富词向量的特征信... 针对医疗实体识别中词向量特征单一和忽略文本中局部特征的问题,提出一种基于多特征融合的双通道医疗实体识别模型。对医疗文本字形特征和卷积神经网络进行研究,发现构造的外部特征和挖掘的内部特征进行差异融合能够丰富词向量的特征信息;利用注意力机制改进的卷积神经网络实现特征优化选择,区分不同特征的重要性;设计CNN和BiLSTM并行的双通道神经网络,充分考虑文本的局部特征和上下文特征。在CCKS2017数据集上的实验结果表明,该模型能有效提高医疗实体识别的准确率。 展开更多
关键词 命名实体识别 医疗实体 多头注意力机制 多特征融合 卷积注意力机制 双通道神经网络 条件随机场
下载PDF
丰富语义信息的BERT-CRNN突发事件要素识别
15
作者 廖涛 马文祥 张顺香 《阜阳师范大学学报(自然科学版)》 2023年第1期42-48,共7页
利用事件要素识别检测突发事件具有现实意义。针对目前突发事件要素识别任务中存在词向量特征单一和未能充分利用局部特征信息的问题,提出一种丰富语义信息的BERT-CRNN(Bidirectional Encoder Representation from Transformers Convolu... 利用事件要素识别检测突发事件具有现实意义。针对目前突发事件要素识别任务中存在词向量特征单一和未能充分利用局部特征信息的问题,提出一种丰富语义信息的BERT-CRNN(Bidirectional Encoder Representation from Transformers Convolution Recurrent Neural Network)突发事件要素识别方法。首先,将突发事件文本送入BERT预训练模型进行语义提取,获取动态词向量;其次,将动态词向量连接词性、组块等特征,丰富词向量的语义信息;然后,将卷积神经网络和双向门控循环单元组合成CRNN模型,利用CRNN模型进行特征提取,能充分考虑局部特征信息和上下文语义信息;最后,将结果输入到条件随机场自动学习约束条件,得到最终标记序列。实验结果表明,提出的方法在CEC2.0中文突发事件语料库上取得良好的识别效果。 展开更多
关键词 事件要素识别 突发事件 预训练模型 卷积神经网络 双向门控循环单元
下载PDF
基于拼音相似度的中文谐音新词发现方法 被引量:2
16
作者 李瀚臣 张顺香 +1 位作者 朱广丽 王腾科 《计算机应用》 CSCD 北大核心 2023年第9期2715-2720,共6页
新词识别作为自然语言处理的基础任务之一,为构建中文词典、分析词语情感倾向等提供了支持。然而,目前的新词识别方法没有考虑针对谐音新词的识别,导致谐音新词识别的准确率不高。为了解决这一问题,提出一种基于拼音相似度的中文谐音新... 新词识别作为自然语言处理的基础任务之一,为构建中文词典、分析词语情感倾向等提供了支持。然而,目前的新词识别方法没有考虑针对谐音新词的识别,导致谐音新词识别的准确率不高。为了解决这一问题,提出一种基于拼音相似度的中文谐音新词发现方法,引入新旧词拼音比较来提高谐音新词识别的准确率。首先,对文本进行预处理,计算平均互信息(AMI)以判定候选词的内部结合度,并使用改进邻接熵确定候选新词的边界;然后,将保留下的词转换成发音相近的汉语拼音与中文词典中的旧词拼音进行相似度比较,并保留最相似的比较结果;最后,若比较结果超过阈值,则将结果中的新词作为谐音新词,对应的旧词即为谐音新词的原有词。在自建的微博数据集上的实验结果表明,与BNshCNs(Blended Numeric and symbolic homophony Chinese Neologisms)、依存句法与语义信息结合的相似性计算模型(DSSCNN)相比,所提方法的准确率、召回率和F1分数分别提高了0.51和5.27个百分点、2.91和6.31个百分点以及1.75和5.81个百分点。可见所提方法具有更好的中文谐音新词识别效果。 展开更多
关键词 谐音新词 新词识别 拼音相似度 平均互信息 邻接熵
下载PDF
基于字词融合和多头注意力的专利实体识别 被引量:2
17
作者 王腾科 朱广丽 +2 位作者 李瀚臣 刘云朵 张顺香 《计算机工程与设计》 北大核心 2023年第12期3778-3783,共6页
为解决面向专利文本的命名实体识别因难以利用技术词信息导致识别准确率偏低的问题,提出一种基于字词融合和多头注意力的专利实体识别模型CWMA。依据字符在词中位置进行字词融合,获得文本特征向量;通过双向门控循环单元BiGRU从特征向量... 为解决面向专利文本的命名实体识别因难以利用技术词信息导致识别准确率偏低的问题,提出一种基于字词融合和多头注意力的专利实体识别模型CWMA。依据字符在词中位置进行字词融合,获得文本特征向量;通过双向门控循环单元BiGRU从特征向量中学习上下文信息,使用多头注意力增强字符之间的依赖关系;应用条件随机场CRF进行实体识别。在Resume和专利数据集上的实验结果表明,提出模型能够显著提高专利实体识别的准确率。 展开更多
关键词 命名实体识别 专利文本 技术词 字词融合 多头注意力 双向门控循环单元 专利数据集
下载PDF
基于情感信息预处理和Bi-GRU的虚假评论识别模型 被引量:2
18
作者 张玉莹 朱广丽 +2 位作者 张友强 孙争艳 张顺香 《广西科学》 CAS 北大核心 2023年第1期169-176,共8页
虚假评论识别在电子商务、社交媒体等领域具有重要的应用价值。尽管现有虚假评论识别模型融合了文本的情感信息,但在预训练过程中忽视了对情感信息的提取,导致准确率不高。针对此问题,本文提出一种基于情感信息预处理和双向门控循环单元... 虚假评论识别在电子商务、社交媒体等领域具有重要的应用价值。尽管现有虚假评论识别模型融合了文本的情感信息,但在预训练过程中忽视了对情感信息的提取,导致准确率不高。针对此问题,本文提出一种基于情感信息预处理和双向门控循环单元(Bidirectional Gated Recurrent Unit,Bi-GRU)的虚假评论识别模型(FR-SG),用于提高虚假评论识别的准确率。首先,通过Albert模型获取文本的语义向量;然后,使用词频逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)和K均值(K-means++)聚类的方法从评论中挖掘情感种子词,基于种子词对文本中的属性词和情感词进行掩码(mask);接着,使用面向情感的目标优化函数,将情感信息嵌入到语义表示中,生成情感向量;最后,将这两组向量的拼接结果输入虚假评论识别网络中,得到文本的分类结果。实验结果表明,相较于Bi-GRU+Attention模型,FR SG提高了虚假评论识别的准确率。 展开更多
关键词 虚假评论识别 情感信息预处理 情感种子词 Bi-GRU 目标优化函数
下载PDF
CCM-MF:基于多维度特征融合的中文文本分类模型 被引量:1
19
作者 马子晨 张顺香 +2 位作者 刘云朵 王星光 张友强 《广西科学》 CAS 北大核心 2023年第1期35-42,共8页
针对中文文本中不同维度特征所携带的语义信息具有差异性的问题,本文提出一种基于多维度特征融合的中文文本分类模型:CCM-MF(Chinese-text Classification Model Based on FusedMulti-dimensional Features)。该模型融合层次维度和空间... 针对中文文本中不同维度特征所携带的语义信息具有差异性的问题,本文提出一种基于多维度特征融合的中文文本分类模型:CCM-MF(Chinese-text Classification Model Based on FusedMulti-dimensional Features)。该模型融合层次维度和空间维度特征,以提高中文文本分类的准确率。首先,在层次维度上,使用预训练模型ERNIE(Enhanced Representation through Knowledge Integration)获取包含字、词及实体级别特征的词向量;然后,在空间维度上,将包含层次维度特征的词向量分别输入到改进后的深度金字塔卷积神经网络(Deep Pyramid Convolutional Neural Networks,DPCNN)模型及附加注意力机制的双向长短期记忆网络(Attention-Based Bidirectional Long Short-Term Memory Networks,Att-BLSTM)模型中,得到局部语义特征和全局语义特征;最后,将得到的空间维度特征分别作用于Softmax分类器,再对计算结果进行融合并输出分类结果。通过在多个公开数据集上进行实验,较现有主流的文本分类方法,本模型在准确率上有更好的表现,证明了该模型的有效性。 展开更多
关键词 中文文本分类 多维度 ERNIE DPCNN Att-BLSTM
下载PDF
基于正交投影的BiLSTM-CNN情感特征抽取方法
20
作者 魏苏波 张顺香 +2 位作者 朱广丽 孙争艳 李健 《南京师大学报(自然科学版)》 CAS 北大核心 2023年第1期139-148,共10页
基于正交投影的BiLSTM-CNN的情感特征抽取方法旨在从文本中获取带权重的中性词向量,得到具有更高区分度的情感特征,为文本情感分类提供有力的技术支持.传统的深度学习模型会忽略关键局部上下文信息中的特殊意义词,导致获取的情感特征不... 基于正交投影的BiLSTM-CNN的情感特征抽取方法旨在从文本中获取带权重的中性词向量,得到具有更高区分度的情感特征,为文本情感分类提供有力的技术支持.传统的深度学习模型会忽略关键局部上下文信息中的特殊意义词,导致获取的情感特征不够丰富.针对这一问题,本文提出一种基于正交投影的BiLSTM-CNN情感特征抽取方法.首先,将中性词向量投影到情感极性词的正交空间中,得到加权中性词向量,同时通过CNN深度学习模型抽取文本关键语义;然后,利用BiLSTM-Attention模型和带权重的中性词向量,从提取出的关键语义中学习可增强句子情感的语义特征,使文本在情感分类时更具判别性.实验结果表明本文所提出的情感特征抽取方法可以获取更完整的情感特征,从而显著提高文本情感分类的准确率. 展开更多
关键词 文本情感分类 正交投影 BiLSTM CNN
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部