期刊文献+
共找到89篇文章
< 1 2 5 >
每页显示 20 50 100
中文文本2-分类模型在上证指数趋势分析中的应用研究
1
作者 李长荣 阚戈 《齐齐哈尔大学学报(自然科学版)》 2005年第2期33-36,共4页
研究了基于概念的中文文本特征表示技术,并提出一个应用于上证指数趋势分析的中文文本2-分类模型。
关键词 文本挖掘 趋势分析 概念 机器学习 中文文本2-分类模型
下载PDF
语义增强图像-文本预训练模型的零样本三维模型分类
2
作者 丁博 张立宝 +1 位作者 秦健 何勇军 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第8期3314-3323,共10页
目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法... 目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法。该方法首先将3维模型表示成多视图;然后为了增强零样本学习对未知类别的识别能力,通过视觉语言生成模型获得每张视图及其类别的语义描述性文本,并将其作为视图和类别提示文本之间的语义桥梁,语义描述性文本采用图像字幕和视觉问答两种方式获取;最后微调语义编码器将语义描述性文本具化为类别的语义描述,其拥有丰富的语义信息和较好的可解释性,有效减小了视图和类别提示文本的语义鸿沟。实验表明,该文方法在ModelNet10和ModelNet40数据集上的分类性能优于现有的零样本分类方法。 展开更多
关键词 3维模型分类 零样本 基于对比学习的图像-文本预训练模型 语义描述性文本
下载PDF
基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 被引量:17
3
作者 毛伟 徐蔚然 郭军 《中文信息学报》 CSCD 北大核心 2006年第3期29-35,共7页
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数... 本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。 展开更多
关键词 计算机应用 中文信息处理 中文文本分类 N-GRAM语言模型 链状朴素贝叶斯分类
下载PDF
基于ERNIE-RCNN模型的中文短文本分类 被引量:4
4
作者 王浩畅 孙铭泽 《计算机技术与发展》 2022年第6期28-33,共6页
由于中文短文本存在特征词少、规范性差、数据规模量大等难点,ERNIE预训练模型占用内存大,进行短文本分类时会造成向量空间稀疏、文本预训练不准确、时间复杂度高等问题。针对以上短文本分类存在的问题,提出基于ERNIE-RCNN模型的中文短... 由于中文短文本存在特征词少、规范性差、数据规模量大等难点,ERNIE预训练模型占用内存大,进行短文本分类时会造成向量空间稀疏、文本预训练不准确、时间复杂度高等问题。针对以上短文本分类存在的问题,提出基于ERNIE-RCNN模型的中文短文本分类。模型运用ERNIE模型作为词向量,对实体和词语义单元掩码,后连接Transformer的编码层,对ERNIE层输出的词嵌入向量进行编码,优化模型过拟合问题,增强泛化能力,RCNN模型对ERNIE输入的词向量进行特征提取,卷积层利用大小不同的卷积核提取大小不同的特征值,池化层进行映射处理,最后通过softmax进行分类。将该模型与七种深度学习文本分类模型在中文新闻数据集上进行训练实验,得到了模型在准确率、精准率、召回率、F1值、迭代次数、运行时间上的对比结果,表明ERNIE-RCNN模型能够很好地提取文本中的特征信息,减少了训练时间,有效解决了中文短文本分类的难点,具有很好的分类效果。 展开更多
关键词 中文文本分类 ERNIE模型 ERNIE-RCNN模型 词向量 特征提取 深度学习
下载PDF
弹幕文本情感分类模型研究--基于中文预训练模型与双向长短期记忆网络 被引量:4
5
作者 陈志刚 岳倩 赵威 《湖北工业大学学报》 2021年第6期56-61,共6页
针对弹幕文本的口语化、网络化、一词多义等特点,提出BERT-wwm-BiLSTM模型以提升情感分类准确率。该模型引入BERT-wwm预训练模型,得到有关上下文信息的动态词向量,采用BiLSTM对特征进行提取,最后使用softmax进行情感分类。在自建的bilib... 针对弹幕文本的口语化、网络化、一词多义等特点,提出BERT-wwm-BiLSTM模型以提升情感分类准确率。该模型引入BERT-wwm预训练模型,得到有关上下文信息的动态词向量,采用BiLSTM对特征进行提取,最后使用softmax进行情感分类。在自建的bilibili和腾讯视频两个弹幕数据集上进行实验,Acc、p、R、F_(1)值等4个指标均优于其他模型,且在一词多义弹幕文本中有突出表现,证明该模型在弹幕文本情感分类中的有效性。 展开更多
关键词 弹幕文本情感分类 中文预训练模型 双向长短时记忆网络
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:31
6
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文文本分类 FastText 词频-文本频率 词向量 隐含狄利克雷分布
下载PDF
一个基于向量空间模型的中文文本自动分类系统 被引量:45
7
作者 朱华宇 孙正兴 张福炎 《计算机工程》 CAS CSCD 北大核心 2001年第2期15-17,63,共4页
介绍了一个基于向量空间模型的中文文本自动分类系统,重点阐述了特征提取、空间降维、层次分类和分类器训练等技术的实现方法。实践表明:该系统对文本分类具有较高的平均查全率和平均精度。
关键词 中文文本自动分类系统 向量空间模型 自然语言处理
下载PDF
一个基于概念的中文文本分类模型 被引量:17
8
作者 苏伟峰 李绍滋 李堂秋 《计算机工程与应用》 CSCD 北大核心 2002年第6期193-195,共3页
文章提出一个电子文档的自动分类的模型:基于《知网》之上,经过对文档的关键词的抽取和排歧,进而得到关键词的概念,再对关键词的概念进行综合而得到该文本所属的类别,实验证明该模型有较好的效果。
关键词 中文信息处理 中文文本分类 诣义模型 概念
下载PDF
关于Word2Vec文本分类效果若干影响因素的分析 被引量:4
9
作者 谢庆恒 《现代信息科技》 2024年第1期125-129,共5页
Word2Vec向量模型参数众多,在不同情景下分类效果不一,分析其影响因素很有必要。从Word2Vec模型基本原理出发,分析讨论了预训练语料、词向量预训练参数以及分类模型参数三大因素对模型分类效果的影响。结果表明限定域预料效果好于广域预... Word2Vec向量模型参数众多,在不同情景下分类效果不一,分析其影响因素很有必要。从Word2Vec模型基本原理出发,分析讨论了预训练语料、词向量预训练参数以及分类模型参数三大因素对模型分类效果的影响。结果表明限定域预料效果好于广域预料;预训练参数中向量维度越大,效果越好,窗口大小存在最优值,分类算法影响不大;分类模型参数中学习率、激活函数、批次大小对模型分类效果影响较大,训练轮次相对较小。 展开更多
关键词 Word2Vec 文本分类 模型效果 影响因素
下载PDF
基于BERT模型的中文短文本分类算法 被引量:82
10
作者 段丹丹 唐加山 +1 位作者 温勇 袁克海 《计算机工程》 CAS CSCD 北大核心 2021年第1期79-86,共8页
针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入S... 针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入Softmax回归模型进行训练与分类。实验结果表明,随着搜狐新闻文本数据量的增加,该算法在测试集上的整体F1值最高达到93%,相比基于TextCNN模型的短文本分类算法提升6个百分点,说明其能有效表示句子层面的语义信息,具有更好的中文短文本分类效果。 展开更多
关键词 中文文本分类 基于Transformer的双向编码器表示 Softmax回归模型 TextCNN模型 word2vec模型
下载PDF
多特征融合的中文短文本分类模型 被引量:14
11
作者 杨朝强 邵党国 +2 位作者 杨志豪 相艳 马磊 《小型微型计算机系统》 CSCD 北大核心 2020年第7期1421-1426,共6页
针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-feature fusion model,M FFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long ShortTerm M... 针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-feature fusion model,M FFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long ShortTerm Memory)、CNN(Convolutional Neural Networks)和CAPSNET(Capsule Network)模型对短文本进行不同层面的特征提取,并使用Self-attention模型动态调节各模型特征在最终特征构建中的权重系数.在实验部分,本文用MFFM方法与四个短文本分类经典模型(CNN、BILSTM、CAPSNET和CNN-BILSTM)在三个中文短文本数据集上进行验证,为了进一步验证数据融合(将三个中文短文本数据正负样本融合)对MFFM的影响,实验结果表明MFFM模型性能在四个评价指标(F1、Recall、Precision、Accuracy)下优于对比模型.总之,这可表明M FFM是短文本分类模型的一个有用框架. 展开更多
关键词 中文文本分类 字词向量结合 特征融合 Self-attention模型
下载PDF
基于ICD-11慢性疼痛分类对中文简版SF-MPQ-2量表的信效度检验 被引量:30
12
作者 王江林 张维军 +3 位作者 罗文俊 杜瑞 田东华 陈军 《中国疼痛医学杂志》 CAS CSCD 北大核心 2020年第4期270-275,共6页
目的:在国际疾病分类(International Classification of Disease,ICD)11版首次收录慢性疼痛并进行了分类背景下,对简版麦吉尔疼痛问卷-2(Short-form McGill Pain Questionnaire-2,SF-MPQ-2)进行中文翻译,并利用样本人群对其进行信效度... 目的:在国际疾病分类(International Classification of Disease,ICD)11版首次收录慢性疼痛并进行了分类背景下,对简版麦吉尔疼痛问卷-2(Short-form McGill Pain Questionnaire-2,SF-MPQ-2)进行中文翻译,并利用样本人群对其进行信效度检验。方法:研究团队与北京师范大学社会发展与公共政策学院共同进行了英文版SF-MPQ-2量表的翻译、回译及文化调试。分别运用相关分析、信度分析、主成分分析和验证性因子分析,对中文简版麦吉尔疼痛问卷-2(SF-MPQ-2-CN)的信度和效度进行评价。结果:按ICD-11七大类慢性疼痛进行评估,在评估慢性内脏疼痛时,中文简版麦吉尔疼痛问卷-2四个维度和整个量表的ICC(Intraclass Correlation Coef?cient,ICC)系数分别为0.909,0.973,0.988,0.952和0.927,且两次评估的Cronbach’s alpha系数都大于0.8。通过主成分分析提取了4个公共因子,同预想的中文简版麦吉尔疼痛问卷-2维度一致,分别为:持续性疼痛、阵发性疼痛、神经病理性疼痛、对情绪的影响。4个公共因子的累计方差贡献率为73.55%,且每个条目在相应因子上的负荷量均大于0.4;评估神经病理性疼痛时,中文简版麦吉尔疼痛问卷-2四个维度的Cronbach’s alpha值分别为0.357、0.629、0.517和0.505;针对慢性头痛和颌面部疼痛,其四个维度的Cronbach’s alpha值依次为0.668、0.527、0.542及0.549;在评估慢性肌肉骨骼疼痛时,其四个维度的Cronbach’s alpha系数分别为0.465、0.656、0.494及0.576。结论:中文简版麦吉尔疼痛问卷-2在评估慢性内脏疼痛上具有良好的信度和效度,但在其他分类疼痛上的适用性仍需要进一步验证,建议在研制评估量表时使用ICD-11对慢性疼痛的分类,提升相关评估工具的信度和效度。 展开更多
关键词 慢性疼痛 国际疾病分类 中文简版麦吉尔疼痛问卷-2 信度 效度
下载PDF
基于组合-卷积神经网络的中文新闻文本分类 被引量:24
13
作者 张昱 刘开峰 +2 位作者 张全新 王艳歌 高凯龙 《电子学报》 EI CAS CSCD 北大核心 2021年第6期1059-1067,共9页
目前的新闻分类研究以英文居多,而且常用的传统机器学习方法在长文本处理方面,存在局部文本块特征提取不完善的问题.为了解决中文新闻分类缺乏专门术语集的问题,采用构造数据索引的方法,制作了适合中文新闻分类的词汇表,并结合word2vec... 目前的新闻分类研究以英文居多,而且常用的传统机器学习方法在长文本处理方面,存在局部文本块特征提取不完善的问题.为了解决中文新闻分类缺乏专门术语集的问题,采用构造数据索引的方法,制作了适合中文新闻分类的词汇表,并结合word2vec预训练词向量进行文本特征构建.为了解决特征提取不完善的问题,通过改进经典卷积神经网络模型结构,研究不同的卷积和池化操作对分类结果的影响.为提高新闻文本分类的精确率,本文提出并实现了一种组合-卷积神经网络模型,设计了有效的模型正则化和优化方法.实验结果表明,组合-卷积神经网络模型对中文新闻文本分类的精确率达到93.69%,相比最优的传统机器学习方法和经典卷积神经网络模型精确率分别提升6.34%和1.19%,并在召回率和F值两项指标上均优于对比模型. 展开更多
关键词 自然语言处理 词向量 组合-卷积神经网络 中文新闻 文本分类
下载PDF
基于“2-4”模型的建筑施工高处坠落事故原因分类与统计分析 被引量:48
14
作者 张洪 宫运华 傅贵 《中国安全生产科学技术》 CAS CSCD 北大核心 2017年第9期169-174,共6页
为了明确建筑施工高处坠落事故的原因分类及各类原因的发生频次概况,采用事故致因"2-4"模型分析了2000—2016年间的56起建筑施工高处坠落事故,并对各类原因进行了分类和统计分析。分析得出安全管理体系缺欠7类共62项,其中,无... 为了明确建筑施工高处坠落事故的原因分类及各类原因的发生频次概况,采用事故致因"2-4"模型分析了2000—2016年间的56起建筑施工高处坠落事故,并对各类原因进行了分类和统计分析。分析得出安全管理体系缺欠7类共62项,其中,无安全技术交底或技术交底不合格、安全组织机构不合格、无施工组织设计方案或方案不合格出现频次位于前三位;得出安全知识不足62项,安全意识不高58项,较管理者而言,一线操作者的安全知识不足和安全意识不高问题均占多数;得出不安全动作19类共296个,其中,安全培训缺失或不到位和劳动防护用品的缺乏和不正确使用2类不安全动作发生频率较高;得出不安全物态6类共54项,其中出现频率较高的是安全防护栏杆缺失或存在缺陷、脚手架或作业平台搭设不规范、安全网缺失或存在缺陷。 展开更多
关键词 高处坠落 2-4”模型 事故原因分类与统计 不安全动作 不安全物态 安全管理体系缺欠
下载PDF
基于增强语言表示模型的网络新闻长文本分类的研究
15
作者 许楠桸 柯圆圆 胡晓莉 《江汉大学学报(自然科学版)》 2024年第4期37-44,共8页
基于网络实时新闻内容数据,对一份具有时效的中文长文本数据集进行了新闻主题分类。利用年度关键词增强的分词方案提升分词精度,采用一种长文本压缩方法处理中文长文本的特殊数据,具体方法为选择关键句并利用TF-IDF算法提取长文本中关键... 基于网络实时新闻内容数据,对一份具有时效的中文长文本数据集进行了新闻主题分类。利用年度关键词增强的分词方案提升分词精度,采用一种长文本压缩方法处理中文长文本的特殊数据,具体方法为选择关键句并利用TF-IDF算法提取长文本中关键词,再将组合的新文本进行词向量训练。最后,采用增强的语言表示模型进行新闻主题分类,并与6种机器学习和深度学习模型进行对比评估,评价指标为召回率、准确率、精度和F1分数等。实验结果表明:本文的模型可通过提取16个重要词对实时新闻长文本进行有效的分类。 展开更多
关键词 ERNIE模型 预训练模型 新闻分类 文本处理 中文文本
下载PDF
基于Word2Vec和改进注意力机制AlexNet-2的文本分类方法 被引量:13
16
作者 钟桂凤 庞雄文 隋栋 《计算机科学》 CSCD 北大核心 2022年第4期288-293,共6页
为了提高文本分类的准确性和运行效率,提出一种Word2Vec文本表征和改进注意力机制AlexNet-2的文本分类方法。首先,利用Word2Vec对文本词特征进行嵌入表示,并训练词向量,将文本表示成分布式向量的形式;然后,利用改进的AlexNet-2对长距离... 为了提高文本分类的准确性和运行效率,提出一种Word2Vec文本表征和改进注意力机制AlexNet-2的文本分类方法。首先,利用Word2Vec对文本词特征进行嵌入表示,并训练词向量,将文本表示成分布式向量的形式;然后,利用改进的AlexNet-2对长距离词相依性进行有效编码,同时对模型添加注意力机制,以高效学习目标词的上下文嵌入语义,并根据词向量的输入与最终预测结果的相关性,进行词权重的调整。实验在3个公开数据集中进行评估,分析了大量样本标注和少量样本标注的情形。实验结果表明,与已有的优秀方法相比,所提方法可以明显提高文本分类的性能和运行效率。 展开更多
关键词 文本分类 注意力机制 AlexNet-2模型 上下文嵌入 词相依性
下载PDF
基于TF-IDF与word2vec的台词文本分类研究 被引量:4
17
作者 但宇豪 黄继风 +1 位作者 杨琳 高海 《上海师范大学学报(自然科学版)》 2020年第1期89-95,共7页
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法.该方法通过引入信息熵及修正因子,缓解了数据不平衡对分... 为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法.该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%. 展开更多
关键词 词频-文本频率(TF-IDF) word2vec 信息熵 文本分类 机器学习 加权
下载PDF
基于word2vec和logistic回归的中文专利文本分类研究 被引量:5
18
作者 程盼 徐弼军 《浙江科技学院学报》 CAS 2021年第6期454-460,共7页
专利文本作为重要的信息载体,对其实现自动分类具有重要的研究意义。针对海量的专利文本,提出一种基于word2vec和logistic回归的中文专利文本分类模型的机器学习方法。本方法利用word2vec产生的词向量对专利文本进行表示,然后配合logis... 专利文本作为重要的信息载体,对其实现自动分类具有重要的研究意义。针对海量的专利文本,提出一种基于word2vec和logistic回归的中文专利文本分类模型的机器学习方法。本方法利用word2vec产生的词向量对专利文本进行表示,然后配合logistic回归模型,对专利说明和摘要合并的文本语料进行学习和训练,从而实现对专利文本的自动分类。试验结果表明,我们提出的机器学习方法能够得到较好的分类效果,其中个别类别的分类准确率达到了84%;并且与k近邻算法相比,该模型在精确度、召回率及F_(1)值方面均有显著提高。本方法可为专利文本自动分类提供可靠的研究依据。 展开更多
关键词 中文专利 文本分类 word2vec LOGISTIC回归 机器学习
下载PDF
基于预训练模型融合深层特征词向量的中文文本分类 被引量:3
19
作者 汤英杰 刘媛华 《上海理工大学学报》 CAS CSCD 北大核心 2023年第2期189-197,204,共10页
为解决传统模型表示出的词向量存在序列、上下文、语法、语义以及深层次的信息表示不明的情况,提出一种基于预训练模型(Roberta)融合深层特征词向量的深度神经网络模型,处理中文文本分类的问题。通过Roberta模型生成含有上下文语义、语... 为解决传统模型表示出的词向量存在序列、上下文、语法、语义以及深层次的信息表示不明的情况,提出一种基于预训练模型(Roberta)融合深层特征词向量的深度神经网络模型,处理中文文本分类的问题。通过Roberta模型生成含有上下文语义、语法信息的句子向量和含有句子结构特征的词向量,使用DPCNN模型和改进门控模型(RGRU)对词向量进行特征提取和融合,得到含有深层结构和局部信息的特征词向量,将句子向量与特征词向量融合在一起得到新向量。最后,新向量经过softmax激活层后,输出结果。在实验结果中,以F1值、准确率、召回率为评价标准,在THUCNews长文本中,这些指标分别达到了98.41%,98.44%,98.41%。同时,该模型在短文本分类中也取得了很好的成绩。 展开更多
关键词 预训练模型 Roberta模型 DPCNN模型 特征词向量 中文文本分类
下载PDF
基于BERT-BiGRU模型的文本分类研究 被引量:10
20
作者 王紫音 于青 《天津理工大学学报》 2021年第4期40-46,共7页
文本分类是自然语言处理的典型应用,目前文本分类最常用的是深度学习的分类方法。针对中文文本数据具有多种特性,例如隐喻表达、语义多义性、语法特异性等,在文本分类中进行研究。提出基于编码器-解码器的双向编码表示法-双向门控制循... 文本分类是自然语言处理的典型应用,目前文本分类最常用的是深度学习的分类方法。针对中文文本数据具有多种特性,例如隐喻表达、语义多义性、语法特异性等,在文本分类中进行研究。提出基于编码器-解码器的双向编码表示法-双向门控制循环单元(bidirectional encoder representations from transformers-bidirectional gate recurrent unit,BERT-BiGRU)模型结构,使用BERT模型代替传统的Word2vec模型表示词向量,根据上下文信息计算字的表示,在融合上下文信息的同时还能根据字的多义性进行调整,增强了字的语义表示。在BERT模型后面增加了BiGRU,将训练后的词向量作为Bi GRU的输入进行训练,该模型可以同时从两个方向对文本信息进行特征提取,使模型具有更好的文本表示信息能力,达到更精确的文本分类效果。使用提出的BERT-BiGRU模型进行文本分类,最终准确率达到0.93,召回率达到0.94,综合评价数值F1达到0.93。通过与其他模型的试验结果对比,发现BERT-BiGRU模型在中文文本分类任务中有良好的性能。 展开更多
关键词 文本分类 深度学习 基于编码器-解码器的双向编码表示法(bidirectional encoder representations from transformers BERT)模型 双向门控制循环单元(bidirectional gate recurrent unit BiGRU)
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部