期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
混合特征及多头注意力的中文短文本分类
1
作者 江结林 朱永伟 +2 位作者 许小龙 崔燕 赵英男 《计算机工程与应用》 CSCD 北大核心 2024年第9期237-243,共7页
传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本... 传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本的字符级向量和词级向量表示,以得到更全面的文本特征向量表示;采用多头注意力机制捕捉文本序列中的依赖关系,以提高文本的语义理解;通过卷积神经网络分别提取两种向量表示的特征,并将其融合为一个特征向量,以整合文本的全局和局部信息;通过输出层得到分类结果。在三个公开数据集上的实验表明,HF-MHA能够有效地提升中文短文本分类的性能。 展开更多
关键词 中文短文本分类 注意力机制 词级向量 字符级向量
下载PDF
基于多卷积核字词特征的中文短文本分类方法
2
作者 李攀 吴亚东 +2 位作者 褚琦凯 张贵宇 付朝帅 《四川轻化工大学学报(自然科学版)》 CAS 2023年第1期73-83,共11页
中文短文本存在字数少、歧义多以及信息不规范等特点,导致其文本特征信息难以提取与表达。目前大多数文本分类方法采用单卷积核的卷积神经网络来提取文本局部特征,这通常会由于网络参数随机初始化不一致而导致模型分类效果不佳。为此,... 中文短文本存在字数少、歧义多以及信息不规范等特点,导致其文本特征信息难以提取与表达。目前大多数文本分类方法采用单卷积核的卷积神经网络来提取文本局部特征,这通常会由于网络参数随机初始化不一致而导致模型分类效果不佳。为此,提出了一种基于多卷积核字词特征的短文本分类模型(Multi-CNNFusionofCharactersandWords,MCFCW)。首先采用预训练ERNIE、Word2vec模型丰富文本字词嵌入表示;然后分别采用多卷积核TextCNN、DPCNN充分提取不同角度的文本语义信息,同时有效降低网络参数随机初始化的影响;最后拼接两个通道提取到的字词高层特征向量作为最终的文本分类特征。在THUCNews新闻标题数据集上进行了模型评估。结果表明,模型在精准率、召回率和F1值3种评价指标上均优于目前的主流模型,具有较好的短文本分类效果。 展开更多
关键词 中文短文本分类 ERNIE Word2vec 多卷积核字词特征 卷积神经网络
下载PDF
基于ERNIE-RCNN模型的中文短文本分类 被引量:1
3
作者 王浩畅 孙铭泽 《计算机技术与发展》 2022年第6期28-33,共6页
由于中文短文本存在特征词少、规范性差、数据规模量大等难点,ERNIE预训练模型占用内存大,进行短文本分类时会造成向量空间稀疏、文本预训练不准确、时间复杂度高等问题。针对以上短文本分类存在的问题,提出基于ERNIE-RCNN模型的中文短... 由于中文短文本存在特征词少、规范性差、数据规模量大等难点,ERNIE预训练模型占用内存大,进行短文本分类时会造成向量空间稀疏、文本预训练不准确、时间复杂度高等问题。针对以上短文本分类存在的问题,提出基于ERNIE-RCNN模型的中文短文本分类。模型运用ERNIE模型作为词向量,对实体和词语义单元掩码,后连接Transformer的编码层,对ERNIE层输出的词嵌入向量进行编码,优化模型过拟合问题,增强泛化能力,RCNN模型对ERNIE输入的词向量进行特征提取,卷积层利用大小不同的卷积核提取大小不同的特征值,池化层进行映射处理,最后通过softmax进行分类。将该模型与七种深度学习文本分类模型在中文新闻数据集上进行训练实验,得到了模型在准确率、精准率、召回率、F1值、迭代次数、运行时间上的对比结果,表明ERNIE-RCNN模型能够很好地提取文本中的特征信息,减少了训练时间,有效解决了中文短文本分类的难点,具有很好的分类效果。 展开更多
关键词 中文短文本分类 ERNIE模型 ERNIE-RCNN模型 词向量 特征提取 深度学习
下载PDF
手机取证的中文短文本分类方法
4
作者 徐红 刘衍 《科技创新与应用》 2019年第35期134-135,共2页
手机取证是打击利用手机犯罪的重要手段,手机取证面对的主要技术问题之一是中文短文本分类。文章研究手机取证的中文短文本分类,简析文本分类的流程,探讨改进普通文本分类技术以适应中文短文本分类的需求,以及将BP神经网络应用于文本分... 手机取证是打击利用手机犯罪的重要手段,手机取证面对的主要技术问题之一是中文短文本分类。文章研究手机取证的中文短文本分类,简析文本分类的流程,探讨改进普通文本分类技术以适应中文短文本分类的需求,以及将BP神经网络应用于文本分类器的设计方法。 展开更多
关键词 手机取证 中文短文本分类 神经网络
下载PDF
基于BERT模型的中文短文本分类算法 被引量:66
5
作者 段丹丹 唐加山 +1 位作者 温勇 袁克海 《计算机工程》 CAS CSCD 北大核心 2021年第1期79-86,共8页
针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入S... 针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入Softmax回归模型进行训练与分类。实验结果表明,随着搜狐新闻文本数据量的增加,该算法在测试集上的整体F1值最高达到93%,相比基于TextCNN模型的短文本分类算法提升6个百分点,说明其能有效表示句子层面的语义信息,具有更好的中文短文本分类效果。 展开更多
关键词 中文短文本分类 基于Transformer的双向编码器表示 Softmax回归模型 TextCNN模型 word2vec模型
下载PDF
多特征融合的中文短文本分类模型 被引量:11
6
作者 杨朝强 邵党国 +2 位作者 杨志豪 相艳 马磊 《小型微型计算机系统》 CSCD 北大核心 2020年第7期1421-1426,共6页
针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-feature fusion model,M FFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long ShortTerm M... 针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-feature fusion model,M FFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long ShortTerm Memory)、CNN(Convolutional Neural Networks)和CAPSNET(Capsule Network)模型对短文本进行不同层面的特征提取,并使用Self-attention模型动态调节各模型特征在最终特征构建中的权重系数.在实验部分,本文用MFFM方法与四个短文本分类经典模型(CNN、BILSTM、CAPSNET和CNN-BILSTM)在三个中文短文本数据集上进行验证,为了进一步验证数据融合(将三个中文短文本数据正负样本融合)对MFFM的影响,实验结果表明MFFM模型性能在四个评价指标(F1、Recall、Precision、Accuracy)下优于对比模型.总之,这可表明M FFM是短文本分类模型的一个有用框架. 展开更多
关键词 中文短文本分类 字词向量结合 特征融合 Self-attention模型
下载PDF
基于混合字词特征的中文短文本分类算法 被引量:3
7
作者 刘硕 王庚润 +1 位作者 彭建华 李柯 《计算机科学》 CSCD 北大核心 2022年第4期282-287,共6页
随着信息技术的迅速发展,网络中产生了海量的中文短文本数据。利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点。相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征... 随着信息技术的迅速发展,网络中产生了海量的中文短文本数据。利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点。相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征难以提取与表达。为此,文中提出了一种基于混合字词特征深度神经网络模型的中文短文本分类算法。首先,该算法同时计算出中文短文本的字向量和词向量,并分别对其进行特征提取;然后将提取到的字向量特征和词向量特征进行融合;最后通过全连接层和softmax层完成分类任务。在公开的THUCNews新闻数据集上的测试结果表明,该算法在精确率、召回率和F1值3种评价指标上均优于主流的TextCNN,BiGRU,Bert以及ERNIE_BiGRU等对比模型,具有较好的短文本分类效果。 展开更多
关键词 中文短文本分类 预训练模型 字向量 词向量 卷积神经网络
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:30
8
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-逆文本频率 词向量 隐含狄利克雷分布
下载PDF
基于BERT的中文新闻标题分类 被引量:7
9
作者 苗将 张仰森 李剑龙 《计算机工程与设计》 北大核心 2022年第8期2311-2316,共6页
为解决海量新闻标题分类任务准确率低的问题,提出了一种基于BERT的中文新闻标题分类算法。使用BERT预训练的词向量作为嵌入层,根据输入文本进一步优化词向量,使用单向GRU网络提取主要的文本特征,连接注意力机制,对特征加权求和来调整权... 为解决海量新闻标题分类任务准确率低的问题,提出了一种基于BERT的中文新闻标题分类算法。使用BERT预训练的词向量作为嵌入层,根据输入文本进一步优化词向量,使用单向GRU网络提取主要的文本特征,连接注意力机制,对特征加权求和来调整权重比例,连接单向LSTM网络提取上下文特征,进行分类。实验结果表明,BGAL模型在进行中文新闻标题分类任务时,可以有效兼顾分类精度和运算效率,在处理THUCNews数据集时,达到了94.78%的准确度,比BERT_RNN高出1.07%。 展开更多
关键词 中文短文本分类 自然语言处理 深度学习 神经网络 可变的双向编码器
下载PDF
基于改进CHI的新的短文本混合特征选择方法
10
作者 张强强 苏变萍 李敏 《信息与电脑》 2018年第16期34-36,共3页
在短文本分类中,特征项的选择和特征权重的计算是非常重要的两个步骤。传统卡方统计量方法(CHI)存在特征项与类别负相关的问题,使得短文本分类模型的性能并不好。笔者就此问题提出了一种新的混合特征选择算法,用改进的短文本类关键词抽... 在短文本分类中,特征项的选择和特征权重的计算是非常重要的两个步骤。传统卡方统计量方法(CHI)存在特征项与类别负相关的问题,使得短文本分类模型的性能并不好。笔者就此问题提出了一种新的混合特征选择算法,用改进的短文本类关键词抽取方法,结合改进的CHI特征选择的方法,以及将类关键词扩展到文档向量中,有效克服了CHI方法的特征项与类别负相关的问题。通过对网络医务咨询短文本分类的实验,对新算法与传统CHI方法以及其他特征选择算法的实验结果作对比,表明了新算法要优于传统特征选择算法。 展开更多
关键词 中文短文本分类 混合特征选择 类关键词 CHI TF-IDF
下载PDF
TI-FastText自动商品分类算法 被引量:1
11
作者 邵欣欣 《计算机科学》 CSCD 北大核心 2022年第S01期206-210,共5页
为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在... 为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在计算输入词序列向量均值时,偏向高群分度的词条;最后将文本内容以字符顺序进行大小为N的窗口滑动操作,使其更适用于商品标题分类。基于Anaconda平台,对基于FastText的商品分类算法进行实现和优化,经评估,最终的分类器准确率较高,能够满足电商平台对商品分类的需求。 展开更多
关键词 商品分类 中文短文本分类 FastText TF-IDF
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部