期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
11
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
混合特征及多头注意力的中文短文本分类
1
作者
江结林
朱永伟
+2 位作者
许小龙
崔燕
赵英男
《计算机工程与应用》
CSCD
北大核心
2024年第9期237-243,共7页
传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本...
传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本的字符级向量和词级向量表示,以得到更全面的文本特征向量表示;采用多头注意力机制捕捉文本序列中的依赖关系,以提高文本的语义理解;通过卷积神经网络分别提取两种向量表示的特征,并将其融合为一个特征向量,以整合文本的全局和局部信息;通过输出层得到分类结果。在三个公开数据集上的实验表明,HF-MHA能够有效地提升中文短文本分类的性能。
展开更多
关键词
中文短文本分类
注意力机制
词级向量
字符级向量
下载PDF
职称材料
基于多卷积核字词特征的中文短文本分类方法
2
作者
李攀
吴亚东
+2 位作者
褚琦凯
张贵宇
付朝帅
《四川轻化工大学学报(自然科学版)》
CAS
2023年第1期73-83,共11页
中文短文本存在字数少、歧义多以及信息不规范等特点,导致其文本特征信息难以提取与表达。目前大多数文本分类方法采用单卷积核的卷积神经网络来提取文本局部特征,这通常会由于网络参数随机初始化不一致而导致模型分类效果不佳。为此,...
中文短文本存在字数少、歧义多以及信息不规范等特点,导致其文本特征信息难以提取与表达。目前大多数文本分类方法采用单卷积核的卷积神经网络来提取文本局部特征,这通常会由于网络参数随机初始化不一致而导致模型分类效果不佳。为此,提出了一种基于多卷积核字词特征的短文本分类模型(Multi-CNNFusionofCharactersandWords,MCFCW)。首先采用预训练ERNIE、Word2vec模型丰富文本字词嵌入表示;然后分别采用多卷积核TextCNN、DPCNN充分提取不同角度的文本语义信息,同时有效降低网络参数随机初始化的影响;最后拼接两个通道提取到的字词高层特征向量作为最终的文本分类特征。在THUCNews新闻标题数据集上进行了模型评估。结果表明,模型在精准率、召回率和F1值3种评价指标上均优于目前的主流模型,具有较好的短文本分类效果。
展开更多
关键词
中文短文本分类
ERNIE
Word2vec
多卷积核字词特征
卷积神经网络
下载PDF
职称材料
基于ERNIE-RCNN模型的中文短文本分类
被引量:
1
3
作者
王浩畅
孙铭泽
《计算机技术与发展》
2022年第6期28-33,共6页
由于中文短文本存在特征词少、规范性差、数据规模量大等难点,ERNIE预训练模型占用内存大,进行短文本分类时会造成向量空间稀疏、文本预训练不准确、时间复杂度高等问题。针对以上短文本分类存在的问题,提出基于ERNIE-RCNN模型的中文短...
由于中文短文本存在特征词少、规范性差、数据规模量大等难点,ERNIE预训练模型占用内存大,进行短文本分类时会造成向量空间稀疏、文本预训练不准确、时间复杂度高等问题。针对以上短文本分类存在的问题,提出基于ERNIE-RCNN模型的中文短文本分类。模型运用ERNIE模型作为词向量,对实体和词语义单元掩码,后连接Transformer的编码层,对ERNIE层输出的词嵌入向量进行编码,优化模型过拟合问题,增强泛化能力,RCNN模型对ERNIE输入的词向量进行特征提取,卷积层利用大小不同的卷积核提取大小不同的特征值,池化层进行映射处理,最后通过softmax进行分类。将该模型与七种深度学习文本分类模型在中文新闻数据集上进行训练实验,得到了模型在准确率、精准率、召回率、F1值、迭代次数、运行时间上的对比结果,表明ERNIE-RCNN模型能够很好地提取文本中的特征信息,减少了训练时间,有效解决了中文短文本分类的难点,具有很好的分类效果。
展开更多
关键词
中文短文本分类
ERNIE模型
ERNIE-RCNN模型
词向量
特征提取
深度学习
下载PDF
职称材料
手机取证的中文短文本分类方法
4
作者
徐红
刘衍
《科技创新与应用》
2019年第35期134-135,共2页
手机取证是打击利用手机犯罪的重要手段,手机取证面对的主要技术问题之一是中文短文本分类。文章研究手机取证的中文短文本分类,简析文本分类的流程,探讨改进普通文本分类技术以适应中文短文本分类的需求,以及将BP神经网络应用于文本分...
手机取证是打击利用手机犯罪的重要手段,手机取证面对的主要技术问题之一是中文短文本分类。文章研究手机取证的中文短文本分类,简析文本分类的流程,探讨改进普通文本分类技术以适应中文短文本分类的需求,以及将BP神经网络应用于文本分类器的设计方法。
展开更多
关键词
手机取证
中文短文本分类
神经网络
下载PDF
职称材料
基于BERT模型的中文短文本分类算法
被引量:
66
5
作者
段丹丹
唐加山
+1 位作者
温勇
袁克海
《计算机工程》
CAS
CSCD
北大核心
2021年第1期79-86,共8页
针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入S...
针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入Softmax回归模型进行训练与分类。实验结果表明,随着搜狐新闻文本数据量的增加,该算法在测试集上的整体F1值最高达到93%,相比基于TextCNN模型的短文本分类算法提升6个百分点,说明其能有效表示句子层面的语义信息,具有更好的中文短文本分类效果。
展开更多
关键词
中文短文本分类
基于Transformer的双向编码器表示
Softmax回归模型
TextCNN模型
word2vec模型
下载PDF
职称材料
多特征融合的中文短文本分类模型
被引量:
11
6
作者
杨朝强
邵党国
+2 位作者
杨志豪
相艳
马磊
《小型微型计算机系统》
CSCD
北大核心
2020年第7期1421-1426,共6页
针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-feature fusion model,M FFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long ShortTerm M...
针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-feature fusion model,M FFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long ShortTerm Memory)、CNN(Convolutional Neural Networks)和CAPSNET(Capsule Network)模型对短文本进行不同层面的特征提取,并使用Self-attention模型动态调节各模型特征在最终特征构建中的权重系数.在实验部分,本文用MFFM方法与四个短文本分类经典模型(CNN、BILSTM、CAPSNET和CNN-BILSTM)在三个中文短文本数据集上进行验证,为了进一步验证数据融合(将三个中文短文本数据正负样本融合)对MFFM的影响,实验结果表明MFFM模型性能在四个评价指标(F1、Recall、Precision、Accuracy)下优于对比模型.总之,这可表明M FFM是短文本分类模型的一个有用框架.
展开更多
关键词
中文短文本分类
字词向量结合
特征融合
Self-attention模型
下载PDF
职称材料
基于混合字词特征的中文短文本分类算法
被引量:
3
7
作者
刘硕
王庚润
+1 位作者
彭建华
李柯
《计算机科学》
CSCD
北大核心
2022年第4期282-287,共6页
随着信息技术的迅速发展,网络中产生了海量的中文短文本数据。利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点。相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征...
随着信息技术的迅速发展,网络中产生了海量的中文短文本数据。利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点。相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征难以提取与表达。为此,文中提出了一种基于混合字词特征深度神经网络模型的中文短文本分类算法。首先,该算法同时计算出中文短文本的字向量和词向量,并分别对其进行特征提取;然后将提取到的字向量特征和词向量特征进行融合;最后通过全连接层和softmax层完成分类任务。在公开的THUCNews新闻数据集上的测试结果表明,该算法在精确率、召回率和F1值3种评价指标上均优于主流的TextCNN,BiGRU,Bert以及ERNIE_BiGRU等对比模型,具有较好的短文本分类效果。
展开更多
关键词
中文短文本分类
预训练模型
字向量
词向量
卷积神经网络
下载PDF
职称材料
融合TF-IDF和LDA的中文FastText短文本分类方法
被引量:
30
8
作者
冯勇
屈渤浩
+2 位作者
徐红艳
王嵘冰
张永刚
《应用科学学报》
CAS
CSCD
北大核心
2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio...
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率.
展开更多
关键词
中文短文本分类
FastText
词频-逆
文本
频率
词向量
隐含狄利克雷分布
下载PDF
职称材料
基于BERT的中文新闻标题分类
被引量:
7
9
作者
苗将
张仰森
李剑龙
《计算机工程与设计》
北大核心
2022年第8期2311-2316,共6页
为解决海量新闻标题分类任务准确率低的问题,提出了一种基于BERT的中文新闻标题分类算法。使用BERT预训练的词向量作为嵌入层,根据输入文本进一步优化词向量,使用单向GRU网络提取主要的文本特征,连接注意力机制,对特征加权求和来调整权...
为解决海量新闻标题分类任务准确率低的问题,提出了一种基于BERT的中文新闻标题分类算法。使用BERT预训练的词向量作为嵌入层,根据输入文本进一步优化词向量,使用单向GRU网络提取主要的文本特征,连接注意力机制,对特征加权求和来调整权重比例,连接单向LSTM网络提取上下文特征,进行分类。实验结果表明,BGAL模型在进行中文新闻标题分类任务时,可以有效兼顾分类精度和运算效率,在处理THUCNews数据集时,达到了94.78%的准确度,比BERT_RNN高出1.07%。
展开更多
关键词
中文短文本分类
自然语言处理
深度学习
神经网络
可变的双向编码器
下载PDF
职称材料
基于改进CHI的新的短文本混合特征选择方法
10
作者
张强强
苏变萍
李敏
《信息与电脑》
2018年第16期34-36,共3页
在短文本分类中,特征项的选择和特征权重的计算是非常重要的两个步骤。传统卡方统计量方法(CHI)存在特征项与类别负相关的问题,使得短文本分类模型的性能并不好。笔者就此问题提出了一种新的混合特征选择算法,用改进的短文本类关键词抽...
在短文本分类中,特征项的选择和特征权重的计算是非常重要的两个步骤。传统卡方统计量方法(CHI)存在特征项与类别负相关的问题,使得短文本分类模型的性能并不好。笔者就此问题提出了一种新的混合特征选择算法,用改进的短文本类关键词抽取方法,结合改进的CHI特征选择的方法,以及将类关键词扩展到文档向量中,有效克服了CHI方法的特征项与类别负相关的问题。通过对网络医务咨询短文本分类的实验,对新算法与传统CHI方法以及其他特征选择算法的实验结果作对比,表明了新算法要优于传统特征选择算法。
展开更多
关键词
中文短文本分类
混合特征选择
类关键词
CHI
TF-IDF
下载PDF
职称材料
TI-FastText自动商品分类算法
被引量:
1
11
作者
邵欣欣
《计算机科学》
CSCD
北大核心
2022年第S01期206-210,共5页
为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在...
为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在计算输入词序列向量均值时,偏向高群分度的词条;最后将文本内容以字符顺序进行大小为N的窗口滑动操作,使其更适用于商品标题分类。基于Anaconda平台,对基于FastText的商品分类算法进行实现和优化,经评估,最终的分类器准确率较高,能够满足电商平台对商品分类的需求。
展开更多
关键词
商品
分类
中文短文本分类
FastText
TF-IDF
下载PDF
职称材料
题名
混合特征及多头注意力的中文短文本分类
1
作者
江结林
朱永伟
许小龙
崔燕
赵英男
机构
南京信息工程大学软件学院
南京信息工程大学江苏省大气环境与装备技术协同创新中心
南京特殊教育师范学院数学与信息科学学院
南京信息工程大学计算机学院、网络空间安全学院
出处
《计算机工程与应用》
CSCD
北大核心
2024年第9期237-243,共7页
基金
国家自然科学基金(62001236)。
文摘
传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本的字符级向量和词级向量表示,以得到更全面的文本特征向量表示;采用多头注意力机制捕捉文本序列中的依赖关系,以提高文本的语义理解;通过卷积神经网络分别提取两种向量表示的特征,并将其融合为一个特征向量,以整合文本的全局和局部信息;通过输出层得到分类结果。在三个公开数据集上的实验表明,HF-MHA能够有效地提升中文短文本分类的性能。
关键词
中文短文本分类
注意力机制
词级向量
字符级向量
Keywords
Chinese short text classification
attention mechanism
word-level vector
character-level vector
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于多卷积核字词特征的中文短文本分类方法
2
作者
李攀
吴亚东
褚琦凯
张贵宇
付朝帅
机构
四川轻化工大学自动化与信息工程学院
四川轻化工大学计算机科学与工程学院
人工智能四川省重点实验室
四川省大数据可视分析工程技术实验室
出处
《四川轻化工大学学报(自然科学版)》
CAS
2023年第1期73-83,共11页
基金
四川省科技成果转移转化示范项目(2020ZHCG0040)
四川省重大科技专项项目(2018GZDZX0045)。
文摘
中文短文本存在字数少、歧义多以及信息不规范等特点,导致其文本特征信息难以提取与表达。目前大多数文本分类方法采用单卷积核的卷积神经网络来提取文本局部特征,这通常会由于网络参数随机初始化不一致而导致模型分类效果不佳。为此,提出了一种基于多卷积核字词特征的短文本分类模型(Multi-CNNFusionofCharactersandWords,MCFCW)。首先采用预训练ERNIE、Word2vec模型丰富文本字词嵌入表示;然后分别采用多卷积核TextCNN、DPCNN充分提取不同角度的文本语义信息,同时有效降低网络参数随机初始化的影响;最后拼接两个通道提取到的字词高层特征向量作为最终的文本分类特征。在THUCNews新闻标题数据集上进行了模型评估。结果表明,模型在精准率、召回率和F1值3种评价指标上均优于目前的主流模型,具有较好的短文本分类效果。
关键词
中文短文本分类
ERNIE
Word2vec
多卷积核字词特征
卷积神经网络
Keywords
Chinese short text classification
ENRIE
Word2vec
features of words and characters with multiple convolution kernels
convolutional neural network
分类号
TP391.7 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于ERNIE-RCNN模型的中文短文本分类
被引量:
1
3
作者
王浩畅
孙铭泽
机构
东北石油大学计算机与信息技术学院
出处
《计算机技术与发展》
2022年第6期28-33,共6页
基金
国家自然科学基金(61402099,61702093)。
文摘
由于中文短文本存在特征词少、规范性差、数据规模量大等难点,ERNIE预训练模型占用内存大,进行短文本分类时会造成向量空间稀疏、文本预训练不准确、时间复杂度高等问题。针对以上短文本分类存在的问题,提出基于ERNIE-RCNN模型的中文短文本分类。模型运用ERNIE模型作为词向量,对实体和词语义单元掩码,后连接Transformer的编码层,对ERNIE层输出的词嵌入向量进行编码,优化模型过拟合问题,增强泛化能力,RCNN模型对ERNIE输入的词向量进行特征提取,卷积层利用大小不同的卷积核提取大小不同的特征值,池化层进行映射处理,最后通过softmax进行分类。将该模型与七种深度学习文本分类模型在中文新闻数据集上进行训练实验,得到了模型在准确率、精准率、召回率、F1值、迭代次数、运行时间上的对比结果,表明ERNIE-RCNN模型能够很好地提取文本中的特征信息,减少了训练时间,有效解决了中文短文本分类的难点,具有很好的分类效果。
关键词
中文短文本分类
ERNIE模型
ERNIE-RCNN模型
词向量
特征提取
深度学习
Keywords
Chinese short text classification
ERNIE
ERNIE-RCNN
word vector
feature extraction
deep learning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
手机取证的中文短文本分类方法
4
作者
徐红
刘衍
机构
四川警察学院
出处
《科技创新与应用》
2019年第35期134-135,共2页
文摘
手机取证是打击利用手机犯罪的重要手段,手机取证面对的主要技术问题之一是中文短文本分类。文章研究手机取证的中文短文本分类,简析文本分类的流程,探讨改进普通文本分类技术以适应中文短文本分类的需求,以及将BP神经网络应用于文本分类器的设计方法。
关键词
手机取证
中文短文本分类
神经网络
Keywords
mobile phone forensics
Chinese short text classification
neural network
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于BERT模型的中文短文本分类算法
被引量:
66
5
作者
段丹丹
唐加山
温勇
袁克海
机构
南京邮电大学理学院
圣母大学心理学系
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第1期79-86,共8页
基金
南京邮电大学横向科研项目(2018外095)。
文摘
针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入Softmax回归模型进行训练与分类。实验结果表明,随着搜狐新闻文本数据量的增加,该算法在测试集上的整体F1值最高达到93%,相比基于TextCNN模型的短文本分类算法提升6个百分点,说明其能有效表示句子层面的语义信息,具有更好的中文短文本分类效果。
关键词
中文短文本分类
基于Transformer的双向编码器表示
Softmax回归模型
TextCNN模型
word2vec模型
Keywords
Chinese short text classification
Bidirectional Encoder Representation from Transformer(BERT)
Softmax regression model
TextCNN model
word2vec model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
多特征融合的中文短文本分类模型
被引量:
11
6
作者
杨朝强
邵党国
杨志豪
相艳
马磊
机构
昆明理工大学信息工程与自动化学院
出处
《小型微型计算机系统》
CSCD
北大核心
2020年第7期1421-1426,共6页
基金
国家自然科学基金项目(61462054,61732005,61672271,61741112)资助
云南省自然科学基金项目(2017FB098)资助
+1 种基金
国家博士后面上科学基金项目(2016M592894XB)资助
云南省重大科技项目(2018ZF017)资助。
文摘
针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-feature fusion model,M FFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long ShortTerm Memory)、CNN(Convolutional Neural Networks)和CAPSNET(Capsule Network)模型对短文本进行不同层面的特征提取,并使用Self-attention模型动态调节各模型特征在最终特征构建中的权重系数.在实验部分,本文用MFFM方法与四个短文本分类经典模型(CNN、BILSTM、CAPSNET和CNN-BILSTM)在三个中文短文本数据集上进行验证,为了进一步验证数据融合(将三个中文短文本数据正负样本融合)对MFFM的影响,实验结果表明MFFM模型性能在四个评价指标(F1、Recall、Precision、Accuracy)下优于对比模型.总之,这可表明M FFM是短文本分类模型的一个有用框架.
关键词
中文短文本分类
字词向量结合
特征融合
Self-attention模型
Keywords
Chinese short text classification
word vector combination
feature fusion
Self-attention
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于混合字词特征的中文短文本分类算法
被引量:
3
7
作者
刘硕
王庚润
彭建华
李柯
机构
中国人民解放军战略支援部队信息工程大学
出处
《计算机科学》
CSCD
北大核心
2022年第4期282-287,共6页
基金
国家自然科学基金(61803384)。
文摘
随着信息技术的迅速发展,网络中产生了海量的中文短文本数据。利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点。相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征难以提取与表达。为此,文中提出了一种基于混合字词特征深度神经网络模型的中文短文本分类算法。首先,该算法同时计算出中文短文本的字向量和词向量,并分别对其进行特征提取;然后将提取到的字向量特征和词向量特征进行融合;最后通过全连接层和softmax层完成分类任务。在公开的THUCNews新闻数据集上的测试结果表明,该算法在精确率、召回率和F1值3种评价指标上均优于主流的TextCNN,BiGRU,Bert以及ERNIE_BiGRU等对比模型,具有较好的短文本分类效果。
关键词
中文短文本分类
预训练模型
字向量
词向量
卷积神经网络
Keywords
Chinese short text classification
Pre-training model
Character vector
Word vector
Convolutional Neural Network
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
融合TF-IDF和LDA的中文FastText短文本分类方法
被引量:
30
8
作者
冯勇
屈渤浩
徐红艳
王嵘冰
张永刚
机构
辽宁大学信息学院
吉林大学符号计算与知识工程教育部重点实验室
出处
《应用科学学报》
CAS
CSCD
北大核心
2019年第3期378-388,共11页
基金
国家自然科学基金(No.71771110)
中国博士后科学基金(No.2018M631814)
+1 种基金
辽宁省社会科学规划基金(No.L18AGL007)
符号计算与知识工程教育部重点实验室项目基金(No.93K172018K01)资助
文摘
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率.
关键词
中文短文本分类
FastText
词频-逆
文本
频率
词向量
隐含狄利克雷分布
Keywords
Chinese short text classification
FastText
term frequency-inverse document frequency(TF-IDF)
word vector
latent Dirichlet allocation(LDA)
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于BERT的中文新闻标题分类
被引量:
7
9
作者
苗将
张仰森
李剑龙
机构
北京信息科技大学智能信息处理研究所
出处
《计算机工程与设计》
北大核心
2022年第8期2311-2316,共6页
基金
国家自然科学基金项目(61772081)
科技创新服务能力建设-科研基地建设-北京实验室-国家经济安全预警工程北京实验室基金项目(PXM2018_014224_000010)
北京市自然科学基金项目(4204100)。
文摘
为解决海量新闻标题分类任务准确率低的问题,提出了一种基于BERT的中文新闻标题分类算法。使用BERT预训练的词向量作为嵌入层,根据输入文本进一步优化词向量,使用单向GRU网络提取主要的文本特征,连接注意力机制,对特征加权求和来调整权重比例,连接单向LSTM网络提取上下文特征,进行分类。实验结果表明,BGAL模型在进行中文新闻标题分类任务时,可以有效兼顾分类精度和运算效率,在处理THUCNews数据集时,达到了94.78%的准确度,比BERT_RNN高出1.07%。
关键词
中文短文本分类
自然语言处理
深度学习
神经网络
可变的双向编码器
Keywords
Chinese short text classification
natural language processing
deep learning
neural network
BERT
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于改进CHI的新的短文本混合特征选择方法
10
作者
张强强
苏变萍
李敏
机构
西安建筑科技大学理学院
出处
《信息与电脑》
2018年第16期34-36,共3页
基金
陕西省社会科学基金项目(项目编号:13D175)
文摘
在短文本分类中,特征项的选择和特征权重的计算是非常重要的两个步骤。传统卡方统计量方法(CHI)存在特征项与类别负相关的问题,使得短文本分类模型的性能并不好。笔者就此问题提出了一种新的混合特征选择算法,用改进的短文本类关键词抽取方法,结合改进的CHI特征选择的方法,以及将类关键词扩展到文档向量中,有效克服了CHI方法的特征项与类别负相关的问题。通过对网络医务咨询短文本分类的实验,对新算法与传统CHI方法以及其他特征选择算法的实验结果作对比,表明了新算法要优于传统特征选择算法。
关键词
中文短文本分类
混合特征选择
类关键词
CHI
TF-IDF
Keywords
Chinese short text classification
mixed feature selection
category keywords
CHI
TF-IDF
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
TI-FastText自动商品分类算法
被引量:
1
11
作者
邵欣欣
机构
大连东软信息学院
出处
《计算机科学》
CSCD
北大核心
2022年第S01期206-210,共5页
基金
辽宁省自然科学基金(2019-ZD-0354)。
文摘
为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在计算输入词序列向量均值时,偏向高群分度的词条;最后将文本内容以字符顺序进行大小为N的窗口滑动操作,使其更适用于商品标题分类。基于Anaconda平台,对基于FastText的商品分类算法进行实现和优化,经评估,最终的分类器准确率较高,能够满足电商平台对商品分类的需求。
关键词
商品
分类
中文短文本分类
FastText
TF-IDF
Keywords
Goods classification
Chinese short text classification
FastText
TF-IDF
分类号
TP391.9 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
混合特征及多头注意力的中文短文本分类
江结林
朱永伟
许小龙
崔燕
赵英男
《计算机工程与应用》
CSCD
北大核心
2024
0
下载PDF
职称材料
2
基于多卷积核字词特征的中文短文本分类方法
李攀
吴亚东
褚琦凯
张贵宇
付朝帅
《四川轻化工大学学报(自然科学版)》
CAS
2023
0
下载PDF
职称材料
3
基于ERNIE-RCNN模型的中文短文本分类
王浩畅
孙铭泽
《计算机技术与发展》
2022
1
下载PDF
职称材料
4
手机取证的中文短文本分类方法
徐红
刘衍
《科技创新与应用》
2019
0
下载PDF
职称材料
5
基于BERT模型的中文短文本分类算法
段丹丹
唐加山
温勇
袁克海
《计算机工程》
CAS
CSCD
北大核心
2021
66
下载PDF
职称材料
6
多特征融合的中文短文本分类模型
杨朝强
邵党国
杨志豪
相艳
马磊
《小型微型计算机系统》
CSCD
北大核心
2020
11
下载PDF
职称材料
7
基于混合字词特征的中文短文本分类算法
刘硕
王庚润
彭建华
李柯
《计算机科学》
CSCD
北大核心
2022
3
下载PDF
职称材料
8
融合TF-IDF和LDA的中文FastText短文本分类方法
冯勇
屈渤浩
徐红艳
王嵘冰
张永刚
《应用科学学报》
CAS
CSCD
北大核心
2019
30
下载PDF
职称材料
9
基于BERT的中文新闻标题分类
苗将
张仰森
李剑龙
《计算机工程与设计》
北大核心
2022
7
下载PDF
职称材料
10
基于改进CHI的新的短文本混合特征选择方法
张强强
苏变萍
李敏
《信息与电脑》
2018
0
下载PDF
职称材料
11
TI-FastText自动商品分类算法
邵欣欣
《计算机科学》
CSCD
北大核心
2022
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部