期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
不平衡数据集文本多分类深度学习算法 被引量:4
1
作者 王德志 梁俊艳 《计算机工程与设计》 北大核心 2021年第9期2501-2508,共8页
针对文本多分类算法中,由于不平衡数据集产生的小样本分类数据准确率低问题,提出基于轮廓系数动态K-means聚类的文本多分类混合式均分聚类采样算法。在不平衡数据集中针对小样本数据集利用聚类簇进行等比例过采样,针对大样本数据集利用... 针对文本多分类算法中,由于不平衡数据集产生的小样本分类数据准确率低问题,提出基于轮廓系数动态K-means聚类的文本多分类混合式均分聚类采样算法。在不平衡数据集中针对小样本数据集利用聚类簇进行等比例过采样,针对大样本数据集利用聚类簇进行欠采样。基于微博灾害数据集,设计文本卷积神经网络,对该算法进行实验验证与分析,实验结果表明,该算法能够有效提升文本不平衡数据集的准确率和F1值,较好解决了不平衡文本数据集分类问题。 展开更多
关键词 不平衡数据集 情感分类 文本多分类 聚类 深度学习
下载PDF
基于LSTM的中文文本多分类应用研究 被引量:3
2
作者 梁登玉 《上海电力大学学报》 CAS 2020年第6期598-602,共5页
随着互联网的发展,网上购物成为主流消费方式,随之产生了大量的商品文本数据,需要对商品进行准确而高效的分类。利用机器学习进行文本分类需要进行复杂的人工设计特征和提取特征过程。随着深度学习领域的发展,基于深度学习的文本分类技... 随着互联网的发展,网上购物成为主流消费方式,随之产生了大量的商品文本数据,需要对商品进行准确而高效的分类。利用机器学习进行文本分类需要进行复杂的人工设计特征和提取特征过程。随着深度学习领域的发展,基于深度学习的文本分类技术效果显著。设计了一个基于长短期记忆网络(LSTM)的中文文本多分类器。首先对数据进行预处理,利用Tokenizer分词技术将文本处理为计算机可理解的词向量传入LSTM网络,并加入Dropout算法以防止过拟合得出最终的分类模型。将该模型与逻辑回归、多项式朴素贝叶斯、线性支持向量机、随机森林模型进行对比发现,基于LSTM的中文文本多分类方法具有较好的效果。 展开更多
关键词 文本多分类 深度学习 长短期记忆网络 自然语言处理
下载PDF
多类文本分类算法GS-SVDD 被引量:4
3
作者 吴德 刘三阳 梁锦锦 《计算机科学》 CSCD 北大核心 2016年第8期190-193,共4页
传统多类文本多分类算法存在计算量大和训练时间长的问题,为此利用黄金分割(Golden Selection,GS)和支持向量域描述(Support Vector Domain Description,SVDD)对多类文本构造一种分类算法。GS-SVDD首先利用词频逆向文件频率(Term Freque... 传统多类文本多分类算法存在计算量大和训练时间长的问题,为此利用黄金分割(Golden Selection,GS)和支持向量域描述(Support Vector Domain Description,SVDD)对多类文本构造一种分类算法。GS-SVDD首先利用词频逆向文件频率(Term Frequency-Inverse Document Frequency,TF-IDF)公式计算词条的相对词频,根据该值将词条降序排列,并对得到的文本向量进行归一化;其次采用黄金分割法对文本向量进行维数约简,使得冗余的样本特征数不超过一个;最后根据支持向量域描述进行多类分类,判断待测文本归属相对类距离之值较小的类。不同数据集的数值实验表明,GS-SVDD比"一对一"和"一对多"支持向量机具有更好的稳定性、更高的分类精度和更短的训练时间,从而更适用于海量文本的多分类。 展开更多
关键词 文本多分类 黄金分割 支持向量域描述 维数约简 海量文本
下载PDF
基于XGBoost模型的文本多分类研究 被引量:3
4
作者 方侠旋 《网络安全技术与应用》 2020年第6期50-52,共3页
随着文本数据的大量涌现,对文本的分类需求也愈加强烈。然而多数学者都是直接使用查全率、查准率和F_β值来对文本分类结果进行评测,忽略了模型的拟合情况。本文以包含19个类别的中文分类语料作为数据集,基于两种特征提取方法、三种不... 随着文本数据的大量涌现,对文本的分类需求也愈加强烈。然而多数学者都是直接使用查全率、查准率和F_β值来对文本分类结果进行评测,忽略了模型的拟合情况。本文以包含19个类别的中文分类语料作为数据集,基于两种特征提取方法、三种不同的机器学习算法进行文本分类,并且使用一种多分类对数损失函数来评判模型的拟合效果,进一步对分类结果使用准确率来进行评测。最终结果表明,基于XGBoost模型的模型拟合及分类效果均优于逻辑回归和Naive Bayes。 展开更多
关键词 文本多分类 TF-IDF 逻辑回归 Naive Bayes XGBoost
原文传递
基于TextCRNN-OvR的患者咨询文本分类方法
5
作者 张远芳 《运筹与模糊学》 2023年第2期1166-1175,共10页
人工智能技术加速了互联网医疗发展,患者在线问诊逐渐成为新趋势。然而大多数患者自身医学知识匮乏,往往出现挂错科室的情况。因此,患者咨询文本分类对于引导患者线上选择就诊科室显得十分重要。本文提出一种结合卷积循环神经网络与OvR... 人工智能技术加速了互联网医疗发展,患者在线问诊逐渐成为新趋势。然而大多数患者自身医学知识匮乏,往往出现挂错科室的情况。因此,患者咨询文本分类对于引导患者线上选择就诊科室显得十分重要。本文提出一种结合卷积循环神经网络与OvR策略的文本多分类方法,既可以捕捉文本局部特征,又可以学习词序信息。本文爬取了39问答网上的患者咨询文本作为数据源,对所提方法进行了验证,并与已有的分类算法作对比,结果表明所提方法在精度、召回率、F1值及准确率指标上具有更优越的算法性能。其中,相较于其他SOTA的文本分类模型,TextCRNN-OvR在文本分类精度上取得了1%~4%不同程度上的提高,这进一步说明了TextCRNN在提取文本特征方面以及本文OvR多分类策略的有效性。 展开更多
关键词 在线问诊 深度学习 TextCRNN模型 OvR策略 文本多分类
下载PDF
基于朴素贝叶斯算法的群众留言多标签分类的应用 被引量:4
6
作者 方小宇 罗补干 +1 位作者 周铄洋 郭丽莎 《科学技术创新》 2021年第9期100-102,共3页
近年来,网络问政平台的涌现带来了政府与公众互动模式的革新,促进了公众与政府互动交流的无缝连接,也逐步成为政府了解民意、汇聚民智、凝聚民气的重要渠道。但是,随着各类社情民意相关的文本数据量不断攀升,给目前主要以人工方式进行... 近年来,网络问政平台的涌现带来了政府与公众互动模式的革新,促进了公众与政府互动交流的无缝连接,也逐步成为政府了解民意、汇聚民智、凝聚民气的重要渠道。但是,随着各类社情民意相关的文本数据量不断攀升,给目前主要以人工方式进行的留言划分工作带来了极大挑战。为了解决这个问题,通过对搜集的留言进行数据预处理,运用朴素贝叶斯算法,建立网络问政平台群众留言的多标签分类模型,分类结果显示正确率高达91.68%,提高了分类的效率,实现了对海量留言的自动化分类。 展开更多
关键词 朴素贝叶斯 群众留言 文本多分类
下载PDF
基于深度学习的人文社会科学术文献构成要素自动识别研究
7
作者 何洪旭 《计算机应用文摘》 2024年第20期177-179,183,共4页
文章以人文社会科学领域的学术文献为研究对象,基于深度学习的预训练模式完成了微调文本多分类任务,实现了学术文献构成要素的自动识别。通过多组对比实验发现,在数据层面上,模型的分类效果在段落粒度的文本上表现较好,而句子粒度的文... 文章以人文社会科学领域的学术文献为研究对象,基于深度学习的预训练模式完成了微调文本多分类任务,实现了学术文献构成要素的自动识别。通过多组对比实验发现,在数据层面上,模型的分类效果在段落粒度的文本上表现较好,而句子粒度的文本由于丢失上下文依赖,导致性能下降幅度大;就模型而言,XLNet模型在长文本上的识别性能优于BERT模型;总体而言,深度学习在学术文献构成要素自动识别中取得了良好的效果。 展开更多
关键词 深度学习 结构要素识别 文本多分类 预训练模型 BERT XLNet
下载PDF
基于改进CNN-BiGRU-att模型的文本分类研究 被引量:6
8
作者 陈农田 李俊辉 满永政 《昆明理工大学学报(自然科学版)》 北大核心 2022年第1期30-37,共8页
为解决单一的卷积神经网络(CNN)缺乏利用上下文本信息与单一循环神经网络(RNN)对局部信息把握不全面问题,提出一种基于注意力机制的多通道TextCNN-BiGRU分类模型.首先,通过word2vec对初始文本向量化,经实验选取窗口值组成三通道.然后利... 为解决单一的卷积神经网络(CNN)缺乏利用上下文本信息与单一循环神经网络(RNN)对局部信息把握不全面问题,提出一种基于注意力机制的多通道TextCNN-BiGRU分类模型.首先,通过word2vec对初始文本向量化,经实验选取窗口值组成三通道.然后利用CNN的强学习能力提取局部特征,利用双向门控循环单元(BiGRU)提取上下文全局信息,运用注意力层与池化层获取并优化重要的特征.最后采用softmax函数使误差loss极小化.仿真实验结果表明,提出的模型分类性能,准确度达94%,损失函数值稳定在0.22%左右,具有良好的泛化能力,能够有效解决单一模型挖掘信息不全问题,有效提高分类效果. 展开更多
关键词 深度学习 神经网络模型 文本多分类 注意力机制 文本特征提取
原文传递
基于BERT的社交网络媒体突发事件标注方法研究
9
作者 王德志 陈靖耀 《华北科技学院学报》 2021年第6期74-82,共9页
对突发事件进行标注对应急管理响应能力的提升有重要意义。针对突发事件类型繁多,难以进行有效的归纳的特点,本文提出一种基于预训练语言模型BERT的事故标注方法:BERT对无序的突发事件文本提取结构化数据进行主题建模构建数据集;BERT-DP... 对突发事件进行标注对应急管理响应能力的提升有重要意义。针对突发事件类型繁多,难以进行有效的归纳的特点,本文提出一种基于预训练语言模型BERT的事故标注方法:BERT对无序的突发事件文本提取结构化数据进行主题建模构建数据集;BERT-DPCNN模型在后期对数据集进行突发事件标注。基于构建的数据集,BERT-DPCNN加权平均的F1值达到0.9741,优于其他对比模型。结果表明:本文提出的方法可以对突发事件进行有效标注。 展开更多
关键词 文本多分类 BERT 主题模型 事故标注
下载PDF
Design and implementation of a large-scale multi-class text classifier
10
作者 于水 张亮 马范援 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2005年第6期690-695,共6页
Although, researchers in the ATC field have done a wide range of work based on SVM, almost all existing approaches utilize an empirical model of selection algorithms. Their attempts to model automatic selection in pra... Although, researchers in the ATC field have done a wide range of work based on SVM, almost all existing approaches utilize an empirical model of selection algorithms. Their attempts to model automatic selection in practical, large-scale, text classification systems have been limited. In this paper, we propose a new model selection algorithm that utilizes the DDAG learning architecture. This architecture derives a new large-scale text classifier with very good performance. Experimental results show that the proposed algorithm has good efficiency and the necessary generalization capability while handling large-scale multi-class text classification tasks. 展开更多
关键词 model selection DAGSVM automatic text classification
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部