期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于DAN与FastText的藏文短文本分类研究
1
作者 李果 陈晨 +1 位作者 杨进 群诺 《计算机科学》 CSCD 北大核心 2024年第S01期103-107,共5页
随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行... 随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行无监督训练获得预训练的藏文音节向量集,使用预训练的音节向量集将藏文短文本信息转化为音节向量,把音节向量送入DAN(Deep Averaging Networks)网络并在输出阶段融合经过FastText网络训练的句向量特征,最后通过全连接层和softmax层完成分类。在公开的TNCC(Tibetan News Classification Corpus)新闻标题数据集上所提模型的Macro-F1是64.53%,比目前最好评测结果TiBERT模型的Macro-F1得分高出2.81%,比GCN模型的Macro-F1得分高出6.14%,融合模型具有较好的藏文短文本分类效果。 展开更多
关键词 藏文短文本分类 特征融合 深度平均网络 快速文本
下载PDF
基于fastText的中文文本分类 被引量:19
2
作者 代令令 蒋侃 《计算机与现代化》 2018年第5期35-40,85,共7页
在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的... 在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的效果。相对于目前主流的文本分类方法,基于fastText模型的分类方法在保证分类效果的同时,大大缩短了分类时间。此外,在分类准确率和参数设置方面进行分析并得出相应的优化规则。 展开更多
关键词 文本分类 fastText 线性分类器 快速文本分类模型
下载PDF
基于注意力机制的文本作者识别 被引量:2
3
作者 张洋 江铭虎 《计算机应用》 CSCD 北大核心 2021年第7期1897-1901,共5页
基于神经网络的作者识别在面临较多候选作者时识别准确率会大幅降低。为了提高作者识别精度,提出一种由快速文本分类(fastText)和注意力层构成的神经网络,并将该网络结合连续的词性标签n元组合(POS n-gram)特征进行中文小说的作者识别... 基于神经网络的作者识别在面临较多候选作者时识别准确率会大幅降低。为了提高作者识别精度,提出一种由快速文本分类(fastText)和注意力层构成的神经网络,并将该网络结合连续的词性标签n元组合(POS n-gram)特征进行中文小说的作者识别。与文本卷积神经网络(TextCNN)、文本循环神经网络(TextRNN)、长短期记忆(LSTM)网络和fastText进行对比,实验结果表明,所提出的模型获得了最高的分类准确率,与fastText模型相比,注意力机制的引入使得不同POS n-gram特征对应的准确率平均提高了2.14个百分点;同时,该模型保留了fastText的快速高效,且其所使用的文本特征可以推广到其他语言上。 展开更多
关键词 作者识别 词性标签n元组合 神经网络 快速文本分类 注意力机制
下载PDF
GM-FastText多通道词向量短文本分类模型 被引量:1
4
作者 白子诚 周艳玲 张龑 《计算机系统应用》 2022年第9期403-408,共6页
在针对短文本分类中文本特征稀疏难以提取、用词不规范导致OOV (out of vocabulary)等问题,提出了基于FastText模型多通道嵌入词向量,和GRU (gate recurrent unit)与多层感知机(multi-layer perceptron, MLP)混合网络结构(GRU-MLP hybri... 在针对短文本分类中文本特征稀疏难以提取、用词不规范导致OOV (out of vocabulary)等问题,提出了基于FastText模型多通道嵌入词向量,和GRU (gate recurrent unit)与多层感知机(multi-layer perceptron, MLP)混合网络结构(GRU-MLP hybrid network architecture, GM)的短文本分类模型GM-FastText.该模型使用FastText模型以N-gram方式分别产生不同的嵌入词向量送入GRU层和MLP层获取短文本特征,通过GRU对文本的特征提取和MLP层混合提取不同通道的文本特征,最后映射到各个分类中.多组对比实验结果表明:与TextCNN、TextRNN方法对比, GM-FastText模型F1指标提升0.021和0.023,准确率提升1.96和2.08个百分点;与FastText,FastText-CNN, FastText-RNN等对比, GM-FastText模型F1指标提升0.006、0.014和0.016,准确率提升0.42、1.06和1.41个百分点.通过对比发现,在FastText多通道词向量和GM混合结构网络的作用下,多通道词向量在短文本分类中有更好的词向量表达且GM网络结构对多参数特征提取有更好的性能. 展开更多
关键词 文本分类 快速文本 词向量 多层感知机 多特征
下载PDF
改进的近似模式匹配算法
5
作者 张丽霞 宋鸿陟 《计算机工程与设计》 CSCD 北大核心 2011年第5期1820-1823,共4页
为了提高近似模式匹配算法在多次匹配情况下的效率,借鉴了文本快速过滤算法的思想,分析了平均情况下改进的动态规划算法(DP算法),并在此基础上设计实现了一种改进的DP算法,称为IMP-DP。该算法在匹配过程中,将上一次运算的结果存储起来,... 为了提高近似模式匹配算法在多次匹配情况下的效率,借鉴了文本快速过滤算法的思想,分析了平均情况下改进的动态规划算法(DP算法),并在此基础上设计实现了一种改进的DP算法,称为IMP-DP。该算法在匹配过程中,将上一次运算的结果存储起来,与上次相同的匹配可在原有成功匹配结果的基础上进行运算,忽略将不可能产生成功匹配的区域,只关注剩余的区域。由算法时间复杂性和实验对比分析结果表明,该算法在多次匹配情况下,效率远远高于其它算法,从而验证了该算法改进的有效性。 展开更多
关键词 模式匹配 近似模式匹配 动态规划 文本快速过滤 IMP—DP
下载PDF
基于fastText的可视化作者归属模型
6
作者 李逍 顾长贵 +1 位作者 杨雷鑫 陆祺灵 《智能计算机与应用》 2021年第1期14-19,共6页
基于滑动窗口的方法,结合机器学习分类技术,可以判定文本的作者归属。但是此类方法需要精心挑选对应的文本特征,不同的文本特征选取可能会影响判定结果。针对以上问题,提出了一种基于快速文本分类(fastText)的文本作者归属判定模型。该... 基于滑动窗口的方法,结合机器学习分类技术,可以判定文本的作者归属。但是此类方法需要精心挑选对应的文本特征,不同的文本特征选取可能会影响判定结果。针对以上问题,提出了一种基于快速文本分类(fastText)的文本作者归属判定模型。该模型融合滑动窗口的思想,引入词(字)向量、数据增强技术,从而充分利用文本信息、自动提取文本特征,并且以可视化的方式将结果呈现出来。使用该模型来检测《红楼梦》、《Roman de la Rose》的作者归属,实验结果表明《红楼梦》的前八十回与后四十回为不同作者所著、《Roman de la Rose》开篇4 058行(约50 000字)与后面17 724行(约218 000字)为不同作者所著。证明了Rolling-fastText模型判定文本作者归属的有效性。 展开更多
关键词 滑动窗口 作者归属 快速文本分类器 数据增强技术 可视化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部