题名 基于DAN与FastText的藏文短文本分类研究
1
作者
李果
陈晨
杨进
群诺
机构
西藏大学信息科学技术学院
藏文信息技术教育部工程研究中心
四川大学网络空间安全学院
出处
《计算机科学》
CSCD
北大核心
2024年第S01期103-107,共5页
基金
国家自然科学基金(61872254,62162057)。
文摘
随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行无监督训练获得预训练的藏文音节向量集,使用预训练的音节向量集将藏文短文本信息转化为音节向量,把音节向量送入DAN(Deep Averaging Networks)网络并在输出阶段融合经过FastText网络训练的句向量特征,最后通过全连接层和softmax层完成分类。在公开的TNCC(Tibetan News Classification Corpus)新闻标题数据集上所提模型的Macro-F1是64.53%,比目前最好评测结果TiBERT模型的Macro-F1得分高出2.81%,比GCN模型的Macro-F1得分高出6.14%,融合模型具有较好的藏文短文本分类效果。
关键词
藏文短文本 分类
特征融合
深度平均网络
快速文本
Keywords
Tibetan short text classification
Feature fusion
Deep averaging networks
Fast text
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—控制理论与控制工程]
题名 基于fastText的中文文本分类
被引量:19
2
作者
代令令
蒋侃
机构
广西大学计算机与电子信息学院
出处
《计算机与现代化》
2018年第5期35-40,85,共7页
基金
国家自然科学基金资助项目(71362012)
文摘
在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的效果。相对于目前主流的文本分类方法,基于fastText模型的分类方法在保证分类效果的同时,大大缩短了分类时间。此外,在分类准确率和参数设置方面进行分析并得出相应的优化规则。
关键词
文本 分类
fastText
线性分类器
快速文本 分类模型
Keywords
text classification
fastText
linear classifier
fast text classification model
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于注意力机制的文本作者识别
被引量:2
3
作者
张洋
江铭虎
机构
清华大学人文学院
出处
《计算机应用》
CSCD
北大核心
2021年第7期1897-1901,共5页
基金
国家自然科学基金资助项目(62036001)。
文摘
基于神经网络的作者识别在面临较多候选作者时识别准确率会大幅降低。为了提高作者识别精度,提出一种由快速文本分类(fastText)和注意力层构成的神经网络,并将该网络结合连续的词性标签n元组合(POS n-gram)特征进行中文小说的作者识别。与文本卷积神经网络(TextCNN)、文本循环神经网络(TextRNN)、长短期记忆(LSTM)网络和fastText进行对比,实验结果表明,所提出的模型获得了最高的分类准确率,与fastText模型相比,注意力机制的引入使得不同POS n-gram特征对应的准确率平均提高了2.14个百分点;同时,该模型保留了fastText的快速高效,且其所使用的文本特征可以推广到其他语言上。
关键词
作者识别
词性标签n元组合
神经网络
快速文本 分类
注意力机制
Keywords
authorship identification
Part-Of-Speech(POS)n-gram
neural network
fast text classification(fastText)
attention mechanism
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 GM-FastText多通道词向量短文本分类模型
被引量:1
4
作者
白子诚
周艳玲
张龑
机构
湖北大学计算机与信息工程学院
出处
《计算机系统应用》
2022年第9期403-408,共6页
基金
国家自然科学基金面上项目(61977021)。
文摘
在针对短文本分类中文本特征稀疏难以提取、用词不规范导致OOV (out of vocabulary)等问题,提出了基于FastText模型多通道嵌入词向量,和GRU (gate recurrent unit)与多层感知机(multi-layer perceptron, MLP)混合网络结构(GRU-MLP hybrid network architecture, GM)的短文本分类模型GM-FastText.该模型使用FastText模型以N-gram方式分别产生不同的嵌入词向量送入GRU层和MLP层获取短文本特征,通过GRU对文本的特征提取和MLP层混合提取不同通道的文本特征,最后映射到各个分类中.多组对比实验结果表明:与TextCNN、TextRNN方法对比, GM-FastText模型F1指标提升0.021和0.023,准确率提升1.96和2.08个百分点;与FastText,FastText-CNN, FastText-RNN等对比, GM-FastText模型F1指标提升0.006、0.014和0.016,准确率提升0.42、1.06和1.41个百分点.通过对比发现,在FastText多通道词向量和GM混合结构网络的作用下,多通道词向量在短文本分类中有更好的词向量表达且GM网络结构对多参数特征提取有更好的性能.
关键词
短文本 分类
快速文本
词向量
多层感知机
多特征
Keywords
short text classification
FastText
word vector
multi-layer perceptron(MLP)
multi-feature
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 改进的近似模式匹配算法
5
作者
张丽霞
宋鸿陟
机构
华南农业大学信息学院人机交互研究中心
出处
《计算机工程与设计》
CSCD
北大核心
2011年第5期1820-1823,共4页
基金
国家自然科学基金项目(60875045)
文摘
为了提高近似模式匹配算法在多次匹配情况下的效率,借鉴了文本快速过滤算法的思想,分析了平均情况下改进的动态规划算法(DP算法),并在此基础上设计实现了一种改进的DP算法,称为IMP-DP。该算法在匹配过程中,将上一次运算的结果存储起来,与上次相同的匹配可在原有成功匹配结果的基础上进行运算,忽略将不可能产生成功匹配的区域,只关注剩余的区域。由算法时间复杂性和实验对比分析结果表明,该算法在多次匹配情况下,效率远远高于其它算法,从而验证了该算法改进的有效性。
关键词
模式匹配
近似模式匹配
动态规划
文本 快速 过滤
IMP—DP
Keywords
pattern matching
approximate pattern matching
dynamic programming
text quick filter
IMP-DP
分类号
TP301
[自动化与计算机技术—计算机系统结构]
题名 基于fastText的可视化作者归属模型
6
作者
李逍
顾长贵
杨雷鑫
陆祺灵
机构
上海理工大学管理学院
出处
《智能计算机与应用》
2021年第1期14-19,共6页
基金
国家自然科学基金(11875042)
上海理工大学大学生创新创业计划资助项目(SH2020072)。
文摘
基于滑动窗口的方法,结合机器学习分类技术,可以判定文本的作者归属。但是此类方法需要精心挑选对应的文本特征,不同的文本特征选取可能会影响判定结果。针对以上问题,提出了一种基于快速文本分类(fastText)的文本作者归属判定模型。该模型融合滑动窗口的思想,引入词(字)向量、数据增强技术,从而充分利用文本信息、自动提取文本特征,并且以可视化的方式将结果呈现出来。使用该模型来检测《红楼梦》、《Roman de la Rose》的作者归属,实验结果表明《红楼梦》的前八十回与后四十回为不同作者所著、《Roman de la Rose》开篇4 058行(约50 000字)与后面17 724行(约218 000字)为不同作者所著。证明了Rolling-fastText模型判定文本作者归属的有效性。
关键词
滑动窗口
作者归属
快速文本 分类器
数据增强技术
可视化
Keywords
sliding window
authorship attribution
fast text classifier
data enhancement technology
visualization
分类号
TP391
[自动化与计算机技术—计算机应用技术]