期刊文献+
共找到74篇文章
< 1 2 4 >
每页显示 20 50 100
一种基于FastText的恶意代码家族分类方法
1
作者 张宇迪 冯永新 赵运弢 《沈阳理工大学学报》 CAS 2024年第1期61-68,90,共9页
传统的恶意代码家族分类方法主要通过代码家族浅层关联特征的统计分析达到分类和识别的目的。随着恶意代码加壳、混淆、多态技术的发展,传统方法的局限性逐渐显现,但恶意代码需调用API函数达成恶意目的始终是其不变的行为特征。基于embe... 传统的恶意代码家族分类方法主要通过代码家族浅层关联特征的统计分析达到分类和识别的目的。随着恶意代码加壳、混淆、多态技术的发展,传统方法的局限性逐渐显现,但恶意代码需调用API函数达成恶意目的始终是其不变的行为特征。基于embedding、word2vec模型的传统方法缺乏对低频API函数的特征提取能力,在表征API序列局部顺序特征时易产生映射失真,存在词典外API行为扩展、推理能力弱等导致分类准确率下降的不足。由此,引入负采样优化的FastText框架以加强对API序列映射的准确度,提出一种基于FastText框架下的恶意代码家族分类方法。利用FastText框架实现代码样本API序列的多维向量转换和精准表达,结合一维卷积及长短时记忆(LSTM)网络进一步提取API行为局部特征。实验结果表明,该模型的性能相较于传统的embedding方法和word2vec框架性能更优,准确率可达99%以上。 展开更多
关键词 fasttext 恶意代码家族分类 长短时记忆网络
下载PDF
基于fasttext实现船舶工况点分类系统研究
2
作者 陈浩天 刘晓东 《电子设计工程》 2023年第2期72-76,共5页
为了达到节省船舶领域对比工作消耗的时间与人力资源成本,文中对常用的文本分类算法进行分析比较,有针对性地对分类算法做出在船舶领域的创新。改进传统特征提取算法(TF-IDF算法),使得权重提取更加合理,改进fasttext分类算法,解决输入... 为了达到节省船舶领域对比工作消耗的时间与人力资源成本,文中对常用的文本分类算法进行分析比较,有针对性地对分类算法做出在船舶领域的创新。改进传统特征提取算法(TF-IDF算法),使得权重提取更加合理,改进fasttext分类算法,解决输入层参数的输入问题,提出改进后的C-fasttext算法。通过实验,将C-fasttext算法模型分类效果和朴素贝叶斯算法、支持向量机算法和传统fasttext模型进行对比。结果表明,改进C-fasttext算法准确率最高,为91.59%;传统的fasttext分类算法的准确率为88.27%;支持向量机算法处在较低水平,准确率只有59.98%;朴素贝叶斯方法在准确率上为76.19%。改进算法的匹配准确率超过90%,语料覆盖率超过95%,满足实验需求。 展开更多
关键词 自然语言处理 fasttext算法 TF-IDF算法 自动匹配
下载PDF
基于FastText模型的匿名数据文本分类研究
3
作者 朱美瑶 张寅昊 +1 位作者 王宇喆 钟美君 《统计学与应用》 2023年第2期563-568,共6页
本文主要讨论在数据匿名化情况下,FastText模型相比其它机器学习模型,对文本分类问题是否是更优解。本文对公开新闻数据集的20万条中文文本数据进行匿名化处理,然后分别采用逻辑回归、LGBM、随机森林和FastText模型进行分类,并且针对结... 本文主要讨论在数据匿名化情况下,FastText模型相比其它机器学习模型,对文本分类问题是否是更优解。本文对公开新闻数据集的20万条中文文本数据进行匿名化处理,然后分别采用逻辑回归、LGBM、随机森林和FastText模型进行分类,并且针对结果,对FastText提出两方面的改进,通过多个评价指标进行评价后,FastText模型无论在准确率上,还是在运行效率上,均比其它模型更优秀。 展开更多
关键词 数据匿名化 fasttext TF-IDF 文本分类
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:31
4
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 fasttext 词频-逆文本频率 词向量 隐含狄利克雷分布
下载PDF
融合类别特征扩展与N-gram子词过滤的fastText短文本分类 被引量:4
5
作者 李志明 孙艳 +1 位作者 何宜昊 申利民 《小型微型计算机系统》 CSCD 北大核心 2022年第8期1596-1601,共6页
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出... 以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出基于词汇信息熵的N-gram子词过滤方法过滤N-gram子词中低类别区分贡献度子词,并构建更专注于高类别区分贡献度语义特征学习的EF-fastText短文本分类模型.实验结果表明基于TF-IDF的LDA类别特征提取方法,以及基于词汇信息熵的N-gram子词过滤方法对于EF-fastText短文本分类模型性能提升是有效性的. 展开更多
关键词 短文本分类 fasttext 类别特征 词汇信息熵 N-GRAM
下载PDF
基于fastText算法的行业分类技术 被引量:5
6
作者 吴震 冉晓燕 +3 位作者 苗权 刘纯艳 张栋 魏娜 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第2期193-198,共6页
随着中国经济的高速发展和技术创新能力的不断提升,高效的组织、分类信息是提供个性化行业管理和跟踪分析的基础。根据行业信息特点和发展规律,提出了一种基于fastText算法的行业分类模型。首先,构建行业分类关键词库,通过特征词库进行... 随着中国经济的高速发展和技术创新能力的不断提升,高效的组织、分类信息是提供个性化行业管理和跟踪分析的基础。根据行业信息特点和发展规律,提出了一种基于fastText算法的行业分类模型。首先,构建行业分类关键词库,通过特征词库进行分词和权重计算。然后,构建分类器模型,实现中文行业的自动分类。最后,实验选取了80000个包含企业经营范围、企业信息、舆论信息的测试文档,结果表明,所提模型结果高于Bayes、决策树、KNN等分类算法,取得了较好的应用效果。 展开更多
关键词 自然语言处理 行业分类 fasttext算法 关键词 语法模型
下载PDF
TI-FastText自动商品分类算法 被引量:3
7
作者 邵欣欣 《计算机科学》 CSCD 北大核心 2022年第S01期206-210,共5页
为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在... 为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在计算输入词序列向量均值时,偏向高群分度的词条;最后将文本内容以字符顺序进行大小为N的窗口滑动操作,使其更适用于商品标题分类。基于Anaconda平台,对基于FastText的商品分类算法进行实现和优化,经评估,最终的分类器准确率较高,能够满足电商平台对商品分类的需求。 展开更多
关键词 商品分类 中文短文本分类 fasttext TF-IDF
下载PDF
基于FastText和多尺度深层金字塔卷积神经网络的中文文本情感分类模型 被引量:1
8
作者 何颖刚 王宇 +2 位作者 夏丽丽 郭静 郑新旺 《宁德师范学院学报(自然科学版)》 2022年第4期382-388,共7页
为提高中文文本情感分类效率,提出一种基于FastText和多尺度深层金字塔卷积神经网络的文本情感分类模型.利用FastText模型构建文本向量矩阵;使用多尺寸过滤器从文本向量矩阵中提取多个特征图;融合多个特征图并输入多尺度深层金字塔卷积... 为提高中文文本情感分类效率,提出一种基于FastText和多尺度深层金字塔卷积神经网络的文本情感分类模型.利用FastText模型构建文本向量矩阵;使用多尺寸过滤器从文本向量矩阵中提取多个特征图;融合多个特征图并输入多尺度深层金字塔卷积神经网络模型进行情感分类.在中文情感挖掘语料库数据集上进行实验,多组实验对比结果表明,与其他算法相比,本文模型能有效提高文本情感分类的准确率. 展开更多
关键词 情感分类 深层金字塔卷积神经网络 fasttext 词向量 多尺度
下载PDF
基于fastText模型的词向量表示改进算法 被引量:10
9
作者 阴爱英 吴运兵 +1 位作者 郑一江 余小燕 《福州大学学报(自然科学版)》 CAS 北大核心 2019年第3期314-319,共6页
传统词向量表示模型往往忽视了单词间的句法形态结构,导致模型预测准确率不高.为此,提出基于fastText模型的词向量表示改进算法.首先,在训练模型数据集上,引入stopwords处理技术,剔除一些无意义介词等对预测模型干扰,减少噪声数据;其次... 传统词向量表示模型往往忽视了单词间的句法形态结构,导致模型预测准确率不高.为此,提出基于fastText模型的词向量表示改进算法.首先,在训练模型数据集上,引入stopwords处理技术,剔除一些无意义介词等对预测模型干扰,减少噪声数据;其次,针对fastText模型中n-gram分解格式进行限定,将分解条件设置为符合英文单词的组成结构;最后,去除fastText模型中单词前后缀标记符,减少无用分解对模型预测产生干扰.实验结果表明,与fastText模型相比,所提出的改进模型在单词关系评分、语义相似性、句法相似性均取得较好的准确率. 展开更多
关键词 词向量 skip-gram模型 fasttext模型 自然语言处理
下载PDF
基于Borderline-Smote算法改进的FastText中文情感极性分析 被引量:2
10
作者 潘正军 赵莲芬 +1 位作者 袁丽娜 王红勤 《计算机应用与软件》 北大核心 2021年第11期295-299,349,共6页
针对单一的FastText模型在不平衡中文语料中的情感极性分析效果不好,以及传统Jieba分词对广领域中文文本适应性不强,数据倾斜导致中文情感极性分析的准确率和召回率产生波动等问题,提出一种基于Borderline-Smote算法改进的FastText中文... 针对单一的FastText模型在不平衡中文语料中的情感极性分析效果不好,以及传统Jieba分词对广领域中文文本适应性不强,数据倾斜导致中文情感极性分析的准确率和召回率产生波动等问题,提出一种基于Borderline-Smote算法改进的FastText中文情感极性分析,通过过采样Borderline-Smote和pkuseg中文分词等预处理方式分别解决分类中数据倾斜、涉及领域广的问题,再与FastText结合进行中文情感极性分析。实验结果表明,该模型在中文情感极性分析中的准确率得到了一定的提高。 展开更多
关键词 机器学习 中文分词 Borderline-Smote fasttext 情感极性分析
下载PDF
基于fastText的中文文本分类 被引量:19
11
作者 代令令 蒋侃 《计算机与现代化》 2018年第5期35-40,85,共7页
在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的... 在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的效果。相对于目前主流的文本分类方法,基于fastText模型的分类方法在保证分类效果的同时,大大缩短了分类时间。此外,在分类准确率和参数设置方面进行分析并得出相应的优化规则。 展开更多
关键词 文本分类 fasttext 线性分类器 快速文本分类模型
下载PDF
基于FastText和关键句提取的中文长文本分类 被引量:5
12
作者 汪家成 薛涛 《计算机系统应用》 2021年第8期213-218,共6页
FastText是一种准确高效的文本分类模型,但直接应用在中文长文本分类领域存在准确度不高的问题.针对该问题,提出一种融合TextRank关键子句提取和词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)的FastText中文长文... FastText是一种准确高效的文本分类模型,但直接应用在中文长文本分类领域存在准确度不高的问题.针对该问题,提出一种融合TextRank关键子句提取和词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)的FastText中文长文本分类方法.该方法在FastText模型输入阶段使用TextRank算法提取文本的关键子句输入训练模型,同时采用TF-IDF提取文本的关键词作为特征补充,从而在减少训练语料的同时尽可能保留文本分类的关键特征.实验结果表明,此文本分类方法在数据集上准确率达到86.1%,比经典的FastText模型提高了约4%. 展开更多
关键词 文本分类 fasttext TextRank 词频-逆文本频率
下载PDF
基于FastText模型的农业短文本分类研究 被引量:1
13
作者 王福健 魏霖静 +1 位作者 安昭先 刘志祖 《软件》 2022年第10期27-29,共3页
本文提出基于FastText分类语言模型来解决农业短文本分类问题。在数据处理好类别的情况下,利用实验对12万条农业数据集进行实验。并探究与典型深度语言模型(TextRNN、TextCNN、TextDPCNN、Transformer)进行对比分析其中的分类准确率和... 本文提出基于FastText分类语言模型来解决农业短文本分类问题。在数据处理好类别的情况下,利用实验对12万条农业数据集进行实验。并探究与典型深度语言模型(TextRNN、TextCNN、TextDPCNN、Transformer)进行对比分析其中的分类准确率和分类处理响应时间。实验结果得出结论,基于深度学习的FastText模型的农业短文本分类效果最好,FastText模型对比其他模型的准确率、精确率、召回率和F1值提高了1%~4%。FastText模型可以对中文农业短文本分类处理速度更好,更优于其他典型深度语言模型算法。 展开更多
关键词 农业短文本分类 文本分类 语言模型 fasttext
下载PDF
基于fasttext模型的中文专利快速分类 被引量:1
14
作者 陈子豪 谢从华 +1 位作者 时敏 唐晓娜 《常熟理工学院学报》 2020年第5期47-50,共4页
针对现有中文专利文本的自动分类方法存在分类处理过程复杂耗时长、精度低且对硬件的要求较高等问题,本文提出了一种基于fasttext的中文专利文本快速分类的新方法.首先,对采集的专利文本数据使用中文处理工具包FoolNLTK分词,参照百度停... 针对现有中文专利文本的自动分类方法存在分类处理过程复杂耗时长、精度低且对硬件的要求较高等问题,本文提出了一种基于fasttext的中文专利文本快速分类的新方法.首先,对采集的专利文本数据使用中文处理工具包FoolNLTK分词,参照百度停用词表去除停用词,减少停用词出现的频率,提高关键词密度.其次,将输入层中的词和词组利用n-gram模型构造文本特征向量,再将文本特征向量通过线性变换映射到隐藏层变量,隐藏层通过求解最大似然函数,根据每个类别的权重和模型参数在输出层上构建Huffman树,利用softmax计算概率实现专利文本分类.实验结果表明,本方法分类精度高,与基于TextCNN、TextRCNN深度学习的专利分类方法相比,分类速度快很多. 展开更多
关键词 fasttext 快速分类 文本分类 专利分类
下载PDF
基于fastText的股票咨询案例中文短文本分类技术 被引量:3
15
作者 林国祥 詹先银 +4 位作者 薛醒思 林涵 吕宏昱 林培辉 方铭波 《宝鸡文理学院学报(自然科学版)》 CAS 2020年第3期48-52,共5页
目的利用词向量与文本分类模型fastText来提高股票咨询短文本的分类质量。方法首先在输入层上通过fastText将输入的词序列转化为词向量进行输入,然后在隐藏层上通过单层神经网络学习,最后在输出层上使用层次softmax对标签进行编码,计算... 目的利用词向量与文本分类模型fastText来提高股票咨询短文本的分类质量。方法首先在输入层上通过fastText将输入的词序列转化为词向量进行输入,然后在隐藏层上通过单层神经网络学习,最后在输出层上使用层次softmax对标签进行编码,计算词序列与每个标签的对应概率,输出词序列属于不同标签的概率值。结果实验结果表明,基于fastText的股票咨询案例的短文本分类准确率高于传统的基于朴素贝叶斯(Naive Bayesian)的短文本分类技术。结论将fastText用于股票咨询案例中文短文本分类可以有效地提高案例短文本分类结果的质量。 展开更多
关键词 fasttext 短文本分类 文本表示 股票咨询
下载PDF
基于FastText的短文本分类 被引量:5
16
作者 王光慈 汪洋 《电子设计工程》 2020年第3期98-101,共4页
在大数据背景下,如何快速准确的从庞大数据集中筛选过滤出有用信息一直是自然语言处理领域的一个研究目标,对用户所提问题进行意图识别能够帮助用户在向问答系统进行沟通的时候,根据用户提出的直接或者间接的信息来快速判断用户的真实意... 在大数据背景下,如何快速准确的从庞大数据集中筛选过滤出有用信息一直是自然语言处理领域的一个研究目标,对用户所提问题进行意图识别能够帮助用户在向问答系统进行沟通的时候,根据用户提出的直接或者间接的信息来快速判断用户的真实意图,过滤无用冗余信息后返回一个概率最大答案给用户。FastText是Facebook AI Research推出的文本分类和词训练工具,它的最大特点是模型简单并且在文本分类的准确率上,和现有的深度学习的方法效果相近,即在保证了准确率的情况下大大缩短了分类时间。 展开更多
关键词 自然语言处理 大数据 fasttext 文本分类
下载PDF
基于TF-IDF和FastText的快速外卖评论情感分类研究 被引量:1
17
作者 吴玉娟 陈亚军 谢婷 《太原师范学院学报(自然科学版)》 2022年第2期51-55,共5页
对外卖评论进行情感分类在外卖评论挖掘、兴趣推荐等领域都有很高的价值,但外卖数据参差不齐,过长的外卖评论会导致模型难以提取准确文本特征等问题.因此设计了一种基于TF-IDF和FastText的外卖评论情感分类模型并进行了相关实验,实验结... 对外卖评论进行情感分类在外卖评论挖掘、兴趣推荐等领域都有很高的价值,但外卖数据参差不齐,过长的外卖评论会导致模型难以提取准确文本特征等问题.因此设计了一种基于TF-IDF和FastText的外卖评论情感分类模型并进行了相关实验,实验结果表明,该模型在3s内达到了90.23%的准确率,具有训练速度快,准确率高的特点,能够快速的对外卖评论进行情感分类. 展开更多
关键词 文本分类 情感分类 TF-IDF fasttext
下载PDF
基于SIF-Fasttext算法的应急预案快速生成 被引量:4
18
作者 刘彤 陈思源 倪维健 《中国科技论文》 CAS 北大核心 2020年第11期1270-1276,共7页
针对非常规突发事件应急决策复杂性问题,提出一种基于SIF-Fasttext算法计算应急预案相似度的预案生成框架。利用可扩展标记语言(eXtensible markup language,XML)统一表示半结构化应急预案,提取新的突发事件问题描述;优先计算同类型应... 针对非常规突发事件应急决策复杂性问题,提出一种基于SIF-Fasttext算法计算应急预案相似度的预案生成框架。利用可扩展标记语言(eXtensible markup language,XML)统一表示半结构化应急预案,提取新的突发事件问题描述;优先计算同类型应急预案相似度高的各部分章节内容,生成符合该新突发事件的半结构化应急预案;依据应急预案评价指标体系,运用层次分析法评估生成的应急预案。实验结果表明,所提方法能以最短的时间生成针对性的应急预案,提高决策效率,使应急决策者做出有效的应急措施。 展开更多
关键词 文字信息处理 SIF-fasttext算法 应急预案 相似度 层次分析法
下载PDF
基于fastText的恶意域名分类方法 被引量:3
19
作者 姜天 匡立伟 《电子设计工程》 2021年第17期35-39,44,共6页
对于使用域名生成算法生成的恶意域名,传统方法依靠机器学习模型,通过分析字符的统计特征来达到分类和识别恶意域名的目的。然而,机器学习算法通常需要复杂的特征工程,其中特征构建的结果决定了最终模型的性能,因此传统方法难以实现恶... 对于使用域名生成算法生成的恶意域名,传统方法依靠机器学习模型,通过分析字符的统计特征来达到分类和识别恶意域名的目的。然而,机器学习算法通常需要复杂的特征工程,其中特征构建的结果决定了最终模型的性能,因此传统方法难以实现恶意域名的准确检测。鉴于此,提出一种基于fastText模型的恶意域名识别方法,通过预处理和词嵌入将构成域名的独立字符转化为多维词向量,经过隐藏层对词向量进行叠加平均,通过输出层输出特定的目标类别。实验结果表明,该方法能够实现恶意域名的准确分类与检测。 展开更多
关键词 域名生成算法 fasttext 词嵌入 准确分类
下载PDF
基于GRW和FastText模型的电信用户投诉文本分类应用 被引量:2
20
作者 赵进 杨小军 《电信科学》 2021年第6期125-131,共7页
随着神经网络的广泛应用,将神经网络应用到自然语言处理文本分类问题中,成为一种有效的解决方法。电信运营商客户服务中心通过多种渠道收集用户投诉信息,为了对投诉文本信息进行自动分类并将其落实到具体责任部门,提升用户感知,提出了... 随着神经网络的广泛应用,将神经网络应用到自然语言处理文本分类问题中,成为一种有效的解决方法。电信运营商客户服务中心通过多种渠道收集用户投诉信息,为了对投诉文本信息进行自动分类并将其落实到具体责任部门,提升用户感知,提出了一种基于GRW模型和FastText模型的文本分类方法。首先通过GRW模型对投诉文本进行特征选择,提取有效特征词;然后构建基于FastText模型的用户投诉文本分类方法;最后在公开数据集和运营商已标注的投诉文本数据集上进行实验。结果表明,基于GRW和FastText模型的文本分类方法比朴素贝叶斯、双向LSTM和Bert模型在准确率、Kappa系数及汉明损失方面的性能有较大提升。 展开更多
关键词 神经网络 文本分类 GRW模型 fasttext模型
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部