期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
基于DAN与FastText的藏文短文本分类研究
1
作者 李果 陈晨 +1 位作者 杨进 群诺 《计算机科学》 CSCD 北大核心 2024年第S01期103-107,共5页
随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行... 随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行无监督训练获得预训练的藏文音节向量集,使用预训练的音节向量集将藏文短文本信息转化为音节向量,把音节向量送入DAN(Deep Averaging Networks)网络并在输出阶段融合经过FastText网络训练的句向量特征,最后通过全连接层和softmax层完成分类。在公开的TNCC(Tibetan News Classification Corpus)新闻标题数据集上所提模型的Macro-F1是64.53%,比目前最好评测结果TiBERT模型的Macro-F1得分高出2.81%,比GCN模型的Macro-F1得分高出6.14%,融合模型具有较好的藏文短文本分类效果。 展开更多
关键词 藏文短文本分类 特征融合 深度平均网络 快速文本
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:31
2
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 fasttext 词频-逆文本频率 词向量 隐含狄利克雷分布
下载PDF
融合类别特征扩展与N-gram子词过滤的fastText短文本分类 被引量:6
3
作者 李志明 孙艳 +1 位作者 何宜昊 申利民 《小型微型计算机系统》 CSCD 北大核心 2022年第8期1596-1601,共6页
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出... 以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出基于词汇信息熵的N-gram子词过滤方法过滤N-gram子词中低类别区分贡献度子词,并构建更专注于高类别区分贡献度语义特征学习的EF-fastText短文本分类模型.实验结果表明基于TF-IDF的LDA类别特征提取方法,以及基于词汇信息熵的N-gram子词过滤方法对于EF-fastText短文本分类模型性能提升是有效性的. 展开更多
关键词 短文本分类 fasttext 类别特征 词汇信息熵 N-GRAM
下载PDF
TI-FastText自动商品分类算法 被引量:3
4
作者 邵欣欣 《计算机科学》 CSCD 北大核心 2022年第S01期206-210,共5页
为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在... 为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在计算输入词序列向量均值时,偏向高群分度的词条;最后将文本内容以字符顺序进行大小为N的窗口滑动操作,使其更适用于商品标题分类。基于Anaconda平台,对基于FastText的商品分类算法进行实现和优化,经评估,最终的分类器准确率较高,能够满足电商平台对商品分类的需求。 展开更多
关键词 商品分类 中文短文本分类 fasttext TF-IDF
下载PDF
基于fastText的中文文本分类 被引量:19
5
作者 代令令 蒋侃 《计算机与现代化》 2018年第5期35-40,85,共7页
在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的... 在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的效果。相对于目前主流的文本分类方法,基于fastText模型的分类方法在保证分类效果的同时,大大缩短了分类时间。此外,在分类准确率和参数设置方面进行分析并得出相应的优化规则。 展开更多
关键词 文本分类 fasttext 线性分类器 快速文本分类模型
下载PDF
基于FastText和关键句提取的中文长文本分类 被引量:5
6
作者 汪家成 薛涛 《计算机系统应用》 2021年第8期213-218,共6页
FastText是一种准确高效的文本分类模型,但直接应用在中文长文本分类领域存在准确度不高的问题.针对该问题,提出一种融合TextRank关键子句提取和词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)的FastText中文长文... FastText是一种准确高效的文本分类模型,但直接应用在中文长文本分类领域存在准确度不高的问题.针对该问题,提出一种融合TextRank关键子句提取和词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)的FastText中文长文本分类方法.该方法在FastText模型输入阶段使用TextRank算法提取文本的关键子句输入训练模型,同时采用TF-IDF提取文本的关键词作为特征补充,从而在减少训练语料的同时尽可能保留文本分类的关键特征.实验结果表明,此文本分类方法在数据集上准确率达到86.1%,比经典的FastText模型提高了约4%. 展开更多
关键词 文本分类 fasttext textRank 词频-逆文本频率
下载PDF
基于FastText模型的农业短文本分类研究 被引量:1
7
作者 王福健 魏霖静 +1 位作者 安昭先 刘志祖 《软件》 2022年第10期27-29,共3页
本文提出基于FastText分类语言模型来解决农业短文本分类问题。在数据处理好类别的情况下,利用实验对12万条农业数据集进行实验。并探究与典型深度语言模型(TextRNN、TextCNN、TextDPCNN、Transformer)进行对比分析其中的分类准确率和... 本文提出基于FastText分类语言模型来解决农业短文本分类问题。在数据处理好类别的情况下,利用实验对12万条农业数据集进行实验。并探究与典型深度语言模型(TextRNN、TextCNN、TextDPCNN、Transformer)进行对比分析其中的分类准确率和分类处理响应时间。实验结果得出结论,基于深度学习的FastText模型的农业短文本分类效果最好,FastText模型对比其他模型的准确率、精确率、召回率和F1值提高了1%~4%。FastText模型可以对中文农业短文本分类处理速度更好,更优于其他典型深度语言模型算法。 展开更多
关键词 农业短文本分类 文本分类 语言模型 fasttext
下载PDF
基于fasttext模型的中文专利快速分类 被引量:1
8
作者 陈子豪 谢从华 +1 位作者 时敏 唐晓娜 《常熟理工学院学报》 2020年第5期47-50,共4页
针对现有中文专利文本的自动分类方法存在分类处理过程复杂耗时长、精度低且对硬件的要求较高等问题,本文提出了一种基于fasttext的中文专利文本快速分类的新方法.首先,对采集的专利文本数据使用中文处理工具包FoolNLTK分词,参照百度停... 针对现有中文专利文本的自动分类方法存在分类处理过程复杂耗时长、精度低且对硬件的要求较高等问题,本文提出了一种基于fasttext的中文专利文本快速分类的新方法.首先,对采集的专利文本数据使用中文处理工具包FoolNLTK分词,参照百度停用词表去除停用词,减少停用词出现的频率,提高关键词密度.其次,将输入层中的词和词组利用n-gram模型构造文本特征向量,再将文本特征向量通过线性变换映射到隐藏层变量,隐藏层通过求解最大似然函数,根据每个类别的权重和模型参数在输出层上构建Huffman树,利用softmax计算概率实现专利文本分类.实验结果表明,本方法分类精度高,与基于TextCNN、TextRCNN深度学习的专利分类方法相比,分类速度快很多. 展开更多
关键词 fasttext 快速分类 文本分类 专利分类
下载PDF
基于TF-IDF和FastText的快速外卖评论情感分类研究 被引量:3
9
作者 吴玉娟 陈亚军 谢婷 《太原师范学院学报(自然科学版)》 2022年第2期51-55,共5页
对外卖评论进行情感分类在外卖评论挖掘、兴趣推荐等领域都有很高的价值,但外卖数据参差不齐,过长的外卖评论会导致模型难以提取准确文本特征等问题.因此设计了一种基于TF-IDF和FastText的外卖评论情感分类模型并进行了相关实验,实验结... 对外卖评论进行情感分类在外卖评论挖掘、兴趣推荐等领域都有很高的价值,但外卖数据参差不齐,过长的外卖评论会导致模型难以提取准确文本特征等问题.因此设计了一种基于TF-IDF和FastText的外卖评论情感分类模型并进行了相关实验,实验结果表明,该模型在3s内达到了90.23%的准确率,具有训练速度快,准确率高的特点,能够快速的对外卖评论进行情感分类. 展开更多
关键词 文本分类 情感分类 TF-IDF fasttext
下载PDF
基于fastText的股票咨询案例中文短文本分类技术 被引量:3
10
作者 林国祥 詹先银 +4 位作者 薛醒思 林涵 吕宏昱 林培辉 方铭波 《宝鸡文理学院学报(自然科学版)》 CAS 2020年第3期48-52,共5页
目的利用词向量与文本分类模型fastText来提高股票咨询短文本的分类质量。方法首先在输入层上通过fastText将输入的词序列转化为词向量进行输入,然后在隐藏层上通过单层神经网络学习,最后在输出层上使用层次softmax对标签进行编码,计算... 目的利用词向量与文本分类模型fastText来提高股票咨询短文本的分类质量。方法首先在输入层上通过fastText将输入的词序列转化为词向量进行输入,然后在隐藏层上通过单层神经网络学习,最后在输出层上使用层次softmax对标签进行编码,计算词序列与每个标签的对应概率,输出词序列属于不同标签的概率值。结果实验结果表明,基于fastText的股票咨询案例的短文本分类准确率高于传统的基于朴素贝叶斯(Naive Bayesian)的短文本分类技术。结论将fastText用于股票咨询案例中文短文本分类可以有效地提高案例短文本分类结果的质量。 展开更多
关键词 fasttext 短文本分类 文本表示 股票咨询
下载PDF
基于FastText的短文本分类 被引量:5
11
作者 王光慈 汪洋 《电子设计工程》 2020年第3期98-101,共4页
在大数据背景下,如何快速准确的从庞大数据集中筛选过滤出有用信息一直是自然语言处理领域的一个研究目标,对用户所提问题进行意图识别能够帮助用户在向问答系统进行沟通的时候,根据用户提出的直接或者间接的信息来快速判断用户的真实意... 在大数据背景下,如何快速准确的从庞大数据集中筛选过滤出有用信息一直是自然语言处理领域的一个研究目标,对用户所提问题进行意图识别能够帮助用户在向问答系统进行沟通的时候,根据用户提出的直接或者间接的信息来快速判断用户的真实意图,过滤无用冗余信息后返回一个概率最大答案给用户。FastText是Facebook AI Research推出的文本分类和词训练工具,它的最大特点是模型简单并且在文本分类的准确率上,和现有的深度学习的方法效果相近,即在保证了准确率的情况下大大缩短了分类时间。 展开更多
关键词 自然语言处理 大数据 fasttext 文本分类
下载PDF
基于GRW和FastText模型的电信用户投诉文本分类应用 被引量:2
12
作者 赵进 杨小军 《电信科学》 2021年第6期125-131,共7页
随着神经网络的广泛应用,将神经网络应用到自然语言处理文本分类问题中,成为一种有效的解决方法。电信运营商客户服务中心通过多种渠道收集用户投诉信息,为了对投诉文本信息进行自动分类并将其落实到具体责任部门,提升用户感知,提出了... 随着神经网络的广泛应用,将神经网络应用到自然语言处理文本分类问题中,成为一种有效的解决方法。电信运营商客户服务中心通过多种渠道收集用户投诉信息,为了对投诉文本信息进行自动分类并将其落实到具体责任部门,提升用户感知,提出了一种基于GRW模型和FastText模型的文本分类方法。首先通过GRW模型对投诉文本进行特征选择,提取有效特征词;然后构建基于FastText模型的用户投诉文本分类方法;最后在公开数据集和运营商已标注的投诉文本数据集上进行实验。结果表明,基于GRW和FastText模型的文本分类方法比朴素贝叶斯、双向LSTM和Bert模型在准确率、Kappa系数及汉明损失方面的性能有较大提升。 展开更多
关键词 神经网络 文本分类 GRW模型 fasttext模型
下载PDF
GM-FastText多通道词向量短文本分类模型 被引量:1
13
作者 白子诚 周艳玲 张龑 《计算机系统应用》 2022年第9期403-408,共6页
在针对短文本分类中文本特征稀疏难以提取、用词不规范导致OOV (out of vocabulary)等问题,提出了基于FastText模型多通道嵌入词向量,和GRU (gate recurrent unit)与多层感知机(multi-layer perceptron, MLP)混合网络结构(GRU-MLP hybri... 在针对短文本分类中文本特征稀疏难以提取、用词不规范导致OOV (out of vocabulary)等问题,提出了基于FastText模型多通道嵌入词向量,和GRU (gate recurrent unit)与多层感知机(multi-layer perceptron, MLP)混合网络结构(GRU-MLP hybrid network architecture, GM)的短文本分类模型GM-FastText.该模型使用FastText模型以N-gram方式分别产生不同的嵌入词向量送入GRU层和MLP层获取短文本特征,通过GRU对文本的特征提取和MLP层混合提取不同通道的文本特征,最后映射到各个分类中.多组对比实验结果表明:与TextCNN、TextRNN方法对比, GM-FastText模型F1指标提升0.021和0.023,准确率提升1.96和2.08个百分点;与FastText,FastText-CNN, FastText-RNN等对比, GM-FastText模型F1指标提升0.006、0.014和0.016,准确率提升0.42、1.06和1.41个百分点.通过对比发现,在FastText多通道词向量和GM混合结构网络的作用下,多通道词向量在短文本分类中有更好的词向量表达且GM网络结构对多参数特征提取有更好的性能. 展开更多
关键词 短文本分类 快速文本 词向量 多层感知机 多特征
下载PDF
基于FastText的新闻文本多分类研究 被引量:5
14
作者 张超超 卢新明 《软件导刊》 2020年第3期44-47,共4页
在迅速增加的海量数据中,文本形式的数据占很大比重。文本分类作为最常见的文本挖掘技术,可在大量杂乱的文本数据中发现有价值的信息,具有重要意义。文本分类面临的首要问题是如何在确保分类准确率的同时缩短分类时间。提出使用分类模型... 在迅速增加的海量数据中,文本形式的数据占很大比重。文本分类作为最常见的文本挖掘技术,可在大量杂乱的文本数据中发现有价值的信息,具有重要意义。文本分类面临的首要问题是如何在确保分类准确率的同时缩短分类时间。提出使用分类模型FastText学习单词特征以解决该问题,同时在数据集上使用停用词处理方法降低噪声数据对分类模型的影响。实验结果表明,使用FastText文本分类模型在数据集上准确率达到96.11%,比传统模型提高近4%,且模型处理每条文本的平均时间为1.5ms,缩短了约1/3。 展开更多
关键词 文本分类 词向量 fasttext 停用词 噪声数据
下载PDF
基于FastText的专利文本自动分类方法研究 被引量:3
15
作者 谢剑芳 田英明 +1 位作者 徐旭 王方 《仪器仪表标准化与计量》 2020年第4期21-24,共4页
随着企业的不断创新发展,专利等无形资产通过不断的积累已达到一定规模,知识产权战略也由先前的以量取胜转变为以质取胜,这就需要对专利等知识产权进行更加精细化地管理和专利信息挖掘。合理高效的分类管理有助于提高企业专利管理的质... 随着企业的不断创新发展,专利等无形资产通过不断的积累已达到一定规模,知识产权战略也由先前的以量取胜转变为以质取胜,这就需要对专利等知识产权进行更加精细化地管理和专利信息挖掘。合理高效的分类管理有助于提高企业专利管理的质量和效率,进一步完善和优化企业的知识产权布局,提升企业无形资产价值。本文采用FastText分类方法对专利文本进行自动分类,并基于三种传统文本自动分类方法进行实验效果对比。试验结果表明,FastText分类方法在精确率和召回率方面测试效果比较理想,达到预期效果。 展开更多
关键词 专利 IPC 文本分类 fasttext
下载PDF
贝叶斯、RidgeClassifier和fastText算法在匿名新闻文本分类中的对比研究
16
作者 徐炜桢 《软件》 2021年第10期174-177,共4页
针对互联网时代面临的通过人工对海量新闻进行分类较为困难的问题,本文通过贝叶斯、RidgeClassifier和fastText这三种分类器进行新闻文本分类,分析比较了这三种分类器对新闻文本分类的效果。实验结果表明,三种分类器均可以实现新闻文本... 针对互联网时代面临的通过人工对海量新闻进行分类较为困难的问题,本文通过贝叶斯、RidgeClassifier和fastText这三种分类器进行新闻文本分类,分析比较了这三种分类器对新闻文本分类的效果。实验结果表明,三种分类器均可以实现新闻文本分类的任务,其中fastText方法在匿名新闻文本分类问题中各方面性能指标最优,本文从算法理论上分析了产生这一差异的原因。 展开更多
关键词 贝叶斯 RidgeClassifier fasttext 文本分类
下载PDF
基于社交媒体数据的城市洪涝灾害信息智能提取与分析
17
作者 康玲 温云亮 +4 位作者 周丽伟 郭金垒 叶金旺 陈锦帅 邹强 《中国农村水利水电》 北大核心 2024年第5期155-160,共6页
近年来,由于气候变化导致极端降雨引起的城市内涝灾害事件频发,给我国城市水安全和可持续发展带来威胁,准确掌握受灾区域的舆论主体和公众情绪,对提高应急管理部门内涝灾害的态势感知能力具有重要意义。在当今智能网络时代,人们通过社... 近年来,由于气候变化导致极端降雨引起的城市内涝灾害事件频发,给我国城市水安全和可持续发展带来威胁,准确掌握受灾区域的舆论主体和公众情绪,对提高应急管理部门内涝灾害的态势感知能力具有重要意义。在当今智能网络时代,人们通过社交媒体反映问题和建议的诉求日益凸显,社交媒体已逐渐成为反映民众情感和社会舆情的主要载体,为获取自然灾害信息提供了新的途径。如何从社交媒体中快速提取城市洪涝灾害信息,并对自然灾害信息进行主题分类和情感分析,准确掌握区域灾情的主题类别和民众舆论倾向,是目前亟待解决的关键技术问题。以新浪微博为例,阐述了洪涝灾害数据的获取与预处理方法,构建了基于FastText的城市洪涝灾害信息主题分类和情感分析模型,以准确掌握受灾区域的主题类别和舆论导向。以2021年郑州“7.20”特大暴雨期间洪涝灾害为例的研究结果表明,本文方法实现了对社交媒体中城市洪涝灾害数据的智能提取与分析,主题分类模型对预设八种类别数据的分类预测F1值达到0.80以上,且情感分析模型基本能够准确预测情感标记为“负面”的数据,这表明本文构建的基于FastText的城市洪涝灾害信息主题分类和情感分析模型能够满足支撑城市应急管理部门动态掌握洪涝灾害发展态势及公众情绪的需求,对防涝减灾调度、安抚民众情绪和实时定点救援等工作具有重要的指导意义。 展开更多
关键词 城市内涝 社交媒体 fasttext 文本分类 情感分析
下载PDF
基于密度的kNN文本分类器训练样本裁剪方法 被引量:98
18
作者 李荣陆 胡运发 《计算机研究与发展》 EI CSCD 北大核心 2004年第4期539-545,共7页
随着WWW的迅猛发展 ,文本分类成为处理和组织大量文档数据的关键技术 kNN方法作为一种简单、有效、非参数的分类方法 ,在文本分类中得到广泛的应用 但是这种方法计算量大 ,而且训练样本的分布不均匀会造成分类准确率的下降 针对kNN... 随着WWW的迅猛发展 ,文本分类成为处理和组织大量文档数据的关键技术 kNN方法作为一种简单、有效、非参数的分类方法 ,在文本分类中得到广泛的应用 但是这种方法计算量大 ,而且训练样本的分布不均匀会造成分类准确率的下降 针对kNN方法存在的这两个问题 ,提出了一种基于密度的kNN分类器训练样本裁剪方法 ,这种方法不仅降低了kNN方法的计算量 ,而且使训练样本的分布密度趋于均匀 ,减少了边界点处测试样本的误判 实验结果显示 。 展开更多
关键词 文本分类 KNN 快速分类
下载PDF
基于密度的kNN分类器训练样本裁剪方法的改进 被引量:13
19
作者 熊忠阳 杨营辉 张玉芳 《计算机应用》 CSCD 北大核心 2010年第3期799-801,817,共4页
在文本分类中,训练集的分布状态会直接影响k-近邻(kNN)分类器的效率和准确率。通过分析基于密度的kNN文本分类器训练样本的裁剪方法,发现它存在两大不足:一是裁剪之后的均匀状态只是以ε为半径的球形区域意义上的均匀状态,而非最理想的... 在文本分类中,训练集的分布状态会直接影响k-近邻(kNN)分类器的效率和准确率。通过分析基于密度的kNN文本分类器训练样本的裁剪方法,发现它存在两大不足:一是裁剪之后的均匀状态只是以ε为半径的球形区域意义上的均匀状态,而非最理想的均匀状态即两两样本之间的距离相等;二是未对低密度区域的样本做任何处理,裁剪之后仍存在大量不均匀的区域。针对这两处不足,提出了以下两点改进:一是优化了裁剪策略,使裁剪之后的训练集更趋于理想的均匀状态;二是实现了对低密度区域样本的补充。通过实验对比,改进后的方法在稳定性和准确率方面都有明显提高。 展开更多
关键词 文本分类 K-近邻 快速分类 样本裁剪 样本补充
下载PDF
一种改进的KNN Web文本分类方法 被引量:9
20
作者 吴春颖 王士同 《计算机应用研究》 CSCD 北大核心 2008年第11期3275-3277,共3页
KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方... KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方法先通过Rocchio分类快速得到k0个最有可能的候选类别;然后在k0个类别训练文档中抽取部分代表样本采用KNN算法;最后由一种改进的相似度计算方法决定最终的文本所属类别。实验表明,改进的KNN方法在Web文本分类中能够获得较好的分类效果。 展开更多
关键词 WEB文本分类 K最近邻 快速分类
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部