期刊文献+
共找到631篇文章
< 1 2 32 >
每页显示 20 50 100
基于TF*IDF垃圾邮件过滤改进算法的研究 被引量:2
1
作者 常凯 《电脑知识与技术》 2010年第9期6928-6930,共3页
传统TF*IDF算法是计算文档关键字的权值的重要方法。分析了传统TF*IDF算法在划分垃圾邮件和合法邮件时的缺点。即忽视了在一类文档中反复出现的单词,反复出现的单词往往最具有代表该类文档的特征,权重应该是比较高的。但这种情况,... 传统TF*IDF算法是计算文档关键字的权值的重要方法。分析了传统TF*IDF算法在划分垃圾邮件和合法邮件时的缺点。即忽视了在一类文档中反复出现的单词,反复出现的单词往往最具有代表该类文档的特征,权重应该是比较高的。但这种情况,传统TF*IDF算法计算出结果恰恰相反,权重偏低,达不到设计者的要求。故通过改进了传统TF*IDF算法计算公式,来增加这些单词的权重。实验证明改进算法优于传统算法: 展开更多
关键词 tf*idf 权重 分类 垃圾邮件
下载PDF
基于TF-IDF算法的运营商客户投诉原因研究 被引量:1
2
作者 张爱华 孙嘉鸿 《北京邮电大学学报(社会科学版)》 2024年第2期39-49,共11页
针对运营商人工处理客户投诉工单高成本低效率问题,提出了一种基于TF-IDF算法的定量研究方法,旨在高效精准地识别客户投诉原因。选用Jieba分词,导入自定义词典和停用词列表,对运营商客户投诉工单进行关键词抽取,获取各类问题中TF-IDF值... 针对运营商人工处理客户投诉工单高成本低效率问题,提出了一种基于TF-IDF算法的定量研究方法,旨在高效精准地识别客户投诉原因。选用Jieba分词,导入自定义词典和停用词列表,对运营商客户投诉工单进行关键词抽取,获取各类问题中TF-IDF值排名前6的关键词,输出关键词集。提高了关键词抽取的准确性和效率。此外,对比仅对文档集使用TF进行统计和使用TextRank算法的情况,突显了IDF的重要性及算法原理的差异。实验结果表明,光猫、路由器、机顶盒问题广泛存在于各类投诉中。针对这三类问题,为运营商提供了改进产品、服务的相关建议,对运营商集中治理、解决问题具有一定的实用价值。 展开更多
关键词 投诉工单 投诉原因 关键词抽取 tf-idf
下载PDF
基于TF-IDF和多头注意力Transformer模型的文本情感分析 被引量:9
3
作者 高佳希 黄海燕 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期129-136,共8页
文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Documen... 文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Document Frequency)和多头注意力Transformer模型的文本情感分析模型。在文本预处理阶段,利用TF-IDF算法对影响文本情感倾向较大的词语进行初步筛选,舍去常见的停用词及其他文本所属邻域对文本情感倾向影响较小的专有名词。然后,利用多头注意力Transformer模型编码器进行特征提取,抓取文本内部重要的语义信息,提高模型对语义的分析和泛化能力。该模型在多领域、多类型评论语料库数据集上取得了98.17%的准确率。 展开更多
关键词 文本情感分析 自然语言处理 多头注意力机制 tf-idf算法 Transformer模型
下载PDF
基于改进TF-IDF与BERT的领域情感词典构建方法 被引量:1
4
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感词典 词频-逆文档频率 隐含狄利克雷分布 情感倾向点互信息算法 BERT模型
下载PDF
基于改进TF-IDF融合二进制灰狼优化的短文本分类
5
作者 杨东 毋涛 +1 位作者 赵雪青 李猛 《计算机技术与发展》 2024年第8期37-41,共5页
为了提高特殊类型短文本分类准确度和降低特征维度,提出了基于改进TF-IDF方法融合二进制灰狼优化的短文本分类。为了提高特征向量文本权重计算准确度,提出了点赞排列因子,并融合了文本特征集中度,对附有点赞数的特殊类型文本进行权重计... 为了提高特殊类型短文本分类准确度和降低特征维度,提出了基于改进TF-IDF方法融合二进制灰狼优化的短文本分类。为了提高特征向量文本权重计算准确度,提出了点赞排列因子,并融合了文本特征集中度,对附有点赞数的特殊类型文本进行权重计算,设计改进了TF-IDF-RANK方法对特征进行加权;同时,基于初选特征向量,设计优化了二进制灰狼优化算法(BGWO)搜寻最优特征子集,引入衰减系数向量和多优解迭代机制,提高灰狼搜寻性能。结果表明,该方法有效地提升了权重准确率,更好地表征初选特征向量,增强特征选择时寻找全局最优解的能力,进而提高短文本的分类效果。通过LABIC和抖音开放平台数据集测试,综合指标F1值分别提高了14.76%和14.02%,验证了该方法对于特殊类型文本分类的有效性。 展开更多
关键词 短文本分类 特征加权 tf-idf-RANK方法 特征选择 二进制灰狼优化
下载PDF
长三角一体化发展特征与动力探究——基于TF-IDF算法与格兰杰检验
6
作者 关硕 赵雪 刘毅 《科技和产业》 2024年第5期40-47,共8页
从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设... 从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设主体对5个发展目标的注意力分配不均衡;在创新共建目标方面,地方主体的注意力变动会引起中央主体的注意力变动;长三角一体化发展呈现小间断大均衡特征,体现“自下而上”的地方主导模式。 展开更多
关键词 长三角一体化 话语制度主义 间断-均衡框架 tf-idf(词频-逆文件频率)算法 格兰杰检验
下载PDF
基于改进TF-IDF和AGLCNN的新闻长文本分类模型
7
作者 周宪溪 牟莉 《计算机与现代化》 2024年第8期120-126,共7页
新闻长文本分类是自然语言处理中的一项重要任务,但传统的文本表示方法存在特征稀疏、语义不足等问题。此外,新闻长文本含有大量的冗余信息,并且可能涉及其他主题,以上问题都会导致文本特征提取不全面。为此,本文提出一种基于改进TF-ID... 新闻长文本分类是自然语言处理中的一项重要任务,但传统的文本表示方法存在特征稀疏、语义不足等问题。此外,新闻长文本含有大量的冗余信息,并且可能涉及其他主题,以上问题都会导致文本特征提取不全面。为此,本文提出一种基于改进TF-IDF算法和AGLCNN的新闻长文本分类模型。该模型首先利用特征项在类间与类内分布情况及其位置信息来改进TF-IDF算法,并结合Word2Vec词向量进行文本表示;利用注意力机制突出关键字信息,输入至Bi-LSTM捕获文本上下文特征;接着利用CNN突出新闻主题的显著特征;考虑到新闻长文本中可能存在涉及其他主题信息的句子,引入门控机制对Bi-LSTM和CNN输出特征进行融合,获得最终的文本特征表示;最后,将特征向量输入Softmax层进行新闻分类。在THUCNews数据集和搜狐新闻数据集上进行对比实验,结果表明,所提模型在2个数据集上的召回率分别为0.985和0.976,优于其他分类模型。 展开更多
关键词 文本分类 tf-idf 注意力机制 卷积神经网络 特征项
下载PDF
基于TF*IDF的垃圾邮件过滤特征选择改进算法 被引量:6
8
作者 陈琦 伍朝辉 +2 位作者 姚芳 宋秀荣 张付志 《计算机应用研究》 CSCD 北大核心 2009年第6期2165-2167,共3页
随着电子邮件的普及与应用,垃圾邮件的泛滥也越来越受到人们的关注。而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点... 随着电子邮件的普及与应用,垃圾邮件的泛滥也越来越受到人们的关注。而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点,将关键字权重引入到邮件分类中,提出了一种基于关键词权重的TF*IDF特征选择改进算法,并进行了实验验证。实验结果表明,采用该算法改进后的贝叶斯过滤器具有更好的过滤效果。 展开更多
关键词 垃圾邮件 过滤器 贝叶斯 特征选择 tf*idf
下载PDF
基于词频差异的特征选取及改进的TF-IDF公式 被引量:55
9
作者 罗欣 夏德麟 晏蒲柳 《计算机应用》 CSCD 北大核心 2005年第9期2031-2033,共3页
文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度... 文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度及准确度。 展开更多
关键词 特征选取 向量空间模型 文本分类 tf-idf 信息增益 互信息量
下载PDF
基于TF-IDF相似度的标签聚类方法 被引量:22
10
作者 韩敏 唐常杰 +2 位作者 段磊 李川 巩杰 《计算机科学与探索》 CSCD 2010年第3期240-246,共7页
社会标签系统是Web2.0中提出的新概念,旨在更好地表达用户的兴趣和意愿。标签聚类是社会标签数据挖掘中一个非常重要的研究课题。标签相似度的计算是标签聚类的关键技术。主要工作包括:(1)提出了一种基于TF-IDF的标签相似度计算方法和... 社会标签系统是Web2.0中提出的新概念,旨在更好地表达用户的兴趣和意愿。标签聚类是社会标签数据挖掘中一个非常重要的研究课题。标签相似度的计算是标签聚类的关键技术。主要工作包括:(1)提出了一种基于TF-IDF的标签相似度计算方法和基于该相似度的聚类算法;(2)分析了影响标签相似度的条件;(3)通过实验表明:与已有方法相比,新方法的准确性更高。 展开更多
关键词 标签聚类 相似度 社会标签系统 tfidf技术
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:31
11
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-逆文本频率 词向量 隐含狄利克雷分布
下载PDF
移动机器人闭环检测的视觉字典树金字塔TF-IDF得分匹配方法 被引量:25
12
作者 李博 杨丹 邓林 《自动化学报》 EI CSCD 北大核心 2011年第6期665-673,共9页
针对移动机器人视觉闭环检测中,基于视觉字典本的场景外观表征性能受制于有限单词个数以及算法效率低的不足,本文对机器人视觉特征分层量化,构建视觉字典树,计算树节点的TF-IDF熵作为对应视觉单词的权重,生成图像–单词逆向文档索引.为... 针对移动机器人视觉闭环检测中,基于视觉字典本的场景外观表征性能受制于有限单词个数以及算法效率低的不足,本文对机器人视觉特征分层量化,构建视觉字典树,计算树节点的TF-IDF熵作为对应视觉单词的权重,生成图像–单词逆向文档索引.为消除视觉字典本的单尺度量化误差,并克服基于字典树投影路径的平面匹配模式中不区分不同层次节点的区分度对闭环检测的影响,本文融合字典树低层单词的强表征性和高层单词的强鲁棒性,提出由下而上逐层计算图像间相似性增量的金字塔得分匹配方法.将不同时刻相似性大于阈值的图像位置提取为候选闭环,通过后验确认操作剔除误正闭环.在移动机器人视觉闭环检测实验中,本文算法提高了图像相似性计算的效率和准确性,提高了闭环检测的准确率和召回率. 展开更多
关键词 闭环检测 视觉字典树 tf-idf得分准则 金字塔匹配
下载PDF
TF-IDF与规则相结合的中文关键词自动抽取研究 被引量:35
13
作者 牛萍 黄德根 《小型微型计算机系统》 CSCD 北大核心 2016年第4期711-715,共5页
关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未... 关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未登录词,且不依赖于语料库规模和领域.并且,在传统的TF-IDF基础上,结合位置特征和长度特征的情况下,考虑兼类词的不同词性问题,提出改进的TF-IDF计算公式,进行关键词抽取.通过比较实验,证明了候选词对关键词抽取的影响,与TF-IDF进行比较实验,改进的TF-IDF的准确率提高了5%左右. 展开更多
关键词 抽取 未登录词识别 候选词抽取 tf-idf
下载PDF
基于行业专有词典的TF-IDF特征选择算法改进 被引量:7
14
作者 张齐勋 刘宏志 +2 位作者 刘诗祥 贾堂 曹健 《计算机应用与软件》 2017年第7期277-281,共5页
行业专有词典是收录特定行业专有用语的词典,将行业专有词典运用到基于TF-IDF的特征选取算法中可提高文本特征空间的完备性。基于TF-IDF的改进算法的核心目标是提取出低频的关键词,现有的基于统计特征的改进方法增加了原始算法的计算复... 行业专有词典是收录特定行业专有用语的词典,将行业专有词典运用到基于TF-IDF的特征选取算法中可提高文本特征空间的完备性。基于TF-IDF的改进算法的核心目标是提取出低频的关键词,现有的基于统计特征的改进方法增加了原始算法的计算复杂度,降低了算法的效率。针对这一问题,在原始的TF-IDF特征选取算法上采用词典映射的方法提取低频关键词来构建完备的特征空间。实验结果表明,基于行业专有词典的TFIDF算法提取出的特征较未使用行业专有词典特征选取算法提取出的特征在后续的二次聚类验证实验中能有效地提高聚类的查全率和查准率。 展开更多
关键词 行业专有词典 tf-idf 特征空间 特征选择算法
下载PDF
基于C-value与TF-IDF的文献簇主题识别研究 被引量:11
15
作者 陈仕吉 王小梅 《情报学报》 CSSCI 北大核心 2009年第6期821-826,共6页
引文分析是科技情报分析的一种重要方法和技术,特别是建立在共耦合和共被引基础上的引文聚类分析逐渐发展成为科技情报分析中最活跃的研究领域之一。引文聚类分析形成一系列由科技文献组成的文献簇,并不能直接体现出文献簇的主题,因此... 引文分析是科技情报分析的一种重要方法和技术,特别是建立在共耦合和共被引基础上的引文聚类分析逐渐发展成为科技情报分析中最活跃的研究领域之一。引文聚类分析形成一系列由科技文献组成的文献簇,并不能直接体现出文献簇的主题,因此需要识别这些文献簇的内容特征。本文分析了引文分析中文献簇主题识别的典型方法及局限,提出了结合C-value和TF-IDF算法的文献簇主题识别方法。实验表明,该方法可以充分地利用C-value和TF-IDF算法的优点,对C-value和TF-IDF算法中不合理的地方予以了改进,从而可以更好地应用于引文分析中文献簇的主题识别。 展开更多
关键词 C-VALUE tf-idf CV-idf 引文分析 主题识别
下载PDF
基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取 被引量:9
16
作者 杜若鹏 鲜国建 寇远涛 《数字图书馆论坛》 CSSCI 2019年第8期18-24,共7页
针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用验证。通过引入卡方检验值与特征词频修正因子等方式,对特征词加权函数进行重构,形成改进的ImpTF-IDF-CH... 针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用验证。通过引入卡方检验值与特征词频修正因子等方式,对特征词加权函数进行重构,形成改进的ImpTF-IDF-CHI方法。将该方法与文档频率法、信息增益法及TF-IDF3种传统的文本特征抽取结果应用于朴素贝叶斯分类实验,根据实验结果判定方法的优劣性。通过4种方法的58组特征抽取与文本分类实验,发现与前述的3种特征抽取方法相比,ImpTF-IDF-CHI方法抽取的特征词,应用于文本分类的正确率最高,平均准确率达94%,F1值为0.844,证明该方法在对相近农业科研领域文本进行特征抽取方面,具有准确率高、稳定性好、主题词代表性强等优点,可以有效地应用于此类文献文本分类、特征表达、主题抽取等场景。 展开更多
关键词 特征抽取 tf-idf 卡方统计 文本分类 农业科技文献
下载PDF
基于改进TF-IDF算法的牛疾病智能诊断系统 被引量:9
17
作者 杜永兴 牛丽静 +1 位作者 秦岭 李宝山 《计算机应用与软件》 北大核心 2021年第2期50-53,57,共5页
传统的TF-IDF(Term Frequency&Inverse Documentation Frequency)算法提取的关键词不能合理地代表某疾病的症状,降低智能诊断系统的性能。对此,提出一种改进的TF-IDF算法,并将其应用在牛疾病诊断系统中。系统将用户描述的文本内容... 传统的TF-IDF(Term Frequency&Inverse Documentation Frequency)算法提取的关键词不能合理地代表某疾病的症状,降低智能诊断系统的性能。对此,提出一种改进的TF-IDF算法,并将其应用在牛疾病诊断系统中。系统将用户描述的文本内容转换成向量的形式,用TF-IDF算法提取关键症状词,利用余弦定理和可信度计算给出可靠的疾病推荐和治疗方案。实验结果表明,该算法在疾病诊断中准确率和可信度两方面都具有更好的效果。与传统TF-IDF算法相比,平均可信度提高约4%。 展开更多
关键词 智能诊断 tf-idf 余弦相似度 VSM
下载PDF
一种基于改进TF-IDF函数的文本分类方法 被引量:6
18
作者 卢中宁 张保威 《河南师范大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第6期158-160,174,共4页
为了解决传统TF-IDF函数由于忽略特征项之间的联系带来的诸多问题,对TF-IDF函数在文本分类中的应用进行了研究.结合信息论相关知识,找出了类间分布度和类内分布度表征特征项之间的潜在关系,进而提出改进的TF-IDF函数用于文本分类.实验表... 为了解决传统TF-IDF函数由于忽略特征项之间的联系带来的诸多问题,对TF-IDF函数在文本分类中的应用进行了研究.结合信息论相关知识,找出了类间分布度和类内分布度表征特征项之间的潜在关系,进而提出改进的TF-IDF函数用于文本分类.实验表明,改进后的TF-IDF函数是有效可行的,而且较好的弥补了传统方法所丢失的特征项之间的关联信息,提高了文本分类的准确率. 展开更多
关键词 VSM tf-idf函数 权重 文本分类
下载PDF
基于改进的TF-IDF权重的短文本分类算法 被引量:15
19
作者 杨彬 韩庆文 +4 位作者 雷敏 张亚鹏 刘向国 杨亚强 马雪峰 《重庆理工大学学报(自然科学)》 CAS 2016年第12期108-113,共6页
短文本具有特征稀疏的特点,如采用TF-IDF权重和算法来选择短文本特征,很多具有专业领域信息特征而训练集中未出现过的特征将被忽略,从而导致待分类文本集的权值分布比较集中,区分度小,最终影响短文本信息推送。因此,一种基于改进的TF-ID... 短文本具有特征稀疏的特点,如采用TF-IDF权重和算法来选择短文本特征,很多具有专业领域信息特征而训练集中未出现过的特征将被忽略,从而导致待分类文本集的权值分布比较集中,区分度小,最终影响短文本信息推送。因此,一种基于改进的TF-IDF权重的短文本分类算法被提出。该算法通过同义词对分类器的关键词库进行扩展和基于特征长度对短文本权值进行加权,使得文本集的权值方差增大。与直接对短文本进行扩展的算法相比,该算法具有更快的分类速度。 展开更多
关键词 短文本 tf-idf权重 特征扩展
下载PDF
基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型 被引量:42
20
作者 王根生 黄学坚 《小型微型计算机系统》 CSCD 北大核心 2019年第5期1120-1126,共7页
针对传统机器学习文本分类算法语义特征表达弱、文本表示维度高、词序丢失、矩阵稀疏等问题,提出基于Word2vec、改进型TF-IDF和卷积神经网络三者相结合的文本分类模型(CTMWT):首先通过Word2vec模型训练得出样本中所有的词向量;然后提出... 针对传统机器学习文本分类算法语义特征表达弱、文本表示维度高、词序丢失、矩阵稀疏等问题,提出基于Word2vec、改进型TF-IDF和卷积神经网络三者相结合的文本分类模型(CTMWT):首先通过Word2vec模型训练得出样本中所有的词向量;然后提出基于类频方差改进型TF-IDF算法,分析每个词向量在文本中的权重,构建基于词向量和权重的文本向量表示;最后借助卷积神经网络从局部到全局相关性特征的学习能力,对该大量文本向量进行深度学习.试验结果表明三者结合的文本分类模型不仅能实现文本的准确分类,并且相比传统的机器学习文本分类算法具有更好的分类效果. 展开更多
关键词 Word2vec 改进型tf-idf算法 卷积神经网络 文本分类 CTMWT
下载PDF
上一页 1 2 32 下一页 到第
使用帮助 返回顶部