期刊文献+
共找到155篇文章
< 1 2 8 >
每页显示 20 50 100
基于TF-IDF和多头注意力Transformer模型的文本情感分析 被引量:7
1
作者 高佳希 黄海燕 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期129-136,共8页
文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Documen... 文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Document Frequency)和多头注意力Transformer模型的文本情感分析模型。在文本预处理阶段,利用TF-IDF算法对影响文本情感倾向较大的词语进行初步筛选,舍去常见的停用词及其他文本所属邻域对文本情感倾向影响较小的专有名词。然后,利用多头注意力Transformer模型编码器进行特征提取,抓取文本内部重要的语义信息,提高模型对语义的分析和泛化能力。该模型在多领域、多类型评论语料库数据集上取得了98.17%的准确率。 展开更多
关键词 文本情感分析 自然语言处理 多头注意力机制 tf-idf算法 Transformer模型
下载PDF
长三角一体化发展特征与动力探究——基于TF-IDF算法与格兰杰检验
2
作者 关硕 赵雪 刘毅 《科技和产业》 2024年第5期40-47,共8页
从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设... 从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设主体对5个发展目标的注意力分配不均衡;在创新共建目标方面,地方主体的注意力变动会引起中央主体的注意力变动;长三角一体化发展呈现小间断大均衡特征,体现“自下而上”的地方主导模式。 展开更多
关键词 长三角一体化 话语制度主义 间断-均衡框架 tf-idf(词频-逆文件频率)算法 格兰杰检验
下载PDF
基于改进TF-IDF算法的毕业生就业推荐算法研究 被引量:2
3
作者 李龙 金铄 黄霞 《计算机与数字工程》 2023年第9期1985-1989,2118,共6页
针对传统就业推荐算法不能够对每一个毕业生进行精准的推荐的局限性,论文提出一种结合TF-IDF算法和K-means++算法的双向推荐系统,一方面对毕业生信息使用K-means++算法进行聚类,对新用户根据其初始信息与行为信息进行用户画像建模,并计... 针对传统就业推荐算法不能够对每一个毕业生进行精准的推荐的局限性,论文提出一种结合TF-IDF算法和K-means++算法的双向推荐系统,一方面对毕业生信息使用K-means++算法进行聚类,对新用户根据其初始信息与行为信息进行用户画像建模,并计算与往届毕业生的相似度;另一方面使用TF-IDF算法对各个招聘网站所发布的招聘信息中的关键词进行统计转换词频等操作。实验结果表明,该双向就业推荐系统比起之前单向就业推荐提高了毕业生就业推荐的满意度,提升推荐效率。 展开更多
关键词 K-means++算法 tf-idf算法 用户画像 推荐系统
下载PDF
基于行业专有词典的TF-IDF特征选择算法改进 被引量:7
4
作者 张齐勋 刘宏志 +2 位作者 刘诗祥 贾堂 曹健 《计算机应用与软件》 2017年第7期277-281,共5页
行业专有词典是收录特定行业专有用语的词典,将行业专有词典运用到基于TF-IDF的特征选取算法中可提高文本特征空间的完备性。基于TF-IDF的改进算法的核心目标是提取出低频的关键词,现有的基于统计特征的改进方法增加了原始算法的计算复... 行业专有词典是收录特定行业专有用语的词典,将行业专有词典运用到基于TF-IDF的特征选取算法中可提高文本特征空间的完备性。基于TF-IDF的改进算法的核心目标是提取出低频的关键词,现有的基于统计特征的改进方法增加了原始算法的计算复杂度,降低了算法的效率。针对这一问题,在原始的TF-IDF特征选取算法上采用词典映射的方法提取低频关键词来构建完备的特征空间。实验结果表明,基于行业专有词典的TFIDF算法提取出的特征较未使用行业专有词典特征选取算法提取出的特征在后续的二次聚类验证实验中能有效地提高聚类的查全率和查准率。 展开更多
关键词 行业专有词典 tf-idf 特征空间 特征选择算法
下载PDF
基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型 被引量:41
5
作者 王根生 黄学坚 《小型微型计算机系统》 CSCD 北大核心 2019年第5期1120-1126,共7页
针对传统机器学习文本分类算法语义特征表达弱、文本表示维度高、词序丢失、矩阵稀疏等问题,提出基于Word2vec、改进型TF-IDF和卷积神经网络三者相结合的文本分类模型(CTMWT):首先通过Word2vec模型训练得出样本中所有的词向量;然后提出... 针对传统机器学习文本分类算法语义特征表达弱、文本表示维度高、词序丢失、矩阵稀疏等问题,提出基于Word2vec、改进型TF-IDF和卷积神经网络三者相结合的文本分类模型(CTMWT):首先通过Word2vec模型训练得出样本中所有的词向量;然后提出基于类频方差改进型TF-IDF算法,分析每个词向量在文本中的权重,构建基于词向量和权重的文本向量表示;最后借助卷积神经网络从局部到全局相关性特征的学习能力,对该大量文本向量进行深度学习.试验结果表明三者结合的文本分类模型不仅能实现文本的准确分类,并且相比传统的机器学习文本分类算法具有更好的分类效果. 展开更多
关键词 Word2vec 改进型tf-idf算法 卷积神经网络 文本分类 CTMWT
下载PDF
基于改进的TF-IDF方法的文本相似度算法研究 被引量:10
6
作者 周丽杰 于伟海 郭成 《泰山学院学报》 2015年第3期18-22,共5页
传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词... 传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词的权值,将得到的权值运用于向量空间模型和马尔可夫模型中,分别得到基于向量空间模型的基础相似度和基于马尔可夫模型的语义相似度,将语义相似度和基础相似度相结合,得到文本之间总体相似度.将改进的文本相似度算法运用于文本分类,实验结果表明,在搜狗文本分类语料库基础上,改进的算法相对于传统的文本相似度算法使得文本分类的准确率有了较大地提高. 展开更多
关键词 文本相似度算法 tf-idf方法 词语关联 马尔可夫模型 文本分类
下载PDF
结合改进的CHI统计方法的TF-IDF算法优化 被引量:22
7
作者 马莹 赵辉 +2 位作者 李万龙 庞海龙 崔岩 《计算机应用研究》 CSCD 北大核心 2019年第9期2596-2598,2603,共4页
为了克服传统的CHI统计方法存在特征项出现频率与类别负相关的情况和某一个特征项存在于某一个文本中的概率问题,针对传统的CHI统计方法引入了负相关判定、频度等重要因素进行了改进,并结合语义相似度的计算方法对TF-IDF算法进行了优化,... 为了克服传统的CHI统计方法存在特征项出现频率与类别负相关的情况和某一个特征项存在于某一个文本中的概率问题,针对传统的CHI统计方法引入了负相关判定、频度等重要因素进行了改进,并结合语义相似度的计算方法对TF-IDF算法进行了优化,在WEKA软件上采用了KNN(K-nearest neighbor)分类器和支持向量机(SVM)分类器分别对微博情感语料进行分类,该实验结果表明,新方法在文本分类的准确性上有明显的提高。 展开更多
关键词 文本分类 CHI统计 tf-idf算法 特征选择
下载PDF
智能导医系统中TF-IDF权重改进算法研究 被引量:8
8
作者 徐奕枫 刘利军 +1 位作者 黄青松 傅铁威 《计算机工程与应用》 CSCD 北大核心 2017年第4期238-243,共6页
面向患者的智能导医系统通过人工智能技术,依据患者症状计算可能疾病,引导患者准确挂号。目前智能导医系统多采用患者输入描述自身症状或者提问的方式,该方式易出现患者输入与医学专业症状词不匹配的问题,导致计算出的疾病可信度较低。... 面向患者的智能导医系统通过人工智能技术,依据患者症状计算可能疾病,引导患者准确挂号。目前智能导医系统多采用患者输入描述自身症状或者提问的方式,该方式易出现患者输入与医学专业症状词不匹配的问题,导致计算出的疾病可信度较低。针对这一问题,提出重心后移和医学专业语料库相结合的方法,对同义词匹配,映射出与患者症状对应的症状词;根据症状不论重要与否在每一疾病中仅出现一次的特点,提出基于患者关注度的症状词频计算方法;针对传统TF-IDF算法在待分类疾病类中数量分布不均时提取疾病效果差的问题,提出基于疾病类间分布的症状权重改进算法。实验结果表明,改进算法在疾病推荐正确率和可信度两方面具有更好的效果。 展开更多
关键词 智能导医系统 人工智能 重心后移 同义词匹配 tf-idf算法
下载PDF
基于TF-IDF的Webshell文件检测 被引量:8
9
作者 赵瑞杰 施勇 +2 位作者 张涵 龙军 薛质 《计算机科学》 CSCD 北大核心 2020年第S02期363-367,共5页
随着互联网的飞速发展,网络攻击行为日益频繁。Webshell是常见的网络攻击方式,而传统的检测手段已无法应对复杂灵活的变种Webshell攻击。为解决这一问题,提出了一种基于TF-IDF的Webshell文件检测方法。系统首先对不同类型的Webshell文... 随着互联网的飞速发展,网络攻击行为日益频繁。Webshell是常见的网络攻击方式,而传统的检测手段已无法应对复杂灵活的变种Webshell攻击。为解决这一问题,提出了一种基于TF-IDF的Webshell文件检测方法。系统首先对不同类型的Webshell文件进行分类,并对不同文件进行相应的预处理转码,以降低混淆干扰技术对检测的影响;随后建立词袋模型,并采用TF-IDF算法加权提取相关特征;最后使用XGBoost算法训练得到检测模型。与传统机器学习算法进行的10折交叉验证对比测试表明,使用TF-IDF算法预处理后结合XGBoost算法的Webshell文件检测模型性能出色,检测效果相较于传统检测方法在准确率、精确率、召回率等方面均有所提高,同时具备更强的鲁棒性与泛化能力,其中对PHP类型文件检测的准确率达到了98.09%,对JSP类型文件检测准确率达到了97.09%。 展开更多
关键词 Webshell检测 特征提取 交叉验证 tf-idf 多层神经网络 支持向量机 随机森林 XGBoost算法
下载PDF
基于TF-IDF算法的方剂构成相似度可视化研究 被引量:8
10
作者 郭文龙 罗熊 +2 位作者 姜惠娟 谢永红 陈茂建 《中国中医药信息杂志》 CAS CSCD 2019年第7期104-108,共5页
目的构建中药方剂数据挖掘系统,直观反映方剂属性及方剂之间的相似度,为方剂研究及应用提供参考。方法应用爬虫框架和手工录入方式获取一定数量的经典方剂,采用中文分词工具和手工整理方式对方剂信息进行名称、功能、来源、中药组成、... 目的构建中药方剂数据挖掘系统,直观反映方剂属性及方剂之间的相似度,为方剂研究及应用提供参考。方法应用爬虫框架和手工录入方式获取一定数量的经典方剂,采用中文分词工具和手工整理方式对方剂信息进行名称、功能、来源、中药组成、剂量、剂量单位、炮制方法、忌宜、主治等属性拆分,构造语料词库,Python3.5环境下采用TF-IDF算法计算方剂间相似度并进行功能主治验证,采用d3.js进行可视化展示。结果经过分词和手工整理得到不同类型方剂7710首,包含药物8957味,构建的中药方剂数据挖掘系统实现了相似度和方剂构成等信息可视化展示。同时,相似度高的方剂在功能主治方面具相似性。结论本研究构建的中药方剂数据挖掘系统可直观展示方剂信息、方剂与药物间的关联关系及方剂之间的相似度。 展开更多
关键词 方剂 tf-idf算法 相似度 可视化 中药方剂数据挖掘系统
下载PDF
结合TF-IDF的歌曲情感多标记分类 被引量:4
11
作者 孙向琨 邓伟 《计算机工程》 CAS CSCD 北大核心 2011年第19期189-190,197,共3页
提出一种结合词频-逆向文件频率(TF-IDF)规则与多标记分类的歌曲情感分析方法。对歌曲中基于声学特征的音乐内容,用带向量夹角的多标记k近邻算法进行分类,将TF-IDF规则用于歌词内容,以计算歌词情感分数,并将其作为情感特征。采用该方法... 提出一种结合词频-逆向文件频率(TF-IDF)规则与多标记分类的歌曲情感分析方法。对歌曲中基于声学特征的音乐内容,用带向量夹角的多标记k近邻算法进行分类,将TF-IDF规则用于歌词内容,以计算歌词情感分数,并将其作为情感特征。采用该方法对歌词内容分类错误的类别标记进行修正。选用396首英文歌曲对该算法进行测试,结果表明,与其他方法相比,该方法能使分类精确度从69%提高到74%。 展开更多
关键词 多标记分类 歌曲情感分类 多标记k近邻算法 词频-逆向文件频率
下载PDF
一种改进TF-IDF的中文邮件识别算法研究 被引量:9
12
作者 吴小晴 万国金 +2 位作者 李程文 林梦思 曹书强 《现代电子技术》 北大核心 2020年第12期83-86,共4页
传统的TF-IDF算法没有很好地分配分词的权重,对一些能代表邮件类别出现频率较大的词语计算的IDF值反而较小,IDF值小说明单词的区分能力弱而不符合实际情况。为了提升垃圾邮件识别的准确率,提出一种改进TF-IDF算法和类中心向量的中文垃... 传统的TF-IDF算法没有很好地分配分词的权重,对一些能代表邮件类别出现频率较大的词语计算的IDF值反而较小,IDF值小说明单词的区分能力弱而不符合实际情况。为了提升垃圾邮件识别的准确率,提出一种改进TF-IDF算法和类中心向量的中文垃圾邮件识别方法。通过改进传统的TF-IDF计算方式,在传统的TF-IDF算法里面加入卡方统计量CHI和位置影响因子能够很好地改善一些重要词汇的权重问题,并结合逆向最大匹配算法的邮件文本分词和类中心向量算法的特征选择进行垃圾邮件分类。实验结果表明,所提算法相较于传统的TF-IDF算法对垃圾邮件识别的准确率提升了约3.6%,具有一定的实际应用价值。 展开更多
关键词 tf-idf算法 邮件识别 卡方统计量 权重分配 邮件分类 仿真分析
下载PDF
基于类信息的TF-IDF权重分析与改进 被引量:7
13
作者 姚严志 李建良 《计算机系统应用》 2021年第9期237-241,共5页
经典的TF-IDF算法仅考虑了特征词频率和逆文档频率等,忽略了特征词的类间、类内分布信息.本文通过TF-IDF算法计算特征词在不同规模语料库中的权重,分析特征词的类信息对权重的影响,并进一步针对该影响提出一种新的衡量特征词的类间、类... 经典的TF-IDF算法仅考虑了特征词频率和逆文档频率等,忽略了特征词的类间、类内分布信息.本文通过TF-IDF算法计算特征词在不同规模语料库中的权重,分析特征词的类信息对权重的影响,并进一步针对该影响提出一种新的衡量特征词的类间、类内分布信息的方法.本文通过增加两个新的权值,类间离散因子和类内离散因子,将其与经典的TF-IDF算法结合,提出了基于类信息的改进的TF-IDF-CI算法.本文通过朴素贝叶斯模型对改进后的算法的分类性能进行了验证.实验证明,改进后的权重算法在测试数据集上的表现,在准确率、召回率和F1值上均优于经典的TF-IDF算法. 展开更多
关键词 tf-idf算法 类信息 权重分析 文本分类
下载PDF
基于TF-IDF算法的农产品消费者购买情感分析——来自京东电商平台在线点评数据 被引量:3
14
作者 邓颖仪 邱秀芳 +1 位作者 黄华乾 庞青 《安徽农业科学》 CAS 2022年第11期203-206,共4页
“互联网+农产品”模式大大拓宽了农产品的销售渠道,为乡村振兴注入活力。于京东电商平台甄选出点评数达200条以上的农产品共2090种112779条评论,借助Hanlp工具对评论文本进行分词,并利用TF-IDF算法对特征词进行关注度分析。研究表明,... “互联网+农产品”模式大大拓宽了农产品的销售渠道,为乡村振兴注入活力。于京东电商平台甄选出点评数达200条以上的农产品共2090种112779条评论,借助Hanlp工具对评论文本进行分词,并利用TF-IDF算法对特征词进行关注度分析。研究表明,消费者网购农产品过程中,较关心农产品的新鲜度、品质、快递服务及包装;消费者网购水果类、蔬菜类等农产品的比例最高,其中对水果类“甜”“熟”“酸”等特征词的关注度最高,对蔬菜类“糯”“好吃”“香甜”等特征词关注度最高。以上结论既丰富了农产品网络营销的相关研究,也可用于指导农产品的网络营销实践。 展开更多
关键词 农产品 网络营销 tf-idf算法 京东
下载PDF
基于TF-IDF算法的AAA服务异常检测机制研究 被引量:2
15
作者 黄晓丹 罗伟 +2 位作者 李秀峰 李晓冰 刘建建 《移动通信》 2016年第2期83-87,共5页
首先基于某电信公司2014年度的AAA服务日志文件,统计了其认证结果的比例分布,归纳了导致服务状态异常的数据源行为类型,即恶意登录和唯N性授权攻击。接着针对现有异常检测策略在效率和准确性上的不足,提出了一种基于参数替换的TF-IDF算... 首先基于某电信公司2014年度的AAA服务日志文件,统计了其认证结果的比例分布,归纳了导致服务状态异常的数据源行为类型,即恶意登录和唯N性授权攻击。接着针对现有异常检测策略在效率和准确性上的不足,提出了一种基于参数替换的TF-IDF算法的服务状态异常检测机制,通过计算待筛选数据源与已确认的异常源集的关联度,高效地发现和确定其他异常源。最后通过模拟实验,验证了该机制的有效性和高效性。 展开更多
关键词 AAA服务 异常日志 tf-idf算法 异常检测
下载PDF
基于TF-IDF算法的分层搜索引擎设计 被引量:5
16
作者 张贤亮 张尤赛 《计算机与数字工程》 2021年第3期456-461,共6页
随着网络信息的迅速增长以及深层网络结构的广泛应用,人们对于覆盖率广、检索效率高的搜索引擎提出了愈来愈高的要求。据此,论文提出了一种两阶段的搜索引擎设计方案。在第一阶段利用网络爬虫爬取相关的网络信息,并构成词条语料库,在第... 随着网络信息的迅速增长以及深层网络结构的广泛应用,人们对于覆盖率广、检索效率高的搜索引擎提出了愈来愈高的要求。据此,论文提出了一种两阶段的搜索引擎设计方案。在第一阶段利用网络爬虫爬取相关的网络信息,并构成词条语料库,在第二阶段基于TF-IDF算法搜索词条语料库,得到与待查询语句最相近的词条。该引擎利用Flask框架构建本地Web界面,实现简洁明了的界面显示与快速的数据传输,且该框架易于维护。实验结果表明,该搜索引擎采用的爬虫技术所形成的语料库覆盖率广,TF-IDF算法具有计算速度快、匹配精度高的特点。 展开更多
关键词 搜索引擎 网络爬虫 tf-idf算法 Flask框架
下载PDF
基于Python技术和TF-IDF算法的科技专家库建设案例研究 被引量:3
17
作者 杨好 周长海 《科技促进发展》 2022年第7期864-871,共8页
本研究以中国科学院科技专家库建设为案例,探讨了在信息安全环境下利用智能技术完善并更新专家库信息、运用综合指标遴选专家的路径,在此基础上总结了中科院科技专家库信息系统的设计与实践。首先,基于Python大数据网络爬虫技术和文献... 本研究以中国科学院科技专家库建设为案例,探讨了在信息安全环境下利用智能技术完善并更新专家库信息、运用综合指标遴选专家的路径,在此基础上总结了中科院科技专家库信息系统的设计与实践。首先,基于Python大数据网络爬虫技术和文献情报分析相结合的方式,补充专家基础数据,并定期更新专家信息;其次,建立专家信誉度评价指标体系;第三,在遴选专家时,运用TF-IDF算法对项目和专家信息进行关联分析,并结合学科分类标准对专家研究领域分类,以提高项目-专家研究领域的匹配度;第四,综合各项关键指标遴选确定最终候选专家;最后,在此基础上设计并开发了中科院科技专家库信息系统,有效提升了专家库管理和专家遴选的工作效率。 展开更多
关键词 科技专家库 Python技术 tf-idf算法 专家遴选 专家库信息系统
下载PDF
基于改进TF-IDF算法的灌区水权市场运行效果评价 被引量:1
18
作者 万福兵 代小平 《中国农村水利水电》 北大核心 2022年第6期147-153,共7页
水权市场是促进水资源优化配置的重要手段,水权市场运行效果评价对指导水权市场建设和运行具有重要意义。从公平、效率和可持续三方面构建水权市场运行效果评价指标体系,采用改进的TF-IDF算法确定指标权重,基于问卷调查和统计数据,对石... 水权市场是促进水资源优化配置的重要手段,水权市场运行效果评价对指导水权市场建设和运行具有重要意义。从公平、效率和可持续三方面构建水权市场运行效果评价指标体系,采用改进的TF-IDF算法确定指标权重,基于问卷调查和统计数据,对石羊河流域一个以地表水为主的灌区和一个井灌区的水权市场运行效果进行评价。两个灌区的水权市场运行效果评价为中等,其中“可持续性”指标得分最高,“公平”指标得分最低。井灌区水权市场的运行效果高于以地表水为主的灌区,灌区水权市场运行效果的差异来自水权交易层次、水权监控方式、灌溉水源可靠性、灌溉组织方式等,以地表水为主的灌区的水权市场运行效果在2008-2012年间呈下降趋势,水权交易政策对水权市场运行效果具有重要影响。建议根据水权市场的时空差异采取适宜的水权政策。改进的TF-IDF算法可通过量化分析官员和学者的观点来确定指标权重,为指标权重计算提供新的思路。 展开更多
关键词 石羊河流域 灌区 水权市场 运行效果 tf-idf算法
下载PDF
基于TF-IDF逻辑回归算法的Web攻击行为检测方法研究 被引量:2
19
作者 郭晓明 孙丹 《科技广场》 2017年第6期111-115,共5页
针对各种变形的Web攻击行为难以检测的问题,本文提出了基于TF-IDF逻辑回归算法的Web攻击检测方法,利用数据统计方法 TF-IDF算法将无规律数据集转换成固定维数的特征矩阵,同时利用逻辑回归算法进行训练和分类。并借助三种分类模型评估方... 针对各种变形的Web攻击行为难以检测的问题,本文提出了基于TF-IDF逻辑回归算法的Web攻击检测方法,利用数据统计方法 TF-IDF算法将无规律数据集转换成固定维数的特征矩阵,同时利用逻辑回归算法进行训练和分类。并借助三种分类模型评估方法验证该检测方法的可行性。 展开更多
关键词 tf-idf算法 逻辑回归算法 特征矩阵 分类模型评估方法
下载PDF
一种基于TF-IDF的朴素贝叶斯算法改进 被引量:17
20
作者 许甜华 吴明礼 《计算机技术与发展》 2020年第2期75-79,共5页
目前对以朴素贝叶斯算法为代表的文本分类算法,普遍存在特征权重一致,考虑指标单一等问题。为了解决这个问题,提出了一种基于TF-IDF的朴素贝叶斯改进算法TF-IDF-DL朴素贝叶斯算法。该算法以TF-IDF为基础,引入去中心化词频因子和特征词... 目前对以朴素贝叶斯算法为代表的文本分类算法,普遍存在特征权重一致,考虑指标单一等问题。为了解决这个问题,提出了一种基于TF-IDF的朴素贝叶斯改进算法TF-IDF-DL朴素贝叶斯算法。该算法以TF-IDF为基础,引入去中心化词频因子和特征词位置因子以加强特征权重的准确性。为了验证该算法的效果,采用了搜狗实验室的搜狗新闻数据集进行实验,实验结果表明,在朴素贝叶斯分类算法中引入TF-IDF-DL算法,能够使该算法在进行文本分类中的准确率、召回率和F 1值都有较好的表现,相比国内同类研究TF-IDF-dist贝叶斯方案,分类准确率提高8.6%,召回率提高11.7%,F 1值提高7.4%。因此该算法能较好地提高分类性能,并且对不易区分的类别也能在一定程度上达到良好的分类效果。 展开更多
关键词 朴素贝叶斯 tf-idf算法 去中心化 位置信息 特征权重
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部