期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
基于改进TFIDF算法的文本特征选择和聚类分析
1
作者 赵军愉 柴小亮 +2 位作者 李士林 徐松晓 王强 《微型电脑应用》 2023年第10期181-183,187,共4页
为了提高大量文本数据的特征选择能力,采用全覆盖粒计算方法对特征选择算法的数据高维性与稀疏性进行分析。针对TFIDF算法存在的缺陷,设计了一种经过改进后的TFIDF_SP算法,以区分文档内处于不同部位的特征词重要性,并根据不同特征选择... 为了提高大量文本数据的特征选择能力,采用全覆盖粒计算方法对特征选择算法的数据高维性与稀疏性进行分析。针对TFIDF算法存在的缺陷,设计了一种经过改进后的TFIDF_SP算法,以区分文档内处于不同部位的特征词重要性,并根据不同特征选择方法对比结果判断算法有效性。研究结果表明,采用bLDA主题模型提取细主题粒度的时候也无法获得理想聚类效果,此时会对相同主题特征词造成弱化,将其判断为不同主题类型的特征词。在γ取值等于0.8时可以获得最优聚类效果,此时改进TFIDF算法能促进权重的进一步提升。所提出的改进TFIDF算法可以获得比TFIDF和bLDA主题模型更好的结果结合高1.62%的聚类准确率,表明当特征词方式词性与位置变化时会引起文档表达效果的显著影响。 展开更多
关键词 文本特征选择 改进tfidf算法 聚类效果 主题模型
下载PDF
基于ER Rule的多分类器汽车评论情感分类研究
2
作者 周谧 周雅婧 +1 位作者 贺洋 方必和 《运筹与管理》 CSCD 北大核心 2024年第5期161-168,共8页
该文针对汽车评论语料的情感二分类问题,提出一种基于证据推理规则的多分类器融合的情感分类方法。在情感特征构建方面,通过实验对比不同特征模型对分类结果的影响,并改进传统的TFIDF权重计算方法。同时,在此基础上使用ER Rule融合不同... 该文针对汽车评论语料的情感二分类问题,提出一种基于证据推理规则的多分类器融合的情感分类方法。在情感特征构建方面,通过实验对比不同特征模型对分类结果的影响,并改进传统的TFIDF权重计算方法。同时,在此基础上使用ER Rule融合不同分类器进行文本情感极性分析,并考虑各分类器的权重和可靠度。最后,爬取汽车网站上的评论数据对上述方法进行测试,并用公开的中文酒店评论语料数据进行了验证,结果表明该方法能够有效集成不同分类器的优点,与传统机器学习分类算法相比,其结果在Recall,F1值和Accuracy三个指标上得到了提高,与目前流行的深度学习算法和集成学习算法相比,其结果总体占优。 展开更多
关键词 证据推理规则 多分类器融合 tfidf权重 深度学习算法 集成学习算法
下载PDF
基于改进权重的贝叶斯推理和TFIDF算法文本主题词提取研究 被引量:6
3
作者 邵晓根 鞠训光 +1 位作者 胡局新 马忠伟 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2014年第1期57-60,65,共5页
本文针对中文文本主题词提取的TFIDF算法不足进行了改进,综合考虑关键词在文本中出现的频率及位置权重,设计了贝叶斯推理和TFIDF主题词提取混合算法,并基于候选词排序位置进行了正向、逆向和中间向前后的提取测试,结果表明,本算法比单纯... 本文针对中文文本主题词提取的TFIDF算法不足进行了改进,综合考虑关键词在文本中出现的频率及位置权重,设计了贝叶斯推理和TFIDF主题词提取混合算法,并基于候选词排序位置进行了正向、逆向和中间向前后的提取测试,结果表明,本算法比单纯TFIDF算法正向提取平均准确率提高了6.2%. 展开更多
关键词 贝叶斯推理 位置权重 提取 tfidf算法
下载PDF
基于改进TFIDF算法的文本分类研究 被引量:27
4
作者 郑霖 徐德华 《计算机与现代化》 2014年第9期6-9,14,共5页
由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中TFIDF是文档特征权重计算的最常用算法之一,... 由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中TFIDF是文档特征权重计算的最常用算法之一,但是传统的TFID算法忽略了特征项在类内和类间的分布,导致很多区分度不大的特征项被赋予了较大的权重。针对传统TFIDF算法的不足,本文在IDF的计算过程中,用词条在类内与类间的文档占比来考虑词条在类内与类间的分布。在实验中,用改进的权重算法表示文本向量,通过考察分类的效果,验证了改进算法的有效性。 展开更多
关键词 tfidf算法 特征选择 文本分类
下载PDF
基于TFIDF的社区问答系统问句相似度改进算法 被引量:11
5
作者 赵胜辉 李吉月 +1 位作者 徐碧 孙博研 《北京理工大学学报》 EI CAS CSCD 北大核心 2017年第9期982-985,共4页
针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的T... 针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的TFIDF算法提高了7.66%,比TFIDF-IG算法提高了5.31%,而且P@5和P@10也有不同程度的提高,与传统TFIDF算法和参考改进算法相比,该算法明显提高了检索性能. 展开更多
关键词 向量空间模型 tfidf算法 社区问答系统 问句相似度
下载PDF
基于Hadoop平台的TFIDF算法并行化研究 被引量:2
6
作者 王静宇 赵伟燕 《计算机工程与科学》 CSCD 北大核心 2014年第6期1018-1022,共5页
针对大数据集下文本分类算法在单机上训练和测试过程效率低下的问题,提出了基于Hadoop分布式平台的TFIDF文本分类算法,并给出了算法实现的具体流程。通过MapReduce编程模型实现了考虑到词在文档中位置的并行化TFIDF文本分类算法,并与传... 针对大数据集下文本分类算法在单机上训练和测试过程效率低下的问题,提出了基于Hadoop分布式平台的TFIDF文本分类算法,并给出了算法实现的具体流程。通过MapReduce编程模型实现了考虑到词在文档中位置的并行化TFIDF文本分类算法,并与传统串行算法进行了对比,同时在单机和集群模式下进行了实验。实验表明,使用并行化的TFIDF文本分类算法可实现对海量数据的高速有效分类,并使算法性能得到优化。 展开更多
关键词 文本分类 MAPREDUCE 并行化 tfidf算法
下载PDF
基于双重并行计算模型的TFIDF算法 被引量:2
7
作者 孙玉强 巢碧霞 《计算机工程与设计》 北大核心 2016年第11期3016-3021,共6页
针对大数据集下文本分类算法在单机上实现效率低下的问题,提出基于GPU(graphic processing unit)和MapReduce技术的双重并行计算的云计算框架。通过构造双重并行计算的自适应计算过程,结合TFIDF(term frequency inverse document freque... 针对大数据集下文本分类算法在单机上实现效率低下的问题,提出基于GPU(graphic processing unit)和MapReduce技术的双重并行计算的云计算框架。通过构造双重并行计算的自适应计算过程,结合TFIDF(term frequency inverse document frequency)改进算法的特点,实现基于双重并行自适应计算模型的改进TFIDF算法。实验中,在不同的运行环境下对改进TFIDF算法的运行效率进行对比分析,比较不同计算节点下算法的执行效率,实验结果表明,改进TFIDF算法可实现对海量数据的高速有效处理,随着节点数量的增加,双重并行自适应计算下,算法执行效率更加高效。 展开更多
关键词 tfidf改进算法 MAPREDUCE模型 图形处理器 并行计算 自适应
下载PDF
基于LDA和TF-IDF的关键词提取算法研究 被引量:2
8
作者 苏婧琼 苏艳琼 《长江信息通信》 2024年第1期78-80,共3页
在自然语言处理领域,对于海量的文本文件,让用户在最短的时间找到到自己感兴趣的文档,最关键的工作是要每篇文档的关键词提取出来。而不管是针对一篇长文章或是一篇短文章,通常能够直接通过这几个关键字去窥探出整篇文章背后的主题思想... 在自然语言处理领域,对于海量的文本文件,让用户在最短的时间找到到自己感兴趣的文档,最关键的工作是要每篇文档的关键词提取出来。而不管是针对一篇长文章或是一篇短文章,通常能够直接通过这几个关键字去窥探出整篇文章背后的主题思想。文章分别介绍了LDA主题模型和TFIDF算法在关键词提取中的应用,并进行了对比,结果表明在关键词提取方面都可以取得较好的效果。 展开更多
关键词 LDA主题模型 tfidf算法 关键词提取
下载PDF
基于TFIDF算法的家庭关系识别模型构建及其应用 被引量:3
9
作者 徐忠健 陈孚 +1 位作者 任小龙 刘群 《井冈山大学学报(自然科学版)》 2012年第5期54-58,共5页
基于TFIDF(Term Frequency Inverse Document Frequency)算法,结合用户通话圈运用呼叫指纹方法分析用户的交往圈、呼叫特征、短信特征、位置特征、客服特征、终端特征等特征,构建家庭关系识别模型,进而挖掘家庭关联关系的手机与固话在... 基于TFIDF(Term Frequency Inverse Document Frequency)算法,结合用户通话圈运用呼叫指纹方法分析用户的交往圈、呼叫特征、短信特征、位置特征、客服特征、终端特征等特征,构建家庭关系识别模型,进而挖掘家庭关联关系的手机与固话在呼叫圈相似度、平均每天通话次数、平均每次通话时长等变量上的相关性,为发现手机号码与家庭固定电话之间的关联关系提供了有效的技术手段,并有效地应用于固移捆绑套餐和可选套餐的目标客户的识别。从实际营销效果来看,该模型的使用有利于帮助市场营销人员快速、方便、有效地开展融合套餐的销售,在降低营销成本的同时提高了营销效果。 展开更多
关键词 通话圈 关系识别模型 tfidf算法 数据挖掘
下载PDF
基于TFIDF算法的全面从严治党重要论述关键词共现分析 被引量:1
10
作者 张辛 《现代盐化工》 2019年第5期150-152,共3页
总书记重要论述是学习习近平全面从严治党思想的重要载体,掌握论述的关键词是学习领会思想的核心与骨架,清晰理解文章内容,把握文章结构,记忆文章内容的重要方法。利用自然语言处理方法,通过分析关键词特征分析和共现矩阵分析,从而更好... 总书记重要论述是学习习近平全面从严治党思想的重要载体,掌握论述的关键词是学习领会思想的核心与骨架,清晰理解文章内容,把握文章结构,记忆文章内容的重要方法。利用自然语言处理方法,通过分析关键词特征分析和共现矩阵分析,从而更好地构建全面从严治党知识图谱,加强对习近平新时代中国特色社会主义思想的学习与理解。 展开更多
关键词 全面从严治党 总书记重要论述 tfidf算法 关键词共现
下载PDF
基于循环迭代算法改进的TFIDF方法及应用 被引量:2
11
作者 王行恒 曹军 +2 位作者 邓学 刘垚 高适 《计算机应用与软件》 CSCD 北大核心 2012年第11期305-308,共4页
文本聚类是指自动地将文本集合分组为不同的类别,应用非常广泛。研究发现,传统的TFIDF文本分类方法存在很多的不足,针对这些不足提出改进。通过使用循环迭代算法根据特征词在类内和类间的分布情况不断优化特征词的选取,获得不断改进的... 文本聚类是指自动地将文本集合分组为不同的类别,应用非常广泛。研究发现,传统的TFIDF文本分类方法存在很多的不足,针对这些不足提出改进。通过使用循环迭代算法根据特征词在类内和类间的分布情况不断优化特征词的选取,获得不断改进的分类。采用支持向量机分类器对文本分类。通过对大批量的数据集测试,该算法显示出较好的特征选择效果,能够有效地提高分类精度。 展开更多
关键词 tfidf 文本聚类 文本分类 VSM 支持向量机 SVM 迭代算法
下载PDF
Web文档分类中TFIDF特征选择算法的改进 被引量:4
12
作者 段国仑 谢钧 +1 位作者 郭蕾蕾 王晓莹 《计算机技术与发展》 2019年第5期49-53,共5页
随着海量数据资源在网络中的出现,Web文档分类技术越来越受到重视。在Web文档分类的研究中,特征选择算法有着重要的研究意义。特征选择能有效降低文本向量空间模型的维度,从而构造出更快,消耗更低的预测模型。传统的TFIDF算法仅仅依靠... 随着海量数据资源在网络中的出现,Web文档分类技术越来越受到重视。在Web文档分类的研究中,特征选择算法有着重要的研究意义。特征选择能有效降低文本向量空间模型的维度,从而构造出更快,消耗更低的预测模型。传统的TFIDF算法仅仅依靠文档中所包含特征词的词频和逆文档频率来判断该特征词对于文档分类的重要性,忽略了特征项在类内和类间的分布以及数据集不均衡现象,从而效果受到制约。针对存在的不足进行改进,提出了类内分布因子以及类间分布因子。基于类内以及类间因子,替代逆文档频率,可以使得改进的表达式能够选择出更加高效的特征词。通过使用SVM分类器进行文本分类对比实验,与改进前的方法相比,该方法能使F_1值得到一定程度的提高,在不均衡数据集上同样具有较好的分类效果。 展开更多
关键词 WEB文档分类 特征选择 tfidf算法 SVM
下载PDF
基于MapReduce编程模型的TFIDF算法研究
13
作者 赵伟燕 王静宇 《微型机与应用》 2013年第4期71-73,共3页
随着Internet等技术的飞速发展,信息处理已经成为人们获取有用信息不可或缺的工具,如何在海量信息中高效地获得有用信息至关重要,因此自动文本分类技术尤为重要。现有的文本分类算法在时间复杂性和空间复杂性上遇到瓶颈,不能满足人们的... 随着Internet等技术的飞速发展,信息处理已经成为人们获取有用信息不可或缺的工具,如何在海量信息中高效地获得有用信息至关重要,因此自动文本分类技术尤为重要。现有的文本分类算法在时间复杂性和空间复杂性上遇到瓶颈,不能满足人们的需求,为此提出了基于Hadoop分布式平台的TFIDF算法,给出了算法实现的具体流程,通过MapReduce编程实现了该算法,并在单机和集群模式下进行了对比实验,同时与传统串行算法进行了对比。实验证明,使用TFIDF文本分类算法可实现对海量数据的高速有效分类。 展开更多
关键词 文本分类 MAPREDUCE 并行化 tfidf算法
下载PDF
改进的TFIDF标签提取算法 被引量:4
14
作者 王杰 李旭健 《软件工程》 2018年第2期4-6,共3页
TFIDF算法作为一种加权算法,在信息检索和数据挖掘等自然语言处理领域发挥了巨大的作用。它的计算模型相对简单,适合大数据并行计算,适用领域广泛,且拥有很好的解释性。基于以上这些特点,本文在TFIDF算法基础之上,利用监督的学习,并通... TFIDF算法作为一种加权算法,在信息检索和数据挖掘等自然语言处理领域发挥了巨大的作用。它的计算模型相对简单,适合大数据并行计算,适用领域广泛,且拥有很好的解释性。基于以上这些特点,本文在TFIDF算法基础之上,利用监督的学习,并通过引入加权因子和词贡献度,来修正TFIDF算法结果权值。利用这个算法可以在自然语言处理中有效地提取特征标签,并且改进后的算法在这一细分领域具有极高准确度。 展开更多
关键词 自然语言处理 tfidf 词加权算法 标签提取 监督学习
下载PDF
几种常用文本分类算法性能比较与分析 被引量:31
15
作者 卢苇 彭雅 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第6期67-69,共3页
分析了几种典型的文本分类算法的特点,并基于中文文本数据集和英文文本数据集对算法性能进行了综合评价.实验结果表明:对于英文文本数据,支持向量机具有最优的性能,但时间开销最大,贝叶斯算法速度较快;对于中文文本数据,由于分词的困难... 分析了几种典型的文本分类算法的特点,并基于中文文本数据集和英文文本数据集对算法性能进行了综合评价.实验结果表明:对于英文文本数据,支持向量机具有最优的性能,但时间开销最大,贝叶斯算法速度较快;对于中文文本数据,由于分词的困难,使得算法性能普遍低于同等规模下在英文数据集上的性能.几种算法性能均随训练集规模的增大而有改善. 展开更多
关键词 文本分类 支持向量机 K近邻 贝叶斯算法 tfidf算法
下载PDF
朴素Bayes分类器文本特征向量的参数优化 被引量:4
16
作者 方秋莲 王培锦 +3 位作者 隋阳 郑涵颖 吕春玥 王艳彤 《吉林大学学报(理学版)》 CAS 北大核心 2019年第6期1479-1484,共6页
采用朴素Bayes算法建立中文文本自动分类器,并研究相关参数的选择问题,以实现中文文本的高效分类.首先在模型训练阶段,采用N-gram模型处理训练数据集提取特征向量;然后使用朴素Bayes算法建立文本分类器;最后在模型测试阶段,为提高分类... 采用朴素Bayes算法建立中文文本自动分类器,并研究相关参数的选择问题,以实现中文文本的高效分类.首先在模型训练阶段,采用N-gram模型处理训练数据集提取特征向量;然后使用朴素Bayes算法建立文本分类器;最后在模型测试阶段,为提高分类准确率,使用词频-反文档频率算法对测试样本进行特征向量提取.实例分析结果表明,在提取训练集特征向量时,2-gram模型和4-gram模型的特征提取效果最佳;在选取特征向量长度时,长度为25000的特征向量可使分类准确率出现最大增幅并保证较高准确率;在确定特征项词性方面,同时选取动词和名词可使分类器准确率达到最高,仅选取动词时准确率最低. 展开更多
关键词 朴素Bayes分类器 特征选择 tfidf算法 N-GRAM模型
下载PDF
基于类别区分度的文本特征选择算法研究 被引量:4
17
作者 易军凯 田立康 《北京化工大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第B12期72-75,共4页
针对词频反文档频率(TFIDF)算法的缺陷,引入类别区分度理论改进传统的TFIDF算法。通过比较改进TFIDF算法与其他几种常用特征选择算法的分类效果,证明了改进TFIDF算法用于中文文本分类时,准确率和召回率要优于其他算法,改进TFIDF算法具... 针对词频反文档频率(TFIDF)算法的缺陷,引入类别区分度理论改进传统的TFIDF算法。通过比较改进TFIDF算法与其他几种常用特征选择算法的分类效果,证明了改进TFIDF算法用于中文文本分类时,准确率和召回率要优于其他算法,改进TFIDF算法具有较好的特征选择效果。 展开更多
关键词 文本分类 特征选择 词频反文档频率算法 类别区分度
下载PDF
个性化检索系统中用户兴趣模型的研究 被引量:5
18
作者 宋艳娟 陈振标 《计算机与数字工程》 2013年第2期271-274,共4页
个性化检索服务已成为提高信息检索查准率的有效途径。论文针对用户兴趣模型的构建,在传统TFIDF算法的基础上,提出了一种基于文档结构和网页兴趣权重的TFIDF算法,并给出了用户兴趣模型的更新算法。实例分析表明,基于该文算法的用户兴趣... 个性化检索服务已成为提高信息检索查准率的有效途径。论文针对用户兴趣模型的构建,在传统TFIDF算法的基础上,提出了一种基于文档结构和网页兴趣权重的TFIDF算法,并给出了用户兴趣模型的更新算法。实例分析表明,基于该文算法的用户兴趣模型能够改善用户兴趣的捕获情况。 展开更多
关键词 个性化检索 用户兴趣模型 tfidf算法
下载PDF
基于关联规则的检索结果聚类优化 被引量:7
19
作者 王琼 张量 刘闯 《计算机工程》 CAS CSCD 北大核心 2010年第3期47-50,共4页
根据元搜索引擎以线性列表的方式为用户提供检索结果的现象,提出一种基于关联规则的检索结果聚类优化方法,在经过分词处理后,提取检索结果中标题和摘要的主要关键词集,从而建立关联词矩阵(AWM)及基于TFIDF函数表示的结果特征向量,实现基... 根据元搜索引擎以线性列表的方式为用户提供检索结果的现象,提出一种基于关联规则的检索结果聚类优化方法,在经过分词处理后,提取检索结果中标题和摘要的主要关键词集,从而建立关联词矩阵(AWM)及基于TFIDF函数表示的结果特征向量,实现基于AWM的FCM聚类。仿真实验结果表明,该方法能够提高运行效率及聚类的有效性。 展开更多
关键词 元搜索引擎 FCM算法 关联规则 tfidf函数 关联词矩阵
下载PDF
景区评论词频统计算法研究
20
作者 黄敏 任宗华 朱颢东 《轻工学报》 CAS 2018年第3期51-56,共6页
针对人们在出游前查看景区网络评价信息难以得到对该景区之整体评价的问题,提出了一种适用于海量数据的词频统计算法TF-CT.该算法采用余弦相似性算法对海量的文本数据进行词性分类,将具有相同表达态度的数据归为一类;采用TextRank算法... 针对人们在出游前查看景区网络评价信息难以得到对该景区之整体评价的问题,提出了一种适用于海量数据的词频统计算法TF-CT.该算法采用余弦相似性算法对海量的文本数据进行词性分类,将具有相同表达态度的数据归为一类;采用TextRank算法对各类别中的一条数据进行关键词语提取;采用改进的TFIDF算法对提取的关键词进行词频统计,获取文本数据的表达态度.实验结果表明,与TFIDF算法相比,TF-CT算法在结果准确度和时间复杂度上具有更大的优势. 展开更多
关键词 词频 文本数据 景区评价 TF-CT算法 tfidf算法
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部