期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
基于改进TFIDF算法的文本特征选择和聚类分析
1
作者 赵军愉 柴小亮 +2 位作者 李士林 徐松晓 王强 《微型电脑应用》 2023年第10期181-183,187,共4页
为了提高大量文本数据的特征选择能力,采用全覆盖粒计算方法对特征选择算法的数据高维性与稀疏性进行分析。针对TFIDF算法存在的缺陷,设计了一种经过改进后的TFIDF_SP算法,以区分文档内处于不同部位的特征词重要性,并根据不同特征选择... 为了提高大量文本数据的特征选择能力,采用全覆盖粒计算方法对特征选择算法的数据高维性与稀疏性进行分析。针对TFIDF算法存在的缺陷,设计了一种经过改进后的TFIDF_SP算法,以区分文档内处于不同部位的特征词重要性,并根据不同特征选择方法对比结果判断算法有效性。研究结果表明,采用bLDA主题模型提取细主题粒度的时候也无法获得理想聚类效果,此时会对相同主题特征词造成弱化,将其判断为不同主题类型的特征词。在γ取值等于0.8时可以获得最优聚类效果,此时改进TFIDF算法能促进权重的进一步提升。所提出的改进TFIDF算法可以获得比TFIDF和bLDA主题模型更好的结果结合高1.62%的聚类准确率,表明当特征词方式词性与位置变化时会引起文档表达效果的显著影响。 展开更多
关键词 文本特征选择 改进tfidf算法 聚类效果 主题模型
下载PDF
用于文本挖掘的特征选择方法TFIDF及其改进 被引量:23
2
作者 景丽萍 黄厚宽 石洪波 《广西师范大学学报(自然科学版)》 CAS 2003年第A01期142-145,共4页
文章使用TFIDF特征选择方法对数据源进行预处理,建立了空间矢量模型,为文本分类提供了便利的数据结构.通过分类结果测试该特征选择方法的精确度.根据实验结果分析TFIDF的优缺点,并提出改进的方法.
关键词 文本挖掘 tfidf 评估函数 空间矢量模型 特征选择
下载PDF
基于TFIDF的社区问答系统问句相似度改进算法 被引量:10
3
作者 赵胜辉 李吉月 +1 位作者 徐碧 孙博研 《北京理工大学学报》 EI CAS CSCD 北大核心 2017年第9期982-985,共4页
针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的T... 针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的TFIDF算法提高了7.66%,比TFIDF-IG算法提高了5.31%,而且P@5和P@10也有不同程度的提高,与传统TFIDF算法和参考改进算法相比,该算法明显提高了检索性能. 展开更多
关键词 向量空间模型 tfidf算法 社区问答系统 问句相似度
下载PDF
基于双重并行计算模型的TFIDF算法 被引量:2
4
作者 孙玉强 巢碧霞 《计算机工程与设计》 北大核心 2016年第11期3016-3021,共6页
针对大数据集下文本分类算法在单机上实现效率低下的问题,提出基于GPU(graphic processing unit)和MapReduce技术的双重并行计算的云计算框架。通过构造双重并行计算的自适应计算过程,结合TFIDF(term frequency inverse document freque... 针对大数据集下文本分类算法在单机上实现效率低下的问题,提出基于GPU(graphic processing unit)和MapReduce技术的双重并行计算的云计算框架。通过构造双重并行计算的自适应计算过程,结合TFIDF(term frequency inverse document frequency)改进算法的特点,实现基于双重并行自适应计算模型的改进TFIDF算法。实验中,在不同的运行环境下对改进TFIDF算法的运行效率进行对比分析,比较不同计算节点下算法的执行效率,实验结果表明,改进TFIDF算法可实现对海量数据的高速有效处理,随着节点数量的增加,双重并行自适应计算下,算法执行效率更加高效。 展开更多
关键词 tfidf改进算法 MAPREDUCE模型 图形处理器 并行计算 自适应
下载PDF
基于TFIDF文本特征加权方法的改进研究 被引量:37
5
作者 张保富 施化吉 马素琴 《计算机应用与软件》 CSCD 2011年第2期17-20,共4页
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献... 针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。 展开更多
关键词 tfidf 文本分类 特征加权 向量空间模型
下载PDF
基于TFIDF算法的家庭关系识别模型构建及其应用 被引量:3
6
作者 徐忠健 陈孚 +1 位作者 任小龙 刘群 《井冈山大学学报(自然科学版)》 2012年第5期54-58,共5页
基于TFIDF(Term Frequency Inverse Document Frequency)算法,结合用户通话圈运用呼叫指纹方法分析用户的交往圈、呼叫特征、短信特征、位置特征、客服特征、终端特征等特征,构建家庭关系识别模型,进而挖掘家庭关联关系的手机与固话在... 基于TFIDF(Term Frequency Inverse Document Frequency)算法,结合用户通话圈运用呼叫指纹方法分析用户的交往圈、呼叫特征、短信特征、位置特征、客服特征、终端特征等特征,构建家庭关系识别模型,进而挖掘家庭关联关系的手机与固话在呼叫圈相似度、平均每天通话次数、平均每次通话时长等变量上的相关性,为发现手机号码与家庭固定电话之间的关联关系提供了有效的技术手段,并有效地应用于固移捆绑套餐和可选套餐的目标客户的识别。从实际营销效果来看,该模型的使用有利于帮助市场营销人员快速、方便、有效地开展融合套餐的销售,在降低营销成本的同时提高了营销效果。 展开更多
关键词 通话圈 关系识别模型 tfidf算法 数据挖掘
下载PDF
基于LDA和TF-IDF的关键词提取算法研究
7
作者 苏婧琼 苏艳琼 《长江信息通信》 2024年第1期78-80,共3页
在自然语言处理领域,对于海量的文本文件,让用户在最短的时间找到到自己感兴趣的文档,最关键的工作是要每篇文档的关键词提取出来。而不管是针对一篇长文章或是一篇短文章,通常能够直接通过这几个关键字去窥探出整篇文章背后的主题思想... 在自然语言处理领域,对于海量的文本文件,让用户在最短的时间找到到自己感兴趣的文档,最关键的工作是要每篇文档的关键词提取出来。而不管是针对一篇长文章或是一篇短文章,通常能够直接通过这几个关键字去窥探出整篇文章背后的主题思想。文章分别介绍了LDA主题模型和TFIDF算法在关键词提取中的应用,并进行了对比,结果表明在关键词提取方面都可以取得较好的效果。 展开更多
关键词 LDA主题模型 tfidf算法 关键词提取
下载PDF
面向领域新闻的词汇输入预测
8
作者 张明西 马悦荣 林启新 《计算机工程与设计》 北大核心 2023年第1期262-268,共7页
为解决领域新闻中词汇使用频率对输入预测准确度的影响,提出一种面向领域新闻的词汇输入预测方法,结合样本修剪提升LSTM应用于领域新闻词汇预测中的准确性。利用文本的词序关系形成词汇网络,构建词汇相关度度量模型计算词汇间的相关度,... 为解决领域新闻中词汇使用频率对输入预测准确度的影响,提出一种面向领域新闻的词汇输入预测方法,结合样本修剪提升LSTM应用于领域新闻词汇预测中的准确性。利用文本的词序关系形成词汇网络,构建词汇相关度度量模型计算词汇间的相关度,依据词汇间的强弱关系进行词汇修剪。基于词序关系,采用LSTM进行训练,生成词汇输入预测序列。实验结果表明,相比传统LSTM模型,所提方法能够提升平均4.73%的准确率,验证了所提方法的可行性与有效性。 展开更多
关键词 长短期记忆网络 领域新闻 词汇输入预测 词汇网络 tfidf模型
下载PDF
文本分类中词语权重计算方法的改进与应用 被引量:28
9
作者 熊忠阳 黎刚 +1 位作者 陈小莉 陈伟 《计算机工程与应用》 CSCD 北大核心 2008年第5期187-189,共3页
文本的形式化表示一直是信息检索领域关注的基础性问题。向量空间模型(Vector SpaceModel)中的tf.idf文本表示是该领域里得到广泛应用,并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内... 文本的形式化表示一直是信息检索领域关注的基础性问题。向量空间模型(Vector SpaceModel)中的tf.idf文本表示是该领域里得到广泛应用,并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一。但是其IDF的计算,并没有考虑到特征项在类间的分布情况,也没有考虑到在类内分布相对均匀的特征项的权重应该比分布不均匀的要高,应该赋予其较高的权重。用改进的TFIDF选择特征词条、用KNN分类算法和遗传算法训练分类器来验证其有效性,实验表明改进的策略是可行的。 展开更多
关键词 文本表示 向量空间模型 特征选择 tfidf
下载PDF
基于统计语言模型改进的Word2Vec优化策略研究 被引量:12
10
作者 张克君 史泰猛 +1 位作者 李伟男 钱榕 《中文信息学报》 CSCD 北大核心 2019年第7期11-19,共9页
该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,... 该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,而改进的语言模型通过文本关键词建立了词本身与整个文本之间的联系,在词向量训练结果的查准率和相似度方面,改进模型训练出的词向量较skip-gram、CBOW语言模型有一个小幅度的提升。通过基于维基百科1.5GB中文语料的词向量训练实验对比后发现,使用CBOW-TFIDF模型训练出的词向量在相似词测试任务中结果最佳;把改进的词向量应用到情感倾向性分析任务中,正向评价的精确率和F1值分别提高了4.79%、4.92%,因此基于统计语言模型改进的词向量,对于情感倾向性分析等以词向量为基础的应用研究工作有较为重要的实践意义。 展开更多
关键词 词向量 统计语言模型 tfidf 文本关键词 CBOW-tfidf
下载PDF
基于记忆的自适应汉语语言模型的研究 被引量:2
11
作者 曲卫民 张俊林 +1 位作者 孙乐 孙玉芳 《中文信息学报》 CSCD 北大核心 2003年第5期13-18,40,共7页
基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性,但其假设过于简单,即认为一个在文章的前面部分出现过的词往往会在后面重复出现,它没有考虑到常用词的影响,以及不同单词间的相互影响。本文针对这一问题从... 基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性,但其假设过于简单,即认为一个在文章的前面部分出现过的词往往会在后面重复出现,它没有考虑到常用词的影响,以及不同单词间的相互影响。本文针对这一问题从两个方面对原有模型进行了改进,一是采用TFIDF公式代替了原有的简单频率统计法;二是建立了一种基于记忆的扩展二元模型,并采用权重过滤法以节省模型计算量。实验表明这两种改进在很大程度上提高了原有模型的性能,增强了模型的自适应性。 展开更多
关键词 计算机应用 中文信息处理 语言模型 自适应 tfidf公式 扩展二元模型
下载PDF
个性化检索系统中用户兴趣模型的研究 被引量:5
12
作者 宋艳娟 陈振标 《计算机与数字工程》 2013年第2期271-274,共4页
个性化检索服务已成为提高信息检索查准率的有效途径。论文针对用户兴趣模型的构建,在传统TFIDF算法的基础上,提出了一种基于文档结构和网页兴趣权重的TFIDF算法,并给出了用户兴趣模型的更新算法。实例分析表明,基于该文算法的用户兴趣... 个性化检索服务已成为提高信息检索查准率的有效途径。论文针对用户兴趣模型的构建,在传统TFIDF算法的基础上,提出了一种基于文档结构和网页兴趣权重的TFIDF算法,并给出了用户兴趣模型的更新算法。实例分析表明,基于该文算法的用户兴趣模型能够改善用户兴趣的捕获情况。 展开更多
关键词 个性化检索 用户兴趣模型 tfidf算法
下载PDF
基于Lee模型的文本分类 被引量:1
13
作者 靳小波 夏清国 《计算机工程》 EI CAS CSCD 北大核心 2006年第2期175-176,222,共3页
DavidLee从心理学的角度提出Lee模型并将其用于文本分类。该文将Lee模型引入Na?veBayes和TFIDF中,比较了影响度和TF-IDF两种不同的文档表示方法对分类精度的影响,并对Lee模型的不同因素对算法的影响效果作了分析。结果表明影响度的文档... DavidLee从心理学的角度提出Lee模型并将其用于文本分类。该文将Lee模型引入Na?veBayes和TFIDF中,比较了影响度和TF-IDF两种不同的文档表示方法对分类精度的影响,并对Lee模型的不同因素对算法的影响效果作了分析。结果表明影响度的文档表示方法比TF-IDF更好一些,启发式的部分读取策略能以较小的时间代价极大地改善分类算法的精度。 展开更多
关键词 文本分类 Lee模型 朴素贝叶斯 tfidf
下载PDF
朴素Bayes分类器文本特征向量的参数优化 被引量:4
14
作者 方秋莲 王培锦 +3 位作者 隋阳 郑涵颖 吕春玥 王艳彤 《吉林大学学报(理学版)》 CAS 北大核心 2019年第6期1479-1484,共6页
采用朴素Bayes算法建立中文文本自动分类器,并研究相关参数的选择问题,以实现中文文本的高效分类.首先在模型训练阶段,采用N-gram模型处理训练数据集提取特征向量;然后使用朴素Bayes算法建立文本分类器;最后在模型测试阶段,为提高分类... 采用朴素Bayes算法建立中文文本自动分类器,并研究相关参数的选择问题,以实现中文文本的高效分类.首先在模型训练阶段,采用N-gram模型处理训练数据集提取特征向量;然后使用朴素Bayes算法建立文本分类器;最后在模型测试阶段,为提高分类准确率,使用词频-反文档频率算法对测试样本进行特征向量提取.实例分析结果表明,在提取训练集特征向量时,2-gram模型和4-gram模型的特征提取效果最佳;在选取特征向量长度时,长度为25000的特征向量可使分类准确率出现最大增幅并保证较高准确率;在确定特征项词性方面,同时选取动词和名词可使分类器准确率达到最高,仅选取动词时准确率最低. 展开更多
关键词 朴素Bayes分类器 特征选择 tfidf算法 N-GRAM模型
下载PDF
VSM模型在电信行业中的应用 被引量:1
15
作者 和晓军 李宜兵 孙振国 《沈阳理工大学学报》 CAS 2010年第3期26-29,共4页
随着国内电信行业的重组,各个企业之间的竞争越来越激烈。如何针对不同的客户制定营销策略,以使企业利润最大化,已经是非常重要的事情了。提出一种基于VSM模型,利用TFIDF算法的基本思想,构造出一种适合于电信行业的类TFIDF算法。利用此... 随着国内电信行业的重组,各个企业之间的竞争越来越激烈。如何针对不同的客户制定营销策略,以使企业利润最大化,已经是非常重要的事情了。提出一种基于VSM模型,利用TFIDF算法的基本思想,构造出一种适合于电信行业的类TFIDF算法。利用此算法可以找出流失的客户去向与新入网的客户来源。通过对比客户的消费行为,可以分析出客户流失的原因,为市场部门制定营销策略提供理论依据. 展开更多
关键词 VSM模型 tfidf 相似度 客户分析
下载PDF
基于自然语言处理的空管系统危险源文本分类方法研究 被引量:3
16
作者 郭九霞 《安全与环境学报》 CAS CSCD 北大核心 2022年第2期819-825,共7页
为了预防空管系统不安全事件的发生,利用人为因素分析与分类系统(HFACS)模型和自然语言处理技术,研究空管系统危险源文本分类方法。根据改进的HFACS模型建立空管系统危险源分类指标体系,选取民航空管安全管理系统的危险源数据库作为生... 为了预防空管系统不安全事件的发生,利用人为因素分析与分类系统(HFACS)模型和自然语言处理技术,研究空管系统危险源文本分类方法。根据改进的HFACS模型建立空管系统危险源分类指标体系,选取民航空管安全管理系统的危险源数据库作为生语料库,将其划分为5级,并对其进行编码。为解决空管系统危险源数据库小样本、多标签、样本不均衡的问题,分别采用基于TFIDF-TextRank关键词提取的文本分类方法和基于CNN和BERT模型的文本分类方法进行试验。结果表明,基于TFIDF-TextRank关键词提取的文本分类方法的精确率和召回率明显优于基于CNN和BERT模型的分类方法,关键词提取方法可以有效处理小语料库文本分类问题,并有助于进一步研究空管系统不安全事件的形成机理。 展开更多
关键词 安全社会工程 空管系统 危险源 HFACS模型 tfidf-TextRank方法 文本分类
下载PDF
基于段落相似度的论文抄袭判定 被引量:2
17
作者 赵俊杰 谢飞 《电脑与电信》 2008年第8期22-23,35,共3页
从抄袭的定义和法律规定出发,在分析比较国内外主要的论文抄袭判定方法基础上,提出存在的问题和改进策略,最后给出一种基于段落相似度的论文抄袭判定算法。此算法可以检测出抄袭者将论文的段落顺序打乱或者将段落文字打乱重新组合的情况... 从抄袭的定义和法律规定出发,在分析比较国内外主要的论文抄袭判定方法基础上,提出存在的问题和改进策略,最后给出一种基于段落相似度的论文抄袭判定算法。此算法可以检测出抄袭者将论文的段落顺序打乱或者将段落文字打乱重新组合的情况,并将确认抄袭和疑似抄袭的抄袭论文和原论文的相应内容输出,方便用户进一步审查。 展开更多
关键词 抄袭判定 段落相似度 向量空间模型 tfidf
下载PDF
基于改进向量空间模型的学术论文相似性辨别系统设计 被引量:5
18
作者 谢翠香 《电脑知识与技术》 2009年第7期5103-5105,共3页
学术腐败已日渐成为社会瞩目的焦点,除了加强科技人员道德自律,还应有相应的技术手段加以监督,由此,该文将信息检索领域中向量空间模型进行了分析改进,并用改进的模型实现了学术论文相似性辨别系统,可供一些机构用来进行学术论文... 学术腐败已日渐成为社会瞩目的焦点,除了加强科技人员道德自律,还应有相应的技术手段加以监督,由此,该文将信息检索领域中向量空间模型进行了分析改进,并用改进的模型实现了学术论文相似性辨别系统,可供一些机构用来进行学术论文抄袭排查,提高工作效率,根治学术腐败,营造更好的创新环境。 展开更多
关键词 向量空间模型 tfidf 学术论文 相似性辨别系统
下载PDF
一种基于MapReduce的分布式文本数据过滤模型研究
19
作者 李虎 邹鹏 +1 位作者 贾焰 周斌 《信息网络安全》 2011年第9期91-93,119,共4页
该文首先介绍了文本过滤模型的特点以及发展状况。针对传统信息过滤处理方式无法满足现阶段海量数据环境下业务需求这一现状,该文提出了一种基于MapReduce框架的文本数据过滤模型,实现了传统的向量空间模型的分布式扩展。在实际环境中... 该文首先介绍了文本过滤模型的特点以及发展状况。针对传统信息过滤处理方式无法满足现阶段海量数据环境下业务需求这一现状,该文提出了一种基于MapReduce框架的文本数据过滤模型,实现了传统的向量空间模型的分布式扩展。在实际环境中的测试表明,该模型的过滤精度和速度都较为理想,较好的满足了用户的需求。 展开更多
关键词 信息过滤 MAPREDUCE 向量空间模型 tfidf
下载PDF
面向中文新闻话题检测的多向量文本聚类方法 被引量:6
20
作者 李欣雨 袁方 +1 位作者 刘宇 李琮 《郑州大学学报(理学版)》 CAS 北大核心 2016年第2期47-52,共6页
基于多向量模型,给出一种将话题主题信息与话题文本信息相结合的多向量话题表示方式,使用较低的维度来准确表示一个话题.针对传统TFIDF方法在文本分类问题中对特征项在各个类中分布情况考虑不充分的问题,给出了一种TFIDF改进方法.在TDT... 基于多向量模型,给出一种将话题主题信息与话题文本信息相结合的多向量话题表示方式,使用较低的维度来准确表示一个话题.针对传统TFIDF方法在文本分类问题中对特征项在各个类中分布情况考虑不充分的问题,给出了一种TFIDF改进方法.在TDT4的中文语料上,与传统向量空间模型进行了对比实验.实验结果表明,给出的话题表示方法和TFIDF改进算法能够在较低的维度上,使聚类的准确率得到较大提升. 展开更多
关键词 话题检测 多向量模型 TDT4 改进tfidf算法
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部