期刊文献+
共找到630篇文章
< 1 2 32 >
每页显示 20 50 100
基于TF*IDF垃圾邮件过滤改进算法的研究 被引量:2
1
作者 常凯 《电脑知识与技术》 2010年第9期6928-6930,共3页
传统TF*IDF算法是计算文档关键字的权值的重要方法。分析了传统TF*IDF算法在划分垃圾邮件和合法邮件时的缺点。即忽视了在一类文档中反复出现的单词,反复出现的单词往往最具有代表该类文档的特征,权重应该是比较高的。但这种情况,... 传统TF*IDF算法是计算文档关键字的权值的重要方法。分析了传统TF*IDF算法在划分垃圾邮件和合法邮件时的缺点。即忽视了在一类文档中反复出现的单词,反复出现的单词往往最具有代表该类文档的特征,权重应该是比较高的。但这种情况,传统TF*IDF算法计算出结果恰恰相反,权重偏低,达不到设计者的要求。故通过改进了传统TF*IDF算法计算公式,来增加这些单词的权重。实验证明改进算法优于传统算法: 展开更多
关键词 tf*idf 权重 分类 垃圾邮件
下载PDF
基于TF-IDF算法的运营商客户投诉原因研究 被引量:1
2
作者 张爱华 孙嘉鸿 《北京邮电大学学报(社会科学版)》 2024年第2期39-49,共11页
针对运营商人工处理客户投诉工单高成本低效率问题,提出了一种基于TF-IDF算法的定量研究方法,旨在高效精准地识别客户投诉原因。选用Jieba分词,导入自定义词典和停用词列表,对运营商客户投诉工单进行关键词抽取,获取各类问题中TF-IDF值... 针对运营商人工处理客户投诉工单高成本低效率问题,提出了一种基于TF-IDF算法的定量研究方法,旨在高效精准地识别客户投诉原因。选用Jieba分词,导入自定义词典和停用词列表,对运营商客户投诉工单进行关键词抽取,获取各类问题中TF-IDF值排名前6的关键词,输出关键词集。提高了关键词抽取的准确性和效率。此外,对比仅对文档集使用TF进行统计和使用TextRank算法的情况,突显了IDF的重要性及算法原理的差异。实验结果表明,光猫、路由器、机顶盒问题广泛存在于各类投诉中。针对这三类问题,为运营商提供了改进产品、服务的相关建议,对运营商集中治理、解决问题具有一定的实用价值。 展开更多
关键词 投诉工单 投诉原因 关键词抽取 tf-idf
下载PDF
基于TF-IDF和多头注意力Transformer模型的文本情感分析 被引量:7
3
作者 高佳希 黄海燕 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期129-136,共8页
文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Documen... 文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Document Frequency)和多头注意力Transformer模型的文本情感分析模型。在文本预处理阶段,利用TF-IDF算法对影响文本情感倾向较大的词语进行初步筛选,舍去常见的停用词及其他文本所属邻域对文本情感倾向影响较小的专有名词。然后,利用多头注意力Transformer模型编码器进行特征提取,抓取文本内部重要的语义信息,提高模型对语义的分析和泛化能力。该模型在多领域、多类型评论语料库数据集上取得了98.17%的准确率。 展开更多
关键词 文本情感分析 自然语言处理 多头注意力机制 tf-idf算法 Transformer模型
下载PDF
基于改进TF-IDF与BERT的领域情感词典构建方法 被引量:1
4
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感词典 词频-逆文档频率 隐含狄利克雷分布 情感倾向点互信息算法 BERT模型
下载PDF
基于改进TF-IDF融合二进制灰狼优化的短文本分类
5
作者 杨东 毋涛 +1 位作者 赵雪青 李猛 《计算机技术与发展》 2024年第8期37-41,共5页
为了提高特殊类型短文本分类准确度和降低特征维度,提出了基于改进TF-IDF方法融合二进制灰狼优化的短文本分类。为了提高特征向量文本权重计算准确度,提出了点赞排列因子,并融合了文本特征集中度,对附有点赞数的特殊类型文本进行权重计... 为了提高特殊类型短文本分类准确度和降低特征维度,提出了基于改进TF-IDF方法融合二进制灰狼优化的短文本分类。为了提高特征向量文本权重计算准确度,提出了点赞排列因子,并融合了文本特征集中度,对附有点赞数的特殊类型文本进行权重计算,设计改进了TF-IDF-RANK方法对特征进行加权;同时,基于初选特征向量,设计优化了二进制灰狼优化算法(BGWO)搜寻最优特征子集,引入衰减系数向量和多优解迭代机制,提高灰狼搜寻性能。结果表明,该方法有效地提升了权重准确率,更好地表征初选特征向量,增强特征选择时寻找全局最优解的能力,进而提高短文本的分类效果。通过LABIC和抖音开放平台数据集测试,综合指标F1值分别提高了14.76%和14.02%,验证了该方法对于特殊类型文本分类的有效性。 展开更多
关键词 短文本分类 特征加权 tf-idf-RANK方法 特征选择 二进制灰狼优化
下载PDF
长三角一体化发展特征与动力探究——基于TF-IDF算法与格兰杰检验
6
作者 关硕 赵雪 刘毅 《科技和产业》 2024年第5期40-47,共8页
从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设... 从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设主体对5个发展目标的注意力分配不均衡;在创新共建目标方面,地方主体的注意力变动会引起中央主体的注意力变动;长三角一体化发展呈现小间断大均衡特征,体现“自下而上”的地方主导模式。 展开更多
关键词 长三角一体化 话语制度主义 间断-均衡框架 tf-idf(词频-逆文件频率)算法 格兰杰检验
下载PDF
基于改进TF-IDF和AGLCNN的新闻长文本分类模型
7
作者 周宪溪 牟莉 《计算机与现代化》 2024年第8期120-126,共7页
新闻长文本分类是自然语言处理中的一项重要任务,但传统的文本表示方法存在特征稀疏、语义不足等问题。此外,新闻长文本含有大量的冗余信息,并且可能涉及其他主题,以上问题都会导致文本特征提取不全面。为此,本文提出一种基于改进TF-ID... 新闻长文本分类是自然语言处理中的一项重要任务,但传统的文本表示方法存在特征稀疏、语义不足等问题。此外,新闻长文本含有大量的冗余信息,并且可能涉及其他主题,以上问题都会导致文本特征提取不全面。为此,本文提出一种基于改进TF-IDF算法和AGLCNN的新闻长文本分类模型。该模型首先利用特征项在类间与类内分布情况及其位置信息来改进TF-IDF算法,并结合Word2Vec词向量进行文本表示;利用注意力机制突出关键字信息,输入至Bi-LSTM捕获文本上下文特征;接着利用CNN突出新闻主题的显著特征;考虑到新闻长文本中可能存在涉及其他主题信息的句子,引入门控机制对Bi-LSTM和CNN输出特征进行融合,获得最终的文本特征表示;最后,将特征向量输入Softmax层进行新闻分类。在THUCNews数据集和搜狐新闻数据集上进行对比实验,结果表明,所提模型在2个数据集上的召回率分别为0.985和0.976,优于其他分类模型。 展开更多
关键词 文本分类 tf-idf 注意力机制 卷积神经网络 特征项
下载PDF
基于TF-IDF和VOSviewer的我国应急救援现状可视化分析 被引量:1
8
作者 黄萍 张文龙 +2 位作者 叶圣琳 余君 余龙星 《中国安全科学学报》 CAS CSCD 北大核心 2023年第11期196-205,共10页
为有效利用消防救援队伍的实战记录资料挖掘应急救援战例成功经验,结合词频-逆文档频率(TF-IDF)算法和VOSviewer文献可视化分析技术,构建战例资料分析模型,分析战例成功与失败的共性规律和特点,总结我国应急救援现状及发展趋势。模型以2... 为有效利用消防救援队伍的实战记录资料挖掘应急救援战例成功经验,结合词频-逆文档频率(TF-IDF)算法和VOSviewer文献可视化分析技术,构建战例资料分析模型,分析战例成功与失败的共性规律和特点,总结我国应急救援现状及发展趋势。模型以2007—2019年间共185起应急救援典型战例为数据库,按照自然灾害、交通事故、建筑坍塌、危化品泄漏、火灾扑救等应急救援行动类型展开分析。结果表明:我国应急救援行动的影响因素主要表现在人(救援队伍)、机(装备技术)、环(环境)、管(管理)4个方面。其中,环境因素的影响几乎都是负面的,其他3个因素均有正负面影响。此外,不同应急救援行动类型的主导影响因素存在差异,自然灾害突出“机”;交通事故突出“管”;建筑坍塌突出“机”“环”;危化品泄漏在“人机环管”4个方面均有突出问题;火灾救援突出“机”。 展开更多
关键词 词频-逆文档频率(tf-idf) VOSviewer 应急救援 消防救援 可视化分析 战例分析
下载PDF
基于改进TF-IDF算法的毕业生就业推荐算法研究 被引量:2
9
作者 李龙 金铄 黄霞 《计算机与数字工程》 2023年第9期1985-1989,2118,共6页
针对传统就业推荐算法不能够对每一个毕业生进行精准的推荐的局限性,论文提出一种结合TF-IDF算法和K-means++算法的双向推荐系统,一方面对毕业生信息使用K-means++算法进行聚类,对新用户根据其初始信息与行为信息进行用户画像建模,并计... 针对传统就业推荐算法不能够对每一个毕业生进行精准的推荐的局限性,论文提出一种结合TF-IDF算法和K-means++算法的双向推荐系统,一方面对毕业生信息使用K-means++算法进行聚类,对新用户根据其初始信息与行为信息进行用户画像建模,并计算与往届毕业生的相似度;另一方面使用TF-IDF算法对各个招聘网站所发布的招聘信息中的关键词进行统计转换词频等操作。实验结果表明,该双向就业推荐系统比起之前单向就业推荐提高了毕业生就业推荐的满意度,提升推荐效率。 展开更多
关键词 K-means++算法 tf-idf算法 用户画像 推荐系统
下载PDF
基于TF-IDF和TextRank结合的中文文本关键词提取方法——以体育新闻为例 被引量:4
10
作者 兰晓芳 刘卓 +1 位作者 许志豪 肖毅 《软件工程》 2023年第8期6-10,共5页
利用文本挖掘技术进行体育热点分析,可以为体育领域的发展提供更多有用的信息。文中提出了一种基于TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)和TextRank(文本排序)的中文文本关键词提取方法,该方法首先采用... 利用文本挖掘技术进行体育热点分析,可以为体育领域的发展提供更多有用的信息。文中提出了一种基于TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)和TextRank(文本排序)的中文文本关键词提取方法,该方法首先采用分词、去除停用词等对文本进行预处理;其次使用TF-IDF算法计算每个词的重要性并进行归一化处理,同时使用TextRank算法权衡单词之间的关系并计算每个单词的得分以进行归一化处理;最后将TF-IDF值和TextRank得分进行加权和得到每个词的综合权重值,最终获得权重值最高的N个关键词。应用TF-IDF和TextRank结合的方法在F1值上选择5个关键词时取得了更好的结果,相较于只使用TF-IDF方法或TextRank方法,其关键词提取准确率分别提高约40%和32%。该方法有效提高了关键词提取的准确性和提取效率。 展开更多
关键词 tf-idf TextRank 体育新闻 关键词提取
下载PDF
融合条件熵和TF-IDF的过采样方法 被引量:1
11
作者 胡宏章 邱云飞 郭蕾 《计算机时代》 2023年第6期48-53,共6页
针对非均衡数据带来的分类器对少数类样本学习不充分的问题,提出融合条件熵和TF-IDF的过采样方法。该方法首先指定参数,组合数据特征,然后计算每种组合方式下的条件熵,判断每种组合条件下类的不确定性,同时为了避免低词频带来的噪音数据... 针对非均衡数据带来的分类器对少数类样本学习不充分的问题,提出融合条件熵和TF-IDF的过采样方法。该方法首先指定参数,组合数据特征,然后计算每种组合方式下的条件熵,判断每种组合条件下类的不确定性,同时为了避免低词频带来的噪音数据,将条件熵结果乘上1/TF-IDF因子,再将结果按升序排序,最后结合参数选定过采样依据的特征组合,用以构造新数据,使正负样本平衡。将所提方法在7个不均衡数据集上进行实验仿真,结果表明,所提方法比其他方法在F-measure、G-mean和AUC等评价指标上均有一定提高。 展开更多
关键词 非均衡数据 条件熵 tf-idf 过采样
下载PDF
基于情感指数和TF-IDF词频分析的高客单价商品物流影响因素研究 被引量:1
12
作者 孔茹佳 汪传雷 +2 位作者 支茁 李慧 赵林子 《物流工程与管理》 2023年第7期13-17,32,共6页
随着数字经济的发展和生活水平的提高,电商平台中高客单价商品的销量不断增加,在线评论成为影响消费者购买决策的关键要素之一。针对京东平台的在线评论数据,提出一种基于情感指数和TF-IDF词频分析的高客单价商品情感指数计算模型来量... 随着数字经济的发展和生活水平的提高,电商平台中高客单价商品的销量不断增加,在线评论成为影响消费者购买决策的关键要素之一。针对京东平台的在线评论数据,提出一种基于情感指数和TF-IDF词频分析的高客单价商品情感指数计算模型来量化消费者情感指数,采用灰色关联分析法探索消费者物流服务情感指数与消费者总情感指数的相关性,结果表明消费者物流服务情感指数与消费者总情感指数之间的关联度极高,挖掘出对高客单价商品消费者情感影响较大的五个关键物流因素:配送、安装、服务态度、售后服务以及包装。 展开更多
关键词 在线评论 情感分析 tf-idf 高客单价商品
下载PDF
一种结合TF-IDF和Simhash的科技项目文本相似性度量方法 被引量:5
13
作者 孙北宁 吕维新 +1 位作者 曾俊 肖衡 《电子技术应用》 2023年第6期89-93,共5页
为了提高科技项目文本相似性度量的准确性和性能,将TF-IDF和Simhash相结合,提出了一种新的科技项目文本相似性度量方法。首先,该方法对科技项目文本进行预处理得到词项集合,再使用TF-IDF计算词项集合中每个词项的权重值,并选取具有较高... 为了提高科技项目文本相似性度量的准确性和性能,将TF-IDF和Simhash相结合,提出了一种新的科技项目文本相似性度量方法。首先,该方法对科技项目文本进行预处理得到词项集合,再使用TF-IDF计算词项集合中每个词项的权重值,并选取具有较高权重值的重要词项;其次,使用Simhash把重要词项映射为固定长度的二进制串,并求和得到文本的Simhash签名;最后,使用汉明距离计算两个Simhash签名间的相似性。实验结果表明,所提方法在查准率、召回率和F度量值方面优于传统的Simhash算法和TF-IDF方法。 展开更多
关键词 科技项目文本 文本相似度 tf-idf Simhash算法
下载PDF
基于TF-IDF加权文本语义相似度算法的变电站一键顺控测试方法研究 被引量:1
14
作者 杨宏伟 张红梅 +3 位作者 张骥 王朔 张妍 甄家林 《电力科学与技术学报》 CAS CSCD 北大核心 2023年第5期269-278,共10页
针对一键顺控实际测试工作中工作时间长、效率低、人力投入大等问题,自主可控新一代变电站一键顺控规范提出了不停电校核方法,通过主辅一体化监控主机模拟测试完成顺控操作票测试,可以较好地解决上述问题。提出一种自主可控新一代变电... 针对一键顺控实际测试工作中工作时间长、效率低、人力投入大等问题,自主可控新一代变电站一键顺控规范提出了不停电校核方法,通过主辅一体化监控主机模拟测试完成顺控操作票测试,可以较好地解决上述问题。提出一种自主可控新一代变电站一键顺控测试方法,通过构建基于标准一键顺控操作票中信号定义的中间数据库形成一键顺控测试库所需的配置信息点,基于标准一键顺控操作票和典型接线方式下的间隔定义,使用中间数据库中的信息点构建一键顺控测试库,基于优化TF-IDF加权的文本语义相似度算法实现测试库的实例化,解决一键顺控仿真测试问题。通过实际仿真测试实例验证了所提方法的有效性。 展开更多
关键词 一键顺控 自主可控 测试库 tf-idf 语义识别 仿真测试
下载PDF
基于差异化建模与TF-IDF算法的城市功能区识别及混合度测算
15
作者 赖桂君 赵冠伟 杨木壮 《测绘与空间地理信息》 2023年第2期89-93,共5页
基于POI性质、特点的不同,本文构建了一个融合统计分析法、核密度分析法的城市功能区定量识别模型,有效地识别出了广州市中心四区的功能区类型。利用耦合TF-IDF算法和信息熵算法测算城市功能混合度并进行面积加权,使得城市功能混合度测... 基于POI性质、特点的不同,本文构建了一个融合统计分析法、核密度分析法的城市功能区定量识别模型,有效地识别出了广州市中心四区的功能区类型。利用耦合TF-IDF算法和信息熵算法测算城市功能混合度并进行面积加权,使得城市功能混合度测算更加符合实际情况。研究结果表明:广州市中心城区呈现出混合用地为主的特征,总体混合程度高。混合用地主要分布在研究区中心,单一类型用地零星分布在研究区外围,呈现出显著的“核心-外围”式的圈层化分布格局。城市功能混合度呈现“中心高,四周低”“多中心,组团式”、空间梯度差异显著的分布特征,并且功能混合程度与发展水平有一定正相关关系;功能分区结果与混合密度情况分布较为一致,表明本研究方法可行、研究结果合理。 展开更多
关键词 POI 城市功能区 混合度 分类模型 tf-idf
下载PDF
基于TF-IDF和SGTM模型的标准技术地图构建及实证研究 被引量:1
16
作者 修乙丹 郑素丽 王鹤谖 《标准科学》 2023年第10期18-26,共9页
在关键领域技术研发加快和标准竞争加剧的背景下,亟需一种有效的工具对标准的技术内容进行深入分析,为标准创新活动提供决策支持。本文将文本挖掘方法和知识地图绘制思路引入标准化领域,提出一种基于TF-IDF和SGTM模型的标准技术地图构... 在关键领域技术研发加快和标准竞争加剧的背景下,亟需一种有效的工具对标准的技术内容进行深入分析,为标准创新活动提供决策支持。本文将文本挖掘方法和知识地图绘制思路引入标准化领域,提出一种基于TF-IDF和SGTM模型的标准技术地图构建方法,实现了对标准文本内容的挖掘、聚类与可视化呈现,可以全面细致地揭示一个技术领域的标准布局现状和特点。在此基础上以V2X技术为例进行实践应用,验证了该方法的可行性和有效性,也为V2X标准研究提供了理论指导和政策启示。 展开更多
关键词 标准技术地图 tf-idf SGTM V2X
下载PDF
基于异构信息网络与TF-IDF的核心药物发现算法 被引量:2
17
作者 梁尘逸 姚远哲 《计算机时代》 2023年第5期31-35,共5页
提出一种基于异构信息网络和TF-IDF的核心药物发现算法。其核心思想是建立包含症状、方剂等多种类型对象的异构信息网络,并使用PathSim算法得到方剂之间的相似度来完成方剂聚类。以此为基础使用综合了剂量因素与TD-IDF算法原理的药物重... 提出一种基于异构信息网络和TF-IDF的核心药物发现算法。其核心思想是建立包含症状、方剂等多种类型对象的异构信息网络,并使用PathSim算法得到方剂之间的相似度来完成方剂聚类。以此为基础使用综合了剂量因素与TD-IDF算法原理的药物重要性系数计算方法完成核心药物发现。本文从《伤寒论》的方剂中划分出9个主要聚类并给出了各个聚类上重要性排名前5的药物,该算法可以考虑到多方面的信息,合理地挖掘出核心药物。 展开更多
关键词 异构信息网络 PathSim tf-idf 聚类 核心药物
下载PDF
基于LDA-TF-IDF和Word2vec文档表示 被引量:2
18
作者 彭俊利 王少泫 +1 位作者 陆正球 李兴远 《浙江纺织服装职业技术学院学报》 2023年第2期91-96,共6页
针对自然语言处理中传统文档表示方法上下文语义信息不全,干扰词多等问题,提出了一种基于LDA-TFIDF和Word2vec的文档表示方法。首先对数据集进行分词、去停用词等预处理;其次,利用LDA主题模型和TF-IDF抽取文档中具有表征性的特征词,并... 针对自然语言处理中传统文档表示方法上下文语义信息不全,干扰词多等问题,提出了一种基于LDA-TFIDF和Word2vec的文档表示方法。首先对数据集进行分词、去停用词等预处理;其次,利用LDA主题模型和TF-IDF抽取文档中具有表征性的特征词,并计算对应权重;最后,应用数据集训练Word2vec模型获取词向量,并将抽取的特征词权重融入Word2vec词向量构建文档语义向量。通过分类任务对该方法进行验证,实验结果表明,与已有方法相比该方法在垃圾短信数据集上表现效果更佳,验证了方法的有效性。 展开更多
关键词 LDA主题模型 tf-idf word2vec 文档表示
下载PDF
基于TF-IDF与Word2vec的新闻热点分析 被引量:3
19
作者 王婧 《中国有线电视》 2023年第2期59-63,共5页
新闻节目是信息传播和舆论引导的重要载体。互联网时代,新闻数量急速增长,从海量的新闻数据中高效挖掘热点,掌握社会最新动态,成为当今媒体从业人员研究的热点。以影响力最大的34套电视上星综合频道实际新闻节目数据为实验对象,应用新... 新闻节目是信息传播和舆论引导的重要载体。互联网时代,新闻数量急速增长,从海量的新闻数据中高效挖掘热点,掌握社会最新动态,成为当今媒体从业人员研究的热点。以影响力最大的34套电视上星综合频道实际新闻节目数据为实验对象,应用新闻条目智能分割技术,实现新闻报道切分,基于TF-IDF技术对新闻语音文本、新闻标题字幕内容进行关键词提取,并采用Word2vec工具实现新闻条目的向量化,并基于single pass算法实现新闻条目聚类从而拆分各个新闻话题并计算话题热度,初步实现新闻热点分析。 展开更多
关键词 词频—逆文档频率 词向量 新闻热点分析
下载PDF
基于TF*IDF的垃圾邮件过滤特征选择改进算法 被引量:6
20
作者 陈琦 伍朝辉 +2 位作者 姚芳 宋秀荣 张付志 《计算机应用研究》 CSCD 北大核心 2009年第6期2165-2167,共3页
随着电子邮件的普及与应用,垃圾邮件的泛滥也越来越受到人们的关注。而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点... 随着电子邮件的普及与应用,垃圾邮件的泛滥也越来越受到人们的关注。而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点,将关键字权重引入到邮件分类中,提出了一种基于关键词权重的TF*IDF特征选择改进算法,并进行了实验验证。实验结果表明,采用该算法改进后的贝叶斯过滤器具有更好的过滤效果。 展开更多
关键词 垃圾邮件 过滤器 贝叶斯 特征选择 tf*idf
下载PDF
上一页 1 2 32 下一页 到第
使用帮助 返回顶部