期刊文献+
共找到785篇文章
< 1 2 40 >
每页显示 20 50 100
基于TF-IDF算法的运营商客户投诉原因研究 被引量:1
1
作者 张爱华 孙嘉鸿 《北京邮电大学学报(社会科学版)》 2024年第2期39-49,共11页
针对运营商人工处理客户投诉工单高成本低效率问题,提出了一种基于TF-IDF算法的定量研究方法,旨在高效精准地识别客户投诉原因。选用Jieba分词,导入自定义词典和停用词列表,对运营商客户投诉工单进行关键词抽取,获取各类问题中TF-IDF值... 针对运营商人工处理客户投诉工单高成本低效率问题,提出了一种基于TF-IDF算法的定量研究方法,旨在高效精准地识别客户投诉原因。选用Jieba分词,导入自定义词典和停用词列表,对运营商客户投诉工单进行关键词抽取,获取各类问题中TF-IDF值排名前6的关键词,输出关键词集。提高了关键词抽取的准确性和效率。此外,对比仅对文档集使用TF进行统计和使用TextRank算法的情况,突显了IDF的重要性及算法原理的差异。实验结果表明,光猫、路由器、机顶盒问题广泛存在于各类投诉中。针对这三类问题,为运营商提供了改进产品、服务的相关建议,对运营商集中治理、解决问题具有一定的实用价值。 展开更多
关键词 投诉工单 投诉原因 关键词抽取 tf-idf
下载PDF
基于TF-IDF和多头注意力Transformer模型的文本情感分析 被引量:9
2
作者 高佳希 黄海燕 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期129-136,共8页
文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Documen... 文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Document Frequency)和多头注意力Transformer模型的文本情感分析模型。在文本预处理阶段,利用TF-IDF算法对影响文本情感倾向较大的词语进行初步筛选,舍去常见的停用词及其他文本所属邻域对文本情感倾向影响较小的专有名词。然后,利用多头注意力Transformer模型编码器进行特征提取,抓取文本内部重要的语义信息,提高模型对语义的分析和泛化能力。该模型在多领域、多类型评论语料库数据集上取得了98.17%的准确率。 展开更多
关键词 文本情感分析 自然语言处理 多头注意力机制 tf-idf算法 Transformer模型
下载PDF
长三角一体化发展特征与动力探究——基于TF-IDF算法与格兰杰检验
3
作者 关硕 赵雪 刘毅 《科技和产业》 2024年第5期40-47,共8页
从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设... 从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设主体对5个发展目标的注意力分配不均衡;在创新共建目标方面,地方主体的注意力变动会引起中央主体的注意力变动;长三角一体化发展呈现小间断大均衡特征,体现“自下而上”的地方主导模式。 展开更多
关键词 长三角一体化 话语制度主义 间断-均衡框架 tf-idf(词频-逆文件频率)算法 格兰杰检验
下载PDF
基于改进TF-IDF融合二进制灰狼优化的短文本分类
4
作者 杨东 毋涛 +1 位作者 赵雪青 李猛 《计算机技术与发展》 2024年第8期37-41,共5页
为了提高特殊类型短文本分类准确度和降低特征维度,提出了基于改进TF-IDF方法融合二进制灰狼优化的短文本分类。为了提高特征向量文本权重计算准确度,提出了点赞排列因子,并融合了文本特征集中度,对附有点赞数的特殊类型文本进行权重计... 为了提高特殊类型短文本分类准确度和降低特征维度,提出了基于改进TF-IDF方法融合二进制灰狼优化的短文本分类。为了提高特征向量文本权重计算准确度,提出了点赞排列因子,并融合了文本特征集中度,对附有点赞数的特殊类型文本进行权重计算,设计改进了TF-IDF-RANK方法对特征进行加权;同时,基于初选特征向量,设计优化了二进制灰狼优化算法(BGWO)搜寻最优特征子集,引入衰减系数向量和多优解迭代机制,提高灰狼搜寻性能。结果表明,该方法有效地提升了权重准确率,更好地表征初选特征向量,增强特征选择时寻找全局最优解的能力,进而提高短文本的分类效果。通过LABIC和抖音开放平台数据集测试,综合指标F1值分别提高了14.76%和14.02%,验证了该方法对于特殊类型文本分类的有效性。 展开更多
关键词 短文本分类 特征加权 tf-idf-RANK方法 特征选择 二进制灰狼优化
下载PDF
基于改进TF-IDF和AGLCNN的新闻长文本分类模型
5
作者 周宪溪 牟莉 《计算机与现代化》 2024年第8期120-126,共7页
新闻长文本分类是自然语言处理中的一项重要任务,但传统的文本表示方法存在特征稀疏、语义不足等问题。此外,新闻长文本含有大量的冗余信息,并且可能涉及其他主题,以上问题都会导致文本特征提取不全面。为此,本文提出一种基于改进TF-ID... 新闻长文本分类是自然语言处理中的一项重要任务,但传统的文本表示方法存在特征稀疏、语义不足等问题。此外,新闻长文本含有大量的冗余信息,并且可能涉及其他主题,以上问题都会导致文本特征提取不全面。为此,本文提出一种基于改进TF-IDF算法和AGLCNN的新闻长文本分类模型。该模型首先利用特征项在类间与类内分布情况及其位置信息来改进TF-IDF算法,并结合Word2Vec词向量进行文本表示;利用注意力机制突出关键字信息,输入至Bi-LSTM捕获文本上下文特征;接着利用CNN突出新闻主题的显著特征;考虑到新闻长文本中可能存在涉及其他主题信息的句子,引入门控机制对Bi-LSTM和CNN输出特征进行融合,获得最终的文本特征表示;最后,将特征向量输入Softmax层进行新闻分类。在THUCNews数据集和搜狐新闻数据集上进行对比实验,结果表明,所提模型在2个数据集上的召回率分别为0.985和0.976,优于其他分类模型。 展开更多
关键词 文本分类 tf-idf 注意力机制 卷积神经网络 特征项
下载PDF
基于改进的TF-IDF标签权重算法的电商用户画像构建
6
作者 白雨珂 卢胜男 《信息技术与信息化》 2024年第8期48-51,共4页
在电商环境中,用户画像构建是为了更好地理解和满足用户需求而进行的重要任务。传统的TF-IDF标签权重计算方法无法很好地对标签权重进行调整,为了解决这一问题,提出基于TF-IDF算法的改进方法,旨在提高用户画像的准确性和个性化程度。融... 在电商环境中,用户画像构建是为了更好地理解和满足用户需求而进行的重要任务。传统的TF-IDF标签权重计算方法无法很好地对标签权重进行调整,为了解决这一问题,提出基于TF-IDF算法的改进方法,旨在提高用户画像的准确性和个性化程度。融合相关系数矩阵,对相关性强的标签进行适当降权操作。不同类型的行为对标签信息产生不同的权重,并且标签的权重可能会随着时间的推移而衰减。因此,采用拟合记忆遗忘曲线模拟得到的兴趣遗忘曲线,对用户画像权重进行调优操作。实验结果表明,使用所提出的改进的TF-IDF算法构建用户画像的效果得到显著的提升。 展开更多
关键词 电商 相关系数 标签权重 用户画像 tf-idf算法
下载PDF
基于改进TF-IDF与BERT的领域情感词典构建方法 被引量:1
7
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感词典 词频-逆文档频率 隐含狄利克雷分布 情感倾向点互信息算法 BERT模型
下载PDF
基于词频差异的特征选取及改进的TF-IDF公式 被引量:55
8
作者 罗欣 夏德麟 晏蒲柳 《计算机应用》 CSCD 北大核心 2005年第9期2031-2033,共3页
文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度... 文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度及准确度。 展开更多
关键词 特征选取 向量空间模型 文本分类 tf-idf 信息增益 互信息量
下载PDF
移动机器人闭环检测的视觉字典树金字塔TF-IDF得分匹配方法 被引量:26
9
作者 李博 杨丹 邓林 《自动化学报》 EI CSCD 北大核心 2011年第6期665-673,共9页
针对移动机器人视觉闭环检测中,基于视觉字典本的场景外观表征性能受制于有限单词个数以及算法效率低的不足,本文对机器人视觉特征分层量化,构建视觉字典树,计算树节点的TF-IDF熵作为对应视觉单词的权重,生成图像–单词逆向文档索引.为... 针对移动机器人视觉闭环检测中,基于视觉字典本的场景外观表征性能受制于有限单词个数以及算法效率低的不足,本文对机器人视觉特征分层量化,构建视觉字典树,计算树节点的TF-IDF熵作为对应视觉单词的权重,生成图像–单词逆向文档索引.为消除视觉字典本的单尺度量化误差,并克服基于字典树投影路径的平面匹配模式中不区分不同层次节点的区分度对闭环检测的影响,本文融合字典树低层单词的强表征性和高层单词的强鲁棒性,提出由下而上逐层计算图像间相似性增量的金字塔得分匹配方法.将不同时刻相似性大于阈值的图像位置提取为候选闭环,通过后验确认操作剔除误正闭环.在移动机器人视觉闭环检测实验中,本文算法提高了图像相似性计算的效率和准确性,提高了闭环检测的准确率和召回率. 展开更多
关键词 闭环检测 视觉字典树 tf-idf得分准则 金字塔匹配
下载PDF
TF-IDF与规则相结合的中文关键词自动抽取研究 被引量:35
10
作者 牛萍 黄德根 《小型微型计算机系统》 CSCD 北大核心 2016年第4期711-715,共5页
关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未... 关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未登录词,且不依赖于语料库规模和领域.并且,在传统的TF-IDF基础上,结合位置特征和长度特征的情况下,考虑兼类词的不同词性问题,提出改进的TF-IDF计算公式,进行关键词抽取.通过比较实验,证明了候选词对关键词抽取的影响,与TF-IDF进行比较实验,改进的TF-IDF的准确率提高了5%左右. 展开更多
关键词 抽取 未登录词识别 候选词抽取 tf-idf
下载PDF
基于行业专有词典的TF-IDF特征选择算法改进 被引量:7
11
作者 张齐勋 刘宏志 +2 位作者 刘诗祥 贾堂 曹健 《计算机应用与软件》 2017年第7期277-281,共5页
行业专有词典是收录特定行业专有用语的词典,将行业专有词典运用到基于TF-IDF的特征选取算法中可提高文本特征空间的完备性。基于TF-IDF的改进算法的核心目标是提取出低频的关键词,现有的基于统计特征的改进方法增加了原始算法的计算复... 行业专有词典是收录特定行业专有用语的词典,将行业专有词典运用到基于TF-IDF的特征选取算法中可提高文本特征空间的完备性。基于TF-IDF的改进算法的核心目标是提取出低频的关键词,现有的基于统计特征的改进方法增加了原始算法的计算复杂度,降低了算法的效率。针对这一问题,在原始的TF-IDF特征选取算法上采用词典映射的方法提取低频关键词来构建完备的特征空间。实验结果表明,基于行业专有词典的TFIDF算法提取出的特征较未使用行业专有词典特征选取算法提取出的特征在后续的二次聚类验证实验中能有效地提高聚类的查全率和查准率。 展开更多
关键词 行业专有词典 tf-idf 特征空间 特征选择算法
下载PDF
基于C-value与TF-IDF的文献簇主题识别研究 被引量:11
12
作者 陈仕吉 王小梅 《情报学报》 CSSCI 北大核心 2009年第6期821-826,共6页
引文分析是科技情报分析的一种重要方法和技术,特别是建立在共耦合和共被引基础上的引文聚类分析逐渐发展成为科技情报分析中最活跃的研究领域之一。引文聚类分析形成一系列由科技文献组成的文献簇,并不能直接体现出文献簇的主题,因此... 引文分析是科技情报分析的一种重要方法和技术,特别是建立在共耦合和共被引基础上的引文聚类分析逐渐发展成为科技情报分析中最活跃的研究领域之一。引文聚类分析形成一系列由科技文献组成的文献簇,并不能直接体现出文献簇的主题,因此需要识别这些文献簇的内容特征。本文分析了引文分析中文献簇主题识别的典型方法及局限,提出了结合C-value和TF-IDF算法的文献簇主题识别方法。实验表明,该方法可以充分地利用C-value和TF-IDF算法的优点,对C-value和TF-IDF算法中不合理的地方予以了改进,从而可以更好地应用于引文分析中文献簇的主题识别。 展开更多
关键词 C-VALUE tf-idf CV-IDF 引文分析 主题识别
下载PDF
基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取 被引量:9
13
作者 杜若鹏 鲜国建 寇远涛 《数字图书馆论坛》 CSSCI 2019年第8期18-24,共7页
针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用验证。通过引入卡方检验值与特征词频修正因子等方式,对特征词加权函数进行重构,形成改进的ImpTF-IDF-CH... 针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用验证。通过引入卡方检验值与特征词频修正因子等方式,对特征词加权函数进行重构,形成改进的ImpTF-IDF-CHI方法。将该方法与文档频率法、信息增益法及TF-IDF3种传统的文本特征抽取结果应用于朴素贝叶斯分类实验,根据实验结果判定方法的优劣性。通过4种方法的58组特征抽取与文本分类实验,发现与前述的3种特征抽取方法相比,ImpTF-IDF-CHI方法抽取的特征词,应用于文本分类的正确率最高,平均准确率达94%,F1值为0.844,证明该方法在对相近农业科研领域文本进行特征抽取方面,具有准确率高、稳定性好、主题词代表性强等优点,可以有效地应用于此类文献文本分类、特征表达、主题抽取等场景。 展开更多
关键词 特征抽取 tf-idf 卡方统计 文本分类 农业科技文献
下载PDF
一种基于改进TF-IDF函数的文本分类方法 被引量:6
14
作者 卢中宁 张保威 《河南师范大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第6期158-160,174,共4页
为了解决传统TF-IDF函数由于忽略特征项之间的联系带来的诸多问题,对TF-IDF函数在文本分类中的应用进行了研究.结合信息论相关知识,找出了类间分布度和类内分布度表征特征项之间的潜在关系,进而提出改进的TF-IDF函数用于文本分类.实验表... 为了解决传统TF-IDF函数由于忽略特征项之间的联系带来的诸多问题,对TF-IDF函数在文本分类中的应用进行了研究.结合信息论相关知识,找出了类间分布度和类内分布度表征特征项之间的潜在关系,进而提出改进的TF-IDF函数用于文本分类.实验表明,改进后的TF-IDF函数是有效可行的,而且较好的弥补了传统方法所丢失的特征项之间的关联信息,提高了文本分类的准确率. 展开更多
关键词 VSM tf-idf函数 权重 文本分类
下载PDF
基于改进TF-IDF算法的牛疾病智能诊断系统 被引量:9
15
作者 杜永兴 牛丽静 +1 位作者 秦岭 李宝山 《计算机应用与软件》 北大核心 2021年第2期50-53,57,共5页
传统的TF-IDF(Term Frequency&Inverse Documentation Frequency)算法提取的关键词不能合理地代表某疾病的症状,降低智能诊断系统的性能。对此,提出一种改进的TF-IDF算法,并将其应用在牛疾病诊断系统中。系统将用户描述的文本内容... 传统的TF-IDF(Term Frequency&Inverse Documentation Frequency)算法提取的关键词不能合理地代表某疾病的症状,降低智能诊断系统的性能。对此,提出一种改进的TF-IDF算法,并将其应用在牛疾病诊断系统中。系统将用户描述的文本内容转换成向量的形式,用TF-IDF算法提取关键症状词,利用余弦定理和可信度计算给出可靠的疾病推荐和治疗方案。实验结果表明,该算法在疾病诊断中准确率和可信度两方面都具有更好的效果。与传统TF-IDF算法相比,平均可信度提高约4%。 展开更多
关键词 智能诊断 tf-idf 余弦相似度 VSM
下载PDF
基于改进的TF-IDF权重的短文本分类算法 被引量:15
16
作者 杨彬 韩庆文 +4 位作者 雷敏 张亚鹏 刘向国 杨亚强 马雪峰 《重庆理工大学学报(自然科学)》 CAS 2016年第12期108-113,共6页
短文本具有特征稀疏的特点,如采用TF-IDF权重和算法来选择短文本特征,很多具有专业领域信息特征而训练集中未出现过的特征将被忽略,从而导致待分类文本集的权值分布比较集中,区分度小,最终影响短文本信息推送。因此,一种基于改进的TF-ID... 短文本具有特征稀疏的特点,如采用TF-IDF权重和算法来选择短文本特征,很多具有专业领域信息特征而训练集中未出现过的特征将被忽略,从而导致待分类文本集的权值分布比较集中,区分度小,最终影响短文本信息推送。因此,一种基于改进的TF-IDF权重的短文本分类算法被提出。该算法通过同义词对分类器的关键词库进行扩展和基于特征长度对短文本权值进行加权,使得文本集的权值方差增大。与直接对短文本进行扩展的算法相比,该算法具有更快的分类速度。 展开更多
关键词 短文本 tf-idf权重 特征扩展
下载PDF
基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型 被引量:42
17
作者 王根生 黄学坚 《小型微型计算机系统》 CSCD 北大核心 2019年第5期1120-1126,共7页
针对传统机器学习文本分类算法语义特征表达弱、文本表示维度高、词序丢失、矩阵稀疏等问题,提出基于Word2vec、改进型TF-IDF和卷积神经网络三者相结合的文本分类模型(CTMWT):首先通过Word2vec模型训练得出样本中所有的词向量;然后提出... 针对传统机器学习文本分类算法语义特征表达弱、文本表示维度高、词序丢失、矩阵稀疏等问题,提出基于Word2vec、改进型TF-IDF和卷积神经网络三者相结合的文本分类模型(CTMWT):首先通过Word2vec模型训练得出样本中所有的词向量;然后提出基于类频方差改进型TF-IDF算法,分析每个词向量在文本中的权重,构建基于词向量和权重的文本向量表示;最后借助卷积神经网络从局部到全局相关性特征的学习能力,对该大量文本向量进行深度学习.试验结果表明三者结合的文本分类模型不仅能实现文本的准确分类,并且相比传统的机器学习文本分类算法具有更好的分类效果. 展开更多
关键词 Word2vec 改进型tf-idf算法 卷积神经网络 文本分类 CTMWT
下载PDF
基于TF-IDF相对熵的中医证候量化研究 被引量:6
18
作者 余江维 余泉 +1 位作者 张太珍 彭玉 《世界科学技术-中医药现代化》 2015年第10期1986-1991,共6页
提出了用术语频率-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)相对熵作为证候量化的表示方法。TF-IDF思想来源于文本信息挖掘,是文本自动分类中一种重要的方法。TF-IDF算法也体现了中医证候的自动分类思想:一个症... 提出了用术语频率-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)相对熵作为证候量化的表示方法。TF-IDF思想来源于文本信息挖掘,是文本自动分类中一种重要的方法。TF-IDF算法也体现了中医证候的自动分类思想:一个症状在特定证候中出现的频率越高,说明它在区分该证候方面的能力(即TF)越强;一个症状在所有证候中出现的范围越广,说明它区分某证候的能力(即IDF)越低,并用具体实例进行了验证。 展开更多
关键词 中医 tf-idf 相对熵 证候量化 文本挖掘
下载PDF
基于TF-IDF改进聚类算法的网络敏感信息挖掘 被引量:6
19
作者 孟彩霞 陈红玉 《现代电子技术》 北大核心 2015年第24期44-46,49,共4页
网络敏感信息挖掘过程中,敏感信息和正常信息的特征不同,具有较高的遮蔽性。利用传统敏感信息挖掘方法时,固有的敏感信息被遮蔽,无法进行敏感信息的准确挖掘。提出基于TF-IDF改进聚类算法的网络敏感信息挖掘方法,通过TF-IDF方法获取网... 网络敏感信息挖掘过程中,敏感信息和正常信息的特征不同,具有较高的遮蔽性。利用传统敏感信息挖掘方法时,固有的敏感信息被遮蔽,无法进行敏感信息的准确挖掘。提出基于TF-IDF改进聚类算法的网络敏感信息挖掘方法,通过TF-IDF方法获取网络敏感信息文本,在网络敏感信息文本中获取有价值的敏感信息特征,采用该信息完成聚类算法,对全部敏感信息特征进行聚类分析,完成网络敏感信息的挖掘。实验结果说明,所提方法进行网络敏感信息挖掘,具有较高的挖掘效率和精度。 展开更多
关键词 tf-idf 聚类分析 网络敏感信息 信息挖掘
下载PDF
基于改进的TF-IDF方法的文本相似度算法研究 被引量:11
20
作者 周丽杰 于伟海 郭成 《泰山学院学报》 2015年第3期18-22,共5页
传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词... 传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词的权值,将得到的权值运用于向量空间模型和马尔可夫模型中,分别得到基于向量空间模型的基础相似度和基于马尔可夫模型的语义相似度,将语义相似度和基础相似度相结合,得到文本之间总体相似度.将改进的文本相似度算法运用于文本分类,实验结果表明,在搜狗文本分类语料库基础上,改进的算法相对于传统的文本相似度算法使得文本分类的准确率有了较大地提高. 展开更多
关键词 文本相似度算法 tf-idf方法 词语关联 马尔可夫模型 文本分类
下载PDF
上一页 1 2 40 下一页 到第
使用帮助 返回顶部