期刊文献+
共找到147篇文章
< 1 2 8 >
每页显示 20 50 100
Sentiment Analysis on Twitter Data Using Term Frequency-Inverse Document Frequency
1
作者 Akash Addiga Sikha Bagui 《Journal of Computer and Communications》 2022年第8期117-128,共12页
This study is an exploratory analysis of applying natural language processing techniques such as Term Frequency-Inverse Document Frequency and Sentiment Analysis on Twitter data. The uniqueness of this work is establi... This study is an exploratory analysis of applying natural language processing techniques such as Term Frequency-Inverse Document Frequency and Sentiment Analysis on Twitter data. The uniqueness of this work is established by determining the overall sentiment of a politician’s tweets based on TF-IDF values of terms used in their published tweets. By calculating the TF-IDF value of terms from the corpus, this work displays the correlation between TF-IDF score and polarity. The results of this work show that calculating the TF-IDF score of the corpus allows for a more accurate representation of the overall polarity since terms are given a weight based on their uniqueness and relevance rather than just the frequency at which they appear in the corpus. 展开更多
关键词 Sentiment Analysis Twitter Data term frequency inverse term frequency term frequency-inverse document frequency (TF-IDF) Social Media
下载PDF
基于TFIDF+LDA和Mini Batch K⁃means算法的在线课程推荐方法研究
2
作者 严武军 王丽蓉 《现代计算机》 2023年第23期15-20,共6页
在线教育资源急剧增长让学习者难以抉择,研究在线课程分类推荐,能帮助学习者快速获取所需资源。首先将潜在狄利克雷分配算法融入词频-逆向文件频率算法对数据进行预处理,生成词向量矩阵;之后采用Mini Batch K-means算法训练聚类模型,并... 在线教育资源急剧增长让学习者难以抉择,研究在线课程分类推荐,能帮助学习者快速获取所需资源。首先将潜在狄利克雷分配算法融入词频-逆向文件频率算法对数据进行预处理,生成词向量矩阵;之后采用Mini Batch K-means算法训练聚类模型,并采用T分布随机邻域嵌入降维算法对训练结果进行可视化分析。实验采用从Pluralsight在线课程API获取8016条数据进行实验,实验结果表明融入潜在狄利克雷分配算法的词频-逆向文件频率算法效果更好。 展开更多
关键词 词频逆向文件频率 潜在狄利克雷分配 Mini Batch K-means 在线课程推荐
下载PDF
基于集成学习技术的恶意软件检测方法 被引量:2
3
作者 李芳 朱子元 +1 位作者 闫超 孟丹 《信息安全学报》 CSCD 2024年第1期137-155,共19页
近年来,低级别微结构特征已被广泛应用于恶意软件检测。但是,微结构特征数据通常包含大量的冗余信息,且目前的检测方法并没有对输入微结构数据进行有效地预处理,这就造成恶意软件检测需要依赖于复杂的深度学习模型才能获得较高的检测性... 近年来,低级别微结构特征已被广泛应用于恶意软件检测。但是,微结构特征数据通常包含大量的冗余信息,且目前的检测方法并没有对输入微结构数据进行有效地预处理,这就造成恶意软件检测需要依赖于复杂的深度学习模型才能获得较高的检测性能。然而,深度学习检测模型参数量较大,难以在计算机底层得到实际应用。为了解决上述问题,本文提出了一种新颖的动态分析方法来检测恶意软件。首先,该方法创建了一个自动微结构特征收集系统,并从收集的通用寄存器(General-Purpose Registers,GPRs)数据中随机抽取子样本作为分类特征矩阵。相比于其他微结构特征,GPRs特征具有更丰富的行为特征信息,但也包含更多的噪声信息。因此,需要对GPRs数据进行特征区间分割,以降低数据复杂度并抑制噪声。本文随后采用词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)技术从抽取的特征矩阵中选择最具区分性的信息来进行恶意软件检测。TF-IDF技术可以有效降低特征矩阵的维度,从而提高检测效率。为了降低模型复杂度,并保证检测方法的性能,本文利用集成学习模型来识别恶意软件。实验表明,该集成学习模型具有99.3%的检测准确率,3.7%的误报率,优于其他现有方法且模型复杂度低。此外,该方法还可以用于检测真实数据中的恶意行为。 展开更多
关键词 恶意软件检测 通用寄存器 集成学习 词频-逆文档频率
下载PDF
基于信息增益与信息熵的TFIDF算法 被引量:48
4
作者 李学明 李海瑞 +1 位作者 薛亮 何光军 《计算机工程》 CAS CSCD 2012年第8期37-40,共4页
传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息增益的TFIDF算法(TFIDFIG)进行改进,提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明,与传统的TF... 传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息增益的TFIDF算法(TFIDFIG)进行改进,提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明,与传统的TFIDF算法和TFIDFIG算法相比,TFIDFIGE算法的查准率和查全率较高。 展开更多
关键词 文本分类 信息增益 信息熵 tfidf算法
下载PDF
TFIDF算法研究综述 被引量:218
5
作者 施聪莺 徐朝军 杨晓江 《计算机应用》 CSCD 北大核心 2009年第B06期167-170,180,共5页
文本分类中特征项权重的赋予对于分类效果有较大的影响,TFIDF算法是权重计算的重要算法之一。在回顾TFIDF算法发展历史的基础上,考察了其固有缺陷,总结诸多学者对其的改进方法,并对TFIDF算法新的应用领域进行了概括,并通过实验验证相关... 文本分类中特征项权重的赋予对于分类效果有较大的影响,TFIDF算法是权重计算的重要算法之一。在回顾TFIDF算法发展历史的基础上,考察了其固有缺陷,总结诸多学者对其的改进方法,并对TFIDF算法新的应用领域进行了概括,并通过实验验证相关改进算法,为读者更好地应用TFIDF算法提供参考。 展开更多
关键词 tfidf 文本分类 VSM
下载PDF
一种融合改进TF-IDF与词典模型的情感分类算法 被引量:1
6
作者 王康静 钱江海 《上海电力大学学报》 CAS 2024年第1期80-86,共7页
针对传统情感文本分类算法存在情感特征词的极性偏好区分度较低和稳定性较差等问题,提出了一种改进词频-逆文本频率(TF-IDF)模型与词典模型相融合的情感文本分类算法。首先,通过情感特征词在不同情感类型语料中的频率分布和离散系数,度... 针对传统情感文本分类算法存在情感特征词的极性偏好区分度较低和稳定性较差等问题,提出了一种改进词频-逆文本频率(TF-IDF)模型与词典模型相融合的情感文本分类算法。首先,通过情感特征词在不同情感类型语料中的频率分布和离散系数,度量情感特征词极性偏好所包含的区分度和稳定性,生成情感特征词极性指标;然后,使用该指标改进TF-IDF模型的情感特征词权重;最后,基于改进的TF-IDF模型,使用带决策函数的有监督分类算法计算情感文本的极性得分,并与词典模型所得的极性得分进行调和平均,得到情感文本综合极性得分。 展开更多
关键词 词频-逆文本频率 情感极性 离散系数 词典模型
下载PDF
基于TFIDF文本特征加权方法的改进研究 被引量:37
7
作者 张保富 施化吉 马素琴 《计算机应用与软件》 CSCD 2011年第2期17-20,共4页
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献... 针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。 展开更多
关键词 tfidf 文本分类 特征加权 向量空间模型
下载PDF
一种改进的TFIDF网页关键词提取方法 被引量:30
8
作者 李静月 李培峰 朱巧明 《计算机应用与软件》 CSCD 2011年第5期25-27,共3页
传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取... 传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取的方法。实验结果表明:该方法明显优于传统方法,能够抽取到令人满意的结果。 展开更多
关键词 文本结构 关键词抽取 tfidf
下载PDF
基于TFIDF的特征选择方法 被引量:23
9
作者 王美方 刘培玉 朱振方 《计算机工程与设计》 CSCD 北大核心 2007年第23期5795-5796,5799,共3页
在文本分类系统中,特征选择方法是一种有效的降维方法。在分析了几种常用的特征选择评价函数之后,将权值计算函数应用于特征选择,并基于改进的TFIDF方法提出了一种新的评价函数,它将类别信息引入到特征项中,提取出与类别相关的特征项,... 在文本分类系统中,特征选择方法是一种有效的降维方法。在分析了几种常用的特征选择评价函数之后,将权值计算函数应用于特征选择,并基于改进的TFIDF方法提出了一种新的评价函数,它将类别信息引入到特征项中,提取出与类别相关的特征项,弥补了TFIDF的缺陷。实验证明该方法简单可行,有助于提高所选特征子集的有效性。 展开更多
关键词 特征选择 术语频率 逆文档频率 文本分类 评价函数
下载PDF
基于改进TF-IDF与BERT的领域情感词典构建方法
10
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感词典 词频-逆文档频率 隐含狄利克雷分布 情感倾向点互信息算法 BERT模型
下载PDF
基于TFIDF的文本特征选择方法 被引量:32
11
作者 柴玉梅 王宇 《微计算机信息》 北大核心 2006年第08X期24-26,共3页
本文在分析比较几种用于文本分类的特征选择方法的基础上,提出了一种基于术语频率和逆文档频率的特征选择方法TDF。采用KNN和NaiveBayes两种分类算法对该方法进行了测试。实验结果表明,TDF方法较其他几种方法有较好的分类精度。
关键词 文本分类 特征选择 术语频率 逆文档频率
下载PDF
长三角一体化发展特征与动力探究——基于TF-IDF算法与格兰杰检验
12
作者 关硕 赵雪 刘毅 《科技和产业》 2024年第5期40-47,共8页
从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设... 从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设主体对5个发展目标的注意力分配不均衡;在创新共建目标方面,地方主体的注意力变动会引起中央主体的注意力变动;长三角一体化发展呈现小间断大均衡特征,体现“自下而上”的地方主导模式。 展开更多
关键词 长三角一体化 话语制度主义 间断-均衡框架 TF-IDF(词频-逆文件频率)算法 格兰杰检验
下载PDF
基于MFCC-IMFCC混合倒谱的托辊轴承故障诊断
13
作者 陶瀚宇 陈换过 +2 位作者 彭程程 高祥冲 杨磊 《机电工程》 CAS 北大核心 2024年第7期1215-1222,共8页
针对梅尔倒谱系数(MFCC)对托辊轴承高频特征提取能力不足的问题,提出了一种基于梅尔倒谱系数和翻转梅尔倒谱系数(MFCC-IMFCC)的混合倒谱以及长短时记忆(LSTM)网络的托辊轴承故障诊断方法。首先,分析了三种状态下的托辊声音信号,明确了... 针对梅尔倒谱系数(MFCC)对托辊轴承高频特征提取能力不足的问题,提出了一种基于梅尔倒谱系数和翻转梅尔倒谱系数(MFCC-IMFCC)的混合倒谱以及长短时记忆(LSTM)网络的托辊轴承故障诊断方法。首先,分析了三种状态下的托辊声音信号,明确了托辊轴承故障信息主要分布在中高频区域;然后,为有效保留高频信息,提取了MFCC-IMFCC,以帧级串联的方式组成了混合倒谱特征;最后,将混合倒谱特征输入到双层LSTM模型中进行了训练,建立了托辊轴承故障诊断模型。研究结果表明:针对托辊正常、滚动体故障和偏心旋转故障三种状态,LSTM结合混合倒谱特征的平均识别准确率达到96.72%,相比于单一的MFCC和IMFCC特征,准确率分别提升3.94%和7.41%,凸显了混合倒谱特征在表征托辊轴承故障信息方面的显著优势。 展开更多
关键词 托辊轴承 轴承故障声音信号 高频信息 梅尔倒谱系数 翻转梅尔倒谱系数 混合倒谱系数 长短时记忆网络
下载PDF
融合DES和ECC算法的物联网隐私数据加密方法
14
作者 唐锴令 郑皓 《吉林大学学报(信息科学版)》 CAS 2024年第3期496-502,共7页
为避免物联网隐私数据在加密过程中产生较多重复数据,导致计算复杂度较高,降低计算效率和安全性问题,提出融合DES(Data Encryption Standard)和ECC(Ellipse Curve Ctyptography)算法的物联网隐私数据加密方法。首先,采用TF-IDF(Tem Freq... 为避免物联网隐私数据在加密过程中产生较多重复数据,导致计算复杂度较高,降低计算效率和安全性问题,提出融合DES(Data Encryption Standard)和ECC(Ellipse Curve Ctyptography)算法的物联网隐私数据加密方法。首先,采用TF-IDF(Tem Frequency-Inverse Document Frequency)算法提取物联网隐私数据中的特征向量,输入BP(Back Propagation)神经网络中并进行训练,利用IQPSO(Improved Quantum Particle Swarm Optimization)算法优化神经网络,完成对物联网隐私数据中重复数据的去除处理;其次,分别利用DES算法和ECC算法对物联网隐私数据实施一、二次加密;最后,采取融合DES和ECC算法进行数字签名加密,实现对物联网隐私数据的完整加密。实验结果表明,该算法具有较高的计算效率、安全性以及可靠性。 展开更多
关键词 DES算法 ECC算法 物联网数据加密 TF-IDF算法 IQPSO算法 数字签名
下载PDF
Enhanced Topic-Aware Summarization Using Statistical Graph Neural Networks
15
作者 Ayesha Khaliq Salman Afsar Awan +2 位作者 Fahad Ahmad Muhammad Azam Zia Muhammad Zafar Iqbal 《Computers, Materials & Continua》 SCIE EI 2024年第8期3221-3242,共22页
The rapid expansion of online content and big data has precipitated an urgent need for efficient summarization techniques to swiftly comprehend vast textual documents without compromising their original integrity.Curr... The rapid expansion of online content and big data has precipitated an urgent need for efficient summarization techniques to swiftly comprehend vast textual documents without compromising their original integrity.Current approaches in Extractive Text Summarization(ETS)leverage the modeling of inter-sentence relationships,a task of paramount importance in producing coherent summaries.This study introduces an innovative model that integrates Graph Attention Networks(GATs)with Transformer-based Bidirectional Encoder Representa-tions from Transformers(BERT)and Latent Dirichlet Allocation(LDA),further enhanced by Term Frequency-Inverse Document Frequency(TF-IDF)values,to improve sentence selection by capturing comprehensive topical information.Our approach constructs a graph with nodes representing sentences,words,and topics,thereby elevating the interconnectivity and enabling a more refined understanding of text structures.This model is stretched to Multi-Document Summarization(MDS)from Single-Document Summarization,offering significant improvements over existing models such as THGS-GMM and Topic-GraphSum,as demonstrated by empirical evaluations on benchmark news datasets like Cable News Network(CNN)/Daily Mail(DM)and Multi-News.The results consistently demonstrate superior performance,showcasing the model’s robustness in handling complex summarization tasks across single and multi-document contexts.This research not only advances the integration of BERT and LDA within a GATs but also emphasizes our model’s capacity to effectively manage global information and adapt to diverse summarization challenges. 展开更多
关键词 SUMMARIZATION graph attention network bidirectional encoder representations from transformers Latent Dirichlet Allocation term frequency-inverse document frequency
下载PDF
基于深度特征融合的协同推荐算法
16
作者 王成 《南京理工大学学报》 CAS CSCD 北大核心 2024年第4期460-468,共9页
深度神经网络存在数据稀疏性难题和推荐精度不高的问题,为此提出一种基于深度特征融合的协同推荐算法,通过将深度神经网络与协同过滤算法相融合来改善问题。首先利用二次多项式回归模型对用户-项目评分矩阵进行特征提取;其次利用深度神... 深度神经网络存在数据稀疏性难题和推荐精度不高的问题,为此提出一种基于深度特征融合的协同推荐算法,通过将深度神经网络与协同过滤算法相融合来改善问题。首先利用二次多项式回归模型对用户-项目评分矩阵进行特征提取;其次利用深度神经网络对所输入的潜在特征进行训练,生成用户-项目评分;最后利用词频-逆向文件频率算法所生成的推荐候选集,融合用户-项目评分并最终输出推荐结果。利用MovieLens评分数据进行实验,该文混合推荐算法的平均绝对差(MAE)和均方根误差(RMSE)分别为0.7459、0.8886,比传统深度神经网络分别提高14.143%与24.341%,也优于对照组的混合推荐模型。 展开更多
关键词 深度神经网络 二次多项式 词频-逆向文件频率 特征融合 相似度
下载PDF
社会网络环境下双驱动DEMATEL的群智知识融合应急决策方法
17
作者 陈兆芳 黄鹏城 黄文翰 《安全与环境学报》 CAS CSCD 北大核心 2024年第6期2336-2347,共12页
针对多属性应急群决策中决策属性缺少数据支持和公众难以参与决策过程的问题,提出了一种使用信任网络计算专家权重和融合公众知识与专家知识的双驱动模型的应急决策方法。首先,考虑传统模型只能依赖主观经验的不足,通过分析社交媒体中... 针对多属性应急群决策中决策属性缺少数据支持和公众难以参与决策过程的问题,提出了一种使用信任网络计算专家权重和融合公众知识与专家知识的双驱动模型的应急决策方法。首先,考虑传统模型只能依赖主观经验的不足,通过分析社交媒体中的文本数据来获得公众意见,并使用词频-逆文档频率算法(Term Frequency-Inverse Document Frequency, TF-IDF)提取意见中的关键信息,以公众大数据来获得数据驱动因素,同时,通过决策专家提供的专家知识,为决策过程提供知识驱动因素,构成双驱动的决策实验室分析法(Decision Making Trial and Evaluation Laboratory, DEMATEL)模型来建立评价属性体系,模型中影响因素的相互作用程度由公众大数据与专家评价共同决定,以得到公众知识数据与专家知识评价融合的结果;其次,使用社会网络表示专家之间的信任关系与信任强度,并通过Louvain算法对专家进行聚类,通过社会网络中节点的度中心性与接近中心性,得到个体的权重进而计算出各聚类权重,使用直觉模糊加权平均算子(Iterative Fuzzy Weighted Averaging, IFWA)结合决策偏好与属性权重,通过得分函数计算备选方案的得分,并依据得分结果对方案排序以得到最优的解决方案;最后,结合“7·20”郑州市突发暴雨案例证明了本方法的可行性和有效性。 展开更多
关键词 公共安全 决策实验室分析法(DEMATEL) 应急决策 词频-逆文档频率算法(TF-IDF) 群智融合
下载PDF
基于业务内容构建股票关联关系的股价预测
18
作者 杨江 孙晓梅 许韬 《计算机与现代化》 2024年第7期21-25,共5页
传统的股价预测方法大多基于单只股票的时间序列,而忽视了股票间复杂的相互影响关系。针对该问题,从构建更有效的股票组合角度出发,提出一种基于业务内容构建股票关联关系的股价预测方法。模型包含3个组件:关联关系构建组件、时序特征... 传统的股价预测方法大多基于单只股票的时间序列,而忽视了股票间复杂的相互影响关系。针对该问题,从构建更有效的股票组合角度出发,提出一种基于业务内容构建股票关联关系的股价预测方法。模型包含3个组件:关联关系构建组件、时序特征提取组件和关联关系捕捉组件。关联关系构建组件通过改进的TF-IDF提取上市公司年报中业务内容关键字的相似度来构建股票关联关系;时序特征提取组件利用LSTM提取股票交易数据的时序特征;关联关系捕捉组件利用GCN捕获股票间相互作用的高维特征,最后通过全连接层输出预测的股价。在中国A股市场的实验结果表明,该模型与用单只股票和基于行业关系的预测方法相比误差最小,拟合度最优,能更有效地预测股价,是一种能更充分捕捉股票间相互影响关系的股价预测模型。 展开更多
关键词 股票价格预测 业务内容 股票关联关系 词频-逆向文件频率 长短期记忆神经网络 图卷积神经网络
下载PDF
基于Document Triage的TF-IDF算法的改进 被引量:14
19
作者 李镇君 周竹荣 《计算机应用》 CSCD 北大核心 2015年第12期3506-3510,3514,共6页
针对TF-IDF算法在加权时没有考虑特征词本身在文档中重要度的问题,提出利用用户阅读时的阅读行为来改进TF-IDF。将Document Triage引入到TF-IDF中,利用IPM收集用户阅读中行为的相关信息,计算文档评分。由于用户的标注内容往往是文章的... 针对TF-IDF算法在加权时没有考虑特征词本身在文档中重要度的问题,提出利用用户阅读时的阅读行为来改进TF-IDF。将Document Triage引入到TF-IDF中,利用IPM收集用户阅读中行为的相关信息,计算文档评分。由于用户的标注内容往往是文章的重要内容,或者反映了用户的兴趣。因此,赋予用户标注词项更大的权重,将文档评分和用户的标注信息等作为因子引入到TF-IDF中,设计出改进的加权算法DT-TF-IDF。实验结果表明,相对传统TF-IDF算法,DT-TF-IDF的查全率、查准率,以及查准率和查全率的调和均值都有了一定的提高。DT-TF-IDF算法比传统TF-IDF算法更加有效,提高了文本相似度计算的准确性。 展开更多
关键词 TF-IDF document TRIAGE 标引 加权
下载PDF
基于TFIDF+LSA算法的新闻文本聚类与可视化 被引量:8
20
作者 郝秀慧 方贤进 杨高明 《计算机技术与发展》 2022年第7期34-38,45,共6页
近几年来,文本聚类技术作为机器学习领域一种无监督学习的方法,也越来越成为数据挖掘领域备受关注的技术之一。将小规模的文本数据聚为几类,在一定程度上说是一件比较容易实现的工作。可是,当面对大量高维的中文文本数据时,由于在这种... 近几年来,文本聚类技术作为机器学习领域一种无监督学习的方法,也越来越成为数据挖掘领域备受关注的技术之一。将小规模的文本数据聚为几类,在一定程度上说是一件比较容易实现的工作。可是,当面对大量高维的中文文本数据时,由于在这种情况下对文本聚类,面对的将是高维和稀疏的数据,在保证聚类质量的情况下,提高聚类的速度和可视化效果也成为聚类研究的课题之一。该文提出一种结合词频反文档频率算法(term frequency,inverse document frequency,TFIDF)和潜在语义分析算法(latent semantic analysis,LSA)相结合的方法,来提高kmeans中文文本聚类的速度和可视化效果。将从网页上采集到的11456条新闻作为实验对象,通过基于TFIDF聚类和基于TFIDF+LSA聚类进行实验对比,根据聚类指标轮廓系数(Silhouette coefficient,SC)、卡林斯基-原巴斯指数(Calinski-Harabasz index,CHI)和戴维斯-堡丁指数(Davies-Bouldin index,DBI)的值表明,该方法不仅能保证文本聚类的质量,还能大大提高文本聚类的速度和可视化效果。 展开更多
关键词 词频反文档频率 潜在语义分析 文本聚类速度 文本聚类可视化 kmeans
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部