期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
Sentiment Analysis on Twitter Data Using Term Frequency-Inverse Document Frequency
1
作者 Akash Addiga Sikha Bagui 《Journal of Computer and Communications》 2022年第8期117-128,共12页
This study is an exploratory analysis of applying natural language processing techniques such as Term Frequency-Inverse Document Frequency and Sentiment Analysis on Twitter data. The uniqueness of this work is establi... This study is an exploratory analysis of applying natural language processing techniques such as Term Frequency-Inverse Document Frequency and Sentiment Analysis on Twitter data. The uniqueness of this work is established by determining the overall sentiment of a politician’s tweets based on TF-IDF values of terms used in their published tweets. By calculating the TF-IDF value of terms from the corpus, this work displays the correlation between TF-IDF score and polarity. The results of this work show that calculating the TF-IDF score of the corpus allows for a more accurate representation of the overall polarity since terms are given a weight based on their uniqueness and relevance rather than just the frequency at which they appear in the corpus. 展开更多
关键词 Sentiment Analysis Twitter Data term frequency Inverse term frequency term frequency-inverse document frequency (TF-IDF) Social Media
下载PDF
基于信息增益与信息熵的TFIDF算法 被引量:48
2
作者 李学明 李海瑞 +1 位作者 薛亮 何光军 《计算机工程》 CAS CSCD 2012年第8期37-40,共4页
传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息增益的TFIDF算法(TFIDFIG)进行改进,提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明,与传统的TF... 传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息增益的TFIDF算法(TFIDFIG)进行改进,提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明,与传统的TFIDF算法和TFIDFIG算法相比,TFIDFIGE算法的查准率和查全率较高。 展开更多
关键词 文本分类 信息增益 信息熵 tfidf算法
下载PDF
TFIDF算法研究综述 被引量:218
3
作者 施聪莺 徐朝军 杨晓江 《计算机应用》 CSCD 北大核心 2009年第B06期167-170,180,共5页
文本分类中特征项权重的赋予对于分类效果有较大的影响,TFIDF算法是权重计算的重要算法之一。在回顾TFIDF算法发展历史的基础上,考察了其固有缺陷,总结诸多学者对其的改进方法,并对TFIDF算法新的应用领域进行了概括,并通过实验验证相关... 文本分类中特征项权重的赋予对于分类效果有较大的影响,TFIDF算法是权重计算的重要算法之一。在回顾TFIDF算法发展历史的基础上,考察了其固有缺陷,总结诸多学者对其的改进方法,并对TFIDF算法新的应用领域进行了概括,并通过实验验证相关改进算法,为读者更好地应用TFIDF算法提供参考。 展开更多
关键词 tfidf 文本分类 VSM
下载PDF
基于TFIDF文本特征加权方法的改进研究 被引量:37
4
作者 张保富 施化吉 马素琴 《计算机应用与软件》 CSCD 2011年第2期17-20,共4页
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献... 针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。 展开更多
关键词 tfidf 文本分类 特征加权 向量空间模型
下载PDF
一种改进的TFIDF网页关键词提取方法 被引量:30
5
作者 李静月 李培峰 朱巧明 《计算机应用与软件》 CSCD 2011年第5期25-27,共3页
传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取... 传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取的方法。实验结果表明:该方法明显优于传统方法,能够抽取到令人满意的结果。 展开更多
关键词 文本结构 关键词抽取 tfidf
下载PDF
长三角一体化发展特征与动力探究——基于TF-IDF算法与格兰杰检验
6
作者 关硕 赵雪 刘毅 《科技和产业》 2024年第5期40-47,共8页
从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设... 从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设主体对5个发展目标的注意力分配不均衡;在创新共建目标方面,地方主体的注意力变动会引起中央主体的注意力变动;长三角一体化发展呈现小间断大均衡特征,体现“自下而上”的地方主导模式。 展开更多
关键词 长三角一体化 话语制度主义 间断-均衡框架 TF-IDF(词频-逆文件频率)算法 格兰杰检验
下载PDF
Enhanced Topic-Aware Summarization Using Statistical Graph Neural Networks
7
作者 Ayesha Khaliq Salman Afsar Awan +2 位作者 Fahad Ahmad Muhammad Azam Zia Muhammad Zafar Iqbal 《Computers, Materials & Continua》 SCIE EI 2024年第8期3221-3242,共22页
The rapid expansion of online content and big data has precipitated an urgent need for efficient summarization techniques to swiftly comprehend vast textual documents without compromising their original integrity.Curr... The rapid expansion of online content and big data has precipitated an urgent need for efficient summarization techniques to swiftly comprehend vast textual documents without compromising their original integrity.Current approaches in Extractive Text Summarization(ETS)leverage the modeling of inter-sentence relationships,a task of paramount importance in producing coherent summaries.This study introduces an innovative model that integrates Graph Attention Networks(GATs)with Transformer-based Bidirectional Encoder Representa-tions from Transformers(BERT)and Latent Dirichlet Allocation(LDA),further enhanced by Term Frequency-Inverse Document Frequency(TF-IDF)values,to improve sentence selection by capturing comprehensive topical information.Our approach constructs a graph with nodes representing sentences,words,and topics,thereby elevating the interconnectivity and enabling a more refined understanding of text structures.This model is stretched to Multi-Document Summarization(MDS)from Single-Document Summarization,offering significant improvements over existing models such as THGS-GMM and Topic-GraphSum,as demonstrated by empirical evaluations on benchmark news datasets like Cable News Network(CNN)/Daily Mail(DM)and Multi-News.The results consistently demonstrate superior performance,showcasing the model’s robustness in handling complex summarization tasks across single and multi-document contexts.This research not only advances the integration of BERT and LDA within a GATs but also emphasizes our model’s capacity to effectively manage global information and adapt to diverse summarization challenges. 展开更多
关键词 SUMMARIZATION graph attention network bidirectional encoder representations from transformers Latent Dirichlet Allocation term frequency-inverse document frequency
下载PDF
Environmental complaint insights through text mining based on the driver,pressure,state,impact,and response(DPSIR)framework:Evidence from an Italian environmental agency
8
作者 Fabiana MANSERVISI Michele BANZI +5 位作者 Tomaso TONELLI Paolo VERONESI Susanna RICCI Damiano DISTANTE Stefano FARALLI Giuseppe BORTONE 《Regional Sustainability》 2023年第3期261-281,共21页
Individuals,local communities,environmental associations,private organizations,and public representatives and bodies may all be aggrieved by environmental problems concerning poor air quality,illegal waste disposal,wa... Individuals,local communities,environmental associations,private organizations,and public representatives and bodies may all be aggrieved by environmental problems concerning poor air quality,illegal waste disposal,water contamination,and general pollution.Environmental complaints represent the expressions of dissatisfaction with these issues.As the timeconsuming of managing a large number of complaints,text mining may be useful for automatically extracting information on stakeholder priorities and concerns.The paper used text mining and semantic network analysis to crawl relevant keywords about environmental complaints from two online complaint submission systems:online claim submission system of Regional Agency for Prevention,Environment and Energy(Arpae)(“Contact Arpae”);and Arpae's internal platform for environmental pollution(“Environmental incident reporting portal”)in the Emilia-Romagna Region,Italy.We evaluated the total of 2477 records and classified this information based on the claim topic(air pollution,water pollution,noise pollution,waste,odor,soil,weather-climate,sea-coast,and electromagnetic radiation)and geographical distribution.Then,this paper used natural language processing to extract keywords from the dataset,and classified keywords ranking higher in Term Frequency-Inverse Document Frequency(TF-IDF)based on the driver,pressure,state,impact,and response(DPSIR)framework.This study provided a systemic approach to understanding the interaction between people and environment in different geographical contexts and builds sustainable and healthy communities.The results showed that most complaints are from the public and associated with air pollution and odor.Factories(particularly foundries and ceramic industries)and farms are identified as the drivers of environmental issues.Citizen believed that environmental issues mainly affect human well-being.Moreover,the keywords of“odor”,“report”,“request”,“presence”,“municipality”,and“hours”were the most influential and meaningful concepts,as demonstrated by their high degree and betweenness centrality values.Keywords connecting odor(classified as impacts)and air pollution(classified as state)were the most important(such as“odor-burnt plastic”and“odor-acrid”).Complainants perceived odor annoyance as a primary environmental concern,possibly related to two main drivers:“odor-factory”and“odorsfarms”.The proposed approach has several theoretical and practical implications:text mining may quickly and efficiently address citizen needs,providing the basis toward automating(even partially)the complaint process;and the DPSIR framework might support the planning and organization of information and the identification of stakeholder concerns and priorities,as well as metrics and indicators for their assessment.Therefore,integration of the DPSIR framework with the text mining of environmental complaints might generate a comprehensive environmental knowledge base as a prerequisite for a wider exploitation of analysis to support decision-making processes and environmental management activities. 展开更多
关键词 Environmental complaints Text mining approach term frequency-inverse document frequency(TF-IDF) DRIVER PRESSURE STATE impact and response(DPSIR)framework Semantic network analysis Regional Agency for Prevention Environment and Energy(Arpae)
下载PDF
基于朴素贝叶斯算法的信息过滤研究 被引量:2
9
作者 杜拓 方红 《信息与电脑》 2023年第9期90-92,共3页
随着信息量的快速增长,获取和筛选相关信息变得越来越重要。文章研究了基于朴素贝叶斯算法的信息过滤方法。首先,介绍了朴素贝叶斯算法的基本原理,包括贝叶斯定理、朴素贝叶斯分类器及该算法的优缺点。其次,探讨了朴素贝叶斯算法在信息... 随着信息量的快速增长,获取和筛选相关信息变得越来越重要。文章研究了基于朴素贝叶斯算法的信息过滤方法。首先,介绍了朴素贝叶斯算法的基本原理,包括贝叶斯定理、朴素贝叶斯分类器及该算法的优缺点。其次,探讨了朴素贝叶斯算法在信息过滤领域的应用,包括信息过滤的分类、文本表示方法、基于朴素贝叶斯的信息过滤模型构建。最后,通过实验评估了该方法在文本分类任务上的性能,包括不同特征表示方法的对比以及与其他分类算法的性能对比。实验结果表明,基于朴素贝叶斯算法的信息过滤具有较好的性能,可以有效分类不同主题的文本。 展开更多
关键词 朴素贝叶斯算法 信息过滤 文本分类 词袋模型 词频-逆文档频率(TF-IDF)权重计算
下载PDF
基于Python语言数据服务平台设计与实现
10
作者 陈小敏 苏健光 欧文辉 《信息与电脑》 2023年第11期126-129,共4页
首先,数字服务平台数据分析利用Python爬虫技术采集广西数字服务平台的馆藏信息、图书信息、借阅信息等。其次,爬取豆瓣年度关注书籍的评论,运用后羿采集器对豆瓣图书信息进行采集,并将清洗后的数据通过Pandas和Matplotlib等可视化工具... 首先,数字服务平台数据分析利用Python爬虫技术采集广西数字服务平台的馆藏信息、图书信息、借阅信息等。其次,爬取豆瓣年度关注书籍的评论,运用后羿采集器对豆瓣图书信息进行采集,并将清洗后的数据通过Pandas和Matplotlib等可视化工具进行可视化展示。最后,运用词频-逆文本频率指数(Term Frequency Inverse Document Frequency,TF-IDF)算法对评论进行分析,对广西数字图书馆和豆瓣图书等各类数据进行对比分析,得出更加符合读者需求的数据信息,便于优化数字图书借阅服务,为数字图书馆提供数据支撑,以便平台管理员能够快速、有效地对数据服务平台进行决策。 展开更多
关键词 Python技术 数字服务平台 词频-逆文本频率指数(TF-IDF)算法 数据分析 决策
下载PDF
基于词频统计的文本关键词提取方法 被引量:77
11
作者 罗燕 赵书良 +2 位作者 李晓超 韩玉辉 丁亚飞 《计算机应用》 CSCD 北大核心 2016年第3期718-725,共8页
针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大... 针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。 展开更多
关键词 词频统计 齐普夫定律 同频词 关键词提取 TF-IDF算法
下载PDF
一种基于词共现图的文档主题词自动抽取方法 被引量:30
12
作者 耿焕同 蔡庆生 +1 位作者 于琨 赵鹏 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2006年第2期156-162,共7页
主题词抽取是文本自动处理的基础性工作.在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取方法;该方法以基于词频统计方法为基础,利用在词共现图形成的主题信息以及不同主题间的连接特征信息自动地... 主题词抽取是文本自动处理的基础性工作.在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取方法;该方法以基于词频统计方法为基础,利用在词共现图形成的主题信息以及不同主题间的连接特征信息自动地提取文档中的主题词,旨在找出一些非高频词且又对主题贡献大的词.实验表明了该抽取方法抽取出的主题词更能准确地符合了作者的主题. 展开更多
关键词 自然语言处理 词共现图 主题词 tfidf
下载PDF
基于类别区分度的文本特征选择算法研究 被引量:4
13
作者 易军凯 田立康 《北京化工大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第B12期72-75,共4页
针对词频反文档频率(TFIDF)算法的缺陷,引入类别区分度理论改进传统的TFIDF算法。通过比较改进TFIDF算法与其他几种常用特征选择算法的分类效果,证明了改进TFIDF算法用于中文文本分类时,准确率和召回率要优于其他算法,改进TFIDF算法具... 针对词频反文档频率(TFIDF)算法的缺陷,引入类别区分度理论改进传统的TFIDF算法。通过比较改进TFIDF算法与其他几种常用特征选择算法的分类效果,证明了改进TFIDF算法用于中文文本分类时,准确率和召回率要优于其他算法,改进TFIDF算法具有较好的特征选择效果。 展开更多
关键词 文本分类 特征选择 词频反文档频率算法 类别区分度
下载PDF
基于改进的TF-IDF算法及共现词的主题词抽取算法 被引量:17
14
作者 公冶小燕 林培光 +2 位作者 任威隆 张晨 张春云 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第6期1072-1080,共9页
信息主题的抽取是快速定位用户需求的基础任务,主题词抽取时主要存在三个问题:一是词语权重的计算,二是词语间关系的度量,三是数据维度灾难.在计算词权重时首先利用互信息确定共现词对,与词频、词性、词位置信息非线性组合,然后,根据词... 信息主题的抽取是快速定位用户需求的基础任务,主题词抽取时主要存在三个问题:一是词语权重的计算,二是词语间关系的度量,三是数据维度灾难.在计算词权重时首先利用互信息确定共现词对,与词频、词性、词位置信息非线性组合,然后,根据词权重构建文档—共现词矩阵并建立潜在语义分析(Latent Semantic Analysis,LSA)模型.该方法借助LSA模型的奇异值分解(Singular Value Decomposition,SVD)将文档—共现词矩阵映射到潜在语义空间,不仅实现数据降维,而且获得低维度的文档相似矩阵.最后,对文档相似矩阵进行k-means聚类,在同类文档中选出词权重最大的前几对共现词,作为该类文章的主题词.对比基于TF-IDF(Term Frequency-Inverse Document Frequency)和共现词抽取主题词的实验,该算法的准确度分别提高了19%和10%. 展开更多
关键词 共现词 互信息 语义分析(LSA) 奇异值分解(SVD) term frequency-inverse document frequency(TF-IDF)
下载PDF
关键词拍卖的选词与出价策略研究 被引量:2
15
作者 吴纪芸 陈志德 +1 位作者 汪磊 王孟 《计算机工程》 CAS CSCD 北大核心 2015年第7期310-316,共7页
在关键词拍卖中,每个广告主都有成千上万的关键词可选,为了在预算限制条件下给选择的关键词设置合理的投标价格,提出一种新的基于广告主的拍卖策略,包括选词策略和出价策略。在选词策略中,提出基于词频-反转文件频率算法的关键词关联度... 在关键词拍卖中,每个广告主都有成千上万的关键词可选,为了在预算限制条件下给选择的关键词设置合理的投标价格,提出一种新的基于广告主的拍卖策略,包括选词策略和出价策略。在选词策略中,提出基于词频-反转文件频率算法的关键词关联度计算方法,通过该方法选出的关键词不仅能提高网站的关联度,增加转化率,还能避免因使用过度普遍的关键词而增加竞争成本。在出价策略中,运用改进的粒子群优化算法,在若干约束条件限制下对每个关键词的出价做适当调整,以增加广告主所获利润。实验结果表明,采用拍卖策略选出的关键词组可增加网站的转化率,降低竞争成本,所获得的利润比传统人为投标所获得的利润高,并且在初期和中期呈现持续上升趋势,后期趋于稳定。 展开更多
关键词 拍卖 选词策略 关联度 出价策略 词频-反转文件频率算法 粒子群优化
下载PDF
融合生成对抗网络和朴素贝叶斯皮肤病诊断方法 被引量:8
16
作者 商显震 韩萌 +4 位作者 孙毓忠 孙宇宁 陈旭 胡满满 梅御东 《计算机科学与探索》 CSCD 北大核心 2019年第6期1005-1015,共11页
不同皮肤病间发病率的差异导致了皮肤病数据类不平衡现象,对使用机器学习方法构建高效、准确的皮肤病诊断模型带来了巨大挑战。提出一种融合生成对抗网络(generative adversarial networks,GAN)和朴素贝叶斯的皮肤病二分类诊断方法:在... 不同皮肤病间发病率的差异导致了皮肤病数据类不平衡现象,对使用机器学习方法构建高效、准确的皮肤病诊断模型带来了巨大挑战。提出一种融合生成对抗网络(generative adversarial networks,GAN)和朴素贝叶斯的皮肤病二分类诊断方法:在皮肤病数据集上训练朴素贝叶斯二分类器作为诊断器,创新性地使用GAN为前者生成补充训练样本,使其训练集正负类样本达到平衡。针对皮肤病诊断多分类问题,提出一种融合生成对抗网络和朴素贝叶斯的多分类诊断方法:使用GAN和朴素贝叶斯训练皮肤病单病种二分类器,并结合了词频-逆文档频率算法(term frequency-inverse document frequency,TF-IDF),将多个二分类器组合成一个多分类器作为诊断器。与六种诊断方法进行了对比实验,提出的两种皮肤病诊断方法准确率和召回率均有提升。 展开更多
关键词 皮肤病诊断 朴素贝叶斯(NB) 词频-逆文档频率(TF-IDF)算法 生成对抗网络(GAN) 类不平衡数据
下载PDF
结合TF-IDF的歌曲情感多标记分类 被引量:4
17
作者 孙向琨 邓伟 《计算机工程》 CAS CSCD 北大核心 2011年第19期189-190,197,共3页
提出一种结合词频-逆向文件频率(TF-IDF)规则与多标记分类的歌曲情感分析方法。对歌曲中基于声学特征的音乐内容,用带向量夹角的多标记k近邻算法进行分类,将TF-IDF规则用于歌词内容,以计算歌词情感分数,并将其作为情感特征。采用该方法... 提出一种结合词频-逆向文件频率(TF-IDF)规则与多标记分类的歌曲情感分析方法。对歌曲中基于声学特征的音乐内容,用带向量夹角的多标记k近邻算法进行分类,将TF-IDF规则用于歌词内容,以计算歌词情感分数,并将其作为情感特征。采用该方法对歌词内容分类错误的类别标记进行修正。选用396首英文歌曲对该算法进行测试,结果表明,与其他方法相比,该方法能使分类精确度从69%提高到74%。 展开更多
关键词 多标记分类 歌曲情感分类 多标记k近邻算法 词频-逆向文件频率
下载PDF
使用进化神经网络进行文本自动分类 被引量:1
18
作者 耿俊成 牛霜霞 张才俊 《计算机与现代化》 2011年第11期59-63,共5页
人工神经网络是一种有效的文本分类技术,但网络本身的不确定性使得很难找到合适的网络。本文提出粒子群优化算法优化神经网络,使得该网络在进化过程中自适应地调节其连接权重和网络结构。首先把文本集合表示为向量空间;然后使用信息增... 人工神经网络是一种有效的文本分类技术,但网络本身的不确定性使得很难找到合适的网络。本文提出粒子群优化算法优化神经网络,使得该网络在进化过程中自适应地调节其连接权重和网络结构。首先把文本集合表示为向量空间;然后使用信息增益算法选择特征项,使用特征项频率-倒排文档频率计算特征项权值;最后使用进化神经网络对中文文本进行自动分类。实验结果表明,与原BP神经网络相比,进化BP神经网络的分类效果更好。 展开更多
关键词 文本分类 信息增益 特征项频率-倒排文档频率 神经网络 粒子群优化算法
下载PDF
ISTC: A New Method for Clustering Search Results 被引量:2
19
作者 ZHANG Wei XU Baowen +1 位作者 ZHANG Weifeng XU Junling 《Wuhan University Journal of Natural Sciences》 CAS 2008年第4期501-504,共4页
A new common phrase scoring method is proposed according to term frequency-inverse document frequency (TFIDF) and independence of the phrase. Combining the two properties can help identify more reasonable common phr... A new common phrase scoring method is proposed according to term frequency-inverse document frequency (TFIDF) and independence of the phrase. Combining the two properties can help identify more reasonable common phrases, which improve the accuracy of clustering. Also, the equation to measure the in-dependence of a phrase is proposed in this paper. The new algorithm which improves suffix tree clustering algorithm (STC) is named as improved suffix tree clustering (ISTC). To validate the proposed algorithm, a prototype system is implemented and used to cluster several groups of web search results obtained from Google search engine. Experimental results show that the improved algorithm offers higher accuracy than traditional suffix tree clustering. 展开更多
关键词 Web search results clustering suffix tree term frequency-inverse document frequency (tfidf independence of phrases
下载PDF
基于类别重要度的MIMLBoost改进算法
20
作者 郝宁 夏士雄 +1 位作者 牛强 赵志军 《计算机应用》 CSCD 北大核心 2015年第11期3122-3125,共4页
针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法。该方法通过对示例空间中的示例包进行聚类,把标记空间中的标记量化到聚类簇上,再以... 针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法。该方法通过对示例空间中的示例包进行聚类,把标记空间中的标记量化到聚类簇上,再以聚类簇为单位,利用TF-IDF算法对每个类别标记进行重要度评估和筛选,去除重要度低的标记,并将簇中的示例包与其余的类别标记拼接起来,以此来减少大类样本的出现,完成多示例多标记样本向多示例单标记样本的转化。在自然数据集上进行了实验,实验结果发现,改进算法的性能整体上优于原算法,尤其在Hamming loss、coverage、ranking loss三个评测指标上尤为明显,说明所提算法能够有效降低分类的出错率,提高算法的精度和分类效率。 展开更多
关键词 多示例多标记 MIMIBoost算法 TF-IDF算法 聚类 类别不平衡
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部