-
题名结合词义的文本特征词权重计算方法
被引量:9
- 1
-
-
作者
李明涛
罗军勇
尹美娟
路林
-
机构
信息工程大学信息工程学院
-
出处
《计算机应用》
CSCD
北大核心
2012年第5期1355-1358,1365,共5页
-
文摘
传统的基于向量空间模型的文本相似度计算方法,用TF-IDF计算文本特征词的权重,忽略了特征词之间的词义相似关系,不能准确地反映文本之间的相似程度。针对此问题,提出了结合词义的文本特征词权重计算方法,基于Chinese WordNet采用词义向量余弦计算特征词的词义相似度,根据词义相似度对特征词的TF-IDF权重进行修正,修正后的权重同时兼顾词频和词义信息。在哈尔滨工业大学信息检索研究室多文档自动文摘语料库上的实验结果表明,根据修正后的特征词权重计算文本相似度,能够有效地提高文本的类区分度。
-
关键词
文本相似度
特征词权重
词义相似度
CHINESE
WORDNET
-
Keywords
text similarity
feature term weight
words sense similarity
Chinese WordNet
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于图的特征词权重算法及其在文档排序中的应用
被引量:1
- 2
-
-
作者
黄云
洪佳明
颜一鸣
-
机构
吉首大学软件学院
中山大学信息科学与技术学院
-
出处
《计算机系统应用》
2012年第6期216-218,194,共4页
-
基金
湖南省教育厅自然科学基金(06C658)
-
文摘
信息检索的核心工作包括文档的分类和排序等操作,如何对文档中的特征词权重进行有效度量是其中的一项关键技术。利用词的共现等关系为每个文档建立文本图,基于邻接词间重要性相互影响的思路,结合文档中特征词的词频特性,迭代计算每个词的权重,进一步结合文本图的密度等全局特性,对信息检索的结果进行排序。实验证实,算法在标准数据集上具有良好的效果。
-
关键词
文本图
共现关系
文档排序
特征词权重
-
Keywords
text graph
co-occurrence relation
document ranking
term weight
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名改进的TF-IDF中文本特征词加权算法研究
被引量:10
- 3
-
-
作者
申剑博
-
机构
西安工程大学计算机与信息学院
-
出处
《软件导刊》
2015年第4期67-69,共3页
-
文摘
在自动文本分类中,TF-IDF算法是最为常用的特征权重计算方法。该算法运用广泛,但是存在不足:只考虑了特征词的频率和包含特征词的文档数量,没有考虑到特征词在类内和类间对权重的影响。对特征词权重计算方法进行了改进。为了解决特征词在类内均匀分布以及在类间的比重问题,提出了修正函数TF-DFI-DFO。实验比较发现,新的特征词权重算法能够更加精确地反映出特征词的分布情况,该算法与传统的TF-IDF算法相比,在召回率、查准率和宏平均值上都有较大的提升。
-
关键词
文本分类
TF-IDF算法
特征词权重
特征词分布
宏平均值
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-
-
题名文本分类中基于熵的词权重计算方法研究
被引量:11
- 4
-
-
作者
陈科文
张祖平
龙军
-
机构
中南大学信息科学与工程学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2016年第9期1299-1309,共11页
-
基金
国家自然科学基金No.61379109
高等学校博士学科点专项科研基金No.20120162110077~~
-
文摘
随着文本数据量变得很大且仍在迅猛增加,自动文本分类变得越来越重要。为了提高分类准确率,作为文本特征的词的权重计算方法是文本分类领域的研究热点之一。研究发现,基于信息熵的权重计算方法(熵加权)相对于其他方法更有效,但现有方法仍然存在问题,比如在某些语料库上相比TF-IDF(term frequency&inverse document frequency),它们可能表现较差。于是将对数词频与一个新的基于熵的类别区分力度量因子相结合,提出了LTF-ECDP(logarithmic term frequency&entropy-based class distinguishing power)方法。通过在Tan Corp、Web KB和20 Newsgroups语料库上使用支持向量机(support vector machine,SVM)进行一系列文本分类实验,验证和比较了8种词权重计算方法的性能。实验结果表明,LTF-ECDP方法比其他熵加权方法和TF-IDF、TF-RF(term frequency&relevance frequency)等著名方法更优越,不仅提高了文本分类准确率,而且在不同数据集上的性能更加稳定。
-
关键词
特征词权重
熵加权
文本分类
类别区分力
-
Keywords
term weighting
entropy-based weighting
text categorization
class distinguishing power
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名改进二进制麻雀搜索的特征选择及文本聚类
- 5
-
-
作者
高新成
邵国铭
张海洋
周中雨
-
机构
东北石油大学现代教育技术中心
东北石油大学计算机与信息技术学院
-
出处
《重庆理工大学学报(自然科学)》
北大核心
2023年第8期166-176,共11页
-
基金
国家自然科学基金项目(61702093)
中国高校产学研创新基金项目(2021ITA02011)
黑龙江省教育科学规划重点课题(GJB1423357)。
-
文摘
针对文本中存在冗余特征影响聚类精度等问题,提出一种结合蜣螂优化算法改进二进制麻雀搜索算法的特征选择及文本聚类算法。利用基于特征词权重的适应度函数完成文本特征评估,构建矢量空间模型;引入蜣螂优化算法中的圆周方向搜索机制,改进传统麻雀搜索算法中麻雀发现者位置更新策略,并融入滚动方向机制的随机游走策略提升全局搜索能力,结合转移函数对连续型麻雀位置进行更新,得到优化的二进制麻雀搜索算法,筛选出优质特征子集;选用k-means++算法完成文本聚类。通过多种基准函数及公共数据集进行验证,结果表明:所提方法能够有效降低文本特征维度,提高聚类效果。
-
关键词
特征选择
蜣螂优化算法
二进制麻雀搜索算法
k-means++
文本聚类
特征词权重
-
Keywords
feature selection
dung beetle optimization algorithm
binary sparrow search algorithm
k-means++
text clustering
feature word weight
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多特征的视频关联文本关键词提取方法
被引量:5
- 6
-
-
作者
王万良
潘蒙
-
机构
浙江工业大学计算机科学与技术学院
-
出处
《浙江工业大学学报》
CAS
北大核心
2017年第1期14-18,共5页
-
基金
国家"十二五"科技支撑计划项目(2012BAD10B01)
浙江省重大科技专项项目(2013C01113)
-
文摘
针对互联网多媒体视频数量的爆炸式增长导致快速获取视频的内容变得非常困难问题,提出了一种基于多特征的关键词提取算法TFL-WS算法.通过分析视频包含丰富的相关文本信息的特点,建立了基于改进TF和多特征的候选词权重计算公式,该公式将候选词的统计特征与位置权重动态结合起来,并考虑候选词的词性、词跨度等属性,借助扩展的同义词词林来提取关键词,通过提取到的关键词来表述视频的内容信息.实验结果表明:改进后的算法所提取的关键词效果更好,在准确率和召回率方面都有一定的提升,并且能够很好的表示视频的内容.
-
关键词
提取
视频内容
TF
特征词权重
-
Keywords
keyword extraction
video content
TF
term weight
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于泊松分布的加权朴素贝叶斯文本分类算法
被引量:11
- 7
-
-
作者
赵博文
王灵矫
郭华
-
机构
湘潭大学信息工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2020年第4期91-96,共6页
-
基金
国家自然科学基金(61771414)。
-
文摘
朴素贝叶斯(NB)算法应用于文本分类时具有简单性和高效性,但算法中属性独立性与重要性一致的假设,使其在精确度方面存在瓶颈.针对该问题,提出一种基于泊松分布的特征加权NB文本分类算法.结合泊松分布模型和NB算法,将泊松随机变量引入特征词权重,在此基础上定义信息增益率对文本特征词加权,削弱传统算法属性独立性假设造成的影响.在20-newsgroups数据集上的实验结果表明,与传统NB算法及其改进算法RwC-MNB和CFSNB相比,该算法可使文本分类的准确率、召回率和F1值得到提升,并且执行效率高于K-最近邻算法和支持向量机算法.
-
关键词
文本分类
朴素贝叶斯算法
泊松分布
信息增益率
特征词权重
-
Keywords
text classification
Naive Bayes(NB)algorithm
Poisson distribution
Information Gain Rate(IGR)
weight of feature words
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于贝叶斯模型的专利分类
被引量:13
- 8
-
-
作者
郭炜强
文军
文贵华
-
机构
华南理工大学计算机研究所
-
出处
《计算机工程与设计》
CSCD
北大核心
2005年第8期1986-1987,1996,共3页
-
基金
国家自然科学基金项目(60003019)
-
文摘
朴素贝叶斯分类器理论基础好,分类精度高。利用特征词权重函数修改朴素贝叶斯分类器,进而利用它实现专利文本的自动分类,不仅减少了专利人工分类的工作量和分类错误,而且为技术跟踪、竞争分析等提供了有效支持。实验与应用表明改进的朴素贝叶斯分类器用来解决专利分类是有效的。
-
关键词
专利
朴素贝叶斯分类器
专利分类
特征词权重
文本挖掘
-
Keywords
patent
naive bayes classifier
patent classification
term weight function
text mining
-
分类号
TP182
[自动化与计算机技术—控制理论与控制工程]
G306
[文化科学]
-
-
题名一种优化的AP-CAPSA中文文本结构分析算法
- 9
-
-
作者
刘亚亮
卢选民
冯莎
王兴亮
-
机构
西北工业大学电子信息学院
-
出处
《计算机应用研究》
CSCD
北大核心
2012年第1期137-139,共3页
-
基金
2011年西北工业大学研究生创新性实验项目
-
文摘
从段落向量空间模型、特征词权重等多个侧面分析比较了已有的文本结构分析算法,提出了优化的AP-CAPSA算法;给出了算法性能的评价准则,并在不同的语料集合上进行了测试。实验表明该方法能够更有效地反映文本的结构,为中文自动摘要系统奠定了重要的理论基础。
-
关键词
文本结构
中文自动摘要
段落向量空间模型
特征词权重
评价准则
-
Keywords
text structure
Chinese automatic summarization
paragraphic vector space model
term weighing
evaluation criteria
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-