-
题名基于词条数学期望的词条权重计算方法
被引量:1
- 1
-
-
作者
秦锋
赵彦军
程泽凯
陈奇明
-
机构
安徽工业大学计算机学院
-
出处
《计算机应用与软件》
CSCD
2011年第4期177-179,共3页
-
基金
安徽省教育厅自然科学重点项目(KJ2007A051)
-
文摘
文本的形式化表示一直是文本挖掘的基础性问题,向量空间模型中的TFIDF计算方法是文本表示中一种效果较好的经典词条权重计算方法。在分析传统TFIDF计算方法存在问题的基础上,针对TFIDF方法中没有考虑包含词条的文档在各个类别的分布情况以及各个类别中所含的文档数的不同。提出了将词条的数学期望(TFIDF-E)作为一个文本因子来进行改进上述问题。实验结果表明,TFIDF-E计算方法表示的文本分类效果好于TFIDF,验证了TFIDF-E方法的有效性和可行性。
-
关键词
文本分类
词条权重
区分度
数学期望
-
Keywords
Text categorisation Term weight Differentiation Mathematical expectation
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名基于二进制灰狼优化的特征选择及文本聚类
被引量:10
- 2
-
-
作者
王琛
董永权
-
机构
江苏建筑职业技术学院信电工程学院
江苏师范大学计算机科学与技术学院
-
出处
《计算机工程与设计》
北大核心
2021年第9期2526-2535,共10页
-
基金
国家自然科学基金项目(61100167)
江苏省自然科学基金项目(BK2011204)。
-
文摘
提出基于二进制灰狼优化的特征选择与文本聚类算法。为得到最佳聚类结果,将文本数据表达为矢量空间模型;利用二进制灰狼优化算法对文本特征进行选择,得到初选特征子集;对前一阶段中不同特征相关分值计算方法得到的初选特征子集进行合并与交叉操作,进一步计算最优特征子集;在新特征子集基础上,利用同步考虑余弦相似度和欧氏距离指标的多目标优化K均值算法完成文本聚类,得到最优文本聚类解。实验结果表明,在多数数据集上,该算法可以有效降低特征维度,聚类指标表现更好。
-
关键词
文本聚类
二进制灰狼算法
K均值聚类
特征选择
选择合并
词条权重
-
Keywords
text clustering
binary grey wolf algorithm
K-means clustering
feature selection
feature union
term weight
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于概念语义同义扩展的文本检索研究
- 3
-
-
作者
张映海
-
机构
武警广州指挥学院计算机教研室
-
出处
《计算机与数字工程》
2008年第4期68-71,共4页
-
文摘
对TF-IDF分析后,提出一种已有关键词的文本的词条权重计算方法(TKSM),并以此构造基于概念语义同义扩展的文本检索模型(CSSERM)。实验表明,该模型的综合性能优于关键词检索模型,但精确率较关键词模型稍有降低。为此,构造基于概念同义扩展的文本检索模型与关键词模型结合的检索模型,两者的结合比例调整适当,能平衡检索系统的准确率与召回率,获得更好的检索效果。
-
关键词
概念
同义扩展
文本检索
词条权重
-
Keywords
concept, synonymy expansion, text retrieval, term weight
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合统计和结构相似度的文档聚类
- 4
-
-
作者
郑重
-
机构
武汉中原电子信息有限公司
-
出处
《信息技术与信息化》
2021年第4期132-135,共4页
-
文摘
提出了一个新的文档聚类框架,在这个框架下,从统计和结构两个方面对词条之间的交互进行建模。首先根据观测词条推断隐含词条,补充和细化文档中每个词条的权重。基于丰富的文档向量表示方法,便可以轻松地获得统计语义的相似度。同时,我们使用现有的依赖解析器提取词条之间的显式语义依赖,并用文档结构表示每个文档。接着采用结构匹配技术来获取结构语义的相似度。然后,将语义相似度和结构相似度通过线性组合,作为任意两个文档之间的最终相似度。最后,我们利用CLUTO聚类工具对文献进行聚类,并针对英语和汉语语料库进行了综合实验,实验结果表明,相比于现有基准,该方法在多个指标上都有显著的提升。
-
关键词
文档聚类
相似度
词条权重
结构匹配
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-