期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于语义关联和信息增益的TFIDF改进算法研究 被引量:8
1
作者 许珂 蒙祖强 林啓峰 《计算机应用研究》 CSCD 北大核心 2012年第2期557-560,共4页
基于词频反文档频率(term frequency inverse document frequency,TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息... 基于词频反文档频率(term frequency inverse document frequency,TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFIDF改进算法,该算法弥补了统计方法丢失语义信息的弊端。实验结果表明,该算法有效地提高了文本分类的精准率。 展开更多
关键词 词频反文档频率 特征提取 语义关联 信息增益 文本分类
下载PDF
基于类别区分度的文本特征选择算法研究 被引量:4
2
作者 易军凯 田立康 《北京化工大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第B12期72-75,共4页
针对词频反文档频率(TFIDF)算法的缺陷,引入类别区分度理论改进传统的TFIDF算法。通过比较改进TFIDF算法与其他几种常用特征选择算法的分类效果,证明了改进TFIDF算法用于中文文本分类时,准确率和召回率要优于其他算法,改进TFIDF算法具... 针对词频反文档频率(TFIDF)算法的缺陷,引入类别区分度理论改进传统的TFIDF算法。通过比较改进TFIDF算法与其他几种常用特征选择算法的分类效果,证明了改进TFIDF算法用于中文文本分类时,准确率和召回率要优于其他算法,改进TFIDF算法具有较好的特征选择效果。 展开更多
关键词 文本分类 特征选择 词频反文档频率算法 类别区分度
下载PDF
基于改进朴素贝叶斯算法实现评教评语情感分析 被引量:10
3
作者 张俊飞 《现代计算机(中旬刊)》 2018年第11期3-6,共4页
课堂教学评价是对教学活动的反馈,有利于改进课堂教学,促进学生的学习。因此课堂教学评价数据分析在教学活动中显得很重要,然而当前研究很少有关于课堂教学质性评价数据智能化分析。考虑到朴素贝叶斯算法以特征属性间独立为假设前提,同... 课堂教学评价是对教学活动的反馈,有利于改进课堂教学,促进学生的学习。因此课堂教学评价数据分析在教学活动中显得很重要,然而当前研究很少有关于课堂教学质性评价数据智能化分析。考虑到朴素贝叶斯算法以特征属性间独立为假设前提,同时也忽略数据稀疏问题,提出基于改进朴素贝叶斯算法实现评教评语情感分析。通过改进PMI算法实现特征值提取,利用TF-IDF函数实现特征值权重计算,实现基于PMI特征值TF-IDF加权朴素贝叶斯算法。通过实验对比,改进后的朴素贝叶斯相比传统算法分类效果有一定的提高。 展开更多
关键词 朴素贝叶斯 情感分析 点互信息 词频反文档频率
下载PDF
基于TFIDF+LSA算法的新闻文本聚类与可视化 被引量:9
4
作者 郝秀慧 方贤进 杨高明 《计算机技术与发展》 2022年第7期34-38,45,共6页
近几年来,文本聚类技术作为机器学习领域一种无监督学习的方法,也越来越成为数据挖掘领域备受关注的技术之一。将小规模的文本数据聚为几类,在一定程度上说是一件比较容易实现的工作。可是,当面对大量高维的中文文本数据时,由于在这种... 近几年来,文本聚类技术作为机器学习领域一种无监督学习的方法,也越来越成为数据挖掘领域备受关注的技术之一。将小规模的文本数据聚为几类,在一定程度上说是一件比较容易实现的工作。可是,当面对大量高维的中文文本数据时,由于在这种情况下对文本聚类,面对的将是高维和稀疏的数据,在保证聚类质量的情况下,提高聚类的速度和可视化效果也成为聚类研究的课题之一。该文提出一种结合词频反文档频率算法(term frequency,inverse document frequency,TFIDF)和潜在语义分析算法(latent semantic analysis,LSA)相结合的方法,来提高kmeans中文文本聚类的速度和可视化效果。将从网页上采集到的11456条新闻作为实验对象,通过基于TFIDF聚类和基于TFIDF+LSA聚类进行实验对比,根据聚类指标轮廓系数(Silhouette coefficient,SC)、卡林斯基-原巴斯指数(Calinski-Harabasz index,CHI)和戴维斯-堡丁指数(Davies-Bouldin index,DBI)的值表明,该方法不仅能保证文本聚类的质量,还能大大提高文本聚类的速度和可视化效果。 展开更多
关键词 词频反文档频率 潜在语义分析 文本聚类速度 文本聚类可视化 kmeans
下载PDF
基于隐马尔可夫模型的文本分类算法 被引量:8
5
作者 杨健 汪海航 《计算机应用》 CSCD 北大核心 2010年第9期2348-2350,2361,共4页
自动文本分类领域近年来已经产生了若干成熟的分类算法,但这些算法主要基于概率统计模型,没有与文本自身的语法和语义建立起联系。提出了将隐马尔可夫序列分析模型(HMM)用于自动文本分类的算法,首先构造表示文档类别的特征词集合,并以... 自动文本分类领域近年来已经产生了若干成熟的分类算法,但这些算法主要基于概率统计模型,没有与文本自身的语法和语义建立起联系。提出了将隐马尔可夫序列分析模型(HMM)用于自动文本分类的算法,首先构造表示文档类别的特征词集合,并以文档类别的特征词序列作为不同HMM分类器的观察序列,而HMM的状态转换序列则隐含地表示了不同类别文档内容的形成演化过程。分类时,具有最大生成概率的HMM分类器类标即为测试文档的分类结果。该算法构造的分类器模型一定程度上体现了不同类别文档的语法和语义特征,并可以实现多类别的自动文本分类,分类效率较高。 展开更多
关键词 文本分类 隐马尔可夫模型 信息增益 χ2检验 词频文档频率
下载PDF
一种基于HowNet语义计算的综合特征词权重计算方法 被引量:4
6
作者 孙丽莉 张小刚 《统计与决策》 CSSCI 北大核心 2018年第18期82-85,共4页
传统文本特征词提取方法采用TF-IDF计算文本特征词的权重,但TF-IDF方法只使用了文本中的词频因素,体现不出特征词的位置信息,也忽略了特征词之间的语义相似关系,降低了提取特征词的准确性。针对此问题,文章提出了一种综合的文本特征词... 传统文本特征词提取方法采用TF-IDF计算文本特征词的权重,但TF-IDF方法只使用了文本中的词频因素,体现不出特征词的位置信息,也忽略了特征词之间的语义相似关系,降低了提取特征词的准确性。针对此问题,文章提出了一种综合的文本特征词权重计算方法,该方法在计算特征词权重时兼顾了特征词的词频、位置和词义信息。实验结果表明,该方法是有效的,且能在一定程度上提高文本相似度结果的区分度和聚类效果。 展开更多
关键词 知网 词频文档频率 权重计算 语义相似度计算
下载PDF
基于词云和文章主题的校园综合新闻聚类
7
作者 郝秀慧 方贤进 杨高明 《安徽理工大学学报(自然科学版)》 CAS 2021年第6期39-44,共6页
面对大量繁杂的新闻数据,为了让人们从大量的数据中了解主要类别信息,将采集到的11456条校园综合新闻作为研究对象,采用了基于词云和top3文章主题的k-means聚类方法。通过词频-反文档频率技术将采集到的11456条校园综合新闻进行主题提取... 面对大量繁杂的新闻数据,为了让人们从大量的数据中了解主要类别信息,将采集到的11456条校园综合新闻作为研究对象,采用了基于词云和top3文章主题的k-means聚类方法。通过词频-反文档频率技术将采集到的11456条校园综合新闻进行主题提取,并用词云结果来估计k值,结果可将采集到的校园综合新闻数据聚为7个类别,与不基于文章主题的k-means聚类方法对比。评估结果表明,当将数据聚为2到10不同的类别数时,基于top3文章主题聚类的戴维森堡丁指数值整体小于不基于文章主题的聚类方法。因此,基于词云和top3文章主题的聚类方法比不基于文章主题的聚类方法稍好。聚类结果能为用户了解或查找想要的类别信息提供一定参考。 展开更多
关键词 词云 文章主题 校园新闻 词频-文档频率 K-MEANS聚类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部