期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于ER Rule的多分类器汽车评论情感分类研究
1
作者 周谧 周雅婧 +1 位作者 贺洋 方必和 《运筹与管理》 CSCD 北大核心 2024年第5期161-168,共8页
该文针对汽车评论语料的情感二分类问题,提出一种基于证据推理规则的多分类器融合的情感分类方法。在情感特征构建方面,通过实验对比不同特征模型对分类结果的影响,并改进传统的TFIDF权重计算方法。同时,在此基础上使用ER Rule融合不同... 该文针对汽车评论语料的情感二分类问题,提出一种基于证据推理规则的多分类器融合的情感分类方法。在情感特征构建方面,通过实验对比不同特征模型对分类结果的影响,并改进传统的TFIDF权重计算方法。同时,在此基础上使用ER Rule融合不同分类器进行文本情感极性分析,并考虑各分类器的权重和可靠度。最后,爬取汽车网站上的评论数据对上述方法进行测试,并用公开的中文酒店评论语料数据进行了验证,结果表明该方法能够有效集成不同分类器的优点,与传统机器学习分类算法相比,其结果在Recall,F1值和Accuracy三个指标上得到了提高,与目前流行的深度学习算法和集成学习算法相比,其结果总体占优。 展开更多
关键词 证据推理规则 多分类器融合 tfidf权重 深度学习算法 集成学习算法
下载PDF
基于TFIDF文本特征加权方法的改进研究 被引量:37
2
作者 张保富 施化吉 马素琴 《计算机应用与软件》 CSCD 2011年第2期17-20,共4页
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献... 针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。 展开更多
关键词 tfidf 文本分类 特征加权 向量空间模型
下载PDF
基于改进权重的贝叶斯推理和TFIDF算法文本主题词提取研究 被引量:5
3
作者 邵晓根 鞠训光 +1 位作者 胡局新 马忠伟 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2014年第1期57-60,65,共5页
本文针对中文文本主题词提取的TFIDF算法不足进行了改进,综合考虑关键词在文本中出现的频率及位置权重,设计了贝叶斯推理和TFIDF主题词提取混合算法,并基于候选词排序位置进行了正向、逆向和中间向前后的提取测试,结果表明,本算法比单纯... 本文针对中文文本主题词提取的TFIDF算法不足进行了改进,综合考虑关键词在文本中出现的频率及位置权重,设计了贝叶斯推理和TFIDF主题词提取混合算法,并基于候选词排序位置进行了正向、逆向和中间向前后的提取测试,结果表明,本算法比单纯TFIDF算法正向提取平均准确率提高了6.2%. 展开更多
关键词 贝叶斯推理 位置权重 提取 tfidf算法
下载PDF
基于改进TFIDF特征加权算法的95598投诉工单分类实现 被引量:4
4
作者 杨勇 严道波 +3 位作者 徐敏 万磊 李强 邱丹 《电力与能源》 2019年第2期205-207,226,共4页
分析了传统朴素贝叶斯算法、TFIDF特征加权算法在文本分类建模应用上的缺陷,在此基础上提出了TFIDF的优化算法,并分别采用传统朴素贝叶斯算法、基于TFIDF的朴素贝叶斯算法、基于改进TFIDF的朴素贝叶斯算法分别对某供电公司投诉工单进行... 分析了传统朴素贝叶斯算法、TFIDF特征加权算法在文本分类建模应用上的缺陷,在此基础上提出了TFIDF的优化算法,并分别采用传统朴素贝叶斯算法、基于TFIDF的朴素贝叶斯算法、基于改进TFIDF的朴素贝叶斯算法分别对某供电公司投诉工单进行了分类建模。研究结果表明,改进TFIDF算法能在TFIDF算法的基础上进一步提升分类器的性能,投诉工单分类准确率达到93.03%,较传统朴素贝叶斯算法提升了4个百分点。 展开更多
关键词 tfidf 特征加权 朴素贝叶斯 文本分类
下载PDF
改进的TFIDF标签提取算法 被引量:4
5
作者 王杰 李旭健 《软件工程》 2018年第2期4-6,共3页
TFIDF算法作为一种加权算法,在信息检索和数据挖掘等自然语言处理领域发挥了巨大的作用。它的计算模型相对简单,适合大数据并行计算,适用领域广泛,且拥有很好的解释性。基于以上这些特点,本文在TFIDF算法基础之上,利用监督的学习,并通... TFIDF算法作为一种加权算法,在信息检索和数据挖掘等自然语言处理领域发挥了巨大的作用。它的计算模型相对简单,适合大数据并行计算,适用领域广泛,且拥有很好的解释性。基于以上这些特点,本文在TFIDF算法基础之上,利用监督的学习,并通过引入加权因子和词贡献度,来修正TFIDF算法结果权值。利用这个算法可以在自然语言处理中有效地提取特征标签,并且改进后的算法在这一细分领域具有极高准确度。 展开更多
关键词 自然语言处理 tfidf 词加权算法 标签提取 监督学习
下载PDF
关键词自动提取方法的研究与改进 被引量:22
6
作者 黄磊 伍雁鹏 朱群峰 《计算机科学》 CSCD 北大核心 2014年第6期204-207,共4页
关键词提取技术是信息检索和文本分类领域的基础与关键技术之一。首先分析了TFIDF算法中存在的不足,即IDF(Inverse Document Frequency)权值中没有考虑特征词在类内以及类别间的分布情况。因此,原有的TFIDF方法会出现有些不能代表文档... 关键词提取技术是信息检索和文本分类领域的基础与关键技术之一。首先分析了TFIDF算法中存在的不足,即IDF(Inverse Document Frequency)权值中没有考虑特征词在类内以及类别间的分布情况。因此,原有的TFIDF方法会出现有些不能代表文档主题的低频词的IDF值很高,而有些能够代表文档主题的高频词的IDF值却很低的情况,这会导致关键词提取不准确。通过增加一个新的权值,即类内离散度DI(Distribution Information)来增加关键的特征词条的权重,提出了一种新的算法DI-TFIDF。实验中使用的是搜狗语料库,选择其中的体育、教育和军事3类文档各1000篇作为实验的语料库,分别用基于传统TFIDF方法和基于DI-TFIDF方法提取关键词。实验结果表明,所提出的DI-TFIDF方法提取关键词的准确度要高于传统的TFIDF算法。 展开更多
关键词 关键词提取 特征权重 tfidf DI-tfidf
下载PDF
文本分类中特征权重算法的改进 被引量:14
7
作者 沈志斌 白清源 《南京师范大学学报(工程技术版)》 CAS 2008年第4期95-98,149,共5页
TFIDF是文档特征权重表示常用方法.该方法简单易行,但忽略了特征词在各个类别中的分布情况,不能真正地反映特征词对区分每个类的贡献.针对这个不足,本文提出了BOR-TFIDF,来重新调整每个特征词对各个类别的区分度,即修正各个特征词的权重... TFIDF是文档特征权重表示常用方法.该方法简单易行,但忽略了特征词在各个类别中的分布情况,不能真正地反映特征词对区分每个类的贡献.针对这个不足,本文提出了BOR-TFIDF,来重新调整每个特征词对各个类别的区分度,即修正各个特征词的权重,并用分类器来验证其有效性.该方法优于原来的TFIDF算法,实验表明了改进的策略是可行的. 展开更多
关键词 文本分类 特征权重 tfidf 类别区分 BOR-tfidf
下载PDF
文本分类中基于方差的改进特征提取算法 被引量:5
8
作者 吕佳 《计算机工程与设计》 CSCD 北大核心 2007年第24期6039-6041,共3页
特征提取算法TFIDF是文本分类中常用的衡量特征权重的算法,但该算法没有考虑特征词在类间和类内的分布情况,导致算法无法反映特征词在分布比例中量上的差异。为此,引入方差来描述特征词在类间和类内的分布情况,并利用方差来修正TFIDF权... 特征提取算法TFIDF是文本分类中常用的衡量特征权重的算法,但该算法没有考虑特征词在类间和类内的分布情况,导致算法无法反映特征词在分布比例中量上的差异。为此,引入方差来描述特征词在类间和类内的分布情况,并利用方差来修正TFIDF权重。仿真实验结果表明,同传统TFIDF算法相比,改进TFIDF算法能得到更好的分类结果。 展开更多
关键词 文本分类 特征提取 改进tfidf 权重 方差
下载PDF
面向监理工程的文本分类技术研究 被引量:1
9
作者 陈庄 杨春玉 《重庆理工大学学报(自然科学)》 CAS 2017年第10期187-191,共5页
针对监理工程中文本文档在管理过程中存在的一些困难,提出一种适用于监理工程的文本分类方法,旨在提高管理效率,简化工作方式。该方法在进行中文分词处理时,使用通用词典与手动构造的监理工程专业词典相结合的方式。对于特征提取,在使用... 针对监理工程中文本文档在管理过程中存在的一些困难,提出一种适用于监理工程的文本分类方法,旨在提高管理效率,简化工作方式。该方法在进行中文分词处理时,使用通用词典与手动构造的监理工程专业词典相结合的方式。对于特征提取,在使用TFIDF的基础上,结合一定的规则来调整特征权重,并采用朴素贝叶斯分类算法来构造分类器。实验结果表明:该方法在对监理通知单分类问题上能满足实质性的应用需求。 展开更多
关键词 监理工程 问题分类 tfidf 特征二次加权 朴素贝叶斯
下载PDF
面向词权重的主题识别应用研究 被引量:9
10
作者 阮光册 夏磊 《情报理论与实践》 CSSCI 北大核心 2019年第12期144-149,共6页
[目的/意义]在文本主题求解时,LDA模型更倾向于高频率的词项,造成主题的语义特征和内容区分度不高.[方法/过程]从文本的词权重入手,综合考虑词项在文本集合中的全局统计特征和局部语义特征,衡量词语在文本中的重要性,并将词语的特征值作... [目的/意义]在文本主题求解时,LDA模型更倾向于高频率的词项,造成主题的语义特征和内容区分度不高.[方法/过程]从文本的词权重入手,综合考虑词项在文本集合中的全局统计特征和局部语义特征,衡量词语在文本中的重要性,并将词语的特征值作为LDA主题模型的输入,改变LDA模型生成词的概率.[结果/结论]实验表明,结合词权重的LDA模型,具有更好的模型拟合度,同时能够较好的识别语料库中主要话题,提高了主题词分布的广度和主题的语义区分度.通过新闻文本数据验证了该方法的可行性与有效性.[局限]对词语的局部语义特征描述需要大数据量的计算. 展开更多
关键词 主题模型 LDA模型 FTIDF N-GRAM 权重 主题识别
下载PDF
基于加权改进贝叶斯算法的维吾尔文文本分类 被引量:5
11
作者 陈洋 哈力旦.阿布都热依木 +1 位作者 伊力亚尔.达吾提 亚力青.阿里玛斯 《计算机工程与设计》 CSCD 北大核心 2014年第6期1999-2003,共5页
为了提高朴素贝叶斯分类器在维吾尔文本中的分类性能,在具体分析维吾尔文文字特性的基础上,对其进行向量化预处理,降低空间维度。考虑到特征项在集合中的具体分布情况,从特征项的区分度和代表性的角度出发,结合词频,提出了3个权重调整系... 为了提高朴素贝叶斯分类器在维吾尔文本中的分类性能,在具体分析维吾尔文文字特性的基础上,对其进行向量化预处理,降低空间维度。考虑到特征项在集合中的具体分布情况,从特征项的区分度和代表性的角度出发,结合词频,提出了3个权重调整系数,对传统的权值函数TFIDF进行了改进,修正了不同特征词对分类的贡献度。在构建的维吾尔文语料库上进行实验,实验结果表明,与朴素贝叶斯算法相比,此算法具有更好的分类性能。 展开更多
关键词 文本分类 维吾尔文 朴素贝叶斯 词频反文档频 权值调整
下载PDF
权重算法在计算移动用户重入网的应用 被引量:3
12
作者 刘清松 王霓虹 王伟 《自动化技术与应用》 2009年第2期19-21,共3页
结合使用TFIDF权重和Cosine类似算法,通过对多个相似用户常拨打的(10 0个)号码的权重和相似度进行分析,从而达到判断多用户是否为同一用户的目的。为电信运营企业预测经营趋势,及时规避用户发展中存在的风险,提供较为准确的判断依据。
关键词 重入网 tfidf权重 Cosine类似算法 相似度
下载PDF
基于同义替换和相邻词合并的关键词特征权重计算新方法 被引量:1
13
作者 司红娜 姚力文 李向军 《计算机与现代化》 2010年第4期115-117,121,共4页
特征项权重计算是文本挖掘中关键词提取的核心,其计算方法的好坏对文本挖掘的结果有着重要的影响。本文在对关键词提取特征项权重计算的传统TFIDF算法分析的基础上,为减少该算法特征权重计算时对词频的过于依赖,提出一种基于同义替换和... 特征项权重计算是文本挖掘中关键词提取的核心,其计算方法的好坏对文本挖掘的结果有着重要的影响。本文在对关键词提取特征项权重计算的传统TFIDF算法分析的基础上,为减少该算法特征权重计算时对词频的过于依赖,提出一种基于同义替换和相邻词合并(KSRAM)的特征权重计算方法。为检验算法性能,对KSRAM算法和传统TFIDF算法进行了关键词提取对比实验,实验表明KSRAM算法在关键词提取的准确率和召回率方面比传统TFIDF算法有明显的提高。 展开更多
关键词 同义替换 相邻词 tfidf KSRAM 特征权重
下载PDF
基于N-Gram文本特征提取的改进算法 被引量:9
14
作者 余小军 刘峰 张春 《现代计算机》 2012年第23期3-7,共5页
提出一种改进的N-Gram文本特征提取算法。该算法将词性分析与权重过滤引入到N-Gram特征向量提取的过程,有效地解决N-Gram适用差、特征向量冗余大、与文本属性无关等问题。实验结果表明,该特征提取算法能够更加准确地描述文本特征,能较... 提出一种改进的N-Gram文本特征提取算法。该算法将词性分析与权重过滤引入到N-Gram特征向量提取的过程,有效地解决N-Gram适用差、特征向量冗余大、与文本属性无关等问题。实验结果表明,该特征提取算法能够更加准确地描述文本特征,能较好地适用于文本特征处理、Web文本数据挖掘等中文信息处理领域。 展开更多
关键词 文本特征提取 N-GRAM 权重过滤 词性分析 tfidf
下载PDF
文本分类算法中词语权重计算方法的改进 被引量:8
15
作者 赵小华 马建芬 《电脑知识与技术》 2009年第12X期10626-10628,共3页
在自动文本分类中,TFIDF公式是常用的词语权重计算公式。该方法简单易行,但仅仅考虑了特征词出现的频率,而忽略了特征词对区分每个类的贡献。针对这个不足,该文提出了TFIDF-CHI,来修正各个特征词的权重,重新调整每个特征词对各个类别的... 在自动文本分类中,TFIDF公式是常用的词语权重计算公式。该方法简单易行,但仅仅考虑了特征词出现的频率,而忽略了特征词对区分每个类的贡献。针对这个不足,该文提出了TFIDF-CHI,来修正各个特征词的权重,重新调整每个特征词对各个类别的区分度,并用KNN分类器来验证其有效性。实验证明该方法优于原来的TFIDF算法,表明了改进的策略是可行的。 展开更多
关键词 文本分类 特征权值 tfidf tfidf-CHI
下载PDF
基于分段向量模型的Web医疗咨询数据检索 被引量:1
16
作者 郭成伟 丁祥武 《智能计算机与应用》 2015年第1期9-13,17,共6页
Web上存在大量极具价值的医疗咨询数据。本文提出了一种基于分段向量模型的Web医疗咨询数据检索方法。根据Web医疗咨询数据的结构特点构造分段向量模型,然后将咨询数据按此模型表示。对两分段向量,用不同方式计算各分段的相似度,最终通... Web上存在大量极具价值的医疗咨询数据。本文提出了一种基于分段向量模型的Web医疗咨询数据检索方法。根据Web医疗咨询数据的结构特点构造分段向量模型,然后将咨询数据按此模型表示。对两分段向量,用不同方式计算各分段的相似度,最终通过计算分段相似度加权和的方法产生更加准确的检索结果。在真实Web医疗咨询数据集上的实验结果验证了本文所提方法在提升检索结果准确率方面的有效性。 展开更多
关键词 Web医疗咨询数据 信息检索 分段向量模型 tfidf算法 分段加权
下载PDF
一种引入元路径相似性度量的材料实体检索方法
17
作者 黄华泽 胡紫璇 +3 位作者 游进国 黄星瑞 陶静梅 易健宏 《计算机应用研究》 2024年第9期2781-2786,共6页
近年来,随着材料数据的积累以及“材料基因组计划”的普及,面对大量需要处理和管理的材料数据,快速准确地检索并获取相应信息已成为一个重要问题。传统的检索方法由于仅能查询某一材料的相关信息,并且存在检索结果不全面、无法处理复杂... 近年来,随着材料数据的积累以及“材料基因组计划”的普及,面对大量需要处理和管理的材料数据,快速准确地检索并获取相应信息已成为一个重要问题。传统的检索方法由于仅能查询某一材料的相关信息,并且存在检索结果不全面、无法处理复杂语义关系等问题,难以获取相似程度较高的材料。为了快速、准确地找到与某种材料相似的材料,提出可度量不同节点的加权材料相似度计算模型WM-PathSim。首先,使用metapath2vec学习材料节点的嵌入表示;其次,引入TFIDF-CBOW模型学习材料路径实例的存在概率,进而计算不同元路径的权重;最后,加权求和符合条件的元路径得到最后的相似性度量,来预测不同材料之间的相似程度。在真实数据集上的结果表明,在不同的路径关系中,所提模型相比于基线方法在性能上有较大提升,其AUC和precision指标分别提升了0.37~5.02百分点和1~7.33百分点,说明所提模型得到材料间的相似程度更加准确和有效,从而能够获得相似材料。 展开更多
关键词 材料相似度 metapath2vec tfidf-CBOW 元路径权重
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部