期刊文献+
共找到75篇文章
< 1 2 4 >
每页显示 20 50 100
一种基于词频-逆文档频率和混合损失的表情识别算法 被引量:2
1
作者 蓝峥杰 王烈 聂雄 《计算机工程》 CAS CSCD 北大核心 2023年第1期295-302,310,共9页
面部表情能自然高效地表达人类的心理活动和思想状态,影响着人们的沟通交流过程。在诸多智能化应用中,人脸表情识别是人类与机器间建立情感交互的重要基础。在细粒度人脸表情识别任务中,由于特征提取网络对表情产生区域的关键特征处理不... 面部表情能自然高效地表达人类的心理活动和思想状态,影响着人们的沟通交流过程。在诸多智能化应用中,人脸表情识别是人类与机器间建立情感交互的重要基础。在细粒度人脸表情识别任务中,由于特征提取网络对表情产生区域的关键特征处理不足,从而引发细节特征信息丢失问题。提出一种词频-逆文档频率注意力机制TF-IDF SPA,通过该机制调整表情产生关键区域的注意力分布,强化网络对该区域关键细节特征的提取能力。同时,为了应对表情识别任务中普遍存在的类间差异小、类内差异大的问题,设计一种改进型混合加权损失函数,以增强表情类内聚拢性同时增大类间距离。依据数据集中样本的数量分布情况,动态调整损失函数的分类权重值,从而强化模型对小数据量样本的学习能力。在此基础上,将结构简单的TF-IDF SPA模块与卷积层共同堆叠以构建人脸表情识别网络。实验结果表明,该网络具有较好的人脸表情识别性能,在FER2013和CK+数据集上的分类准确率分别达到73.52%和98.27%。 展开更多
关键词 表情识别 FER2013数据集 CK+数据集 词频-文档频率 损失函数 注意力机制
下载PDF
一种融合改进TF-IDF与词典模型的情感分类算法 被引量:1
2
作者 王康静 钱江海 《上海电力大学学报》 CAS 2024年第1期80-86,共7页
针对传统情感文本分类算法存在情感特征词的极性偏好区分度较低和稳定性较差等问题,提出了一种改进词频-逆文本频率(TF-IDF)模型与词典模型相融合的情感文本分类算法。首先,通过情感特征词在不同情感类型语料中的频率分布和离散系数,度... 针对传统情感文本分类算法存在情感特征词的极性偏好区分度较低和稳定性较差等问题,提出了一种改进词频-逆文本频率(TF-IDF)模型与词典模型相融合的情感文本分类算法。首先,通过情感特征词在不同情感类型语料中的频率分布和离散系数,度量情感特征词极性偏好所包含的区分度和稳定性,生成情感特征词极性指标;然后,使用该指标改进TF-IDF模型的情感特征词权重;最后,基于改进的TF-IDF模型,使用带决策函数的有监督分类算法计算情感文本的极性得分,并与词典模型所得的极性得分进行调和平均,得到情感文本综合极性得分。 展开更多
关键词 词频-文本频率 情感极性 离散系数 词典模型
下载PDF
基于词频-逆文档频率和法律本体的相似案例检索算法 被引量:2
3
作者 张云婷 叶麟 +1 位作者 方滨兴 张宏莉 《智能计算机与应用》 2021年第5期229-234,F0003,共7页
智慧检务是近年来研究的热点问题,而相似案例检索是智慧检务中公共法律服务模块的基本需求。传统的基于关键词的检索方式使案例的相似性仅局限在浅显的词语层面上,无法满足用户在文章和语义层面上的检索需求。针对公共法律服务中的相似... 智慧检务是近年来研究的热点问题,而相似案例检索是智慧检务中公共法律服务模块的基本需求。传统的基于关键词的检索方式使案例的相似性仅局限在浅显的词语层面上,无法满足用户在文章和语义层面上的检索需求。针对公共法律服务中的相似案例检索问题,该文以公共法律服务案例为研究对象,引入能够突出法律语义的案例要素,并以其为依据为案例建模,提出了一种基于语义的相似案例检索算法。该算法首先结合词频-逆文档频率和法律本体,提取出语料库中全部案例要素,再基于向量空间模型,通过欧氏距离计算出用户输入案例和语料库中各案例的相似程度,从而实现语义层面上的相似案例检索。通过对12348中国法网司法行政(法律服务)案例库中案例的分类实验可知,与传统的词频-逆文档频率提取关键词方法相比,该算法在监狱教改类案例分类上,其F1值提高了36.36%。 展开更多
关键词 语义检索 文本相似度计算 词频-文档频率 本体知识 案例要素
下载PDF
基于词频-逆文档频率(TFIDF)算法的公文处理智能推荐技术研究 被引量:2
4
作者 皎海军 杜胜贤 +1 位作者 廖晨阳 于劲松 《办公自动化》 2020年第13期23-26,共4页
随着人工智能技术的发展,越来越多的信息获取方式改变了我们的生活。这也给传统的OA(Office Automation)带来了新的发展方向。为助力OA智能化,本文将TFIDF(Term Frequency–Inverse Document Frequency)算法融合于传统OA系统。通过TFID... 随着人工智能技术的发展,越来越多的信息获取方式改变了我们的生活。这也给传统的OA(Office Automation)带来了新的发展方向。为助力OA智能化,本文将TFIDF(Term Frequency–Inverse Document Frequency)算法融合于传统OA系统。通过TFIDF算法挖掘办公人员处理过的历史公文构建用户画像,采用基于内容的文档推荐算法,将待办公文经过TFIDF算法处理后计算其与用户画像的余弦相似度来推荐办公人员。该算法能够有效解决公文办理中由于办公人员无相关公文办理经验造成的公文退回问题,从而提高公文的流转效率。 展开更多
关键词 OA系统 词频-文档频率(TFIDF) 余弦相似度 办公人员推荐
下载PDF
基于改进TF-IDF与BERT的领域情感词典构建方法
5
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感词典 词频-文档频率 隐含狄利克雷分布 情感倾向点互信息算法 BERT模型
下载PDF
长三角一体化发展特征与动力探究——基于TF-IDF算法与格兰杰检验
6
作者 关硕 赵雪 刘毅 《科技和产业》 2024年第5期40-47,共8页
从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设... 从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设主体对5个发展目标的注意力分配不均衡;在创新共建目标方面,地方主体的注意力变动会引起中央主体的注意力变动;长三角一体化发展呈现小间断大均衡特征,体现“自下而上”的地方主导模式。 展开更多
关键词 长三角一体化 话语制度主义 间断-均衡框架 TF-IDF(词频-文件频率)算法 格兰杰检验
下载PDF
基于检索器-鉴别器架构的电力地址匹配模型研究
7
作者 赵坚鹏 盛方 +3 位作者 徐川子 陈奕 罗庆 陈聪 《电力大数据》 2023年第1期35-43,共9页
为解决电力地址库与外部地址库地址的匹配问题,保证电力地址准确性,实现电力系统与外部系统间数据信息共享互通,本文提出一种基于检索器-鉴别器架构的地址匹配模型。首先介绍地址匹配模型的详细结构,包括用于缩小地址检索范围的地址检... 为解决电力地址库与外部地址库地址的匹配问题,保证电力地址准确性,实现电力系统与外部系统间数据信息共享互通,本文提出一种基于检索器-鉴别器架构的地址匹配模型。首先介绍地址匹配模型的详细结构,包括用于缩小地址检索范围的地址检索器和最终分辨地址是否匹配正确的地址鉴别器,其中地址检索器基于词频-逆文档频率算法构建,地址鉴别器基于中文预训练语言模型NEZHA构建。还提出了一种负样本训练方法提升地址鉴别器辨别效果。详细介绍了实验分析所使用的两个数据集。实验结果表明基于检索器-鉴别器架构的电力地址匹配模型能够准确从外部地址库中找出与电力地址匹配的地址,其中,地址鉴别器能够非常准确地从多个候选地址中找出准确匹配地址,其F1分数达0.99以上。 展开更多
关键词 地址匹配 电力地址 词频-文档频率 中文预训练语言模型 负样本
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:30
8
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-文本频率 词向量 隐含狄利克雷分布
下载PDF
基于隐马尔可夫模型的文本分类算法 被引量:8
9
作者 杨健 汪海航 《计算机应用》 CSCD 北大核心 2010年第9期2348-2350,2361,共4页
自动文本分类领域近年来已经产生了若干成熟的分类算法,但这些算法主要基于概率统计模型,没有与文本自身的语法和语义建立起联系。提出了将隐马尔可夫序列分析模型(HMM)用于自动文本分类的算法,首先构造表示文档类别的特征词集合,并以... 自动文本分类领域近年来已经产生了若干成熟的分类算法,但这些算法主要基于概率统计模型,没有与文本自身的语法和语义建立起联系。提出了将隐马尔可夫序列分析模型(HMM)用于自动文本分类的算法,首先构造表示文档类别的特征词集合,并以文档类别的特征词序列作为不同HMM分类器的观察序列,而HMM的状态转换序列则隐含地表示了不同类别文档内容的形成演化过程。分类时,具有最大生成概率的HMM分类器类标即为测试文档的分类结果。该算法构造的分类器模型一定程度上体现了不同类别文档的语法和语义特征,并可以实现多类别的自动文本分类,分类效率较高。 展开更多
关键词 文本分类 隐马尔可夫模型 信息增益 χ2检验 词频—反文档频率
下载PDF
基于TF-IDF算法的P2P贷款违约预测模型 被引量:9
10
作者 章宁 陈钦 《计算机应用》 CSCD 北大核心 2018年第10期3042-3047,共6页
针对目前P2P贷款违约预测模型受限于借贷双方信息不对称性,未考虑投资人之间差异性的问题,提出了基于信息检索词频-逆文本频率(TF-IDF)算法的P2P贷款违约预测模型。首先以投资效用理论为基础,利用投资人历史投资收益率、贷款利率出价等... 针对目前P2P贷款违约预测模型受限于借贷双方信息不对称性,未考虑投资人之间差异性的问题,提出了基于信息检索词频-逆文本频率(TF-IDF)算法的P2P贷款违约预测模型。首先以投资效用理论为基础,利用投资人历史投资收益率、贷款利率出价等信息,建立基于投资人效用的贷款违约预测模型;然后,借鉴信息检索TF-IDF算法,构造投资人逆向投资比例因子,对投资人差异性进行量化度量,优化模型中投资人权重计算因子。实验结果表明,该模型预测准确度与其他模型相比平均提高了6%左右,并在不同的测试数据集上都保持最优。 展开更多
关键词 贷款违约预测 效用理论 信息检索 词频文本频率 个人对个人借贷 曲线下面积
下载PDF
文本分类TF-IDF算法的改进研究 被引量:107
11
作者 叶雪梅 毛雪岷 +1 位作者 夏锦春 王波 《计算机工程与应用》 CSCD 北大核心 2019年第2期104-109,161,共7页
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分... 中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。 展开更多
关键词 新词 词频-文档频率(TF-IDF) 向量空间模型 文本分类
下载PDF
泊松-逆伽玛分布假设下的GAMLSS回归模型
12
作者 徐娇 马江洪 《数理统计与管理》 北大核心 2024年第3期423-436,共14页
计数数据大量出现在医学、社会学、心理学、保险和交通等领域,是一类十分重要的数据类型。不过,计数数据常出现过度分散现象,使得普通的泊松回归模型无法解释,从而失去效用。本文研究一类混合泊松分布,专门用于拟合这种过度分散的计数... 计数数据大量出现在医学、社会学、心理学、保险和交通等领域,是一类十分重要的数据类型。不过,计数数据常出现过度分散现象,使得普通的泊松回归模型无法解释,从而失去效用。本文研究一类混合泊松分布,专门用于拟合这种过度分散的计数数据。主要工作是基于现有的泊松-广义逆高斯分布、泊松-倒逆高斯分布和泊松-逆伽玛分布等三类混合泊松分布,利用广义可加模型(GAMLSS)的灵活性,构建泊松-逆伽玛分布假设下的GAMLSS模型。为验证模型性能,本文还将泊松-逆伽玛、泊松-倒逆高斯和负二项分布假设下的GAMLSS模型应用于车险索赔频率数据,并根据全局偏差、AIC和BIC等准则评估模型。结果表明,本文模型对过度分散的车险索赔频率数据的拟合明显优于负二项、泊松-倒逆高斯分布假设下的GAMLSS模型,是一个处理过度分散计数数据的有效模型。 展开更多
关键词 混合泊松分布 过度分散 泊松-伽玛分布 GAMLSS模型 车险索赔频率
原文传递
基于TF-IDF与word2vec的台词文本分类研究 被引量:4
13
作者 但宇豪 黄继风 +1 位作者 杨琳 高海 《上海师范大学学报(自然科学版)》 2020年第1期89-95,共7页
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法.该方法通过引入信息熵及修正因子,缓解了数据不平衡对分... 为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法.该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%. 展开更多
关键词 词频-文本频率(TF-IDF) word2vec 信息熵 文本分类 机器学习 加权
下载PDF
一种改进型TF-IDF文本聚类方法 被引量:16
14
作者 张蕾 姜宇 孙莉 《吉林大学学报(理学版)》 CAS 北大核心 2021年第5期1199-1204,共6页
针对传统词频-逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足,尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题,提出一种改进的TF-IDF文本聚类算法.采用2015—2019年吉林省科研机构发表论文数据进行对比实验,... 针对传统词频-逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足,尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题,提出一种改进的TF-IDF文本聚类算法.采用2015—2019年吉林省科研机构发表论文数据进行对比实验,分别用改进TF-IDF算法和传统TF-IDF算法先统计论文中的关键词词频,再通过K-means++算法进行聚类,最后使用随机森林算法分别评估聚类的准确性.实验结果表明,改进TF-IDF算法提高了分类的准确率. 展开更多
关键词 词频-文档频率(TF-IDF) 混合聚类 交叉学科 基本科学指标数据库(ESI)文献
下载PDF
基于改进TF-IDF可疑人员文本表示方法 被引量:2
15
作者 何隽飞 赵慧 何学明 《计算机工程与设计》 北大核心 2021年第2期396-401,共6页
为解决重大安保任务中,情报人员在进行可疑人员情报研判时效率低下的问题,提出一种面向情报研判的可疑人员文本表示方法。针对可疑人员信息库的特点,将文本分类领域的文本表示方法应用到情报研判领域,引入文本类别参数,改进TF-IDF算法,... 为解决重大安保任务中,情报人员在进行可疑人员情报研判时效率低下的问题,提出一种面向情报研判的可疑人员文本表示方法。针对可疑人员信息库的特点,将文本分类领域的文本表示方法应用到情报研判领域,引入文本类别参数,改进TF-IDF算法,提升算法提取分类特征的能力;通过属性加权的文本表示方法将可疑人员信息制作成特征向量,使用支持向量机实现可疑人员情报研判。实验验证了该方法的可行性,其研判精确率达到98.8%,满足实际研判任务要求的标准,为情报人员提供了高质量的研判参考。 展开更多
关键词 可疑人员 情报研判 文本表示 词频-文档频率 词向量
下载PDF
基于TF-IDF和VOSviewer的我国应急救援现状可视化分析
16
作者 黄萍 张文龙 +2 位作者 叶圣琳 余君 余龙星 《中国安全科学学报》 CAS CSCD 北大核心 2023年第11期196-205,共10页
为有效利用消防救援队伍的实战记录资料挖掘应急救援战例成功经验,结合词频-逆文档频率(TF-IDF)算法和VOSviewer文献可视化分析技术,构建战例资料分析模型,分析战例成功与失败的共性规律和特点,总结我国应急救援现状及发展趋势。模型以2... 为有效利用消防救援队伍的实战记录资料挖掘应急救援战例成功经验,结合词频-逆文档频率(TF-IDF)算法和VOSviewer文献可视化分析技术,构建战例资料分析模型,分析战例成功与失败的共性规律和特点,总结我国应急救援现状及发展趋势。模型以2007—2019年间共185起应急救援典型战例为数据库,按照自然灾害、交通事故、建筑坍塌、危化品泄漏、火灾扑救等应急救援行动类型展开分析。结果表明:我国应急救援行动的影响因素主要表现在人(救援队伍)、机(装备技术)、环(环境)、管(管理)4个方面。其中,环境因素的影响几乎都是负面的,其他3个因素均有正负面影响。此外,不同应急救援行动类型的主导影响因素存在差异,自然灾害突出“机”;交通事故突出“管”;建筑坍塌突出“机”“环”;危化品泄漏在“人机环管”4个方面均有突出问题;火灾救援突出“机”。 展开更多
关键词 词频-文档频率(TF-IDF) VOSviewer 应急救援 消防救援 可视化分析 战例分析
下载PDF
基于集成学习技术的恶意软件检测方法 被引量:2
17
作者 李芳 朱子元 +1 位作者 闫超 孟丹 《信息安全学报》 CSCD 2024年第1期137-155,共19页
近年来,低级别微结构特征已被广泛应用于恶意软件检测。但是,微结构特征数据通常包含大量的冗余信息,且目前的检测方法并没有对输入微结构数据进行有效地预处理,这就造成恶意软件检测需要依赖于复杂的深度学习模型才能获得较高的检测性... 近年来,低级别微结构特征已被广泛应用于恶意软件检测。但是,微结构特征数据通常包含大量的冗余信息,且目前的检测方法并没有对输入微结构数据进行有效地预处理,这就造成恶意软件检测需要依赖于复杂的深度学习模型才能获得较高的检测性能。然而,深度学习检测模型参数量较大,难以在计算机底层得到实际应用。为了解决上述问题,本文提出了一种新颖的动态分析方法来检测恶意软件。首先,该方法创建了一个自动微结构特征收集系统,并从收集的通用寄存器(General-Purpose Registers,GPRs)数据中随机抽取子样本作为分类特征矩阵。相比于其他微结构特征,GPRs特征具有更丰富的行为特征信息,但也包含更多的噪声信息。因此,需要对GPRs数据进行特征区间分割,以降低数据复杂度并抑制噪声。本文随后采用词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)技术从抽取的特征矩阵中选择最具区分性的信息来进行恶意软件检测。TF-IDF技术可以有效降低特征矩阵的维度,从而提高检测效率。为了降低模型复杂度,并保证检测方法的性能,本文利用集成学习模型来识别恶意软件。实验表明,该集成学习模型具有99.3%的检测准确率,3.7%的误报率,优于其他现有方法且模型复杂度低。此外,该方法还可以用于检测真实数据中的恶意行为。 展开更多
关键词 恶意软件检测 通用寄存器 集成学习 词频-文档频率
下载PDF
基于VSM的文本相似度计算的研究 被引量:101
18
作者 郭庆琳 李艳梅 唐琦 《计算机应用研究》 CSCD 北大核心 2008年第11期3256-3258,共3页
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词... 文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TD-IDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。 展开更多
关键词 文本相似度 特征选择 词频文档频率 向量空间模型
下载PDF
基于MRMR的文本分类特征选择方法 被引量:9
19
作者 李军怀 付静飞 +2 位作者 蒋文杰 费蓉 王怀军 《计算机科学》 CSCD 北大核心 2016年第10期225-228,共4页
特征选择是文本分类技术中重要的处理步骤,特征词选择的优劣直接关系到后续文本分类结果的准确率。使用传统特征选择方法如互信息(MI)、信息增益(IG)、χ2统计量(CHI)等提取的特征词仍存在冗余。针对这一问题,通过结合词频-逆文档率(TF_... 特征选择是文本分类技术中重要的处理步骤,特征词选择的优劣直接关系到后续文本分类结果的准确率。使用传统特征选择方法如互信息(MI)、信息增益(IG)、χ2统计量(CHI)等提取的特征词仍存在冗余。针对这一问题,通过结合词频-逆文档率(TF_IDF)和最大相关最小冗余标准(MRMR),提出了一种基于MRMR的特征词二次选取方法 TFIDF_MRMR。实验结果表明,该方法可以较好地减少特征词之间的冗余,提高文本分类的准确率。 展开更多
关键词 特征选择 最大相关最小冗余 词频-文档率 文本分类
下载PDF
针对评论文本的情感分析方法 被引量:11
20
作者 杨玉娟 袁欢欢 王永利 《南京理工大学学报》 EI CAS CSCD 北大核心 2019年第3期280-285,291,共7页
为了克服传统基于机器学习的情感分析算法依赖手工建立情感词典、需要进行人工干预的缺点,该文提出1种加权word2vec注意力长短记忆网络(WWAL)情感分析模型。突出评论文本中关键词的作用,在word2vec的基础上引入了术语频率-逆文档频率(TF... 为了克服传统基于机器学习的情感分析算法依赖手工建立情感词典、需要进行人工干预的缺点,该文提出1种加权word2vec注意力长短记忆网络(WWAL)情感分析模型。突出评论文本中关键词的作用,在word2vec的基础上引入了术语频率-逆文档频率(TFIDF)算法形成词向量,同时在长期短期记忆(LSTM)网络模型中加入了注意力机制。在标准数据集上的实验证明,该文WWAL模型的查准率、召回率和F1指标等实验衡量指标均优于传统机器学习方法。 展开更多
关键词 评论文本 情感分析 术语频率-文档频率 长期短期记忆 注意力
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部