期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
一种基于词频-逆文档频率和混合损失的表情识别算法 被引量:3
1
作者 蓝峥杰 王烈 聂雄 《计算机工程》 CAS CSCD 北大核心 2023年第1期295-302,310,共9页
面部表情能自然高效地表达人类的心理活动和思想状态,影响着人们的沟通交流过程。在诸多智能化应用中,人脸表情识别是人类与机器间建立情感交互的重要基础。在细粒度人脸表情识别任务中,由于特征提取网络对表情产生区域的关键特征处理不... 面部表情能自然高效地表达人类的心理活动和思想状态,影响着人们的沟通交流过程。在诸多智能化应用中,人脸表情识别是人类与机器间建立情感交互的重要基础。在细粒度人脸表情识别任务中,由于特征提取网络对表情产生区域的关键特征处理不足,从而引发细节特征信息丢失问题。提出一种词频-逆文档频率注意力机制TF-IDF SPA,通过该机制调整表情产生关键区域的注意力分布,强化网络对该区域关键细节特征的提取能力。同时,为了应对表情识别任务中普遍存在的类间差异小、类内差异大的问题,设计一种改进型混合加权损失函数,以增强表情类内聚拢性同时增大类间距离。依据数据集中样本的数量分布情况,动态调整损失函数的分类权重值,从而强化模型对小数据量样本的学习能力。在此基础上,将结构简单的TF-IDF SPA模块与卷积层共同堆叠以构建人脸表情识别网络。实验结果表明,该网络具有较好的人脸表情识别性能,在FER2013和CK+数据集上的分类准确率分别达到73.52%和98.27%。 展开更多
关键词 表情识别 FER2013数据集 CK+数据集 词频-文档频率 损失函数 注意力机制
下载PDF
基于词频-逆文档频率和法律本体的相似案例检索算法 被引量:2
2
作者 张云婷 叶麟 +1 位作者 方滨兴 张宏莉 《智能计算机与应用》 2021年第5期229-234,F0003,共7页
智慧检务是近年来研究的热点问题,而相似案例检索是智慧检务中公共法律服务模块的基本需求。传统的基于关键词的检索方式使案例的相似性仅局限在浅显的词语层面上,无法满足用户在文章和语义层面上的检索需求。针对公共法律服务中的相似... 智慧检务是近年来研究的热点问题,而相似案例检索是智慧检务中公共法律服务模块的基本需求。传统的基于关键词的检索方式使案例的相似性仅局限在浅显的词语层面上,无法满足用户在文章和语义层面上的检索需求。针对公共法律服务中的相似案例检索问题,该文以公共法律服务案例为研究对象,引入能够突出法律语义的案例要素,并以其为依据为案例建模,提出了一种基于语义的相似案例检索算法。该算法首先结合词频-逆文档频率和法律本体,提取出语料库中全部案例要素,再基于向量空间模型,通过欧氏距离计算出用户输入案例和语料库中各案例的相似程度,从而实现语义层面上的相似案例检索。通过对12348中国法网司法行政(法律服务)案例库中案例的分类实验可知,与传统的词频-逆文档频率提取关键词方法相比,该算法在监狱教改类案例分类上,其F1值提高了36.36%。 展开更多
关键词 语义检索 文本相似度计算 词频-文档频率 本体知识 案例要素
下载PDF
基于词频-逆文档频率(TFIDF)算法的公文处理智能推荐技术研究 被引量:4
3
作者 皎海军 杜胜贤 +1 位作者 廖晨阳 于劲松 《办公自动化》 2020年第13期23-26,共4页
随着人工智能技术的发展,越来越多的信息获取方式改变了我们的生活。这也给传统的OA(Office Automation)带来了新的发展方向。为助力OA智能化,本文将TFIDF(Term Frequency–Inverse Document Frequency)算法融合于传统OA系统。通过TFID... 随着人工智能技术的发展,越来越多的信息获取方式改变了我们的生活。这也给传统的OA(Office Automation)带来了新的发展方向。为助力OA智能化,本文将TFIDF(Term Frequency–Inverse Document Frequency)算法融合于传统OA系统。通过TFIDF算法挖掘办公人员处理过的历史公文构建用户画像,采用基于内容的文档推荐算法,将待办公文经过TFIDF算法处理后计算其与用户画像的余弦相似度来推荐办公人员。该算法能够有效解决公文办理中由于办公人员无相关公文办理经验造成的公文退回问题,从而提高公文的流转效率。 展开更多
关键词 OA系统 词频-文档频率(TFIDF) 余弦相似度 办公人员推荐
下载PDF
长三角一体化发展特征与动力探究——基于TF-IDF算法与格兰杰检验
4
作者 关硕 赵雪 刘毅 《科技和产业》 2024年第5期40-47,共8页
从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设... 从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设主体对5个发展目标的注意力分配不均衡;在创新共建目标方面,地方主体的注意力变动会引起中央主体的注意力变动;长三角一体化发展呈现小间断大均衡特征,体现“自下而上”的地方主导模式。 展开更多
关键词 长三角一体化 话语制度主义 间断-均衡框架 tf-idf(词频-文件频率)算法 格兰杰检验
下载PDF
基于改进TF-IDF与BERT的领域情感词典构建方法 被引量:1
5
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感词典 词频-文档频率 隐含狄利克雷分布 情感倾向点互信息算法 BERT模型
下载PDF
文本分类TF-IDF算法的改进研究 被引量:110
6
作者 叶雪梅 毛雪岷 +1 位作者 夏锦春 王波 《计算机工程与应用》 CSCD 北大核心 2019年第2期104-109,161,共7页
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分... 中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。 展开更多
关键词 新词 词频-文档频率(tf-idf) 向量空间模型 文本分类
下载PDF
基于TF-IDF分类算法的雷达情报分发技术 被引量:8
7
作者 余苗 杨瑞娟 +2 位作者 程伟 高路 程红斌 《计算机工程与设计》 CSCD 北大核心 2012年第5期1822-1826,共5页
为了提高情报分发的效率,解决雷达组网上信息过载的问题,提出了一种利用个性化推荐技术过滤情报用户感兴趣的情报信息的技术。根据情报用户兴趣多样性的特点和雷达情报的格式化特征,对情报用户兴趣的类别进行划分,并设计出基于层次向量... 为了提高情报分发的效率,解决雷达组网上信息过载的问题,提出了一种利用个性化推荐技术过滤情报用户感兴趣的情报信息的技术。根据情报用户兴趣多样性的特点和雷达情报的格式化特征,对情报用户兴趣的类别进行划分,并设计出基于层次向量空间模型;在此基础上,利用用户的历史情报信息和定制信息,运用TF-IDF算法挖掘用户兴趣,建立用户兴趣模型,通过实时情报与用户兴趣模型的匹配,将用户感兴趣的情报分发给用户。仿真实验结果表明,该算法能够较好地实现雷达情报的按需分发。 展开更多
关键词 情报按需分发 个性化推荐 层次向量空间模型 兴趣模型 词频-文档频率
下载PDF
基于TF-IDF分类算法的电磁态势情报分发 被引量:1
8
作者 张明阳 刘盼盼 文申平 《航天电子对抗》 2022年第4期31-35,共5页
为了提高电磁态势情报分发的灵活性,提出利用个性化推荐技术进行电磁态势情报分发。根据电磁态势情报用户兴趣多样性特点和电磁态势情报的格式化特征,对情报用户兴趣的类别进行划分,并设计层次向量空间模型。在此基础上利用情报用户的... 为了提高电磁态势情报分发的灵活性,提出利用个性化推荐技术进行电磁态势情报分发。根据电磁态势情报用户兴趣多样性特点和电磁态势情报的格式化特征,对情报用户兴趣的类别进行划分,并设计层次向量空间模型。在此基础上利用情报用户的历史情报信息和定制信息,运用TF-IDF算法挖掘用户兴趣,建立用户兴趣模型,通过电磁态势情报与用户兴趣模型的匹配完成情报推荐。仿真实验结果表明,该算法能够较好地实现电磁态势情报分发,满足情报分发灵活性要求。 展开更多
关键词 电磁态势情报分发 个性化推荐 层次向量空间模型 词频-文档频率
下载PDF
结合TF-IDF的企业生产隐患关联预警及可视化研究 被引量:12
9
作者 胡瑾秋 张曦月 吴志强 《中国安全科学学报》 CAS CSCD 北大核心 2019年第7期170-176,共7页
为有效利用企业在日常管理中积累的大量生产事故隐患记录,实现隐患预警,解决人工分析数据效率低、主观性强等问题,构建结合词频率-逆文档频率(TF-IDF)的企业生产隐患关联预警可视化模型。首先,运用先验(Apriori)关联规则算法挖掘各隐患... 为有效利用企业在日常管理中积累的大量生产事故隐患记录,实现隐患预警,解决人工分析数据效率低、主观性强等问题,构建结合词频率-逆文档频率(TF-IDF)的企业生产隐患关联预警可视化模型。首先,运用先验(Apriori)关联规则算法挖掘各隐患间的潜在联系,获取信息中的隐藏价值;然后,引入TF-IDF算法优化关联规则,找出隐患间的关键规则;最后,运用可视化技术直观地展现挖掘结果。研究表明:可视化模型能快速、准确地实现隐患预警;对关联规则的优化,解决了Apriori算法支持度依赖性强的问题;挖掘结果能为企业安全管理者提供整改方向与依据。 展开更多
关键词 词频-文档频率(tf-idf) 先验(Apriori)关联分析 优化排序 隐患预警 文本可视化
下载PDF
基于TF-IDF和VOSviewer的我国应急救援现状可视化分析 被引量:2
10
作者 黄萍 张文龙 +2 位作者 叶圣琳 余君 余龙星 《中国安全科学学报》 CAS CSCD 北大核心 2023年第11期196-205,共10页
为有效利用消防救援队伍的实战记录资料挖掘应急救援战例成功经验,结合词频-逆文档频率(TF-IDF)算法和VOSviewer文献可视化分析技术,构建战例资料分析模型,分析战例成功与失败的共性规律和特点,总结我国应急救援现状及发展趋势。模型以2... 为有效利用消防救援队伍的实战记录资料挖掘应急救援战例成功经验,结合词频-逆文档频率(TF-IDF)算法和VOSviewer文献可视化分析技术,构建战例资料分析模型,分析战例成功与失败的共性规律和特点,总结我国应急救援现状及发展趋势。模型以2007—2019年间共185起应急救援典型战例为数据库,按照自然灾害、交通事故、建筑坍塌、危化品泄漏、火灾扑救等应急救援行动类型展开分析。结果表明:我国应急救援行动的影响因素主要表现在人(救援队伍)、机(装备技术)、环(环境)、管(管理)4个方面。其中,环境因素的影响几乎都是负面的,其他3个因素均有正负面影响。此外,不同应急救援行动类型的主导影响因素存在差异,自然灾害突出“机”;交通事故突出“管”;建筑坍塌突出“机”“环”;危化品泄漏在“人机环管”4个方面均有突出问题;火灾救援突出“机”。 展开更多
关键词 词频-文档频率(tf-idf) VOSviewer 应急救援 消防救援 可视化分析 战例分析
下载PDF
基于改进M-ORB的视觉SLAM直接-闭环检测算法 被引量:2
11
作者 李伟 任孟瀚 +2 位作者 黄威豪 杜晓玉 周毅 《智能科学与技术学报》 2021年第4期482-491,共10页
直接法SLAM不在前端提取图像特征点,使得后端无法生成视觉词袋,这导致大部分直接法SLAM无法使用带有词袋模型的闭环检测来消除系统的累积误差。针对此问题,提出一种基于改进M-ORB的视觉SLAM直接-闭环检测算法,生成闭环检测所需的词袋模... 直接法SLAM不在前端提取图像特征点,使得后端无法生成视觉词袋,这导致大部分直接法SLAM无法使用带有词袋模型的闭环检测来消除系统的累积误差。针对此问题,提出一种基于改进M-ORB的视觉SLAM直接-闭环检测算法,生成闭环检测所需的词袋模型,然后采用词频-逆文档频率算法对视觉词典树各个子节点中的视觉单词进行自适应分配权重,得到场景信息的准确表述。在TUM、KITTI两种公开数据集上进行了对比实验,实验结果表明,所提出的算法能够有效检测到闭环,并在不降低准确性的同时,提高SLAM的实时性与鲁棒性。 展开更多
关键词 视觉SLAM 闭环检测 词袋模型 词频-文档频率
下载PDF
一种改进型TF-IDF文本聚类方法 被引量:16
12
作者 张蕾 姜宇 孙莉 《吉林大学学报(理学版)》 CAS 北大核心 2021年第5期1199-1204,共6页
针对传统词频-逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足,尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题,提出一种改进的TF-IDF文本聚类算法.采用2015—2019年吉林省科研机构发表论文数据进行对比实验,... 针对传统词频-逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足,尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题,提出一种改进的TF-IDF文本聚类算法.采用2015—2019年吉林省科研机构发表论文数据进行对比实验,分别用改进TF-IDF算法和传统TF-IDF算法先统计论文中的关键词词频,再通过K-means++算法进行聚类,最后使用随机森林算法分别评估聚类的准确性.实验结果表明,改进TF-IDF算法提高了分类的准确率. 展开更多
关键词 词频-文档频率(tf-idf) 混合聚类 交叉学科 基本科学指标数据库(ESI)文献
下载PDF
基于TF-IDF与word2vec的台词文本分类研究 被引量:4
13
作者 但宇豪 黄继风 +1 位作者 杨琳 高海 《上海师范大学学报(自然科学版)》 2020年第1期89-95,共7页
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法.该方法通过引入信息熵及修正因子,缓解了数据不平衡对分... 为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法.该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%. 展开更多
关键词 词频-文本频率(tf-idf) word2vec 信息熵 文本分类 机器学习 加权
下载PDF
基于改进TF-IDF可疑人员文本表示方法 被引量:4
14
作者 何隽飞 赵慧 何学明 《计算机工程与设计》 北大核心 2021年第2期396-401,共6页
为解决重大安保任务中,情报人员在进行可疑人员情报研判时效率低下的问题,提出一种面向情报研判的可疑人员文本表示方法。针对可疑人员信息库的特点,将文本分类领域的文本表示方法应用到情报研判领域,引入文本类别参数,改进TF-IDF算法,... 为解决重大安保任务中,情报人员在进行可疑人员情报研判时效率低下的问题,提出一种面向情报研判的可疑人员文本表示方法。针对可疑人员信息库的特点,将文本分类领域的文本表示方法应用到情报研判领域,引入文本类别参数,改进TF-IDF算法,提升算法提取分类特征的能力;通过属性加权的文本表示方法将可疑人员信息制作成特征向量,使用支持向量机实现可疑人员情报研判。实验验证了该方法的可行性,其研判精确率达到98.8%,满足实际研判任务要求的标准,为情报人员提供了高质量的研判参考。 展开更多
关键词 可疑人员 情报研判 文本表示 词频-文档频率 词向量
下载PDF
统计与规则相融合的领域术语抽取算法 被引量:12
15
作者 樊梦佳 段东圣 +2 位作者 杜翠兰 张仰森 佟玲玲 《计算机应用研究》 CSCD 北大核心 2016年第8期2282-2285,2306,共5页
针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性搭配规则与边界信息... 针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性搭配规则与边界信息出现概率知识库相结合的词语度筛选策略以及基于词频—逆文档频率(TF-IDF)的领域度筛选策略。运用此算法不但能抽取出领域的常见用词,还可以挖掘出领域新词。实验结果显示,基于该方法构建的领域术语抽取系统的准确率为84.33%,能够有效支持中文领域术语的自动抽取。 展开更多
关键词 领域术语抽取 词语度 领域度 左右信息熵扩展 边界检测 词频-文档频率
下载PDF
基于微博扩展的用户兴趣主题挖掘算法 被引量:4
16
作者 杨福强 王洪国 +2 位作者 董树霞 丁艳辉 尹传城 《计算机工程与设计》 北大核心 2015年第5期1214-1218,共5页
为解决基于微博的用户兴趣建模存在建模不全面的问题,提出一种基于微博扩展的用户兴趣主题挖掘算法。通过结合用户自身兴趣及用户关注人的兴趣来扩充微博用户兴趣,将兴趣分为长期兴趣、过期兴趣、近期兴趣,利用改进的TF.IDF算法分析相... 为解决基于微博的用户兴趣建模存在建模不全面的问题,提出一种基于微博扩展的用户兴趣主题挖掘算法。通过结合用户自身兴趣及用户关注人的兴趣来扩充微博用户兴趣,将兴趣分为长期兴趣、过期兴趣、近期兴趣,利用改进的TF.IDF算法分析相关微博内容,利用基于时间及文档频率加权的主题词重要度计算兴趣主题词得分,得出综合全面的用户兴趣。实验结果表明,综合分析用户及用户关注人的兴趣,可以有效得到真实、全面、包含潜在兴趣的用户个人兴趣。 展开更多
关键词 微博 用户兴趣 用户关注人 个性化 词频-文档频率 基于内容 协同过滤
下载PDF
基于TI-Rank的弹幕关键词提取方法 被引量:3
17
作者 何梓源 张仰森 +1 位作者 吴云芳 亓文法 《计算机工程与设计》 北大核心 2022年第2期580-586,共7页
为提供准确且更贴近日常用语的关键词,针对视频弹幕内容提出一种基于TI-RANK(TTF-ICDF-DWTextRank)的词频词义相结合的关键词提取模型。将标题内容进行分类得到标题的关键信息,将该信息用于词频提取构建TTF算法;进一步考虑词频与篇章数... 为提供准确且更贴近日常用语的关键词,针对视频弹幕内容提出一种基于TI-RANK(TTF-ICDF-DWTextRank)的词频词义相结合的关键词提取模型。将标题内容进行分类得到标题的关键信息,将该信息用于词频提取构建TTF算法;进一步考虑词频与篇章数对提取效果的影响,通过分段函数构建ICDF算法;引入语义维度信息并利用中文拼音作为编辑距离的计算单元构建DWTextRank模型。实验结果表明,TI-RANK模型提取关键词的F1值达到0.8以上,相较传统TF-IDF和TextRank算法提高了约20%。为更合理评价关键词提取的准确率,按照关键词重要程度降序排列定义三级梯度评价标准,该标准能够更好体现出排序靠前关键词的正确性对准确率的影响。 展开更多
关键词 词频-文档频率 文本关键词抽取 词频词义关键词提取 三级梯度评价标准 视频弹幕
下载PDF
基于K-means的政府公文聚类方法 被引量:3
18
作者 王荻智 李建宏 施运梅 《软件导刊》 2020年第6期201-204,共4页
政府公文数量巨大,不同政府网站公文分类规则不一,在引用和参考公文时可能发生混淆。针对该问题,基于政府公文题目、摘要和正文内容,采用K-means算法对公文进行分类。首先对政府公文进行分词及去停用词等数据预处理操作,再通过词频-逆... 政府公文数量巨大,不同政府网站公文分类规则不一,在引用和参考公文时可能发生混淆。针对该问题,基于政府公文题目、摘要和正文内容,采用K-means算法对公文进行分类。首先对政府公文进行分词及去停用词等数据预处理操作,再通过词频-逆文档频率(TF-IDF)权值计算方法,将处理后的政府文本信息转换成二维矩阵,然后采用K-means算法进行聚类。使用清华大学THUCTC文本分类系统对公文聚类结果进行测试。实验结果表明,采用K-means算法对公文进行聚类,准确率达到82.93%,远高于政府网站公文分类准确率。 展开更多
关键词 文本聚类 词频文档频率 K-MEANS算法
下载PDF
云环境下软件错误报告自动分类算法改进
19
作者 黄伟 林劼 江育娥 《计算机应用》 CSCD 北大核心 2016年第5期1212-1215,1221,共5页
用户提交的软件错误报告随意性大、主观性强且内容少导致自动分类正确率不高,需要花费大量人工干预时间。随着互联网的快速发展用户提交的错误报告数量也不断增加,如何在海量数据下提高其自动分类的精确度越来越受到关注。通过改进词频... 用户提交的软件错误报告随意性大、主观性强且内容少导致自动分类正确率不高,需要花费大量人工干预时间。随着互联网的快速发展用户提交的错误报告数量也不断增加,如何在海量数据下提高其自动分类的精确度越来越受到关注。通过改进词频-逆文档频率(TF-IDF),考虑到词条在类间和类内出现情况对文本分类的影响,提出一种基于软件错误报告数据集的改进多项式朴素贝叶斯算法,同时在Hadoop平台下使用MapReduce计算模型实现该算法的分布式版本。实验结果表明,改进的多项式朴素贝叶斯算法将F1值提高到71%,比原算法提高了27个百分点,同时在海量数据下可以通过拓展节点的方式缩短运行时间,有较好的执行效率。 展开更多
关键词 多项式朴素贝叶斯 错误报告 文本自动分类 词频-文档频率 云计算
下载PDF
基于Simhash改进的文本去重算法 被引量:2
20
作者 张亚男 陈卫卫 +1 位作者 付印金 徐堃 《计算机技术与发展》 2022年第8期26-32,共7页
为了提高大规模文本去重算法Simhash对重复数据的检测精度,针对词袋(Bag of Words,BoW)模型无法体现特征词位置分布信息的缺点,提出一种改进的Simhash算法(P-Simhash)。该算法首先改进了Simhash计算特征词权重的方法,在由TF-IDF算法计... 为了提高大规模文本去重算法Simhash对重复数据的检测精度,针对词袋(Bag of Words,BoW)模型无法体现特征词位置分布信息的缺点,提出一种改进的Simhash算法(P-Simhash)。该算法首先改进了Simhash计算特征词权重的方法,在由TF-IDF算法计算得到特征词的权重的基础上,引入Jaccard相似度量对共现词的权重进行优化,以降低共现词权重过高对检测文本差异的影响。其次采用BDR算法降维思想,设计了体现特征词位置差异的签名方案,将特征词在文本中出现的位置特征转化为一组由二进制向量表示的签名。最后,将特征词哈希签名与位置特征签名加权求和的结果作为其对应的特征向量,与经过优化后的特征词权重进行二次加权,合并降维后得到新的文本签名。使用开放的搜狗新闻数据集进行实验,并与其他算法进行了性能比较。实验结果表明,P-Simhash算法在去重效果和执行效率上较传统的Simhash算法有明显提高。 展开更多
关键词 Simhash 文本去重 词频-文本频率 Jaccard相似度 二进制压缩算法 位置特征
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部