期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
基于文本频率冗余的单模式匹配算法的研究
1
作者 王燕 李华 常军 《内蒙古大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第6期707-711,共5页
针对入侵检测系统中经典的BM、KMP等单模式匹配算法进行了分析,根据入侵检测数据的特点和匹配算法的基本原理,提出了文本频率冗余度的概念,设计实现了评估文本频率冗余度的算法.实验测试了其对于单模式匹配算法效率的影响,结果显示基于... 针对入侵检测系统中经典的BM、KMP等单模式匹配算法进行了分析,根据入侵检测数据的特点和匹配算法的基本原理,提出了文本频率冗余度的概念,设计实现了评估文本频率冗余度的算法.实验测试了其对于单模式匹配算法效率的影响,结果显示基于文本频率冗余智能地选择匹配算法,对于提高入侵检测系统的实时性能有实际的应用价值. 展开更多
关键词 入侵检测 单模式匹配 文本频率冗余度
下载PDF
基于词频-逆文本频率和社区划分的图书推荐算法 被引量:4
2
作者 曾斯炎 周锦 黄国华 《邵阳学院学报(自然科学版)》 2017年第2期19-22,37,共5页
本文提出一种基于图书内容的图书推荐算法。该算法利用词频-逆文本频率抽象图书特征向量,采用欧式距离度量图书相似性,使用CNM算法对图书相似性网络进行聚类,得到已知类别。当读者用户阅读、购买某本图书时,能够将该类别里的其他图书推... 本文提出一种基于图书内容的图书推荐算法。该算法利用词频-逆文本频率抽象图书特征向量,采用欧式距离度量图书相似性,使用CNM算法对图书相似性网络进行聚类,得到已知类别。当读者用户阅读、购买某本图书时,能够将该类别里的其他图书推荐给读者用户,方便其阅读或购买。 展开更多
关键词 图书推荐 复杂网络 社区发现 关键词频率 文本频率指数 聚类
下载PDF
基于文本频率页面分割算法对论坛正文提取
3
作者 马凯凯 钱亚赫 阮东跃 《中国水运(下半月)》 2018年第2期78-79,共2页
如何在网页数据中避开干扰的图标、广告、链接等"噪音"元素来提取正文是互联网数据处理的重点问题之一。网页的URL由网络协议、主机名、页面文件相对路径等多个部分组成,对于有多个页面的帖子,其URL十分相似。根据这一特性,... 如何在网页数据中避开干扰的图标、广告、链接等"噪音"元素来提取正文是互联网数据处理的重点问题之一。网页的URL由网络协议、主机名、页面文件相对路径等多个部分组成,对于有多个页面的帖子,其URL十分相似。根据这一特性,通过分析页面内的链接文本及结构特征,找出帖子所分布在的所有网址。再利用页面文本的频率特征,去除HTML标签后按空格对文本进行分词,根据其频率分布计算网页的分割标志,得到回帖所在的文本块。再用正则表达式提取时间信息,进一步去噪后即可得到主贴及回帖信息。 展开更多
关键词 网页链接相似度 文本频率 正则表达式 网页去噪
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:31
4
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-逆文本频率 词向量 隐含狄利克雷分布
下载PDF
基于Laplacian图谱的短文本聚类算法 被引量:2
5
作者 孟海宁 冯锴 +3 位作者 朱磊 张贝贝 童新宇 黑新宏 《电子学报》 EI CAS CSCD 北大核心 2021年第9期1716-1723,共8页
提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用... 提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用Laplacian矩阵的图谱聚类特性,对词频权值矩阵进行数据降维处理;然后依据Laplacian矩阵的特征值表示文本相似度的特点,选择前K个特征值对应的特征向量作为初始聚类中心,以减少聚类过程的迭代次数.在SSC、20 News Group及Microblog PCU数据集上进行相关实验,结果表明Laplacian图谱聚类算法比传统聚类算法,不仅具有更优的聚类结果与更快的收敛速度,而且受噪声点影响较小,有很好的鲁棒性. 展开更多
关键词 Laplacian图谱 词频-逆文本频率指数 文本聚类 向量空间模型 数据降维 特征权值
下载PDF
结合汉明距离及语义的文本相似度量方法研究 被引量:7
6
作者 胡维华 鲍乾 李柯 《杭州电子科技大学学报(自然科学版)》 2016年第3期36-41,共6页
利用VSM模型的TF-IDF算法对文本进行相似度量是文本信息处理领域的常用做法,但是该方法涉及到高维稀疏矩阵的处理,计算效率不高,不利于处理大规模文本,同时该方法忽略词项语义信息对文本的影响.另有一种基于语义的相似度算法可克服前一... 利用VSM模型的TF-IDF算法对文本进行相似度量是文本信息处理领域的常用做法,但是该方法涉及到高维稀疏矩阵的处理,计算效率不高,不利于处理大规模文本,同时该方法忽略词项语义信息对文本的影响.另有一种基于语义的相似度算法可克服前一种方法的语义缺点,但需要知识库的支持,其建立过程的繁杂使此类算法理论多过实践.为此提出一种新的文本相似度计算方法,方法综合TF-IDF算法以及HOWNET的语义信息,并利用汉明距离计算文本相似度,避开对高维稀疏矩阵的直接处理.实验结果表明,与常用方法相比较,处理速度更快、性能更好,适用于大规模文本处理. 展开更多
关键词 文本相似度 向量空间模型 词频—逆文本频率 语义 汉明距离
下载PDF
面向中文短文本情感分析的改进特征选择算法 被引量:4
7
作者 王荣波 沈卓奇 +1 位作者 黄孝喜 谌志群 《杭州电子科技大学学报(自然科学版)》 2019年第1期45-50,共6页
在中文短文本情感分析的特征提取中,词频逆文本频率指数算法TF-IDF存在特征词分布计算片面性的缺陷,信息增益算法IG不能很好地提取短文本特征,为此,提出了一种改进特征选择算法ITFIDF-IG。根据短文本语料特点提高更具分类效果的特征词权... 在中文短文本情感分析的特征提取中,词频逆文本频率指数算法TF-IDF存在特征词分布计算片面性的缺陷,信息增益算法IG不能很好地提取短文本特征,为此,提出了一种改进特征选择算法ITFIDF-IG。根据短文本语料特点提高更具分类效果的特征词权重,降低了无关词的干扰,并考虑特征词在分布上体现的分类效果,有效提取出更具分类贡献度的特征词,更适应中文短文本的情感分析,取得较好的分类性能。 展开更多
关键词 特征选择 情感分析 词频逆文本频率指数 信息增益 中文短文本
下载PDF
基于TF-IDF与word2vec的台词文本分类研究 被引量:4
8
作者 但宇豪 黄继风 +1 位作者 杨琳 高海 《上海师范大学学报(自然科学版)》 2020年第1期89-95,共7页
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法.该方法通过引入信息熵及修正因子,缓解了数据不平衡对分... 为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法.该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%. 展开更多
关键词 词频-逆文本频率(TF-IDF) word2vec 信息熵 文本分类 机器学习 加权
下载PDF
基于FastText和关键句提取的中文长文本分类 被引量:5
9
作者 汪家成 薛涛 《计算机系统应用》 2021年第8期213-218,共6页
FastText是一种准确高效的文本分类模型,但直接应用在中文长文本分类领域存在准确度不高的问题.针对该问题,提出一种融合TextRank关键子句提取和词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)的FastText中文长文... FastText是一种准确高效的文本分类模型,但直接应用在中文长文本分类领域存在准确度不高的问题.针对该问题,提出一种融合TextRank关键子句提取和词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)的FastText中文长文本分类方法.该方法在FastText模型输入阶段使用TextRank算法提取文本的关键子句输入训练模型,同时采用TF-IDF提取文本的关键词作为特征补充,从而在减少训练语料的同时尽可能保留文本分类的关键特征.实验结果表明,此文本分类方法在数据集上准确率达到86.1%,比经典的FastText模型提高了约4%. 展开更多
关键词 文本分类 FastText TextRank 词频-逆文本频率
下载PDF
基于Simhash改进的文本去重算法 被引量:2
10
作者 张亚男 陈卫卫 +1 位作者 付印金 徐堃 《计算机技术与发展》 2022年第8期26-32,共7页
为了提高大规模文本去重算法Simhash对重复数据的检测精度,针对词袋(Bag of Words,BoW)模型无法体现特征词位置分布信息的缺点,提出一种改进的Simhash算法(P-Simhash)。该算法首先改进了Simhash计算特征词权重的方法,在由TF-IDF算法计... 为了提高大规模文本去重算法Simhash对重复数据的检测精度,针对词袋(Bag of Words,BoW)模型无法体现特征词位置分布信息的缺点,提出一种改进的Simhash算法(P-Simhash)。该算法首先改进了Simhash计算特征词权重的方法,在由TF-IDF算法计算得到特征词的权重的基础上,引入Jaccard相似度量对共现词的权重进行优化,以降低共现词权重过高对检测文本差异的影响。其次采用BDR算法降维思想,设计了体现特征词位置差异的签名方案,将特征词在文本中出现的位置特征转化为一组由二进制向量表示的签名。最后,将特征词哈希签名与位置特征签名加权求和的结果作为其对应的特征向量,与经过优化后的特征词权重进行二次加权,合并降维后得到新的文本签名。使用开放的搜狗新闻数据集进行实验,并与其他算法进行了性能比较。实验结果表明,P-Simhash算法在去重效果和执行效率上较传统的Simhash算法有明显提高。 展开更多
关键词 Simhash 文本去重 词频-逆文本频率 Jaccard相似度 二进制压缩算法 位置特征
下载PDF
基于词嵌入的短文本扩展分类方法 被引量:3
11
作者 卢俊宇 周翔翔 《指挥信息系统与技术》 2020年第4期70-73,共4页
短文本因其文本较短和文本特征稀疏,导致信息量少且抗噪能力弱,因此短文本分类问题面临着巨大挑战。提出了词嵌入、词相似度和词重要性共同作用的文本表示方法,在Word2vec上引入词语相似度,并通过相似度与词频-逆文本频率(TF-IDF)的乘... 短文本因其文本较短和文本特征稀疏,导致信息量少且抗噪能力弱,因此短文本分类问题面临着巨大挑战。提出了词嵌入、词相似度和词重要性共同作用的文本表示方法,在Word2vec上引入词语相似度,并通过相似度与词频-逆文本频率(TF-IDF)的乘积来表示扩展词语对短文本的影响因子,并构造短文本向量,从而实现短文本分类。试验结果表明,该方法的分类准确率优于传统的词袋法、直接采用Word2vec训练的词向量、词向量不加权直接扩展和仅考虑TF-IDF加权扩展等方法。 展开更多
关键词 Word2vec 词频-逆文本频率 相似度 文本表示 特征扩展
下载PDF
基于TF-IDF的古籍文本内容特征提取方法 被引量:2
12
作者 龚科瑜 张一驰 《电子技术与软件工程》 2019年第17期130-131,共2页
本文结合自然语言处理技术,以《庄子》内七篇文本为例,计算词频和逆文本频率指数,进而智能化地得到了文本的字频分布和不同篇目的文本内容特征信息。该方法意在尝试运用计算机技术辅助古籍研究,取得了较好的效果。
关键词 古籍 文本特征 字频 文本频率
下载PDF
一种融合改进TF-IDF与词典模型的情感分类算法 被引量:2
13
作者 王康静 钱江海 《上海电力大学学报》 CAS 2024年第1期80-86,共7页
针对传统情感文本分类算法存在情感特征词的极性偏好区分度较低和稳定性较差等问题,提出了一种改进词频-逆文本频率(TF-IDF)模型与词典模型相融合的情感文本分类算法。首先,通过情感特征词在不同情感类型语料中的频率分布和离散系数,度... 针对传统情感文本分类算法存在情感特征词的极性偏好区分度较低和稳定性较差等问题,提出了一种改进词频-逆文本频率(TF-IDF)模型与词典模型相融合的情感文本分类算法。首先,通过情感特征词在不同情感类型语料中的频率分布和离散系数,度量情感特征词极性偏好所包含的区分度和稳定性,生成情感特征词极性指标;然后,使用该指标改进TF-IDF模型的情感特征词权重;最后,基于改进的TF-IDF模型,使用带决策函数的有监督分类算法计算情感文本的极性得分,并与词典模型所得的极性得分进行调和平均,得到情感文本综合极性得分。 展开更多
关键词 词频-逆文本频率 情感极性 离散系数 词典模型
下载PDF
基于余弦相似度和实例加权改进的贝叶斯算法 被引量:9
14
作者 王行甫 付欢欢 王琳 《计算机系统应用》 2016年第8期166-170,共5页
面对大量样本特征时很多分类器无法取得较好的分类效果,样本数有限导致贝叶斯算法无法获得精确的联合概率分布估计,在样本局部构建高质量分类器需要有效的样本相似性度量指标.针对以上问题,提出了一种基于余弦相似度进行实例加权改进的... 面对大量样本特征时很多分类器无法取得较好的分类效果,样本数有限导致贝叶斯算法无法获得精确的联合概率分布估计,在样本局部构建高质量分类器需要有效的样本相似性度量指标.针对以上问题,提出了一种基于余弦相似度进行实例加权改进的朴素贝叶斯分类算法.算法考虑特征对分类的决策权重不同,使用余弦相似度度量样本的相似性,选出最优训练样本子集,用相似度值作为训练样本的权值来训练修正后的贝叶斯模型进行分类.基于UCI数据集的对比实验结果表明,提出的改进算法易于实现且具有更高的平均分类准确率. 展开更多
关键词 实例加权 朴素贝叶斯 余弦相似度 文本频率 文本分类
下载PDF
基于TF-IDF算法的P2P贷款违约预测模型 被引量:9
15
作者 章宁 陈钦 《计算机应用》 CSCD 北大核心 2018年第10期3042-3047,共6页
针对目前P2P贷款违约预测模型受限于借贷双方信息不对称性,未考虑投资人之间差异性的问题,提出了基于信息检索词频-逆文本频率(TF-IDF)算法的P2P贷款违约预测模型。首先以投资效用理论为基础,利用投资人历史投资收益率、贷款利率出价等... 针对目前P2P贷款违约预测模型受限于借贷双方信息不对称性,未考虑投资人之间差异性的问题,提出了基于信息检索词频-逆文本频率(TF-IDF)算法的P2P贷款违约预测模型。首先以投资效用理论为基础,利用投资人历史投资收益率、贷款利率出价等信息,建立基于投资人效用的贷款违约预测模型;然后,借鉴信息检索TF-IDF算法,构造投资人逆向投资比例因子,对投资人差异性进行量化度量,优化模型中投资人权重计算因子。实验结果表明,该模型预测准确度与其他模型相比平均提高了6%左右,并在不同的测试数据集上都保持最优。 展开更多
关键词 贷款违约预测 效用理论 信息检索 词频逆文本频率 个人对个人借贷 曲线下面积
下载PDF
自然语言语义库构建方法研究 被引量:2
16
作者 杨菊英 江兵 罗佳 《重庆理工大学学报(自然科学)》 CAS 北大核心 2019年第10期103-108,共6页
自然语言语义语料库构建是智能云计算环境中实现信息交换的关键步骤,对语义语料库构造技术进行了分析,提出了一种基于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)和字向量距离的新型网页去重复算法,该方法专注... 自然语言语义语料库构建是智能云计算环境中实现信息交换的关键步骤,对语义语料库构造技术进行了分析,提出了一种基于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)和字向量距离的新型网页去重复算法,该方法专注于解决语音识别中的存储问题,为分词和句法分析提供功能支持。该方法可以直接用于语义语料库构建,能提高网页重复数据删除的效率。实验结果表明:该方法能实现云计算平台的语义库构建,且性能优于其他方法,说明了该方法的可行性和有效性。 展开更多
关键词 自然语言 语义库 词频-逆文本频率 字向量距离
下载PDF
基于TF-IDF与用户聚类的推荐算法 被引量:11
17
作者 林振荣 黄虹霞 +1 位作者 舒伟红 刘承启 《计算机仿真》 北大核心 2022年第6期341-345,共5页
针对基于用户协同过滤推荐算法未考虑物品特征对推荐效果存在影响的情况,提出基于TF-IDF(词频-逆文本频率指数)与用户聚类的推荐算法。利用TF-IDF算法得到物品的2类特征信息:用户-物品-特征TF值矩阵和特征的TF-IDF,将上述矩阵与用户身... 针对基于用户协同过滤推荐算法未考虑物品特征对推荐效果存在影响的情况,提出基于TF-IDF(词频-逆文本频率指数)与用户聚类的推荐算法。利用TF-IDF算法得到物品的2类特征信息:用户-物品-特征TF值矩阵和特征的TF-IDF,将上述矩阵与用户身份属性信息合并后利用K-means聚类分析缩小用户集,并利用特征的TF-IDF值改进相似度计算公式,经计算后生成推荐列表。通过实验分析参数取不同值情况下对推荐算法效果的影响,并将该算法与传统的基于用户的协同过滤算法进行比较,能够验证所提出的推荐算法更优,最终结果表示上述算法可以得到不错的推荐效果。 展开更多
关键词 基于用户 物品特征信息 词频-逆文本频率指数 聚类
下载PDF
基于改进特征加权的朴素贝叶斯分类算法 被引量:28
18
作者 丁月 汪学明 《计算机应用研究》 CSCD 北大核心 2019年第12期3597-3600,3627,共5页
传统朴素贝叶分类算法没有根据特征项的不同对其重要程度进行划分,使得分类结果不准确。针对这一问题,引入Jensen-Shannon(JS)散度,用JS散度来表示特征项所能提供的信息量,并针对JS散度存在的不足,从类别内与类别间的词频、文本频以及... 传统朴素贝叶分类算法没有根据特征项的不同对其重要程度进行划分,使得分类结果不准确。针对这一问题,引入Jensen-Shannon(JS)散度,用JS散度来表示特征项所能提供的信息量,并针对JS散度存在的不足,从类别内与类别间的词频、文本频以及用变异系数修正过的逆类别频率这三个方面考虑,对JS散度进行调整修正,最后计算出每一特征项的权值,将权值代入到朴素贝叶斯的公式中。通过与其他算法的对比实验证明,基于JS散度并从词、文本、类别三方面改进后的朴素贝叶斯算法的分类效果最好。因此基于JS散度特征加权的朴素贝叶斯分类算法与其他分类算法相比,其分类性能有很大提高。 展开更多
关键词 文本分类 朴素贝叶斯 JS散度 词频 文本频率 类别频率
下载PDF
基于改进TF⁃IDF的电梯传媒广告推荐方法
19
作者 陈彦彬 杨泽华 +1 位作者 薛晓桂 黄锦钿 《现代计算机》 2023年第8期34-39,共6页
随着国家个人信息保护法的出台,电梯传媒终端精准广告投放面临多方面挑战,如何在不采集市民隐私信息的情况下,提高电梯传媒终端广告投放的精准度,为广告投放商提高经济效益是当前终端计算广告研究的重点,为此提出了基于改进TF⁃IDF的电... 随着国家个人信息保护法的出台,电梯传媒终端精准广告投放面临多方面挑战,如何在不采集市民隐私信息的情况下,提高电梯传媒终端广告投放的精准度,为广告投放商提高经济效益是当前终端计算广告研究的重点,为此提出了基于改进TF⁃IDF的电梯传媒广告推荐方法。利用改进的TF⁃IDF对电梯点周边POI、居民等情况进行标签提取,构建了电梯传媒终端标签向量模型;然后利用商户对电梯的评分计算商户对标签兴趣度,最后构建商户兴趣模型对TOP⁃N部电梯终端广告位进行排序,推荐给商户。实验结果表明,该推荐方法的准确率、召回率等均优于采用传统TF⁃IDF算法的结果,而且不用采集市民个人隐私数据,具有较强推广应用效益。 展开更多
关键词 词频-逆文本频率指数 传媒广告 标签评分 用户兴趣 个性化推荐
下载PDF
基于计数型布隆过滤器的可排序密文检索方法 被引量:2
20
作者 李勇 相中启 《计算机应用》 CSCD 北大核心 2018年第9期2554-2559,共6页
云计算环境下密文检索困难,已有的可搜索加密方案存在时间效率低、文件检索索引不支持更新、检索结果不能实现按精确度排序等问题。首先基于计数型布隆过滤器构建文件检索索引,将文件集中的关键词哈希映射到计数型布隆过滤器索引向量,... 云计算环境下密文检索困难,已有的可搜索加密方案存在时间效率低、文件检索索引不支持更新、检索结果不能实现按精确度排序等问题。首先基于计数型布隆过滤器构建文件检索索引,将文件集中的关键词哈希映射到计数型布隆过滤器索引向量,实现了按关键词进行密文检索,同时,支持密文检索索引的动态更新。其次,由于计数型布隆过滤器本身不具备语义功能,不能实现按相关度对检索结果排序,引入关键词频率矩阵和词频逆文本频率(TF-IDF)模型计算关键词的相关度分值,以实现按相关度分值对检索结果排序。最后,理论和实验性能分析证明了该方法的安全性、可更新能力、可排序能力和高效性。 展开更多
关键词 云计算 计数型布隆过滤器 词频逆文本频率模型 相关度分值 排序密文检索
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部