期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
面向中文短文本情感分析的改进特征选择算法 被引量:4
1
作者 王荣波 沈卓奇 +1 位作者 黄孝喜 谌志群 《杭州电子科技大学学报(自然科学版)》 2019年第1期45-50,共6页
在中文短文本情感分析的特征提取中,词频逆文本频率指数算法TF-IDF存在特征词分布计算片面性的缺陷,信息增益算法IG不能很好地提取短文本特征,为此,提出了一种改进特征选择算法ITFIDF-IG。根据短文本语料特点提高更具分类效果的特征词权... 在中文短文本情感分析的特征提取中,词频逆文本频率指数算法TF-IDF存在特征词分布计算片面性的缺陷,信息增益算法IG不能很好地提取短文本特征,为此,提出了一种改进特征选择算法ITFIDF-IG。根据短文本语料特点提高更具分类效果的特征词权重,降低了无关词的干扰,并考虑特征词在分布上体现的分类效果,有效提取出更具分类贡献度的特征词,更适应中文短文本的情感分析,取得较好的分类性能。 展开更多
关键词 特征选择 情感分析 词频逆文本频率指数 信息增益 中文短文本
下载PDF
一种融合改进TF-IDF与词典模型的情感分类算法 被引量:1
2
作者 王康静 钱江海 《上海电力大学学报》 CAS 2024年第1期80-86,共7页
针对传统情感文本分类算法存在情感特征词的极性偏好区分度较低和稳定性较差等问题,提出了一种改进词频-逆文本频率(TF-IDF)模型与词典模型相融合的情感文本分类算法。首先,通过情感特征词在不同情感类型语料中的频率分布和离散系数,度... 针对传统情感文本分类算法存在情感特征词的极性偏好区分度较低和稳定性较差等问题,提出了一种改进词频-逆文本频率(TF-IDF)模型与词典模型相融合的情感文本分类算法。首先,通过情感特征词在不同情感类型语料中的频率分布和离散系数,度量情感特征词极性偏好所包含的区分度和稳定性,生成情感特征词极性指标;然后,使用该指标改进TF-IDF模型的情感特征词权重;最后,基于改进的TF-IDF模型,使用带决策函数的有监督分类算法计算情感文本的极性得分,并与词典模型所得的极性得分进行调和平均,得到情感文本综合极性得分。 展开更多
关键词 词频-文本频率 情感极性 离散系数 词典模型
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:30
3
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-文本频率 词向量 隐含狄利克雷分布
下载PDF
基于Laplacian图谱的短文本聚类算法 被引量:2
4
作者 孟海宁 冯锴 +3 位作者 朱磊 张贝贝 童新宇 黑新宏 《电子学报》 EI CAS CSCD 北大核心 2021年第9期1716-1723,共8页
提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用... 提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用Laplacian矩阵的图谱聚类特性,对词频权值矩阵进行数据降维处理;然后依据Laplacian矩阵的特征值表示文本相似度的特点,选择前K个特征值对应的特征向量作为初始聚类中心,以减少聚类过程的迭代次数.在SSC、20 News Group及Microblog PCU数据集上进行相关实验,结果表明Laplacian图谱聚类算法比传统聚类算法,不仅具有更优的聚类结果与更快的收敛速度,而且受噪声点影响较小,有很好的鲁棒性. 展开更多
关键词 Laplacian图谱 词频-文本频率指数 文本聚类 向量空间模型 数据降维 特征权值
下载PDF
结合汉明距离及语义的文本相似度量方法研究 被引量:6
5
作者 胡维华 鲍乾 李柯 《杭州电子科技大学学报(自然科学版)》 2016年第3期36-41,共6页
利用VSM模型的TF-IDF算法对文本进行相似度量是文本信息处理领域的常用做法,但是该方法涉及到高维稀疏矩阵的处理,计算效率不高,不利于处理大规模文本,同时该方法忽略词项语义信息对文本的影响.另有一种基于语义的相似度算法可克服前一... 利用VSM模型的TF-IDF算法对文本进行相似度量是文本信息处理领域的常用做法,但是该方法涉及到高维稀疏矩阵的处理,计算效率不高,不利于处理大规模文本,同时该方法忽略词项语义信息对文本的影响.另有一种基于语义的相似度算法可克服前一种方法的语义缺点,但需要知识库的支持,其建立过程的繁杂使此类算法理论多过实践.为此提出一种新的文本相似度计算方法,方法综合TF-IDF算法以及HOWNET的语义信息,并利用汉明距离计算文本相似度,避开对高维稀疏矩阵的直接处理.实验结果表明,与常用方法相比较,处理速度更快、性能更好,适用于大规模文本处理. 展开更多
关键词 文本相似度 向量空间模型 词频文本频率 语义 汉明距离
下载PDF
基于TF-IDF与word2vec的台词文本分类研究 被引量:4
6
作者 但宇豪 黄继风 +1 位作者 杨琳 高海 《上海师范大学学报(自然科学版)》 2020年第1期89-95,共7页
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法.该方法通过引入信息熵及修正因子,缓解了数据不平衡对分... 为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法.该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%. 展开更多
关键词 词频-文本频率(TF-IDF) word2vec 信息熵 文本分类 机器学习 加权
下载PDF
基于FastText和关键句提取的中文长文本分类 被引量:5
7
作者 汪家成 薛涛 《计算机系统应用》 2021年第8期213-218,共6页
FastText是一种准确高效的文本分类模型,但直接应用在中文长文本分类领域存在准确度不高的问题.针对该问题,提出一种融合TextRank关键子句提取和词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)的FastText中文长文... FastText是一种准确高效的文本分类模型,但直接应用在中文长文本分类领域存在准确度不高的问题.针对该问题,提出一种融合TextRank关键子句提取和词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)的FastText中文长文本分类方法.该方法在FastText模型输入阶段使用TextRank算法提取文本的关键子句输入训练模型,同时采用TF-IDF提取文本的关键词作为特征补充,从而在减少训练语料的同时尽可能保留文本分类的关键特征.实验结果表明,此文本分类方法在数据集上准确率达到86.1%,比经典的FastText模型提高了约4%. 展开更多
关键词 文本分类 FastText TextRank 词频-文本频率
下载PDF
基于Simhash改进的文本去重算法 被引量:2
8
作者 张亚男 陈卫卫 +1 位作者 付印金 徐堃 《计算机技术与发展》 2022年第8期26-32,共7页
为了提高大规模文本去重算法Simhash对重复数据的检测精度,针对词袋(Bag of Words,BoW)模型无法体现特征词位置分布信息的缺点,提出一种改进的Simhash算法(P-Simhash)。该算法首先改进了Simhash计算特征词权重的方法,在由TF-IDF算法计... 为了提高大规模文本去重算法Simhash对重复数据的检测精度,针对词袋(Bag of Words,BoW)模型无法体现特征词位置分布信息的缺点,提出一种改进的Simhash算法(P-Simhash)。该算法首先改进了Simhash计算特征词权重的方法,在由TF-IDF算法计算得到特征词的权重的基础上,引入Jaccard相似度量对共现词的权重进行优化,以降低共现词权重过高对检测文本差异的影响。其次采用BDR算法降维思想,设计了体现特征词位置差异的签名方案,将特征词在文本中出现的位置特征转化为一组由二进制向量表示的签名。最后,将特征词哈希签名与位置特征签名加权求和的结果作为其对应的特征向量,与经过优化后的特征词权重进行二次加权,合并降维后得到新的文本签名。使用开放的搜狗新闻数据集进行实验,并与其他算法进行了性能比较。实验结果表明,P-Simhash算法在去重效果和执行效率上较传统的Simhash算法有明显提高。 展开更多
关键词 Simhash 文本去重 词频-文本频率 Jaccard相似度 二进制压缩算法 位置特征
下载PDF
基于词嵌入的短文本扩展分类方法 被引量:3
9
作者 卢俊宇 周翔翔 《指挥信息系统与技术》 2020年第4期70-73,共4页
短文本因其文本较短和文本特征稀疏,导致信息量少且抗噪能力弱,因此短文本分类问题面临着巨大挑战。提出了词嵌入、词相似度和词重要性共同作用的文本表示方法,在Word2vec上引入词语相似度,并通过相似度与词频-逆文本频率(TF-IDF)的乘... 短文本因其文本较短和文本特征稀疏,导致信息量少且抗噪能力弱,因此短文本分类问题面临着巨大挑战。提出了词嵌入、词相似度和词重要性共同作用的文本表示方法,在Word2vec上引入词语相似度,并通过相似度与词频-逆文本频率(TF-IDF)的乘积来表示扩展词语对短文本的影响因子,并构造短文本向量,从而实现短文本分类。试验结果表明,该方法的分类准确率优于传统的词袋法、直接采用Word2vec训练的词向量、词向量不加权直接扩展和仅考虑TF-IDF加权扩展等方法。 展开更多
关键词 Word2vec 词频-文本频率 相似度 文本表示 特征扩展
下载PDF
基于改进TF⁃IDF的电梯传媒广告推荐方法
10
作者 陈彦彬 杨泽华 +1 位作者 薛晓桂 黄锦钿 《现代计算机》 2023年第8期34-39,共6页
随着国家个人信息保护法的出台,电梯传媒终端精准广告投放面临多方面挑战,如何在不采集市民隐私信息的情况下,提高电梯传媒终端广告投放的精准度,为广告投放商提高经济效益是当前终端计算广告研究的重点,为此提出了基于改进TF⁃IDF的电... 随着国家个人信息保护法的出台,电梯传媒终端精准广告投放面临多方面挑战,如何在不采集市民隐私信息的情况下,提高电梯传媒终端广告投放的精准度,为广告投放商提高经济效益是当前终端计算广告研究的重点,为此提出了基于改进TF⁃IDF的电梯传媒广告推荐方法。利用改进的TF⁃IDF对电梯点周边POI、居民等情况进行标签提取,构建了电梯传媒终端标签向量模型;然后利用商户对电梯的评分计算商户对标签兴趣度,最后构建商户兴趣模型对TOP⁃N部电梯终端广告位进行排序,推荐给商户。实验结果表明,该推荐方法的准确率、召回率等均优于采用传统TF⁃IDF算法的结果,而且不用采集市民个人隐私数据,具有较强推广应用效益。 展开更多
关键词 词频-文本频率指数 传媒广告 标签评分 用户兴趣 个性化推荐
下载PDF
5G技术应用于医疗领域发展趋势的研究 被引量:1
11
作者 黄冠维 潘伟东 《科技与创新》 2023年第9期95-98,共4页
5G技术被引入到医疗行业将促使医疗的发展更具前瞻性。通过文本挖掘针对5G技术在医疗中的应用,开展实证分析。首先运用自然语言处理技术进行分词与词频-逆文本频率指数算法计算词权重,接着透过支持向量机构建分类模型并与不同的分类算... 5G技术被引入到医疗行业将促使医疗的发展更具前瞻性。通过文本挖掘针对5G技术在医疗中的应用,开展实证分析。首先运用自然语言处理技术进行分词与词频-逆文本频率指数算法计算词权重,接着透过支持向量机构建分类模型并与不同的分类算法进行比较,其平均准确率在90%以上。结果显示,5G技术能具体应用在医疗领域中的远程、监护、诊断、救治、治疗中并起到关键的作用。预期能从大量的文本中挖掘出5G技术应用的医疗领域并找出未来可持续发展的方向与前沿的研究趋势。 展开更多
关键词 文本挖掘 词频-文本频率指数 支持向量机 可持续发展
下载PDF
基于TF-IDF算法的P2P贷款违约预测模型 被引量:9
12
作者 章宁 陈钦 《计算机应用》 CSCD 北大核心 2018年第10期3042-3047,共6页
针对目前P2P贷款违约预测模型受限于借贷双方信息不对称性,未考虑投资人之间差异性的问题,提出了基于信息检索词频-逆文本频率(TF-IDF)算法的P2P贷款违约预测模型。首先以投资效用理论为基础,利用投资人历史投资收益率、贷款利率出价等... 针对目前P2P贷款违约预测模型受限于借贷双方信息不对称性,未考虑投资人之间差异性的问题,提出了基于信息检索词频-逆文本频率(TF-IDF)算法的P2P贷款违约预测模型。首先以投资效用理论为基础,利用投资人历史投资收益率、贷款利率出价等信息,建立基于投资人效用的贷款违约预测模型;然后,借鉴信息检索TF-IDF算法,构造投资人逆向投资比例因子,对投资人差异性进行量化度量,优化模型中投资人权重计算因子。实验结果表明,该模型预测准确度与其他模型相比平均提高了6%左右,并在不同的测试数据集上都保持最优。 展开更多
关键词 贷款违约预测 效用理论 信息检索 词频逆文本频率 个人对个人借贷 曲线下面积
下载PDF
基于Python语言数据服务平台设计与实现
13
作者 陈小敏 苏健光 欧文辉 《信息与电脑》 2023年第11期126-129,共4页
首先,数字服务平台数据分析利用Python爬虫技术采集广西数字服务平台的馆藏信息、图书信息、借阅信息等。其次,爬取豆瓣年度关注书籍的评论,运用后羿采集器对豆瓣图书信息进行采集,并将清洗后的数据通过Pandas和Matplotlib等可视化工具... 首先,数字服务平台数据分析利用Python爬虫技术采集广西数字服务平台的馆藏信息、图书信息、借阅信息等。其次,爬取豆瓣年度关注书籍的评论,运用后羿采集器对豆瓣图书信息进行采集,并将清洗后的数据通过Pandas和Matplotlib等可视化工具进行可视化展示。最后,运用词频-逆文本频率指数(Term Frequency Inverse Document Frequency,TF-IDF)算法对评论进行分析,对广西数字图书馆和豆瓣图书等各类数据进行对比分析,得出更加符合读者需求的数据信息,便于优化数字图书借阅服务,为数字图书馆提供数据支撑,以便平台管理员能够快速、有效地对数据服务平台进行决策。 展开更多
关键词 Python技术 数字服务平台 词频-文本频率指数(TF-IDF)算法 数据分析 决策
下载PDF
基于计数型布隆过滤器的可排序密文检索方法 被引量:2
14
作者 李勇 相中启 《计算机应用》 CSCD 北大核心 2018年第9期2554-2559,共6页
云计算环境下密文检索困难,已有的可搜索加密方案存在时间效率低、文件检索索引不支持更新、检索结果不能实现按精确度排序等问题。首先基于计数型布隆过滤器构建文件检索索引,将文件集中的关键词哈希映射到计数型布隆过滤器索引向量,... 云计算环境下密文检索困难,已有的可搜索加密方案存在时间效率低、文件检索索引不支持更新、检索结果不能实现按精确度排序等问题。首先基于计数型布隆过滤器构建文件检索索引,将文件集中的关键词哈希映射到计数型布隆过滤器索引向量,实现了按关键词进行密文检索,同时,支持密文检索索引的动态更新。其次,由于计数型布隆过滤器本身不具备语义功能,不能实现按相关度对检索结果排序,引入关键词频率矩阵和词频逆文本频率(TF-IDF)模型计算关键词的相关度分值,以实现按相关度分值对检索结果排序。最后,理论和实验性能分析证明了该方法的安全性、可更新能力、可排序能力和高效性。 展开更多
关键词 云计算 计数型布隆过滤器 词频逆文本频率模型 相关度分值 排序密文检索
下载PDF
基于语义空间的抽取式单文档摘要方法
15
作者 杨山 杨雅婷 +1 位作者 温正阳 米成刚 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第2期237-242,共6页
目前的抽取式单文档摘要方法未考虑原文中句子和原文语义信息相关度,针对该问题,提出一种基于语义空间的抽取式单文档摘要方法.首先,利用Word2Vec训练词向量以获取语义空间,并基于该语义空间表示句子和原文;然后,基于余弦相似度计算句... 目前的抽取式单文档摘要方法未考虑原文中句子和原文语义信息相关度,针对该问题,提出一种基于语义空间的抽取式单文档摘要方法.首先,利用Word2Vec训练词向量以获取语义空间,并基于该语义空间表示句子和原文;然后,基于余弦相似度计算句子与原文相似度值,并使用TextRank和词频-逆文本频率指数(TF-IDF)模型计算原文中句子的权重;最后,将相似度值与权重相结合得到句子的最终权重值.实验结果表明,该模型摘要质量优于基于深度学习的基线系统. 展开更多
关键词 文本摘要 Word2Vec TextRank 词频逆文本频率指数 句子-原文相似度 序列到序列
下载PDF
自然语言语义库构建方法研究 被引量:2
16
作者 杨菊英 江兵 罗佳 《重庆理工大学学报(自然科学)》 CAS 北大核心 2019年第10期103-108,共6页
自然语言语义语料库构建是智能云计算环境中实现信息交换的关键步骤,对语义语料库构造技术进行了分析,提出了一种基于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)和字向量距离的新型网页去重复算法,该方法专注... 自然语言语义语料库构建是智能云计算环境中实现信息交换的关键步骤,对语义语料库构造技术进行了分析,提出了一种基于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)和字向量距离的新型网页去重复算法,该方法专注于解决语音识别中的存储问题,为分词和句法分析提供功能支持。该方法可以直接用于语义语料库构建,能提高网页重复数据删除的效率。实验结果表明:该方法能实现云计算平台的语义库构建,且性能优于其他方法,说明了该方法的可行性和有效性。 展开更多
关键词 自然语言 语义库 词频-文本频率 字向量距离
下载PDF
基于TF-IDF与用户聚类的推荐算法 被引量:8
17
作者 林振荣 黄虹霞 +1 位作者 舒伟红 刘承启 《计算机仿真》 北大核心 2022年第6期341-345,共5页
针对基于用户协同过滤推荐算法未考虑物品特征对推荐效果存在影响的情况,提出基于TF-IDF(词频-逆文本频率指数)与用户聚类的推荐算法。利用TF-IDF算法得到物品的2类特征信息:用户-物品-特征TF值矩阵和特征的TF-IDF,将上述矩阵与用户身... 针对基于用户协同过滤推荐算法未考虑物品特征对推荐效果存在影响的情况,提出基于TF-IDF(词频-逆文本频率指数)与用户聚类的推荐算法。利用TF-IDF算法得到物品的2类特征信息:用户-物品-特征TF值矩阵和特征的TF-IDF,将上述矩阵与用户身份属性信息合并后利用K-means聚类分析缩小用户集,并利用特征的TF-IDF值改进相似度计算公式,经计算后生成推荐列表。通过实验分析参数取不同值情况下对推荐算法效果的影响,并将该算法与传统的基于用户的协同过滤算法进行比较,能够验证所提出的推荐算法更优,最终结果表示上述算法可以得到不错的推荐效果。 展开更多
关键词 基于用户 物品特征信息 词频-文本频率指数 聚类
下载PDF
基于轨迹时空词向量的用户年龄特征识别
18
作者 吴浩 张威强 张朋柱 《中文信息学报》 CSCD 北大核心 2019年第7期118-127,共10页
用户移动上网访问基站的轨迹数据从时间和空间上反映了用户的生活习惯和行为模式。时间和空间信息同时产生不应分别考虑。因此,该文在传统的TF-IDF方法基础上提出了与时间相关的TFT-IDFT方法,用以提取轨迹点语义信息,进而采用word2vec... 用户移动上网访问基站的轨迹数据从时间和空间上反映了用户的生活习惯和行为模式。时间和空间信息同时产生不应分别考虑。因此,该文在传统的TF-IDF方法基础上提出了与时间相关的TFT-IDFT方法,用以提取轨迹点语义信息,进而采用word2vec方法将轨迹数据转化为文档分析。提取包含位置信息和语义信息的轨迹时空词向量,在此基础上建立多分类模型对用户所属年龄段进行识别。实验结果表明,改进的TFT-IDFT方法在提取轨迹语义时更具合理性,且基于此方法构建的轨迹时空词向量应用于分类模型,对用户所属年龄阶段的识别效果更好。 展开更多
关键词 语义轨迹 词频文本频率 词向量 Word2vec 分类
下载PDF
潜在语义分析在词汇相似度中的应用
19
作者 马海昌 赵学锋 +1 位作者 杨晏 王济深 《甘肃科技纵横》 2014年第3期50-51,67,共3页
词汇相似度是信息检索、机器翻译、自动文摘、自动问答等应用研究的基础,它是自然语言处理领域中的重要研究课题。本论述研究潜在语义分析(Latent Semantic Analysis,LSA)在词汇相似度中的应用。
关键词 词汇相似度 词频-文本频率 潜在语义分析
下载PDF
提取关键字改进协同过滤算法的研究与应用
20
作者 李吉祺 黄刚 《计算机技术与发展》 2019年第6期154-158,共5页
协同过滤算法在遇到数据稀疏性问题时,其相似度计算过程会受到很大的影响,导致推荐结果不准确,影响推荐系统用户体验。而影评网站的影评往往很好地概括了电影的特征,从影评网站的影评文字中可以使用关键字提取算法提取特征来进行电影间... 协同过滤算法在遇到数据稀疏性问题时,其相似度计算过程会受到很大的影响,导致推荐结果不准确,影响推荐系统用户体验。而影评网站的影评往往很好地概括了电影的特征,从影评网站的影评文字中可以使用关键字提取算法提取特征来进行电影间的相似性计算。TF-IDF是一种高效而常用的关键词提取技术,其通过特定文档中词的相对频率和整个文档语料库中该词的反比例进行比较,最终得出该篇文章的关键字。利用文本信息提取关键字,进而通过文章的关键字词进行文章的相似度计算,可以有效地改进评价矩阵稀疏的问题。通过爬取电影的评价文字来进行关键字提取,改进评分矩阵较稀疏的电影的相似度计算,可以弥补稀疏矩阵的缺陷。实验结果表明,该算法有效提高了准确率、召回率和覆盖率,证明了算法的可行性。 展开更多
关键词 推荐系统 协同过滤 稀疏矩阵 词频文本频率指数 混合推荐
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部