期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
融合卡方统计和TF-IWF算法的特征提取和短文本分类方法 被引量:12
1
作者 李昌兵 段祺俊 +1 位作者 纪聪辉 张婷婷 《重庆理工大学学报(自然科学)》 CAS 北大核心 2021年第5期135-140,222,共7页
提出一种融合卡方统计和TF-IWF算法的短文本分类方法,通过卡方统计对训练数据集提取特征词,由TF-IWF算法赋予特征词权重,使用SVM分类器进行分类。实验结果表明:融合卡方统计和TF-IWF方法在文本分类准确率上提升3.1%,召回率提升5.2%,F1... 提出一种融合卡方统计和TF-IWF算法的短文本分类方法,通过卡方统计对训练数据集提取特征词,由TF-IWF算法赋予特征词权重,使用SVM分类器进行分类。实验结果表明:融合卡方统计和TF-IWF方法在文本分类准确率上提升3.1%,召回率提升5.2%,F1值提升3.7%。该方法扩大了特征词权重值的范围,使文本集的权值方差增大,一定程度上解决了短文本内容稀疏性的问题,从而提高短文本分类的性能。 展开更多
关键词 短文本 tf-iwf权重 特征提取 情感分类
下载PDF
融合LDA和TF-IWF的健康科普文章混合推荐方法研究 被引量:3
2
作者 周欢 张培颖 《图书馆研究》 2022年第3期26-35,共10页
为了帮助用户更有效率地求医问诊、减少医疗资源的浪费及促进在线健康平台发展,提出一种融合LDA和TF-IWF的健康科普文章混合推荐方法。首先,从在线健康社区获取用户提问文本及科普文章文本,对这些文本数据运用LDA主题模型进行建模,并结... 为了帮助用户更有效率地求医问诊、减少医疗资源的浪费及促进在线健康平台发展,提出一种融合LDA和TF-IWF的健康科普文章混合推荐方法。首先,从在线健康社区获取用户提问文本及科普文章文本,对这些文本数据运用LDA主题模型进行建模,并结合TF-IWF权重从海量的资源中找到用户需求主题及文章主题。然后,根据共同主题,采用协同过滤和基于内容的推荐算法生成基于用户的推荐列表和基于文章的推荐列表,对两个推荐列表的主题权重进行混合加权从而生成推荐结果,实现精准推荐和个性化推荐,提升在线健康社区用户健康素养,并减少医疗资源的浪费。实验结果表明,本研究采用的推荐方法可以降低数据维度及计算的复杂度,使权重取值更加合理化,具有较好的推荐效果。 展开更多
关键词 在线健康社区 科普文章推荐 LDA主题模型 tf-iwf权重
下载PDF
融合BTM主题特征的短文本分类方法 被引量:11
3
作者 郑诚 吴文岫 代宁 《计算机工程与应用》 CSCD 北大核心 2016年第13期95-100,共6页
针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不理想的问题,提出了一种融合BTM主题特征和改进了特征权重计算的综合特征提取方法来进行短文本分类。方法中,在TF-IWF的基础上降低词频权重并引入词分布熵,衍生出新的算法... 针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不理想的问题,提出了一种融合BTM主题特征和改进了特征权重计算的综合特征提取方法来进行短文本分类。方法中,在TF-IWF的基础上降低词频权重并引入词分布熵,衍生出新的算法计算权重。结合BTM主题模型中各主题下的主题词对词数较少的文档进行补充,并选择每篇文档在各个主题下的概率分布作为另一部分文档特征。通过KNN算法进行多组分类实验,结果证明该方法与传统的TF-IWF等方法计算特征进行比较,F1的结果提高了10%左右,验证了方法的有效性。 展开更多
关键词 短文本 权重计算 tf-iwf方法 主题模型
下载PDF
Web文本分类中特征项权重的研究 被引量:3
4
作者 刘辉 邵良杉 《科技和产业》 2010年第2期122-124,共3页
Web数据挖掘的主要研究内容是如何快速有效地在异构的、半结构化的、动态的Web信息资源获取有用信息,而Web文本分类是Web数据挖掘的核心。通过分析Web文本的特点,本文提出一种改进的TF-IWF特征项权重计算方法来对web文本进行分类。实验... Web数据挖掘的主要研究内容是如何快速有效地在异构的、半结构化的、动态的Web信息资源获取有用信息,而Web文本分类是Web数据挖掘的核心。通过分析Web文本的特点,本文提出一种改进的TF-IWF特征项权重计算方法来对web文本进行分类。实验表明,该方法提高了web文本分类系统的分类性能,具有较好的正确率和召回率。 展开更多
关键词 WEB数据挖掘 文本分类 特征项权重 tf-iwf
下载PDF
基于产品语义分析的汽车仪表盘设计方法研究 被引量:11
5
作者 邓昭 张璇 《机械设计》 CSCD 北大核心 2020年第7期132-137,共6页
针对汽车仪表盘设计过程中无法有效满足用户需求的问题,提出了基于产品语义分析的仪表盘设计方法。采用词语逆频率加权算法(TF-IWF)提取用户对产品需求评价中的关键词,利用Word2vec词向量模型计算使其向量化;利用K-Means将用户关键词进... 针对汽车仪表盘设计过程中无法有效满足用户需求的问题,提出了基于产品语义分析的仪表盘设计方法。采用词语逆频率加权算法(TF-IWF)提取用户对产品需求评价中的关键词,利用Word2vec词向量模型计算使其向量化;利用K-Means将用户关键词进行聚类,选取高权重的关键词作为产品特征来设计汽车仪表盘。该方法能够有效指导汽车仪表盘造型和界面的特征设计,帮助设计人员更好地把握产品开发方向,满足用户期望,为汽车仪表盘设计研究提供了一种新的思路与方法。 展开更多
关键词 产品设计 仪表盘设计 产品语义 tf-iwf Word2vec词向量模型
下载PDF
藏文文本相似度计算方法研究 被引量:2
6
作者 严李强 田博 +1 位作者 梁炜恒 杨欢欢 《高原科学研究》 CSCD 2021年第3期70-77,114,共9页
随着藏文文献数量的增加,原创性的藏文文献保护需求也越来越迫切,一个准确有效的藏文文本相似度计算方法就显得十分重要。文章针对藏文文字特殊结构导致藏文相似度计算不能照搬中英文文本相似度计算方法的问题,尝试按照《藏文编码字符... 随着藏文文献数量的增加,原创性的藏文文献保护需求也越来越迫切,一个准确有效的藏文文本相似度计算方法就显得十分重要。文章针对藏文文字特殊结构导致藏文相似度计算不能照搬中英文文本相似度计算方法的问题,尝试按照《藏文编码字符集》的标准对藏文字符以一定顺序编码后与词库中的近义词关联;然后将待测文本和对照文本向量化,再对向量化的文本进行关键词提取,并用各自获取的关键词修正向量;最后使用余弦相似度原理计算待测文本向量和对照文本向量的余弦值,以此表示两句话的相似度。针对关键词提取的有效性,文章分别研究了TF-IDF和TF-IWF两种方法在不同主题词语比例的语料库下召回关键词的情况,结果表明TF-IWF提取关键词时能降低语料库中不同主题词语比例对计算结果的影响。针对相似度计算结果的准确性,文章引入皮尔森相关系数进行结果准确度评价,基于TF-IWF的相似度计算方法的皮尔森相关系数为0.7108,表明该方法是一种适用于藏文文本相似度计算的有效方法。 展开更多
关键词 藏文 文本相似度 TF-IDF tf-iwf 余弦相似度原理
下载PDF
本体环境下用户偏好库的查询算法扩展 被引量:2
7
作者 李宝敏 韩岳松 《西安工业大学学报》 CAS 2007年第5期480-484,共5页
查全率,查准率的高低在很大程度上决定了一个智能搜索引擎的性能,而用户偏好库中的算法如果运用得当可明显提高查全率和查准率.在探讨了在基于本体的智能搜索中用户偏好库的作用和其类型,特别是客观世界中某一特定领域或主题的用户偏好... 查全率,查准率的高低在很大程度上决定了一个智能搜索引擎的性能,而用户偏好库中的算法如果运用得当可明显提高查全率和查准率.在探讨了在基于本体的智能搜索中用户偏好库的作用和其类型,特别是客观世界中某一特定领域或主题的用户偏好库之后,详细地研究了用户偏好库中用户兴趣剖像生成的提取算法,TF*IDF算法和TF*IWF*IWF算法和基于本体的查询扩展算法,并且讨论了各个算法之间的联系.论述了用户偏好库在基于本体的搜索系统中的独特意义.通过实验最终验证了这些算法可达到查全率为10.1%、查准率为81%的良好效果,进而证实基于本体在智能搜索中所体现的优势. 展开更多
关键词 本体 用户偏好库 兴趣剖像生成算法 TF*IDF算法 TF*IWF*IWF算法 扩展查询算法
下载PDF
基于Python的词云生成研究 被引量:2
8
作者 张若琪 王涵 +1 位作者 闫凌云 刘一辰 《信息与电脑》 2021年第5期201-203,共3页
在机器学习中,利用Python语言制作词云图为保护环境提供了新途径。基于此,本文主要讲述了如何利用Python词云生成技术对文本进行训练并生成词云图,首先对摘选文本进行jieba分词,然后利用IF-IWF算法更加精确地提取关键词,最终使用wordcl... 在机器学习中,利用Python语言制作词云图为保护环境提供了新途径。基于此,本文主要讲述了如何利用Python词云生成技术对文本进行训练并生成词云图,首先对摘选文本进行jieba分词,然后利用IF-IWF算法更加精确地提取关键词,最终使用wordcloud绘制出词云图,实现可视化,希望能够为相关研究提供借鉴。 展开更多
关键词 tf-iwf 分词 词云生成 环境治理
下载PDF
粤港澳大湾区人才培养政策演化及发展趋势
9
作者 杨培琛 莫赞 +1 位作者 周晓辉 赵琦智 《合作经济与科技》 2022年第7期119-121,共3页
为了揭示粤港澳大湾区人才培养政策演化规律以及产业未来发展趋势,运用LDA主题模型分阶段提取主题及每个主题下的关键词汇,揭示政策内容演化;运用TF-IWF算法分阶段提取每个政策文件的前n个关键词,揭示专业领域演化。研究结果表明:大湾... 为了揭示粤港澳大湾区人才培养政策演化规律以及产业未来发展趋势,运用LDA主题模型分阶段提取主题及每个主题下的关键词汇,揭示政策内容演化;运用TF-IWF算法分阶段提取每个政策文件的前n个关键词,揭示专业领域演化。研究结果表明:大湾区人才培养政策已经历探索、起步阶段,现处于高速发展阶段,高新技术、绿色金融、健康等专业领域将随着大湾区的发展逐渐壮大。为此,高新技术、绿色金融和健康等产业未来具有上升空间,创业者可加大探索力度,把握住大湾区未来的发展机遇,为大湾区创造价值。 展开更多
关键词 人才培养政策 LDA主题模型 tf-iwf算法 粤港澳大湾区
下载PDF
一种中小学汉语作文表现手法分类方法 被引量:1
10
作者 马晓丽 刘杰 +2 位作者 周建设 骆力明 史金生 《计算机应用与软件》 北大核心 2018年第10期49-54,共6页
为提升中小学汉语作文中存在的表现手法分类性能,选取引入方差的TF×IWF×IWF算法对其进行特征选择。其优势在于引入方差可以表征特征词汇在各类别之间的分布均匀程度,从而进一步确定特征词的重要性。鉴于使用引入方差的TF×... 为提升中小学汉语作文中存在的表现手法分类性能,选取引入方差的TF×IWF×IWF算法对其进行特征选择。其优势在于引入方差可以表征特征词汇在各类别之间的分布均匀程度,从而进一步确定特征词的重要性。鉴于使用引入方差的TF×IWF×IWF算法形成的文本特征向量太稀疏,因此采用Word2vec模型对词汇进行特征扩展。由于单独使用Word2vec模型难以体现文本中词汇的重要程度,继而使用上述权重计算算法对词向量进行加权。提出合并以上两种方法来表征表现手法文本特征,并利用SVM分类器对表现手法文本进行分类。实验结果表明,两种方法的结合使分类精确率平均提高3%。 展开更多
关键词 表现手法分类 TF×IWF×IWF 方差 Word2vec 加权
下载PDF
对基于本体的搜索中用户偏好库的算法研究
11
作者 韩岳松 李宝敏 《计算机技术与发展》 2007年第12期64-67,共4页
介绍了本体的基本概念及其基本的元素。探讨了在基于本体的智能搜索中用户偏好库的作用和其类型,特别是客观世界中某一特定领域或主题的搜索中用户偏好库的研究。研究了用户偏好库中用户兴趣剖像生成的提取算法,即TF*IDF算法和TF*IWF*IW... 介绍了本体的基本概念及其基本的元素。探讨了在基于本体的智能搜索中用户偏好库的作用和其类型,特别是客观世界中某一特定领域或主题的搜索中用户偏好库的研究。研究了用户偏好库中用户兴趣剖像生成的提取算法,即TF*IDF算法和TF*IWF*IWF算法和基于本体的查询扩展算法。并且讨论了各个算法之间的联系,论述了用户偏好库在基于本体的搜索系统中的独特作用。 展开更多
关键词 本体 用户偏好库 兴趣剖像生成算法 TF*IDF算法 TF*IWF*IWF算法 扩展查询算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部