期刊文献+
共找到125篇文章
< 1 2 7 >
每页显示 20 50 100
Sentiment Analysis on Twitter Data Using Term Frequency-Inverse Document Frequency
1
作者 Akash Addiga Sikha Bagui 《Journal of Computer and Communications》 2022年第8期117-128,共12页
This study is an exploratory analysis of applying natural language processing techniques such as Term Frequency-Inverse Document Frequency and Sentiment Analysis on Twitter data. The uniqueness of this work is establi... This study is an exploratory analysis of applying natural language processing techniques such as Term Frequency-Inverse Document Frequency and Sentiment Analysis on Twitter data. The uniqueness of this work is established by determining the overall sentiment of a politician’s tweets based on TF-IDF values of terms used in their published tweets. By calculating the TF-IDF value of terms from the corpus, this work displays the correlation between TF-IDF score and polarity. The results of this work show that calculating the TF-IDF score of the corpus allows for a more accurate representation of the overall polarity since terms are given a weight based on their uniqueness and relevance rather than just the frequency at which they appear in the corpus. 展开更多
关键词 Sentiment Analysis Twitter Data term frequency Inverse term frequency term frequency-inverse document frequency (TF-IDF) Social Media
下载PDF
基于集成学习技术的恶意软件检测方法 被引量:2
2
作者 李芳 朱子元 +1 位作者 闫超 孟丹 《信息安全学报》 CSCD 2024年第1期137-155,共19页
近年来,低级别微结构特征已被广泛应用于恶意软件检测。但是,微结构特征数据通常包含大量的冗余信息,且目前的检测方法并没有对输入微结构数据进行有效地预处理,这就造成恶意软件检测需要依赖于复杂的深度学习模型才能获得较高的检测性... 近年来,低级别微结构特征已被广泛应用于恶意软件检测。但是,微结构特征数据通常包含大量的冗余信息,且目前的检测方法并没有对输入微结构数据进行有效地预处理,这就造成恶意软件检测需要依赖于复杂的深度学习模型才能获得较高的检测性能。然而,深度学习检测模型参数量较大,难以在计算机底层得到实际应用。为了解决上述问题,本文提出了一种新颖的动态分析方法来检测恶意软件。首先,该方法创建了一个自动微结构特征收集系统,并从收集的通用寄存器(General-Purpose Registers,GPRs)数据中随机抽取子样本作为分类特征矩阵。相比于其他微结构特征,GPRs特征具有更丰富的行为特征信息,但也包含更多的噪声信息。因此,需要对GPRs数据进行特征区间分割,以降低数据复杂度并抑制噪声。本文随后采用词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)技术从抽取的特征矩阵中选择最具区分性的信息来进行恶意软件检测。TF-IDF技术可以有效降低特征矩阵的维度,从而提高检测效率。为了降低模型复杂度,并保证检测方法的性能,本文利用集成学习模型来识别恶意软件。实验表明,该集成学习模型具有99.3%的检测准确率,3.7%的误报率,优于其他现有方法且模型复杂度低。此外,该方法还可以用于检测真实数据中的恶意行为。 展开更多
关键词 恶意软件检测 通用寄存器 集成学习 词频-逆文档频率
下载PDF
基于改进TF-IDF与BERT的领域情感词典构建方法 被引量:1
3
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感词典 词频-逆文档频率 隐含狄利克雷分布 情感倾向点互信息算法 BERT模型
下载PDF
一种融合改进TF-IDF与词典模型的情感分类算法 被引量:1
4
作者 王康静 钱江海 《上海电力大学学报》 CAS 2024年第1期80-86,共7页
针对传统情感文本分类算法存在情感特征词的极性偏好区分度较低和稳定性较差等问题,提出了一种改进词频-逆文本频率(TF-IDF)模型与词典模型相融合的情感文本分类算法。首先,通过情感特征词在不同情感类型语料中的频率分布和离散系数,度... 针对传统情感文本分类算法存在情感特征词的极性偏好区分度较低和稳定性较差等问题,提出了一种改进词频-逆文本频率(TF-IDF)模型与词典模型相融合的情感文本分类算法。首先,通过情感特征词在不同情感类型语料中的频率分布和离散系数,度量情感特征词极性偏好所包含的区分度和稳定性,生成情感特征词极性指标;然后,使用该指标改进TF-IDF模型的情感特征词权重;最后,基于改进的TF-IDF模型,使用带决策函数的有监督分类算法计算情感文本的极性得分,并与词典模型所得的极性得分进行调和平均,得到情感文本综合极性得分。 展开更多
关键词 词频-逆文本频率 情感极性 离散系数 词典模型
下载PDF
长三角一体化发展特征与动力探究——基于TF-IDF算法与格兰杰检验
5
作者 关硕 赵雪 刘毅 《科技和产业》 2024年第5期40-47,共8页
从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设... 从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设主体对5个发展目标的注意力分配不均衡;在创新共建目标方面,地方主体的注意力变动会引起中央主体的注意力变动;长三角一体化发展呈现小间断大均衡特征,体现“自下而上”的地方主导模式。 展开更多
关键词 长三角一体化 话语制度主义 间断-均衡框架 TF-IDF(词频-逆文件频率)算法 格兰杰检验
下载PDF
Enhanced Topic-Aware Summarization Using Statistical Graph Neural Networks
6
作者 Ayesha Khaliq Salman Afsar Awan +2 位作者 Fahad Ahmad Muhammad Azam Zia Muhammad Zafar Iqbal 《Computers, Materials & Continua》 SCIE EI 2024年第8期3221-3242,共22页
The rapid expansion of online content and big data has precipitated an urgent need for efficient summarization techniques to swiftly comprehend vast textual documents without compromising their original integrity.Curr... The rapid expansion of online content and big data has precipitated an urgent need for efficient summarization techniques to swiftly comprehend vast textual documents without compromising their original integrity.Current approaches in Extractive Text Summarization(ETS)leverage the modeling of inter-sentence relationships,a task of paramount importance in producing coherent summaries.This study introduces an innovative model that integrates Graph Attention Networks(GATs)with Transformer-based Bidirectional Encoder Representa-tions from Transformers(BERT)and Latent Dirichlet Allocation(LDA),further enhanced by Term Frequency-Inverse Document Frequency(TF-IDF)values,to improve sentence selection by capturing comprehensive topical information.Our approach constructs a graph with nodes representing sentences,words,and topics,thereby elevating the interconnectivity and enabling a more refined understanding of text structures.This model is stretched to Multi-Document Summarization(MDS)from Single-Document Summarization,offering significant improvements over existing models such as THGS-GMM and Topic-GraphSum,as demonstrated by empirical evaluations on benchmark news datasets like Cable News Network(CNN)/Daily Mail(DM)and Multi-News.The results consistently demonstrate superior performance,showcasing the model’s robustness in handling complex summarization tasks across single and multi-document contexts.This research not only advances the integration of BERT and LDA within a GATs but also emphasizes our model’s capacity to effectively manage global information and adapt to diverse summarization challenges. 展开更多
关键词 SUMMARIZATION graph attention network bidirectional encoder representations from transformers Latent Dirichlet Allocation term frequency-inverse document frequency
下载PDF
融合DES和ECC算法的物联网隐私数据加密方法
7
作者 唐锴令 郑皓 《吉林大学学报(信息科学版)》 CAS 2024年第3期496-502,共7页
为避免物联网隐私数据在加密过程中产生较多重复数据,导致计算复杂度较高,降低计算效率和安全性问题,提出融合DES(Data Encryption Standard)和ECC(Ellipse Curve Ctyptography)算法的物联网隐私数据加密方法。首先,采用TF-IDF(Tem Freq... 为避免物联网隐私数据在加密过程中产生较多重复数据,导致计算复杂度较高,降低计算效率和安全性问题,提出融合DES(Data Encryption Standard)和ECC(Ellipse Curve Ctyptography)算法的物联网隐私数据加密方法。首先,采用TF-IDF(Tem Frequency-Inverse Document Frequency)算法提取物联网隐私数据中的特征向量,输入BP(Back Propagation)神经网络中并进行训练,利用IQPSO(Improved Quantum Particle Swarm Optimization)算法优化神经网络,完成对物联网隐私数据中重复数据的去除处理;其次,分别利用DES算法和ECC算法对物联网隐私数据实施一、二次加密;最后,采取融合DES和ECC算法进行数字签名加密,实现对物联网隐私数据的完整加密。实验结果表明,该算法具有较高的计算效率、安全性以及可靠性。 展开更多
关键词 DES算法 ECC算法 物联网数据加密 TF-IDF算法 IQPSO算法 数字签名
下载PDF
基于深度特征融合的协同推荐算法
8
作者 王成 《南京理工大学学报》 CAS CSCD 北大核心 2024年第4期460-468,共9页
深度神经网络存在数据稀疏性难题和推荐精度不高的问题,为此提出一种基于深度特征融合的协同推荐算法,通过将深度神经网络与协同过滤算法相融合来改善问题。首先利用二次多项式回归模型对用户-项目评分矩阵进行特征提取;其次利用深度神... 深度神经网络存在数据稀疏性难题和推荐精度不高的问题,为此提出一种基于深度特征融合的协同推荐算法,通过将深度神经网络与协同过滤算法相融合来改善问题。首先利用二次多项式回归模型对用户-项目评分矩阵进行特征提取;其次利用深度神经网络对所输入的潜在特征进行训练,生成用户-项目评分;最后利用词频-逆向文件频率算法所生成的推荐候选集,融合用户-项目评分并最终输出推荐结果。利用MovieLens评分数据进行实验,该文混合推荐算法的平均绝对差(MAE)和均方根误差(RMSE)分别为0.7459、0.8886,比传统深度神经网络分别提高14.143%与24.341%,也优于对照组的混合推荐模型。 展开更多
关键词 深度神经网络 二次多项式 词频-逆向文件频率 特征融合 相似度
下载PDF
社会网络环境下双驱动DEMATEL的群智知识融合应急决策方法
9
作者 陈兆芳 黄鹏城 黄文翰 《安全与环境学报》 CAS CSCD 北大核心 2024年第6期2336-2347,共12页
针对多属性应急群决策中决策属性缺少数据支持和公众难以参与决策过程的问题,提出了一种使用信任网络计算专家权重和融合公众知识与专家知识的双驱动模型的应急决策方法。首先,考虑传统模型只能依赖主观经验的不足,通过分析社交媒体中... 针对多属性应急群决策中决策属性缺少数据支持和公众难以参与决策过程的问题,提出了一种使用信任网络计算专家权重和融合公众知识与专家知识的双驱动模型的应急决策方法。首先,考虑传统模型只能依赖主观经验的不足,通过分析社交媒体中的文本数据来获得公众意见,并使用词频-逆文档频率算法(Term Frequency-Inverse Document Frequency, TF-IDF)提取意见中的关键信息,以公众大数据来获得数据驱动因素,同时,通过决策专家提供的专家知识,为决策过程提供知识驱动因素,构成双驱动的决策实验室分析法(Decision Making Trial and Evaluation Laboratory, DEMATEL)模型来建立评价属性体系,模型中影响因素的相互作用程度由公众大数据与专家评价共同决定,以得到公众知识数据与专家知识评价融合的结果;其次,使用社会网络表示专家之间的信任关系与信任强度,并通过Louvain算法对专家进行聚类,通过社会网络中节点的度中心性与接近中心性,得到个体的权重进而计算出各聚类权重,使用直觉模糊加权平均算子(Iterative Fuzzy Weighted Averaging, IFWA)结合决策偏好与属性权重,通过得分函数计算备选方案的得分,并依据得分结果对方案排序以得到最优的解决方案;最后,结合“7·20”郑州市突发暴雨案例证明了本方法的可行性和有效性。 展开更多
关键词 公共安全 决策实验室分析法(DEMATEL) 应急决策 词频-逆文档频率算法(TF-IDF) 群智融合
下载PDF
基于Softmax回归分类模型的网页搜索排序算法
10
作者 党米花 《吉林大学学报(信息科学版)》 CAS 2024年第5期985-990,共6页
针对网页搜索结果存在返回的网页与搜索的关键词领域不相关的领域漂移现象,导致用户无法搜索到需求信息的问题,提出基于Softmax回归分类模型的网页搜索排序算法。选择网页搜索文本特征,得到相应的特征项,利用向量表示模型,将选择的网页... 针对网页搜索结果存在返回的网页与搜索的关键词领域不相关的领域漂移现象,导致用户无法搜索到需求信息的问题,提出基于Softmax回归分类模型的网页搜索排序算法。选择网页搜索文本特征,得到相应的特征项,利用向量表示模型,将选择的网页搜索文本特征项转换为格式化数据,对网页搜索文本数据进行均衡处理,获取网页搜索文本数据集。采用Softmax回归分类模型,分类处理网页搜索文本数据集,预测网页搜索文本类别,通过Okapi BM25算法,对网页搜索文本进行排序操作,实现网页搜索排序。实验结果表明,所提算法具有较好的网页搜索排序,提升了网页搜索排序精度,避免网页搜索排序过程中的领域漂移现象。 展开更多
关键词 Softmax回归分类模型 网页搜索排序 文本预处理 TF-IDF算法 Okapi BM25算法
下载PDF
基于业务内容构建股票关联关系的股价预测
11
作者 杨江 孙晓梅 许韬 《计算机与现代化》 2024年第7期21-25,共5页
传统的股价预测方法大多基于单只股票的时间序列,而忽视了股票间复杂的相互影响关系。针对该问题,从构建更有效的股票组合角度出发,提出一种基于业务内容构建股票关联关系的股价预测方法。模型包含3个组件:关联关系构建组件、时序特征... 传统的股价预测方法大多基于单只股票的时间序列,而忽视了股票间复杂的相互影响关系。针对该问题,从构建更有效的股票组合角度出发,提出一种基于业务内容构建股票关联关系的股价预测方法。模型包含3个组件:关联关系构建组件、时序特征提取组件和关联关系捕捉组件。关联关系构建组件通过改进的TF-IDF提取上市公司年报中业务内容关键字的相似度来构建股票关联关系;时序特征提取组件利用LSTM提取股票交易数据的时序特征;关联关系捕捉组件利用GCN捕获股票间相互作用的高维特征,最后通过全连接层输出预测的股价。在中国A股市场的实验结果表明,该模型与用单只股票和基于行业关系的预测方法相比误差最小,拟合度最优,能更有效地预测股价,是一种能更充分捕捉股票间相互影响关系的股价预测模型。 展开更多
关键词 股票价格预测 业务内容 股票关联关系 词频-逆向文件频率 长短期记忆神经网络 图卷积神经网络
下载PDF
基于Document Triage的TF-IDF算法的改进 被引量:14
12
作者 李镇君 周竹荣 《计算机应用》 CSCD 北大核心 2015年第12期3506-3510,3514,共6页
针对TF-IDF算法在加权时没有考虑特征词本身在文档中重要度的问题,提出利用用户阅读时的阅读行为来改进TF-IDF。将Document Triage引入到TF-IDF中,利用IPM收集用户阅读中行为的相关信息,计算文档评分。由于用户的标注内容往往是文章的... 针对TF-IDF算法在加权时没有考虑特征词本身在文档中重要度的问题,提出利用用户阅读时的阅读行为来改进TF-IDF。将Document Triage引入到TF-IDF中,利用IPM收集用户阅读中行为的相关信息,计算文档评分。由于用户的标注内容往往是文章的重要内容,或者反映了用户的兴趣。因此,赋予用户标注词项更大的权重,将文档评分和用户的标注信息等作为因子引入到TF-IDF中,设计出改进的加权算法DT-TF-IDF。实验结果表明,相对传统TF-IDF算法,DT-TF-IDF的查全率、查准率,以及查准率和查全率的调和均值都有了一定的提高。DT-TF-IDF算法比传统TF-IDF算法更加有效,提高了文本相似度计算的准确性。 展开更多
关键词 TF-IDF document TRIAGE 标引 加权
下载PDF
基于TF-IDF和VOSviewer的我国应急救援现状可视化分析 被引量:1
13
作者 黄萍 张文龙 +2 位作者 叶圣琳 余君 余龙星 《中国安全科学学报》 CAS CSCD 北大核心 2023年第11期196-205,共10页
为有效利用消防救援队伍的实战记录资料挖掘应急救援战例成功经验,结合词频-逆文档频率(TF-IDF)算法和VOSviewer文献可视化分析技术,构建战例资料分析模型,分析战例成功与失败的共性规律和特点,总结我国应急救援现状及发展趋势。模型以2... 为有效利用消防救援队伍的实战记录资料挖掘应急救援战例成功经验,结合词频-逆文档频率(TF-IDF)算法和VOSviewer文献可视化分析技术,构建战例资料分析模型,分析战例成功与失败的共性规律和特点,总结我国应急救援现状及发展趋势。模型以2007—2019年间共185起应急救援典型战例为数据库,按照自然灾害、交通事故、建筑坍塌、危化品泄漏、火灾扑救等应急救援行动类型展开分析。结果表明:我国应急救援行动的影响因素主要表现在人(救援队伍)、机(装备技术)、环(环境)、管(管理)4个方面。其中,环境因素的影响几乎都是负面的,其他3个因素均有正负面影响。此外,不同应急救援行动类型的主导影响因素存在差异,自然灾害突出“机”;交通事故突出“管”;建筑坍塌突出“机”“环”;危化品泄漏在“人机环管”4个方面均有突出问题;火灾救援突出“机”。 展开更多
关键词 词频-逆文档频率(TF-IDF) VOSviewer 应急救援 消防救援 可视化分析 战例分析
下载PDF
基于知识图谱的商用飞机维修方案推荐系统集成建模 被引量:5
14
作者 邢雪琪 丁雨童 +2 位作者 夏唐斌 潘尔顺 奚立峰 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第3期512-521,共10页
针对我国商用飞机智能维修和数字化诊断的需求,面向非结构化故障隔离手册,提出新型BM长短期记忆网络(BM LSTM)算法.运用多数投票法融合条件随机场(CRF)、双向长短期记忆网络(BiLSTM)、BiLSTM CRF 3种实体识别算法,有效提高实体识别精度... 针对我国商用飞机智能维修和数字化诊断的需求,面向非结构化故障隔离手册,提出新型BM长短期记忆网络(BM LSTM)算法.运用多数投票法融合条件随机场(CRF)、双向长短期记忆网络(BiLSTM)、BiLSTM CRF 3种实体识别算法,有效提高实体识别精度.基于商用飞机维修故障诊断手册构建维修方案知识图谱,结合词频-逆向文件频率(TF-IDF)相似度算法与BM LSTM算法,设计商用飞机维修方案推荐系统,实现通过检索非结构化故障描述文本准确匹配到维修方案的功能.实验结果表明,利用商用飞机故障隔离手册构建知识图谱、基于所提创新方法开发的维修方案推荐系统,能够有效保证维修信息精确匹配,显著提高维修方案形成效率. 展开更多
关键词 商用飞机 故障隔离手册 BM长短期记忆网络(BM LSM) 知识图谱 词频-逆向文件频率(TF-IDF)相似度
下载PDF
我国省际中医药政策主题比较研究 被引量:2
15
作者 杨爽 李瑞锋 +6 位作者 安新颖 肖志鸿 王鸿蕴 王琰 苟欢 高鹏 黄友良 《中国药房》 CAS 北大核心 2023年第6期653-659,共7页
目的厘清我国各省份中医药政策的核心内容,为优化我国中医药政策体系结构和助力各地中医药产业传承创新提供参考。方法检索全国除港澳台地区外的31个省份的省直属机关网站,收集2000-2021年发布的中医药政策文本,基于词频-逆文档频率(TF-... 目的厘清我国各省份中医药政策的核心内容,为优化我国中医药政策体系结构和助力各地中医药产业传承创新提供参考。方法检索全国除港澳台地区外的31个省份的省直属机关网站,收集2000-2021年发布的中医药政策文本,基于词频-逆文档频率(TF-IDF)技术测定各省份政策文本关键词的重要性量值,进而分析各地方中医药政策间的相似性及差异性。结果与结论本研究共得到各省份有关中医药的政策文本99份,大部分政策文本在2016年之后发布。全国各地区中医药政策主题涵盖了建设中医药人才队伍、完善中医药服务体系、加强中药资源管理和推进中医药产业创新4个方面。各省份“医疗机构”“中药”“医疗”3个关键词的TF-IDF值高于其他关键词,表明各省份对中医药服务体系建设与中药资源管理方面的关注度明显高于其他方面。安徽与江苏、北京与河南、湖北与吉林、湖北与天津、湖北与云南的中医药政策相似度较高,所包含相同的关键词数量均为16个,因此可以鼓励上述地区加强交流合作,实现互促共进协同发展。在所有重要性比重大于0.2的关键词中,“藏医”为青海、西藏独有,“病种”为广东独有,北京“监督管理”的TF-IDF值更高,表明我国各省份中医药政策制定的侧重点各有不同。同时,各省份TF-IDF值排前10位的关键词中均没有与财政投入相关的词汇,绝大多数省份“信息化”一词的TF-IDF值排名均不在前列,建议可增加财政投入或鼓励社会筹资,并增设中医药领域“互联网+新业务”。 展开更多
关键词 中医药政策 政策文本分析 词频-逆文档频率技术 省际比较 量化研究
下载PDF
一种基于词频-逆文档频率和混合损失的表情识别算法 被引量:2
16
作者 蓝峥杰 王烈 聂雄 《计算机工程》 CAS CSCD 北大核心 2023年第1期295-302,310,共9页
面部表情能自然高效地表达人类的心理活动和思想状态,影响着人们的沟通交流过程。在诸多智能化应用中,人脸表情识别是人类与机器间建立情感交互的重要基础。在细粒度人脸表情识别任务中,由于特征提取网络对表情产生区域的关键特征处理不... 面部表情能自然高效地表达人类的心理活动和思想状态,影响着人们的沟通交流过程。在诸多智能化应用中,人脸表情识别是人类与机器间建立情感交互的重要基础。在细粒度人脸表情识别任务中,由于特征提取网络对表情产生区域的关键特征处理不足,从而引发细节特征信息丢失问题。提出一种词频-逆文档频率注意力机制TF-IDF SPA,通过该机制调整表情产生关键区域的注意力分布,强化网络对该区域关键细节特征的提取能力。同时,为了应对表情识别任务中普遍存在的类间差异小、类内差异大的问题,设计一种改进型混合加权损失函数,以增强表情类内聚拢性同时增大类间距离。依据数据集中样本的数量分布情况,动态调整损失函数的分类权重值,从而强化模型对小数据量样本的学习能力。在此基础上,将结构简单的TF-IDF SPA模块与卷积层共同堆叠以构建人脸表情识别网络。实验结果表明,该网络具有较好的人脸表情识别性能,在FER2013和CK+数据集上的分类准确率分别达到73.52%和98.27%。 展开更多
关键词 表情识别 FER2013数据集 CK+数据集 词频-逆文档频率 损失函数 注意力机制
下载PDF
基于TFIDF+LDA和Mini Batch K⁃means算法的在线课程推荐方法研究
17
作者 严武军 王丽蓉 《现代计算机》 2023年第23期15-20,共6页
在线教育资源急剧增长让学习者难以抉择,研究在线课程分类推荐,能帮助学习者快速获取所需资源。首先将潜在狄利克雷分配算法融入词频-逆向文件频率算法对数据进行预处理,生成词向量矩阵;之后采用Mini Batch K-means算法训练聚类模型,并... 在线教育资源急剧增长让学习者难以抉择,研究在线课程分类推荐,能帮助学习者快速获取所需资源。首先将潜在狄利克雷分配算法融入词频-逆向文件频率算法对数据进行预处理,生成词向量矩阵;之后采用Mini Batch K-means算法训练聚类模型,并采用T分布随机邻域嵌入降维算法对训练结果进行可视化分析。实验采用从Pluralsight在线课程API获取8016条数据进行实验,实验结果表明融入潜在狄利克雷分配算法的词频-逆向文件频率算法效果更好。 展开更多
关键词 词频逆向文件频率 潜在狄利克雷分配 Mini Batch K-means 在线课程推荐
下载PDF
一种融合字词双通道的Domain-Flux僵尸网络检测方法 被引量:1
18
作者 李晓冬 宋元凤 李育强 《计算机科学》 CSCD 北大核心 2023年第12期337-342,共6页
Domain-Flux是僵尸网络中常用的一种命令与控制信道隐蔽技术,其能有效躲避网络安全设备的检测。针对现有检测方法中对Domain-Flux域名信息提取不全面,无法有效捕获词典类域名关键分类特征的问题,提出了一种融合字词双通道的Domain-Flux... Domain-Flux是僵尸网络中常用的一种命令与控制信道隐蔽技术,其能有效躲避网络安全设备的检测。针对现有检测方法中对Domain-Flux域名信息提取不全面,无法有效捕获词典类域名关键分类特征的问题,提出了一种融合字词双通道的Domain-Flux僵尸网络检测方法。在字符向量和词根向量两个通道上分别采用卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)提取局部特征和全局特征,丰富输入域名的特征信息,提升分类性能。其中,字符向量通道针对随机字符域名提取局部空间特征,而词根向量通道基于TF-IDF算法,引入类内因子将词根重要性加权到词向量中,然后提取域名单词组合序列前后的时序特征。实验结果表明,与单一采用TextCNN或BiLSTM的模型相比,融合字词双通道的模型检测准确率分别提高7.12%和5.86%,针对词典类Domain-Flux的检测也具有更高的精确率。 展开更多
关键词 Domain-Flux 僵尸网络 TF-IDF 卷积神经网络 双向长短期记忆网络
下载PDF
Environmental complaint insights through text mining based on the driver,pressure,state,impact,and response(DPSIR)framework:Evidence from an Italian environmental agency
19
作者 Fabiana MANSERVISI Michele BANZI +5 位作者 Tomaso TONELLI Paolo VERONESI Susanna RICCI Damiano DISTANTE Stefano FARALLI Giuseppe BORTONE 《Regional Sustainability》 2023年第3期261-281,共21页
Individuals,local communities,environmental associations,private organizations,and public representatives and bodies may all be aggrieved by environmental problems concerning poor air quality,illegal waste disposal,wa... Individuals,local communities,environmental associations,private organizations,and public representatives and bodies may all be aggrieved by environmental problems concerning poor air quality,illegal waste disposal,water contamination,and general pollution.Environmental complaints represent the expressions of dissatisfaction with these issues.As the timeconsuming of managing a large number of complaints,text mining may be useful for automatically extracting information on stakeholder priorities and concerns.The paper used text mining and semantic network analysis to crawl relevant keywords about environmental complaints from two online complaint submission systems:online claim submission system of Regional Agency for Prevention,Environment and Energy(Arpae)(“Contact Arpae”);and Arpae's internal platform for environmental pollution(“Environmental incident reporting portal”)in the Emilia-Romagna Region,Italy.We evaluated the total of 2477 records and classified this information based on the claim topic(air pollution,water pollution,noise pollution,waste,odor,soil,weather-climate,sea-coast,and electromagnetic radiation)and geographical distribution.Then,this paper used natural language processing to extract keywords from the dataset,and classified keywords ranking higher in Term Frequency-Inverse Document Frequency(TF-IDF)based on the driver,pressure,state,impact,and response(DPSIR)framework.This study provided a systemic approach to understanding the interaction between people and environment in different geographical contexts and builds sustainable and healthy communities.The results showed that most complaints are from the public and associated with air pollution and odor.Factories(particularly foundries and ceramic industries)and farms are identified as the drivers of environmental issues.Citizen believed that environmental issues mainly affect human well-being.Moreover,the keywords of“odor”,“report”,“request”,“presence”,“municipality”,and“hours”were the most influential and meaningful concepts,as demonstrated by their high degree and betweenness centrality values.Keywords connecting odor(classified as impacts)and air pollution(classified as state)were the most important(such as“odor-burnt plastic”and“odor-acrid”).Complainants perceived odor annoyance as a primary environmental concern,possibly related to two main drivers:“odor-factory”and“odorsfarms”.The proposed approach has several theoretical and practical implications:text mining may quickly and efficiently address citizen needs,providing the basis toward automating(even partially)the complaint process;and the DPSIR framework might support the planning and organization of information and the identification of stakeholder concerns and priorities,as well as metrics and indicators for their assessment.Therefore,integration of the DPSIR framework with the text mining of environmental complaints might generate a comprehensive environmental knowledge base as a prerequisite for a wider exploitation of analysis to support decision-making processes and environmental management activities. 展开更多
关键词 Environmental complaints Text mining approach term frequency-inverse document frequency(TF-IDF) DRIVER PRESSURE STATE impact and response(DPSIR)framework Semantic network analysis Regional Agency for Prevention Environment and Energy(Arpae)
下载PDF
A Machine Learning-Based Technique with Intelligent WordNet Lemmatize for Twitter Sentiment Analysis
20
作者 S.Saranya G.Usha 《Intelligent Automation & Soft Computing》 SCIE 2023年第4期339-352,共14页
Laterally with the birth of the Internet,the fast growth of mobile stra-tegies has democratised content production owing to the widespread usage of social media,resulting in a detonation of short informal writings.Twi... Laterally with the birth of the Internet,the fast growth of mobile stra-tegies has democratised content production owing to the widespread usage of social media,resulting in a detonation of short informal writings.Twitter is micro-blogging short text and social networking services,with posted millions of quick messages.Twitter analysis addresses the topic of interpreting users’tweets in terms of ideas,interests,and views in a range of settings andfields.This type of study can be useful for a variation of academics and applications that need knowing people’s perspectives on a given topic or event.Although sentiment examination of these texts is useful for a variety of reasons,it is typically seen as a difficult undertaking due to the fact that these messages are frequently short,informal,loud,and rich in linguistic ambiguities such as polysemy.Furthermore,most contemporary sentiment analysis algorithms are based on clean data.In this paper,we offers a machine-learning-based sentiment analysis method that extracts features from Term Frequency and Inverse Document Frequency(TF-IDF)and needs to apply deep intelligent wordnet lemmatize to improve the excellence of tweets by removing noise.We also utilise the Random Forest network to detect the emotion of a tweet.To authenticate the proposed approach performance,we conduct extensive tests on publically accessible datasets,and thefindings reveal that the suggested technique significantly outperforms sentiment classification in multi-class emotion text data. 展开更多
关键词 Random Forest sentiment analysis social media term frequency and inverse document frequency TWITTER wordnet lemmatize
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部