期刊文献+
共找到44篇文章
< 1 2 3 >
每页显示 20 50 100
融合多元文本信息和注意力机制的方面级情感分类方法
1
作者 冯勇 徐健航 +1 位作者 王嵘冰 徐红艳 《计算机与数字工程》 2024年第3期903-908,共6页
为了解决当前情感分类方法对于文本信息利用不充分并且缺乏对用户偏好的考虑从而导致情感分类准确率不高的问题,论文引入注意力机制来处理多元文本,并利用SRNN模型来充分地提取文本的隐藏特征,提出了一种融合多元文本信息和注意力机制... 为了解决当前情感分类方法对于文本信息利用不充分并且缺乏对用户偏好的考虑从而导致情感分类准确率不高的问题,论文引入注意力机制来处理多元文本,并利用SRNN模型来充分地提取文本的隐藏特征,提出了一种融合多元文本信息和注意力机制的方面级情感分类方法。该方法以电商平台为研究对象,综合利用商品简介文本和用户评论文本,首先利用注意力机制使两种文本信息互相作用,得到融合了多元文本的表示向量;然后分别在正向和反向上进行处理以充分地提取文本的隐藏特征;最后对评论信息中涉及的不同方面分别以对应的方面处理模块进行训练,根据用户偏好得到其最感兴趣的方面,将特征向量输入该方面处理模块中,进行方面级情感极性计算,最终得到情感分类结果。论文在豆瓣数据集上进行了对比实验,实验结果表明,论文所提方法在准确率和F1值上相较于当前主流的基于LSTM、CNN的方法都有明显提升。 展开更多
关键词 情感分类 方面级 多元文本 注意力机制 SRNN
下载PDF
基于改进PageRank算法的银行零售业务客户价值排名研究
2
作者 王嵘冰 张子扬 柯娜 《辽宁大学学报(自然科学版)》 CAS 2023年第1期20-27,共8页
在银行零售业务交易系统中,如何在大量客户数据交易网络中挖掘出影响力高,潜在价值高的重要发展客户,从而制定相应的业务营销计划,对银行来说是一件至关重要的事情.本文提出一种基于PageRank的改进算法——IER(Improved Enhanced-RatioR... 在银行零售业务交易系统中,如何在大量客户数据交易网络中挖掘出影响力高,潜在价值高的重要发展客户,从而制定相应的业务营销计划,对银行来说是一件至关重要的事情.本文提出一种基于PageRank的改进算法——IER(Improved Enhanced-RatioRank)算法,该算法以客户作为节点,以主动交易金额构成出链权重因子作为有向边,构成一个客户交易网络有向图,通过添加交易次数活跃因子和时间有效性因子等重要因素,从多维角度可以精准有效地挖掘出重要发展客户.最后,利用RFM(Recency, Frequency, Monetary)模型来验证实验结果.实验结果表明,所提算法在银行零售业务交易系统中挖掘重要发展客户有良好的效果. 展开更多
关键词 PAGERANK算法 交易网络有向图 出链权重因子 交易次数活跃因子 时间有效性因子 RFM模型
下载PDF
面向用户需求的生成对抗网络多样性推荐方法 被引量:1
3
作者 冯勇 刘洋 +2 位作者 王嵘冰 徐红艳 张永刚 《小型微型计算机系统》 CSCD 北大核心 2023年第6期1192-1197,共6页
目前电商平台大多注重商品推荐的准确性而忽略了多样性,存在推荐结果高冗余、用户满意度低等问题.考虑用户需求从而实现多样性推荐可以提升商品购买率和用户满意度,为此本文提出了一种面向用户需求的生成对抗网络多样性推荐方法.该方法... 目前电商平台大多注重商品推荐的准确性而忽略了多样性,存在推荐结果高冗余、用户满意度低等问题.考虑用户需求从而实现多样性推荐可以提升商品购买率和用户满意度,为此本文提出了一种面向用户需求的生成对抗网络多样性推荐方法.该方法由生成模型和判别模型组成,其中,生成模型由四层结构组成,结合用户需求生成多样性商品表示.判别模型判定生成商品是否为真实商品,反馈给生成模型.最后,计算各商品与多样性商品表示的相似度,产生推荐列表.对比实验表明本文所提方法切实能够提高商品推荐的多样性,而且能够带来准确性的提升. 展开更多
关键词 个性化推荐 多样性 生成对抗网络 商品属性 用户需求
下载PDF
基于知识图谱的短视频实时推荐方法研究 被引量:2
4
作者 冯勇 孙宇 +1 位作者 徐红艳 王嵘冰 《辽宁大学学报(自然科学版)》 CAS 2023年第4期302-311,共10页
短视频可以使用户在碎片化的时间里获得丰富的内容信息,具有录制简单、传播速度快、占用带宽少等特征,得到了越来越多人的青睐.但同时短视频用户的兴趣具有时间敏感性,即倾向获取最新短视频,因此,提升短视频推荐的实时性是当前研究的热... 短视频可以使用户在碎片化的时间里获得丰富的内容信息,具有录制简单、传播速度快、占用带宽少等特征,得到了越来越多人的青睐.但同时短视频用户的兴趣具有时间敏感性,即倾向获取最新短视频,因此,提升短视频推荐的实时性是当前研究的热点.知识图谱可以将丰富的交互关系信息以及用户和短视频的属性信息融合起来,因此利用知识图谱进行表征,可以提升短视频推荐的实时性,本文提出了一种基于知识图谱的短视频实时推荐方法.该方法首先通过注意力机制提取短视频的属性特征,然后使用融合了时间信息的知识图卷积网络来表示丰富的用户与短视频的信息,用以表征用户的短期兴趣,同时将用户历史浏览信息通过图卷积得到用户的长期兴趣,最后通过RNN(循环神经网络)模型将长短期兴趣进行融合,得到最终的实时推荐结果.通过实验验证,本文所提方法比FM(因子分解机)、LSTM(长短时记忆)网络等主流的动态推荐方法的准确率、召回率均有所提升. 展开更多
关键词 实时推荐 短视频 知识图谱 图卷积网络 长短时记忆网络
下载PDF
融合时间信息的序列商品推荐模型
5
作者 徐红艳 党依铭 +1 位作者 冯勇 王嵘冰 《计算机技术与发展》 2023年第3期139-145,共7页
针对基于序列的推荐方法通常忽略用户的多种兴趣倾向,并且不能很好地获取用户在短期序列中的兴趣变化,从而导致推荐结果多样性不足的问题,提出了一种融合时间信息的序列商品推荐模型。首先,将用户的历史交互行为区分为短期序列与长期序... 针对基于序列的推荐方法通常忽略用户的多种兴趣倾向,并且不能很好地获取用户在短期序列中的兴趣变化,从而导致推荐结果多样性不足的问题,提出了一种融合时间信息的序列商品推荐模型。首先,将用户的历史交互行为区分为短期序列与长期序列,分别采取不同的方法进行建模。对于短期序列,在传统的门控循环单元(GRU)结构中加入时间门,单独处理序列中的时间信息,同时利用多头自注意力机制捕获用户在同一会话中不同的兴趣方向;对于长期序列,采用DeepFM模型进行建模。最后,利用自适应的门控结构融合用户的长短期兴趣,并根据得到的兴趣向量计算商品的得分,排序后进行推荐。在淘宝数据集上的对比实验表明,该模型相较于主流的协同过滤模型,基于RNN、DNN的推荐模型以及BINN模型在命中率、平均倒数排名两个指标上都具有显著优势。 展开更多
关键词 序列推荐 长短期兴趣 时间信息 多头自注意力机制 深度学习
下载PDF
BP神经网络隐含层节点数确定方法研究 被引量:168
6
作者 王嵘冰 徐红艳 +1 位作者 李波 冯勇 《计算机技术与发展》 2018年第4期31-35,共5页
在BP神经网络的众多参数中,隐含层节点数是其中一个非常重要的参数,它的设置对BP神经网络的性能影响很大,而且是导致"过拟合"现象的直接原因。目前理论上还不存在一种科学普遍的用于确定隐含层节点数的方法,应用时只是凭借设... 在BP神经网络的众多参数中,隐含层节点数是其中一个非常重要的参数,它的设置对BP神经网络的性能影响很大,而且是导致"过拟合"现象的直接原因。目前理论上还不存在一种科学普遍的用于确定隐含层节点数的方法,应用时只是凭借设计者以往的经验以及借助多次实验进行确定,因此无法高效地获得隐含层节点数。针对BP神经网络隐含层节点数的确定问题,提出一种"三分法"算法,用于快速确定BP神经网络的隐含层节点数的最优解。在Wine-data数据集上,通过Matlab仿真实验验证了"三分法"算法比传统方法获取隐含层节点数的效率提高了1.8倍,是一种行之有效的方法。 展开更多
关键词 BP神经网络 隐含层节点 三分法 最优解
下载PDF
基于标签和PageRank的重要微博用户推荐算法 被引量:14
7
作者 王嵘冰 安维凯 +1 位作者 冯勇 徐红艳 《计算机科学》 CSCD 北大核心 2018年第2期276-279,共4页
海量的微博信息使新进用户很难获取到其感兴趣的内容,重要微博用户推荐为新用户提供了一条有效获取信息的途径。目前,由于用户间的关系没有被充分考虑及缺乏对用户个性化标签的处理,导致重要微博用户推荐的准确率不高。为此,提出了一种... 海量的微博信息使新进用户很难获取到其感兴趣的内容,重要微博用户推荐为新用户提供了一条有效获取信息的途径。目前,由于用户间的关系没有被充分考虑及缺乏对用户个性化标签的处理,导致重要微博用户推荐的准确率不高。为此,提出了一种基于标签和PageRank的重要微博用户推荐算法。该算法首先对个性化标签进行分词、去噪、设置权重等处理,并将其作为用户兴趣的代表;然后根据PageRank计算模型来分析用户间的关系,结合标签相似度计算向新用户推荐与其兴趣相似的重要微博用户。实验表明,该算法由于融入了对微博用户关系和用户个性化标签的重要性分析,因此与基于标签和协同过滤的个性化推荐算法相比具有更高的重要微博用户推荐准确率。 展开更多
关键词 个性化推荐 PAGERANK 标签 微博
下载PDF
融合似然比相似度的协同过滤推荐算法研究 被引量:7
8
作者 王嵘冰 徐红艳 +1 位作者 冯勇 郭浩 《小型微型计算机系统》 CSCD 北大核心 2018年第7期1478-1481,共4页
在基于用户的协同过滤推荐算法中,用户相似度计算准确与否直接影响推荐系统的质量.目前,传统的相似度计算方法虽广泛使用,但仍存在较大的局限性,尤其在数据稀疏的情况下很难准确计算出用户相似度,容易出现过分放大或缩小的歧变,从而影... 在基于用户的协同过滤推荐算法中,用户相似度计算准确与否直接影响推荐系统的质量.目前,传统的相似度计算方法虽广泛使用,但仍存在较大的局限性,尤其在数据稀疏的情况下很难准确计算出用户相似度,容易出现过分放大或缩小的歧变,从而影响推荐算法的运行.因此,本文使用似然比相似度并结合欧几里得距离加以调整的方法计算用户的相似度,藉此解决推荐系统中在每个用户只有少量评分的情况下计算两个用户间相似度的问题.最后,在Movie Lens数据集上,将本文所提计算方法与其他传统计算方法应用到同一基于用户的协同过滤推荐算法中进行对比实验,结果表明,本文所提方法能够更加准确、有效地识别相似用户,从而提高了推荐的准确性. 展开更多
关键词 个性化推荐 协同过滤 相似度 似然比 数据稀疏
下载PDF
以竞赛为载体的应用创新型人才培养模式改革与实践——以数据科学与大数据专业为例 被引量:7
9
作者 王嵘冰 徐红艳 冯勇 《辽宁大学学报(自然科学版)》 CAS 2020年第2期124-129,共6页
学科竞赛对应用创新型人才能力的培养具有重要的作用.当今的学生有参与学科竞赛、提升自身能力的热情,但是由于缺乏专业的引导以及系统的学科竞赛培训,导致他们在参加学科竞赛时存在盲目性、连续性不够及竞赛成绩不理想等问题.针对上述... 学科竞赛对应用创新型人才能力的培养具有重要的作用.当今的学生有参与学科竞赛、提升自身能力的热情,但是由于缺乏专业的引导以及系统的学科竞赛培训,导致他们在参加学科竞赛时存在盲目性、连续性不够及竞赛成绩不理想等问题.针对上述问题,以数据科学与大数据专业为例,制定了相关的学科竞赛指导体系以及与之配套的学科竞赛课程体系,为学生参加学科竞赛提供更加全面、专业的指导,为本专业应用创新型人才培养目标的实现提供有力的保障. 展开更多
关键词 学科竞赛 应用创新型人才培养 指导体系 课程体系 数据科学与大数据
下载PDF
适合云服务环境的实数全同态加密方案 被引量:3
10
作者 王嵘冰 李雅囡 +1 位作者 徐红艳 冯勇 《信息网络安全》 CSCD 北大核心 2018年第11期49-56,共8页
用户隐私安全问题是云服务推广和应用中面临的首要问题,全同态加密方案是解决该问题的关键技术。目前主流方法是整数全同态加密方案,运算仅包含加法和乘法,加解密效率较低、安全性较差等不足导致其不适用于云服务环境。为解决上述问题,... 用户隐私安全问题是云服务推广和应用中面临的首要问题,全同态加密方案是解决该问题的关键技术。目前主流方法是整数全同态加密方案,运算仅包含加法和乘法,加解密效率较低、安全性较差等不足导致其不适用于云服务环境。为解决上述问题,文章提出了一种适合云服务环境的实数全同态加密方案。该方案基于复合同态理论,通过类模运算将其应用于实数范围,并在运算上添加了减法和除法,在丰富运算种类的同时,有效扩展了加密范围及应用领域。最后,将该方案应用于隐私保护领域的医疗测试数据集,并与n bit整数全同态加密方案和一种较快速的整数全同态加密方案在加解密时间和运算时间等方面进行比较。实验结果表明该方案在云服务环境下可以更为有效地扩展加密范围、缩短加解密时间,具有较高的安全性,是一种更适合云服务环境的全同态加密方案。 展开更多
关键词 隐私安全 云服务 全同态加密 实数 类模运算
下载PDF
基于相似主题和HITS的微博用户推荐算法研究 被引量:1
11
作者 王嵘冰 徐红艳 +1 位作者 冯勇 安维凯 《中文信息学报》 CSCD 北大核心 2019年第7期128-135,共8页
为了准确地为微博用户推荐相近兴趣领域的重要用户,有效提高用户对微博平台的依赖度。该文对传统的HITS算法进行了改进:通过分析微博用户社交网络结构,运用改进算法将微博用户划分为3类,在微博主题相似度计算中引入用户的权威度和中心度... 为了准确地为微博用户推荐相近兴趣领域的重要用户,有效提高用户对微博平台的依赖度。该文对传统的HITS算法进行了改进:通过分析微博用户社交网络结构,运用改进算法将微博用户划分为3类,在微博主题相似度计算中引入用户的权威度和中心度,最后根据用户类别进行微博用户推荐。实验中,使用爬取的微博数据对传统的推荐算法和该文的改进算法进行对比实验,由于所提算法在分析过程中考虑了用户结构信息、用户的权威度与中心度等多种因素,因而在准确率、召回率、F1值上均有明显提高。 展开更多
关键词 微博用户推荐 HITS 权威度 中心度 主题相似度
下载PDF
基于MapReduce的垂直FP-growth挖掘算法研究 被引量:2
12
作者 王嵘冰 徐红艳 魏莲莲 《计算机与数字工程》 2018年第7期1284-1287,1296,共5页
在大数据背景下,为了提高算法的并行度,论文提出了一种基于MapReduce的垂直FP-growth挖掘算法,将MapReduce模式和传统的挖掘算法相结合。首先由Map函数对事物数据库项进行解析,Reduce函数对频繁项的支持度进行计算并对全局频繁树进行合... 在大数据背景下,为了提高算法的并行度,论文提出了一种基于MapReduce的垂直FP-growth挖掘算法,将MapReduce模式和传统的挖掘算法相结合。首先由Map函数对事物数据库项进行解析,Reduce函数对频繁项的支持度进行计算并对全局频繁树进行合并,从而使垂直FP-growth算法的迭代过程并行化;然后,通过全局频繁项的计算得到准确的频繁项集和关联规则。最后,通过实验验证论文所提算法不仅能够保持原FP-growth算法的准确度,而且在大数据处理中具有较高的集群性能和执行效率。 展开更多
关键词 数据挖掘 垂直FP-growth算法 MAPREDUCE 并行计算
下载PDF
基于模板的Deep Web实体识别信息抽取方法研究
13
作者 王嵘冰 党小婉 +1 位作者 徐红艳 冯勇 《辽宁大学学报(自然科学版)》 CAS 2017年第2期97-104,共8页
Web技术的发展导致Web数据激增,其中Deep Web数据占主要部分.实体识别是开展模式识别、数据集成等Deep Web关键技术研究的首要前提.为提高实体识别的效率和准确性,提出了基于模板的Deep Web实体识别信息抽取方法.该方法拥有三个不同的... Web技术的发展导致Web数据激增,其中Deep Web数据占主要部分.实体识别是开展模式识别、数据集成等Deep Web关键技术研究的首要前提.为提高实体识别的效率和准确性,提出了基于模板的Deep Web实体识别信息抽取方法.该方法拥有三个不同的处理阶段:其中基于DOM树抽取规则的模板训练阶段最为关键,抽取规则通过结构分析和语义分析两个阶段完成,此外该方法还包含着数据准备和实体信息抽取两个辅助阶段.最后经实验验证所提方法在提升实体识别准确性的同时具有较好的信息抽取效率. 展开更多
关键词 DEEP WEB 实体识别 模板 语义分析 DOM树
下载PDF
基于向量构建和点击预测的在线视频课推荐模型
14
作者 王嵘冰 闫晓楠 +1 位作者 冯勇 徐红艳 《辽宁大学学报(自然科学版)》 CAS 2022年第3期214-224,共11页
随着信息技术的发展,视频逐渐代替文字成为信息传播的主要载体.在线视频课凭借不受时间和地点限制的优势,越来越受到广大求学者的青睐.各类在线教育平台推出大量在线视频课使学习者难以选择,“信息过载”现象严重.课程推荐模型是解决“... 随着信息技术的发展,视频逐渐代替文字成为信息传播的主要载体.在线视频课凭借不受时间和地点限制的优势,越来越受到广大求学者的青睐.各类在线教育平台推出大量在线视频课使学习者难以选择,“信息过载”现象严重.课程推荐模型是解决“信息过载”问题的有效手段,但现有课程推荐模型大多仅关注内容特征,没有融合标签特征、统计特征等信息,导致推荐效果欠佳.为此,本文提出了一种基于向量构建和点击预测的在线视频课推荐模型,该模型首先利用Word2Vec内容向量构建方法将所有视频课的内容以向量形式表示出来,该向量每个维度的隐语义都具有表现课程内容特征的能力;然后根据用户标记的专业、评价信息等标签特征构建用户向量,该向量的每个维度代表了用户对该维度隐语义的兴趣程度;接下来用余弦相似度进行用户和课程向量的计算,筛选出符合用户兴趣的视频课候选集;最后将候选课程的统计特征与用户向量连接,输入到多层感知机中,预测用户点击在线视频课的概率,依据概率排序得到在线视频课推荐列表.本文选取了3个当前应用的在线视频课推荐模型进行对比实验,实验结果显示,本文所给推荐模型在准确率和召回率等指标上均有较为显著的提升. 展开更多
关键词 课程推荐 在线学习 多层感知机 Word2Vec 潜在因素模型
下载PDF
辽宁企业云计算实施绩效的实证研究
15
作者 王嵘冰 王立君 《辽宁大学学报(哲学社会科学版)》 2015年第6期64-70,共7页
随着云计算技术的日渐成熟,这一新兴的信息技术越来越受到企业界的青睐。云计算如何才能在企业中得到广泛、成功的应用,是目前企业对于实施云计算信息化过程中密切关注的一个问题。为此,文中以辽宁企业为研究对象,通过对36家企业进行调... 随着云计算技术的日渐成熟,这一新兴的信息技术越来越受到企业界的青睐。云计算如何才能在企业中得到广泛、成功的应用,是目前企业对于实施云计算信息化过程中密切关注的一个问题。为此,文中以辽宁企业为研究对象,通过对36家企业进行调研所获取的数据,由此对企业自身基础、云计算在企业中实施管理及企业云计算实施绩效之间的关系进行了实证研究。分析结果表明:企业的自身基础和云计算实施管理均对企业云计算的实施绩效产生显著的正向影响。此外,企业的自身基础对云计算实施管理也有较显著的正向影响。该实证结论为辽宁省企业提高云计算实施绩效提供了有效参考,为云计算应用决策和政府推进信息化战略的实施提供了相关的理论依据。 展开更多
关键词 云计算 辽宁企业 实施绩效
下载PDF
云计算的应用绩效影响因素研究 被引量:1
16
作者 王嵘冰 《中国管理信息化》 2016年第24期62-63,共2页
云计算作为一种新兴的信息技术,近年来已经成为了学术界研究的热点,如何能在企业中广泛地推广并成功地应用,是目前企业信息化所关注的一个重点问题。本文分析了影响云计算应用绩效的主要因素,并认为企业自身基础、云计算供应商的可靠性... 云计算作为一种新兴的信息技术,近年来已经成为了学术界研究的热点,如何能在企业中广泛地推广并成功地应用,是目前企业信息化所关注的一个重点问题。本文分析了影响云计算应用绩效的主要因素,并认为企业自身基础、云计算供应商的可靠性和云计算实施管理都会对企业云计算应用绩效产生显著的影响。 展开更多
关键词 云计算 供应商 应用绩效
下载PDF
云计算环境下信息资源共享管理研究
17
作者 王嵘冰 徐红艳 +1 位作者 康鹏 谭畅 《中国管理信息化》 2016年第17期172-175,共4页
我国信息资源管理现在仍存在信息资源共享不深入,导致低水平重复建设和信息数字化不全面,阻碍信息资源共享两大问题。云计算作为信息技术的新突破,有费用低廉、可靠性高等自身特性,具有增加信息安全、革新存储观念等优势,来突破信息资... 我国信息资源管理现在仍存在信息资源共享不深入,导致低水平重复建设和信息数字化不全面,阻碍信息资源共享两大问题。云计算作为信息技术的新突破,有费用低廉、可靠性高等自身特性,具有增加信息安全、革新存储观念等优势,来突破信息资源共享困境。云计算作为新兴的IT技术,能够解决阻碍信息资源共享的两大问题,本文提出三条在云计算环境下信息资源共享的建议:制订统一分享规则,整合信息资源和资源共享市场化。 展开更多
关键词 云计算 云共享 信息资源 共享管理
下载PDF
融入页面跳出率的权威页面鉴别算法
18
作者 王嵘冰 刘鹤 《辽宁大学学报(自然科学版)》 CAS 2022年第4期307-313,共7页
传统的网页排序算法只考虑到用户对网页的访问量、网页更新率、网页转载次数等,而忽视了跳出率,跳出率是反映页面流量质量的重要指标.本文将网页跳出因素以权重因子形式融入网页排序Hyperlink-Induced Topic Search(HITS)算法中得到Boun... 传统的网页排序算法只考虑到用户对网页的访问量、网页更新率、网页转载次数等,而忽视了跳出率,跳出率是反映页面流量质量的重要指标.本文将网页跳出因素以权重因子形式融入网页排序Hyperlink-Induced Topic Search(HITS)算法中得到Bounce Rate HITS(BRHITS)算法,更新融入页面跳出率的权威页面鉴别算法的Authority值.实验过程中,利用爬取门户网站数据将HITS算法与基于内容相关性改进的HITS算法(GHITS)、BRHITS算法进行实验对比.实验结果表明,BRHITS算法比上述两种算法的查准率提高10%~30%.因此本文提出的算法能够在一定程度上改善页面排序质量. 展开更多
关键词 HITS算法 权威度 中心度 跳出率
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:31
19
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-逆文本频率 词向量 隐含狄利克雷分布
下载PDF
采用可变时间窗口的TIF-LDA微博主题模型 被引量:6
20
作者 冯勇 屈渤浩 +1 位作者 徐红艳 王嵘冰 《小型微型计算机系统》 CSCD 北大核心 2018年第9期2067-2071,共5页
微博是社交网络的主要形式,其短文本和时效性的特点能够体现出当前大众最新兴趣取向.微博文本不同于传统文本,其时效性的特点使得在对其进行主题挖掘时容易忽略时间因素而造成结果不准确.针对此问题,提出了采用可变时间窗口的TIF-LDA微... 微博是社交网络的主要形式,其短文本和时效性的特点能够体现出当前大众最新兴趣取向.微博文本不同于传统文本,其时效性的特点使得在对其进行主题挖掘时容易忽略时间因素而造成结果不准确.针对此问题,提出了采用可变时间窗口的TIF-LDA微博主题模型对微博主题分析做出时间限定,并基于微博发布的时间为微博词条添加时间权重,使用词条的时间权重之和作为词条在LDA主题挖掘计算中的影响因子.实验结果表明,相较于标准的LDA主题模型,本文所提模型能够更加准确地反映用户最新的关注热点. 展开更多
关键词 短文本 主题挖掘 可变时间窗口 时间影响因子 LDA
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部