期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
中文领域情感词典自适应学习方法 被引量:14
1
作者 叶霞 曹军博 +2 位作者 许飞翔 郭鸿燕 尹列东 《计算机工程与设计》 北大核心 2020年第8期2231-2237,共7页
针对领域情感词典的局限性,提出一种中文领域情感词典自适应学习方法。从中文基础情感词典中选取少量种子词,采用基于CBOW模型和基于句法规则两种抽取方法,对领域语料库进行候选情感词的抽取,通过改进的SO_PMI算法对得到的候选情感词进... 针对领域情感词典的局限性,提出一种中文领域情感词典自适应学习方法。从中文基础情感词典中选取少量种子词,采用基于CBOW模型和基于句法规则两种抽取方法,对领域语料库进行候选情感词的抽取,通过改进的SO_PMI算法对得到的候选情感词进行情感极性判定,形成领域正负情感词典。实验结果表明,该方法能够自适应生成领域情感词典,情感词识别准确率较高,该模型在中文情感分析应用中取得了较好的效果。 展开更多
关键词 情感分析 领域情感 情感极性 CBOW连续词袋模型 PMI算法
下载PDF
融合语义特征和知识特征的推荐模型
2
作者 郑光 朱越 +2 位作者 时雷 马新明 席磊 《计算机工程与设计》 北大核心 2023年第8期2506-2515,共10页
针对传统推荐模型面临的数据稀疏性问题,提出一种基于结合注意力机制的门控循环单元的融合语义和知识特征的推荐模型。基于知识图谱,使用连续词袋模型捕获项目实体对应的语义特征,依据“偏好扩散”思想进行知识特征的学习,将不同层面特... 针对传统推荐模型面临的数据稀疏性问题,提出一种基于结合注意力机制的门控循环单元的融合语义和知识特征的推荐模型。基于知识图谱,使用连续词袋模型捕获项目实体对应的语义特征,依据“偏好扩散”思想进行知识特征的学习,将不同层面特征进行融合后,使用结合注意力机制的门控循环单元挖掘用户潜在兴趣偏好。基于MovieLens数据集的对比实验结果表明,所提模型能够有效提升推荐效果并缓解数据稀疏性问题,通过消融实验验证了该模型各个组件的有效性。 展开更多
关键词 推荐模型 知识图谱 特征融合 门控循环单元 注意力机制 语义特征 连续词袋
下载PDF
基于多源数据分析的区域划分形态识别与优化技术研究 被引量:1
3
作者 吴靖 《电子设计工程》 2023年第14期57-61,共5页
传统的城市区域功能识别通常采用移动轨迹分析、POI兴趣点追踪技术来实现,手段单一且准确率较低。针对此问题,文中提出了一种基于多源数据融合分析的城市区域功能识别算法。该算法利用人群活动多源数据与自然语言文字处理的对应关系,使... 传统的城市区域功能识别通常采用移动轨迹分析、POI兴趣点追踪技术来实现,手段单一且准确率较低。针对此问题,文中提出了一种基于多源数据融合分析的城市区域功能识别算法。该算法利用人群活动多源数据与自然语言文字处理的对应关系,使用Word2vec训练网络对人群活动数据进行训练。对于传统K-means聚类算法所存在的不足,从多个方面对其进行改进,改进后算法的聚类效果更优,同时还具有一定的隐私性,可以有效保证数据安全。实验测试结果表明,所提算法能够识别出的区域种类在对比算法中最多,且训练网络的准确率高达90.5%,能够实现城市区域功能的准确识别。 展开更多
关键词 多源数据分析 区域识别 连续词袋模型 K-MEANS 数据聚类 城市规划
下载PDF
基于Scratch作品相似度的检测研究
4
作者 张锦 胡子达 +3 位作者 陆玟冰 杨定康 李强 罗元盛 《计算机技术与发展》 2023年第10期143-149,共7页
Scratch作为图形化编程中的热门课程吸引了广大中小学生,而对于学生所做的作品与标准作品之间差异性的评定通常是靠教师通过人工对比检查,对于教师不仅工作量大且耗费巨大精力,因此对于Scratch作品相似性的识别就可以辅助教师快速检测... Scratch作为图形化编程中的热门课程吸引了广大中小学生,而对于学生所做的作品与标准作品之间差异性的评定通常是靠教师通过人工对比检查,对于教师不仅工作量大且耗费巨大精力,因此对于Scratch作品相似性的识别就可以辅助教师快速检测学生作品,从而提高教学效率。针对该问题,提出Siamese-BERT模型对两个Scratch作品之间的相似度进行检测。首先,对Scratch源文件进行解析提取原始积木块序列,根据积木块逻辑特征提出一种积木块重构算法,将原始积木块序列排序成Token序列,将Token序列作为CBOW(Continuous Bag of Words)模型的输入文本进行预训练,从而得到Scratch的词向量模型;再使用Siamese神经网络框架结合BERT(Bidirectional Encoder Representation from Transformers)模型组合训练,最终输入到余弦相似度函数进行相似度计算。数据集来自于长沙市Scratch培训机构的培训作品和学生的练习作品,在该数据集上,Siamese-BERT模型准确度能达到0.82,对比其它的文本相似度模型,Siamese-BERT模型在Scratch作品相似度检测上更加准确。 展开更多
关键词 Scratch图形化编程 Siamese-BERT模型 连续词袋模型 Siamese神经网络 BERT模型 余弦相似度
下载PDF
一种采用对抗学习的跨项目缺陷预测方法 被引量:5
5
作者 邢颖 钱晓萌 +3 位作者 管宇 章世豪 赵梦赐 林婉婷 《软件学报》 EI CSCD 北大核心 2022年第6期2097-2112,共16页
跨项目缺陷预测(cross-project defect prediction, CPDP)已经成为软件工程数据挖掘领域的一个重要研究方向,它利用其他项目的缺陷代码来建立预测模型,解决了模型构建过程中的数据不足问题.然而源项目和目标项目的代码文件之间存在着数... 跨项目缺陷预测(cross-project defect prediction, CPDP)已经成为软件工程数据挖掘领域的一个重要研究方向,它利用其他项目的缺陷代码来建立预测模型,解决了模型构建过程中的数据不足问题.然而源项目和目标项目的代码文件之间存在着数据分布的差异,导致跨项目预测效果不佳.基于生成式对抗网络(generative adversarial network,GAN)中的对抗学习思想,在鉴别器的作用下,通过改变目标项目特征的分布,使其接近于源项目特征的分布,从而提升跨项目缺陷预测的性能.具体来说,提出的抽象连续生成式对抗网络(abstract continuous generative adversarial network, AC-GAN)方法包括数据处理和模型构建两个阶段:(1)首先将源项目和目标项目的代码转换为抽象语法树(abstract syntax tree,AST)的形式,然后以深度优先方式遍历抽象语法树得出节点序列,再使用连续词袋模型(continuous bag-of-words model,CBOW)生成词向量,依据词向量表将节点序列转化为数值向量;(2)处理后的数值向量被送入基于GAN网络结构的模型进行特征提取和数据迁移,然后使用二分类器来判断目标项目代码文件是否有缺陷. AC-GAN方法在15组源-目标项目对上进行了对比实验,实验结果表明了该方法的有效性. 展开更多
关键词 跨项目缺陷预测 生成式对抗网络 连续词袋模型 抽象语法树
下载PDF
基于笔画中文字向量模型设计与研究 被引量:13
6
作者 赵浩新 俞敬松 林杰 《中文信息学报》 CSCD 北大核心 2019年第5期17-23,共7页
中文汉字在横向、纵向展开具有二维的复杂结构。现有的中文词向量研究大都止步于汉字字符,没有利用中文笔画序列生成字向量,且受限于统计模型本质,无法为低频、未登录字词生成高质量向量表示。为此,该文提出了一种依靠中文笔画序列生成... 中文汉字在横向、纵向展开具有二维的复杂结构。现有的中文词向量研究大都止步于汉字字符,没有利用中文笔画序列生成字向量,且受限于统计模型本质,无法为低频、未登录字词生成高质量向量表示。为此,该文提出了一种依靠中文笔画序列生成字向量的模型Stroke2Vec,扩展Word2Vec模型CBOW结构,使用卷积神经网络替换上下文信息矩阵、词向量矩阵,引入注意力机制,旨在模拟笔画构造汉字的规律,通过笔画直接生成字向量。将Stroke2Vec模型与Word2Vec、GloVe模型在命名实体识别任务上进行评测对比。实验结果显示,Stroke2Vec模型F1值达到81.49%,优于Word2Vec 1.21%,略优于GloVe模型0.21%,而Stroke2Vec产生的字向量结合Word2Vec模型结果,在NER上F1值为81.55%。 展开更多
关键词 字向量 笔画 连续词袋模型
下载PDF
基于改进的CBOW与ABiGRU的文本分类研究 被引量:6
7
作者 张宇艺 左亚尧 陈小帮 《计算机工程与应用》 CSCD 北大核心 2019年第24期135-140,170,共7页
文本的表示与文本的特征提取是文本分类需要解决的核心问题,基于此,提出了基于改进的连续词袋模型(CBOW)与ABiGRU的文本分类模型。该分类模型把改进的CBOW模型所训练的词向量作为词嵌入层,然后经过卷积神经网络的卷积层和池化层,以及结... 文本的表示与文本的特征提取是文本分类需要解决的核心问题,基于此,提出了基于改进的连续词袋模型(CBOW)与ABiGRU的文本分类模型。该分类模型把改进的CBOW模型所训练的词向量作为词嵌入层,然后经过卷积神经网络的卷积层和池化层,以及结合了注意力(Attention)机制的双向门限循环单元(BiGRU)神经网络充分提取了文本的特征。将文本特征向量输入到softmax分类器进行分类。在三个语料集中进行的文本分类实验结果表明,相较于其他文本分类算法,提出的方法有更优越的性能。 展开更多
关键词 深度学习 连续词袋模型(CBOW) 注意力机制 神经网络 文本分类
下载PDF
生成词向量的三种方法 被引量:7
8
作者 冯志伟 《外语电化教学》 CSSCI 北大核心 2021年第1期18-26,3,共10页
在人工智能时代,神经网络已成为自然语言处理的一种重要工具。为了建立用于自然语言处理的神经网络系统,必须进行词向量的生成。本文讨论生成词向量的三种方法:连续跳元和连续词袋的方法、奇异值分解的方法、布劳恩聚类的方法。使用这... 在人工智能时代,神经网络已成为自然语言处理的一种重要工具。为了建立用于自然语言处理的神经网络系统,必须进行词向量的生成。本文讨论生成词向量的三种方法:连续跳元和连续词袋的方法、奇异值分解的方法、布劳恩聚类的方法。使用这些方法可以生成稠密的词向量,从而改进自然语言处理中神经网络的性能。这种稠密的词向量具有很多潜在优点。它们容易作为连续的实数值特征被纳入深度学习系统中,并在自然语言处理的神经网络系统中更好地发挥词嵌入的作用。连续跳元和连续词袋的方法通过发现嵌入的方式来学习词嵌入,在这样的嵌入中,邻近的单词具有较高的点积,而噪声词则具有较低的点积。因而这种方法可以训练一个神经网络来预测邻近的单词。在语义上相似的单词在文本中出现时常常是彼此邻近的,所以,如果能够很好地预测邻近单词的词嵌入,就可以较好地表示单词之间的相似性。在计算词嵌入时,这种方法得到广泛的采用,而且是行之有效的。奇异值分解是发现数据集合中最为重要的维度的方法。这种方法能够用于从完整的词项一词项矩阵或词项一文献矩阵中构建维度较低的词嵌入。布劳恩聚类方法是推导词向量表示的一种聚类算法。这种方法根据前面单词和后面单词之间的关联特征来对单词进行聚类。其算法使用了基于类别的语言模型。布劳恩聚类可以用来给单词建立二进制符号的向量,使其具有句法表示的功能。 展开更多
关键词 向量 神经网络 连续跳元 连续词袋 奇异值分解 布劳恩聚类
原文传递
基于在线文本情感分析的“唐文化”目的地形象挖掘研究 被引量:1
9
作者 张成元 刘云珂 +2 位作者 赵炳清 柴建 姜福鑫 《计量经济学报》 CSSCI CSCD 2023年第2期387-407,共21页
如何挖掘历史文化资源促进精准营销以高效吸引游客,是我国诸多文化旅游资源富集的景区亟需解决的问题.本文以西安“唐文化”旅游目的地形象挖掘为研究对象,通过15,683条在线文本评论的高频词提取、语义网络分析、主题词挖掘和情感分析,... 如何挖掘历史文化资源促进精准营销以高效吸引游客,是我国诸多文化旅游资源富集的景区亟需解决的问题.本文以西安“唐文化”旅游目的地形象挖掘为研究对象,通过15,683条在线文本评论的高频词提取、语义网络分析、主题词挖掘和情感分析,识别出消费者“唐文化”目的地形象的关注点.研究结果表明,首先,前100个高频词可分为遗产资源、旅游活动和游客情绪三类;其次,游客较为关注西安著名景区、建筑、文化及“大唐盛世”文化氛围;再次,通过文本评论情感分析获取负面情感高频词,并挖掘负面评论出现的原因;最后,通过隐含狄利克雷分布(latent Dirichlet allocation,LDA)模型确定评论主题,同时,利用K近邻算法验证LDA主题分类.本文的研究结果可为西安市旅游目的地形象改进和潜在“唐文化”旅游创意策划提供有力支撑,同时也可为其他历史文化名城提高旅游吸引力提供借鉴. 展开更多
关键词 文本挖掘 情感分析 连续词袋(CBOW)模型 隐含狄利克雷分布(LDA)模型
原文传递
基于上下文自编码的船舶行为语义表征 被引量:1
10
作者 马杰 何沐蓉 +2 位作者 贾承丰 李文楷 张煜 《交通运输工程学报》 EI CSCD 北大核心 2022年第4期334-347,共14页
考虑船舶行为的时序相关性,提出了一种基于上下文自编码的船舶行为语义表征(SRCAE)模型;提取船舶经度、纬度、航速、航向等行为特征参量,建立了行为特征序列;借助连续词袋模型将行为特征序列划分为中心船舶行为和上下文船舶行为,利用深... 考虑船舶行为的时序相关性,提出了一种基于上下文自编码的船舶行为语义表征(SRCAE)模型;提取船舶经度、纬度、航速、航向等行为特征参量,建立了行为特征序列;借助连续词袋模型将行为特征序列划分为中心船舶行为和上下文船舶行为,利用深度自编码网络构建了船舶上下文行为的语义表征模型,将得到的中心船舶行为编码作为表征向量输出,通过聚类算法构建船舶行为词典;选取长江口南槽交汇水域作为研究对象,利用船舶自动识别系统产生的数据对提出的模型和方法进行了验证。分析结果表明:所提出的SRCAE模型能有效表征船舶行为之间的上下文联系,与传统自编码器和长短期记忆网络自编码器等模型相比SRCAE模型具有更低的表征误差;分别采用k均值(k-Means)、高斯混合模型(GMM)与核k均值(Kernel k-Means)3种聚类算法提取船舶行为词典,与原始数据相比SRCAE模型产生的表征向量更易于区分不同船舶行为模式,其中k-Means效果最优,轮廓系数、卡林斯基-哈拉巴斯指数和戴维森堡丁指数指标分别达到了0.384、18.308、0.531,共产生转向加速、转向减速、直行加速、直行减速等30种复合行为,有效提取了不同行为模式下船舶行为词组合关系。 展开更多
关键词 船舶自动识别系统 船舶行为 自编码器 连续词袋模型 语义表征
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部