期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
基于word2vec的跨领域情感分类方法 被引量:14
1
作者 王勤勤 张玉红 +1 位作者 李培培 胡学钢 《计算机应用研究》 CSCD 北大核心 2018年第10期2924-2927,共4页
情感分类是用于判断数据的情感极性,广泛用于商品评论、微博话题等数据。标记信息的昂贵使得传统的情感分类方法难以对不同领域的数据进行有效的分类。为此,跨领域情感分类问题引起广泛关注。已有的跨领域情感分类方法大多以共现为基础... 情感分类是用于判断数据的情感极性,广泛用于商品评论、微博话题等数据。标记信息的昂贵使得传统的情感分类方法难以对不同领域的数据进行有效的分类。为此,跨领域情感分类问题引起广泛关注。已有的跨领域情感分类方法大多以共现为基础提取词汇特征和句法特征,而忽略了词语间的语义关系。基于此,提出了基于word2vec的跨领域情感分类方法 WEEF(cross-domain classification based on word embedding extension feature),选取高质量的领域共现特征作为桥梁,并以这些特征作为种子,基于词向量的相似度计算,将领域专有特征扩充到这些种子中,形成特征簇,从而减小领域间的差异。在SRAA和Amazon产品评论数据集上的实验结果表明了方法的有效性,尤其在数据量较大时。 展开更多
关键词 语义特征 共现特征 词向量 跨领域情感分类
下载PDF
融合领域词向量的实体识别研究
2
作者 侯敏 高茂 +2 位作者 张丽萍 闫盛 赵宇博 《内蒙古师范大学学报(自然科学版)》 CAS 2024年第2期197-206,共10页
以字为切分单位的BERT预训练模型在实体识别任务中表现优异,但其忽略粗粒度的领域词汇作为整体的语义表示信息,对于教育领域课程文本中存在大量嵌套实体的识别效果不佳。针对上述问题,提出动态融合字、词级别词向量的LEBERT-CRF教育领... 以字为切分单位的BERT预训练模型在实体识别任务中表现优异,但其忽略粗粒度的领域词汇作为整体的语义表示信息,对于教育领域课程文本中存在大量嵌套实体的识别效果不佳。针对上述问题,提出动态融合字、词级别词向量的LEBERT-CRF教育领域课程文本实体识别方法,利用词典适配器将领域词典特征高效融入BERT模型中,以提升BERT模型对实体词边界的识别效果,更好地适应课程知识抽取任务。结果表明,LEBERT-CRF模型相较其他主流的实体识别模型表现更好,F1达到95.47%。 展开更多
关键词 实体识别 LEBERT 领域词向量 字词融合
下载PDF
基于领域知识和词向量的词义消歧方法 被引量:14
3
作者 杨安 李素建 李芸 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第2期204-210,共7页
利用无标注文本构建词向量模型,结合特定领域的关键词信息,提出一种词义消歧方法。以环境领域的待消歧文本作为评测语料,通过与Lesk等其他消歧方法进行比较,证明了所提方法的有效性。通过引入不同的领域知识,证明该方法亦可在其他领域... 利用无标注文本构建词向量模型,结合特定领域的关键词信息,提出一种词义消歧方法。以环境领域的待消歧文本作为评测语料,通过与Lesk等其他消歧方法进行比较,证明了所提方法的有效性。通过引入不同的领域知识,证明该方法亦可在其他领域的文本消歧任务中加以应用。 展开更多
关键词 词义消歧 词向量模型 领域知识
下载PDF
基于词向量的跨领域中文情感词典构建方法 被引量:13
4
作者 冯超 梁循 +2 位作者 李亚平 周小平 李晓菲 《数据采集与处理》 CSCD 北大核心 2017年第3期579-587,共9页
情感分析已经成为当今自然语言处理领域的热点问题。对于文本的自动化、半监督式的情感分析研究具有广泛的理论和实用价值。基于情感词典的情感倾向分析方法是文本情感分析的一种重要手段。然而,中文词汇在不同领域中的情感倾向不尽相同... 情感分析已经成为当今自然语言处理领域的热点问题。对于文本的自动化、半监督式的情感分析研究具有广泛的理论和实用价值。基于情感词典的情感倾向分析方法是文本情感分析的一种重要手段。然而,中文词汇在不同领域中的情感倾向不尽相同,一词多义现象明显。同时,不同领域中的情感词也具有专业性、领域性的特点。针对这些问题,本文提出一种基于词向量相似度的半监督情感极性判断算法(Sentiment orientation from word vector,SO-WV),并依据该算法设计出一种跨领域的中文情感词典构建方法。实验证明,本文所设计的情感词典构建方法能有效地对情感词情感倾向进行判断。算法不仅在不同领域的情感词典建立上具有良好的可移植性,同时还具有专业性、领域性的特点。 展开更多
关键词 情感分析 情感词典 词向量 跨领域
下载PDF
基于新词发现的跨领域中文分词方法 被引量:5
5
作者 张军 赖志鹏 +2 位作者 李学 宁更新 杨萃 《电子与信息学报》 EI CSCD 北大核心 2022年第9期3241-3248,共8页
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了... 深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了解决这个问题,该文构建了一个基于新词发现的跨领域中文分词系统,可以自动完成从目标领域语料中提取新词、标注语料和训练网络模型的工作。此外,针对现有新词发现算法提取出的词表垃圾词串多以及自动标注语料中存在噪声样本的问题,提出了一种基于向量增强互信息和加权邻接熵的无监督新词发现算法以及一种基于对抗式训练的中文分词模型。实验中将使用北大开源新闻语料训练的网络模型提取出的特征迁移到医疗、发明专利和小说领域,结果表明该文所提方法在未登录词率、准确率、召回率和分词F值方面均优于现有方法。 展开更多
关键词 中文分词 新词发现 跨领域 向量增强互信息 对抗式训练
下载PDF
一种面向军事文本的领域特征词向量描述方法 被引量:7
6
作者 秦杰 曹雷 +1 位作者 彭辉 赖俊 《计算机工程》 CAS CSCD 北大核心 2016年第8期160-165,共6页
针对军事文本信息中命名实体多、特征词领域性强的特性,提出一种领域特征词向量描述方法。从优化分词和领域特征词筛选方面压缩向量空间,完善时间、地名、部队名称和武器装备4类重要命名实体的提取规则,扩充分词词典库。改进领域相关度... 针对军事文本信息中命名实体多、特征词领域性强的特性,提出一种领域特征词向量描述方法。从优化分词和领域特征词筛选方面压缩向量空间,完善时间、地名、部队名称和武器装备4类重要命名实体的提取规则,扩充分词词典库。改进领域相关度和领域一致度相结合的领域特征词筛选算法,突出领域特征词与常用词汇之间的差别,进一步过滤领域特征词。实验结果表明,优化分词后,该方法能够提取出军事文本中的命名实体和部分专有词汇,降低特征词数量,改进后的领域特征词筛选算法将准确率和召回率分别提高20%和16.7%,提出的领域特征词向量描述方法所生成的特征词向量具有较强的领域性。 展开更多
关键词 军事文本 命名实体 向量空间 分词 领域特征词
下载PDF
基于领域本体的主题信息采集方法 被引量:7
7
作者 郑国良 叶飞跃 +1 位作者 林国俊 耿冬 《计算机应用》 CSCD 北大核心 2008年第12期3274-3277,共4页
基于关键词的向量空间模型是传统的专业搜索引擎中主题信息采集常用的方法,它通过考虑关键词的权重以及关键词在网页中出现的频率来采集相关的网页。而基于本体的主题信息采集方法,它反映的不再是简单的词条出现频率,而是强化了网页中... 基于关键词的向量空间模型是传统的专业搜索引擎中主题信息采集常用的方法,它通过考虑关键词的权重以及关键词在网页中出现的频率来采集相关的网页。而基于本体的主题信息采集方法,它反映的不再是简单的词条出现频率,而是强化了网页中词条间的语义关系,从而克服了使用传统向量空间时产生的多义词、同义词和单词依赖等现象。通过实验,比较了提出的方法与基于关键词方法的实验数据,进一步说明了方法的可行性。 展开更多
关键词 主题相关度 领域本体 向量空间模型 相关度分析 词频率
下载PDF
基于主题模型的资源选择算法
8
作者 董守斌 谢一帆 +1 位作者 袁华 陈建豪 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第3期48-53,共6页
在具有多个真实搜索引擎的联邦检索环境下,基于小文档的资源选择算法由于难以估计每个搜索引擎的真实网页数量,因此准确率较低.针对这个问题,文中提出了基于主题模型的资源库描述方法,利用LDA主体模型获取每个资源库的描述词;在此基础... 在具有多个真实搜索引擎的联邦检索环境下,基于小文档的资源选择算法由于难以估计每个搜索引擎的真实网页数量,因此准确率较低.针对这个问题,文中提出了基于主题模型的资源库描述方法,利用LDA主体模型获取每个资源库的描述词;在此基础上提出新的资源选择算法,结合垂直领域权重和词向量计算资源库和查询请求之间的相关度,并根据相关度大小获取最终资源选择结果.实验结果表明,基于主题模型的资源选择算法能很好地提高资源选择效果,可有效应用于分布式搜索引擎的联邦检索环境. 展开更多
关键词 分布式检索 资源选择 主题模型 垂直领域 词向量
下载PDF
国内知识联盟研究前沿演进趋势知识图谱——基于有影响力的论文的分析 被引量:5
9
作者 孙新波 王静波 李凤 《情报学报》 CSSCI 北大核心 2012年第12期1290-1298,共9页
以共词分析为依据,通过社会网络分析法对国内知识联盟领域的前沿研究主题进行分析,采用矢量动态模型算法,判定出其研究的现状和发展阶段,最后以UCINET和Netdraw为软件工具,构建了不同发展阶段国内知识联盟研究的前沿研究的共词网... 以共词分析为依据,通过社会网络分析法对国内知识联盟领域的前沿研究主题进行分析,采用矢量动态模型算法,判定出其研究的现状和发展阶段,最后以UCINET和Netdraw为软件工具,构建了不同发展阶段国内知识联盟研究的前沿研究的共词网络,最后以形象化的知识图谱展示出相应的结果。研究结果表明:国内的知识联盟研究热点从企业间的知识转移到知识共享和知识创新,知识联盟的组建、成员选择,最后到知识联盟的管理和绩效评价及影响因素分析。从应用分析到理论研究与应用相结合的二元范式研究,再到知识联盟的建立、成员选择、管理和绩效评价以及影响因素等的系统全面研究。我国知识联盟的发展已趋于成熟稳定的阶段,目前研究呈现成熟扩张的趋势,如其中共生理论成为新的研究热点有待于更加深入的研究。 展开更多
关键词 知识联盟 共词分析 社会网络分析 科学知识图谱 矢量动态模型
下载PDF
融合词向量和主题模型的领域实体消歧 被引量:8
10
作者 马晓军 郭剑毅 +3 位作者 王红斌 张志坤 线岩团 余正涛 《模式识别与人工智能》 EI CSCD 北大核心 2017年第12期1130-1137,共8页
针对Skip-gram词向量计算模型在处理多义词时只能计算一个混合多种语义的词向量,不能对多义词不同含义进行区分的问题,文中提出融合词向量和主题模型的领域实体消歧方法.采用词向量的方法从背景文本和知识库中分别获取指称项和候选实体... 针对Skip-gram词向量计算模型在处理多义词时只能计算一个混合多种语义的词向量,不能对多义词不同含义进行区分的问题,文中提出融合词向量和主题模型的领域实体消歧方法.采用词向量的方法从背景文本和知识库中分别获取指称项和候选实体的向量形式,结合上下位关系领域知识库,进行上下文相似度和类别指称相似度计算,利用潜在狄利克雷分布(LDA)主题模型和Skip-gram词向量模型获取多义词不同含义的词向量表示,抽取主题领域关键词,进行领域主题关键词相似度计算.最后融合三类特征,选择相似度最高的候选实体作为最终的目标实体.实验表明,相比现有消歧方法,文中方法消歧结果更优. 展开更多
关键词 实体消歧 词向量模型 领域知识库 潜在狄利克雷分布(LDA)主题模型
下载PDF
异构并行的DGA域名检测方法
11
作者 温雪岩 焦燕 +1 位作者 郭云飞 赵玉茗 《中国电子科学研究院学报》 北大核心 2023年第10期957-967,共11页
现有的DGA域名检测方式存在检测时间开销大、检测精度不高以及基于单词的DGA域名检测效果不佳等问题。经过研究发现,将域名先按照典型特征分类再进行更细致的特征提取,对于模型的准确率有一定的正向作用,且多类并行可以降低检测时间,此... 现有的DGA域名检测方式存在检测时间开销大、检测精度不高以及基于单词的DGA域名检测效果不佳等问题。经过研究发现,将域名先按照典型特征分类再进行更细致的特征提取,对于模型的准确率有一定的正向作用,且多类并行可以降低检测时间,此外对于较难检测的基于单词的DGA域名可以进行针对性处理。因此,文中提出了一种基于Word ninja分词技术的三路异构并行的DGA域名检测模型。先将域名分为三类,再针对每一类进行检测模型结构的搭建。对于字符级域名,通过人工提取特征来进行域名的有效分类。对于词根词缀级域名,采用FastTest进行子词之间、字符之间以及上下文之间关系的特征提取,再作为词向量嵌入。对于单词级域名,采用Word2Vec理解和处理词的含义和词之间的关系。最后,将文中方法和当前流行方法、多路异构并行模型和单路模型的检测结果进行比较评估,实验结果证明了提前分类的必要性以及多路并行的有效性。 展开更多
关键词 深度学习 恶意域名 机器学习 门控循环单元网络 词向量嵌入 word ninja分词技术
下载PDF
基于句法分析与词向量的领域新词发现方法 被引量:14
12
作者 赵志滨 石玉鑫 李斌阳 《计算机科学》 CSCD 北大核心 2019年第6期29-34,共6页
很多已经存在的词汇和词组可能会被运用于它们之前从未被运用过的领域文本中,这样的词汇或词组被称为领域新词。领域新词的发现可以为该领域的研究人员提供最新的领域发展动态,帮助其分析该领域的最新舆情,因此具有非常重要的意义。针... 很多已经存在的词汇和词组可能会被运用于它们之前从未被运用过的领域文本中,这样的词汇或词组被称为领域新词。领域新词的发现可以为该领域的研究人员提供最新的领域发展动态,帮助其分析该领域的最新舆情,因此具有非常重要的意义。针对领域新词发现这一问题,文中提出了一种基于依存句法分析与词向量的领域新词发现方法。首先,提出了句法词典的概念,并基于依存句法分析,结合TF-IDF值的计算,提出了构建领域句法词典的方法;然后,使用领域句法词典,结合词向量技术,完成了领域新词发现方法的设计;最后,使用来自于护肤品论坛的真实文本数据集对所提方法进行了正确性验证。实验结果表明,构建的句法词典的质量较高,所提方法在进行领域新词发现时具有良好的性能。 展开更多
关键词 句法分析 词向量 领域新词发现 句法词典
下载PDF
融合词向量及词属性推理的中文电子病历实体识别方法
13
作者 武学鸿 杨峰 +1 位作者 李建华 徐倩 《医学信息学杂志》 CAS 2022年第7期39-42,共4页
阐述基于BiLSTM-CRF基准模型,融合词向量及词属性推理机制实现中文电子病历命名实体识别的方法,包括医学语料库构建与词向量训练、融合词属性推理机制等,分析实验结果,指出医学领域词向量及词属性推理机制的引入有助于提升中文电子病历... 阐述基于BiLSTM-CRF基准模型,融合词向量及词属性推理机制实现中文电子病历命名实体识别的方法,包括医学语料库构建与词向量训练、融合词属性推理机制等,分析实验结果,指出医学领域词向量及词属性推理机制的引入有助于提升中文电子病历命名实体识别效果。 展开更多
关键词 领域词向量 词属性推理机制 中文电子病历 命名实体识别 自然语言处理
下载PDF
基于无监督自适应模糊聚类的多家族恶意域名细粒度检测 被引量:1
14
作者 姜言波 邵增珍 《中国电子科学研究院学报》 北大核心 2023年第7期663-670,共8页
针对现有恶意域名检测方法检测时间开销大、对新出现或新变种的恶意域名检测精度不高的问题,提出一种基于无监督自适应模糊聚类的多家族恶意域名细粒度检测方法。该方法首先利用词向量映射网络(Bidirectional Encoder Representation fr... 针对现有恶意域名检测方法检测时间开销大、对新出现或新变种的恶意域名检测精度不高的问题,提出一种基于无监督自适应模糊聚类的多家族恶意域名细粒度检测方法。该方法首先利用词向量映射网络(Bidirectional Encoder Representation from Transformers,BERT)将域名字符串映射为词向量矩阵;然后,利用深度自编码网络的编解码模块实现域名字符串向量矩阵的特征提取;最后,引入一种自适应模糊聚类算法实现多家族恶意域名和合法域名在隐空间中的特征聚类。通过在多个家族恶意域名和常见域名数据集上进行测试,实验结果表明所提出算法可以在二分类任务中实现97.71%的准确率,在8个家族的细粒度多分类任务上可以实现96.25%的准确率。综合检测性能优于当前主流的恶意域名检测算法。同时,所提出域名具有较低的时间开销,这为实时过滤恶意域名、预防恶意域名的入侵攻击提供了一种新的手段。 展开更多
关键词 恶意域名检测 无监督 深度自编码网络 模糊聚类 词向量
下载PDF
基于BERT-CRF的领域词向量生成研究 被引量:3
15
作者 郭振东 林民 +1 位作者 李成城 赵佳鹏 《计算机工程与应用》 CSCD 北大核心 2022年第21期156-162,共7页
如何在中文BERT字向量基础上进一步得到高质量的领域词向量表示,用于各种以领域分词为基础的文本分析任务是一个亟待解决的问题。提出了一种基于BERT的领域词向量生成方法。建立一个BERT-CRF领域分词器,在预训练BERT字向量基础上结合领... 如何在中文BERT字向量基础上进一步得到高质量的领域词向量表示,用于各种以领域分词为基础的文本分析任务是一个亟待解决的问题。提出了一种基于BERT的领域词向量生成方法。建立一个BERT-CRF领域分词器,在预训练BERT字向量基础上结合领域文本进行fine-tuning和领域分词学习;通过领域分词解码结果进一步得到领域词向量表示。实验表明,该方法仅利用少量的领域文本就可以学习出符合领域任务需求的分词器模型,并能获得相比原始BERT更高质量的领域词向量。 展开更多
关键词 BERT 领域分词器 领域词向量 条件随机场 词向量可视化
下载PDF
基于Hellinger距离与词向量的终身机器学习主题模型
16
作者 雷恒林 古兰拜尔·吐尔洪 +1 位作者 买日旦·吾守尔 曾琪 《计算机工程》 CAS CSCD 北大核心 2022年第11期89-95,共7页
与传统的机器学习方法相比,终身机器学习能够有效利用知识库中积累的知识来提高当前学习任务的学习效果。然而经典的终身主题模型(LTM)在领域选择时缺乏偏向性,且在计算目标词的相似性时不能充分利用目标词的上下文信息。从词语和主题... 与传统的机器学习方法相比,终身机器学习能够有效利用知识库中积累的知识来提高当前学习任务的学习效果。然而经典的终身主题模型(LTM)在领域选择时缺乏偏向性,且在计算目标词的相似性时不能充分利用目标词的上下文信息。从词语和主题选择的角度提出改进模型HW-LTM,利用Word2vec词向量的余弦相似度和主题之间的Hellinger距离寻找相似度较大的词语和领域,实现在迭代学习中对词语和领域的更优选择和更有效的知识获取,同时通过预加载词向量相似度矩阵的方式解决词向量余弦距离的重复计算问题,利用Hellinger距离计算主题相似度,加快模型收敛速度。在京东商品评论数据集上的实验结果表明,HW-LTM模型表现优于基线主题挖掘模型,相比LTM模型,其topic coherence指标提升48,耗时缩短43.75%。 展开更多
关键词 终身机器学习 主题模型 Hellinger距离 词向量 领域选择
下载PDF
基于FCA和Word2vec的异构资源本体构建研究 被引量:11
17
作者 韦炼 李端明 +2 位作者 刘超超 王亚慧 王萝娜 《情报科学》 CSSCI 北大核心 2017年第3期69-75,共7页
【目的/意义】利用海量的非结构化资源,结合结构化资源,构建更加完善的领域本体。【方法/过程】首先运用Word2vec工具发现异构资源中的相关概念,然后进行形式化背景表示以及概念格构建,最后构建领域本体概念模型,并以protégé... 【目的/意义】利用海量的非结构化资源,结合结构化资源,构建更加完善的领域本体。【方法/过程】首先运用Word2vec工具发现异构资源中的相关概念,然后进行形式化背景表示以及概念格构建,最后构建领域本体概念模型,并以protégé工具进行可视化表示。【结果/结论】实验结果表明,本文的研究方法能够从大量的异构资源中,获取丰富的领域概念和关系,构建的领域本体语义也更加丰富,能够更好地反映领域的知识结构。 展开更多
关键词 形式概念分析 领域本体 word2vec 异构资源 词向量
原文传递
我国知识管理研究前沿演进趋势知识图谱 被引量:28
18
作者 赵丽梅 张庆普 《科学学与科学技术管理》 CSSCI 北大核心 2012年第1期90-98,共9页
以共词分析、社会网络分析和绘制科学知识图谱等方法为基本理论依据,对我国知识管理领域的前沿研究主题进行了探讨,采用矢量动态模型、MDS(多维尺度分析)和K-core(K核分析)等算法,以UCINET和Netdraw为软件工具,构建了我国知识管理研究... 以共词分析、社会网络分析和绘制科学知识图谱等方法为基本理论依据,对我国知识管理领域的前沿研究主题进行了探讨,采用矢量动态模型、MDS(多维尺度分析)和K-core(K核分析)等算法,以UCINET和Netdraw为软件工具,构建了我国知识管理研究领域不同发展阶段研究前沿的共词网络,将研究结果用可视化的形式形象地表现出来。研究发现,我国的知识管理研究热点呈现出明显的阶段性差异,从最初的基础概念辨析到理论探讨和技术实践的分野,从理论和技术的二元研究范式到三大研究导向的形成和新的研究视角的出现,研究热点向多元化方向发展的趋势日趋明显。 展开更多
关键词 知识管理研究前沿 共词分析 社会网络分析 科学知识图谱 矢量动态模型
原文传递
基于词向量的领域情感词典构建 被引量:14
19
作者 林江豪 周咏梅 +1 位作者 阳爱民 陈锦 《山东大学学报(工学版)》 CAS 北大核心 2018年第3期40-47,共8页
针对现有领域情感词典在情感和语义表达等方面的不足,提出一种基于词向量的领域情感词典构建方法。利用25万篇新闻语料和10万余条酒店评论数据,训练得到word2vec模型;选择80个情感明显、内容丰富、词性多样化的情感词作为种子词集;利用T... 针对现有领域情感词典在情感和语义表达等方面的不足,提出一种基于词向量的领域情感词典构建方法。利用25万篇新闻语料和10万余条酒店评论数据,训练得到word2vec模型;选择80个情感明显、内容丰富、词性多样化的情感词作为种子词集;利用TF-IDF值在词汇重要程度的度量作用,在酒店评论中获得9 860个领域候选情感词汇;通过计算候选情感词与种子词的词向量之间的语义相似度,将情感词映射到高维向量空间,实现了情感词的特征向量表示(Senti2vec)。将Senti2vec应用于情感词极性分类和文本情感分析任务中,试验结果表明,Senti2vec能实现情感词的语义表示和情感表示;基于特定领域语料的语义相似计算,使得提取的情感特征更具有领域特性,同时不受候选情感词集范围的约束。 展开更多
关键词 领域情感词典 word2vec 情感词 情感特征向量 语义相似度
原文传递
CNN-SM:基于义原与多特征融合的消费品领域缺陷词识别模型
20
作者 游新冬 袁梦龙 +1 位作者 张乐 吕学强 《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第9期77-85,共9页
【目的】针对消费品领域中缺陷词识别任务精度不足的问题,提出基于义原与多特征融合的消费品领域缺陷词识别模型。【方法】模型输入为融合义原信息的分布式词向量,在此基础上添加词性特征和经过随机嵌入的词位置向量,以增添词向量所包... 【目的】针对消费品领域中缺陷词识别任务精度不足的问题,提出基于义原与多特征融合的消费品领域缺陷词识别模型。【方法】模型输入为融合义原信息的分布式词向量,在此基础上添加词性特征和经过随机嵌入的词位置向量,以增添词向量所包含的信息;在卷积神经网络上去除了最大池化,增加卷积核输出的深度向量所包含的信息,为单词分类提供更充分的信息。【结果】实验结果表明,所提模型相较于仅添加词位置向量的卷积神经网络模型,在精确率、召回率和F1值上分别有0.021、0.002和0.012的提升。【局限】不同场景下的相同表述的极性识别不足。【结论】通过消融实验证明,义原、词性以及去除池化层有助于领域词识别模型性能的提升。 展开更多
关键词 消费品 领域词 义原 词向量 卷积神经网络
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部