期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
基于流形学习的句向量优化
1
作者 吴明月 周栋 +1 位作者 赵文玉 屈薇 《计算机应用》 CSCD 北大核心 2023年第10期3062-3069,共8页
句向量是自然语言处理的核心技术之一,影响着自然语言处理系统的质量和性能。然而,已有的方法无法高效推理句与句之间的全局语义关系,致使句子在欧氏空间中的语义相似性度量仍存在一定问题。为解决该问题,从句子的局部几何结构入手,提... 句向量是自然语言处理的核心技术之一,影响着自然语言处理系统的质量和性能。然而,已有的方法无法高效推理句与句之间的全局语义关系,致使句子在欧氏空间中的语义相似性度量仍存在一定问题。为解决该问题,从句子的局部几何结构入手,提出一种基于流形学习的句向量优化方法。该方法利用局部线性嵌入(LLE)对句子及其语义相似句子进行两次加权局部线性组合,这样不仅保持了句子之间的局部几何信息,而且有助于推理全局几何信息,进而使句子在欧氏空间中的语义相似性更贴近人类真实语义。在7个文本语义相似度任务上的实验结果表明,所提方法的斯皮尔曼相关系数(SRCC)平均值相较于基于对比学习的方法SimCSE(Simple Contrastive learning of Sentence Embeddings)提升了1.21个百分点。此外,将所提方法运用于主流预训练模型上的结果表明,相较于原始预训练模型,所提方法优化后模型的SRCC平均值提升了3.32~7.70个百分点。 展开更多
关键词 流形学习 预训练模型 对比学习 句向量 自然语言处理 局部线性嵌入
下载PDF
基于多掩码与提示句向量融合分类的立场检测
2
作者 王正佳 李霏 +1 位作者 姬东鸿 滕冲 《计算机技术与发展》 2023年第12期156-162,共7页
立场检测是指分析文本对于某一目标话题表达的立场,立场通常分为支持、反对和其他。近期的工作大多采用BERT等方法提取文本和话题的句语义特征,通常采用BERT首符号隐藏状态或者句子中每个词隐藏状态取平均作为句向量。该文对句向量的获... 立场检测是指分析文本对于某一目标话题表达的立场,立场通常分为支持、反对和其他。近期的工作大多采用BERT等方法提取文本和话题的句语义特征,通常采用BERT首符号隐藏状态或者句子中每个词隐藏状态取平均作为句向量。该文对句向量的获取进行了改进,采用提示学习模板获取提示句向量,提高句向量的特征提取效果。设计了一种基于多掩码与提示句向量融合分类的立场检测模型(PBMSV),将提示句向量分类与多掩码的模板-答案器结构提示学习分类结合,向句向量引入文本、话题和立场词信息,融合句向量和答案器分类结果,对模型进行联合优化。在NLPCC中文立场检测数据集上的实验表明,在五个话题单独训练模型的实验中,该文方法与此前最优方法相比在三个目标上取得领先或持平,取得了79.3的总F1值,与最优方法接近,并在句向量对比实验中,验证了提示句向量的优势。 展开更多
关键词 立场检测 深度学习 提示学习 句向量 多掩码
下载PDF
微博文本的句向量表示及相似度计算方法研究 被引量:20
3
作者 段旭磊 张仰森 孙祎卓 《计算机工程》 CAS CSCD 北大核心 2017年第5期143-148,共6页
在Word2vec框架内,针对微博文本的特点,提出采用词向量或高维词库映射计算句向量的方法。以3种算法构造句向量,即采用Word2vec对微博文本进行扩展后以TF-IDF方法表示句向量;将句子中每个词的词向量相加形成句向量;构建高维词库,将句子... 在Word2vec框架内,针对微博文本的特点,提出采用词向量或高维词库映射计算句向量的方法。以3种算法构造句向量,即采用Word2vec对微博文本进行扩展后以TF-IDF方法表示句向量;将句子中每个词的词向量相加形成句向量;构建高维词库,将句子中的每个词映射到高维词库形成句向量。对比3种训练句向量的方法,选出最适合微博领域的模型。实验结果表明,采用高维词库映射的方法对微博的句向量计算的效果最佳。 展开更多
关键词 微博文本 相似度计算 向量 高维词库 句向量
下载PDF
基于语义关系约束和词语关系信息的句向量研究 被引量:4
4
作者 夏小强 邵堃 《计算机应用研究》 CSCD 北大核心 2019年第7期2023-2026,共4页
针对现有的句向量学习方法不能很好地学习关系知识信息、表示复杂的语义关系,提出了基于PV-DM模型和关系信息模型的关系信息句向量模型(RISV)。该模型是将PV-DM模型作为句向量训练基本模型;然后为其添加关系信息知识约束条件,使改进后... 针对现有的句向量学习方法不能很好地学习关系知识信息、表示复杂的语义关系,提出了基于PV-DM模型和关系信息模型的关系信息句向量模型(RISV)。该模型是将PV-DM模型作为句向量训练基本模型;然后为其添加关系信息知识约束条件,使改进后的模型能够学习到文本中词语之间的关系,并将关系约束模型(RCM)作为预训练模型,使其进一步整合语义关系约束信息;最后在文档分类和短文本语义相似度两个任务中验证了RISV模型的有效性。实验结果表明,采用RISV模型学习的句向量能够更好地表示文本。 展开更多
关键词 句向量 RISV模型 PV-DM模型 关系信息 预训练
下载PDF
基于句向量的文本相似度计算方法 被引量:7
5
作者 刘继明 于敏敏 袁野 《科学技术与工程》 北大核心 2020年第17期6950-6955,共6页
为进一步提高文本相似度计算的准确性,提出基于句向量的文本相似函数(part of speech and order smooth inverse frequency,PO-SIF),从词性和词序方面优化了平滑反频率(smooth inverse frequency,SIF)计算方法,SIF算法的核心是通过加权... 为进一步提高文本相似度计算的准确性,提出基于句向量的文本相似函数(part of speech and order smooth inverse frequency,PO-SIF),从词性和词序方面优化了平滑反频率(smooth inverse frequency,SIF)计算方法,SIF算法的核心是通过加权和去除噪声得到句向量来计算句子相似度。在具体计算时,一方面通过增加词性消减因子调节SIF句向量计算权重参数,获得带有词性信息的句向量,另一方面通过将词序相似度与SIF句向量相似度算法进行线性加权优化句子相似度得分。实验结果表明,增加词性和词序的方法可以提升算法准确率。 展开更多
关键词 平滑逆频率 句向量 词性 词序相似度
下载PDF
利用加权词句向量的文本相似度计算方法 被引量:7
6
作者 徐鑫鑫 刘彦隆 宋明 《小型微型计算机系统》 CSCD 北大核心 2019年第10期2072-2076,共5页
传统词游走距离算法基于word2vec词向量以及词频特征向量计算文档距离,存在忽略词语语义的上下文语境以及无法充分提取词语中的语义信息等问题.因此,本文提出一种基于联合词句的文本相似度计算方法.该方法利用训练好的词向量和句向量构... 传统词游走距离算法基于word2vec词向量以及词频特征向量计算文档距离,存在忽略词语语义的上下文语境以及无法充分提取词语中的语义信息等问题.因此,本文提出一种基于联合词句的文本相似度计算方法.该方法利用训练好的词向量和句向量构建特征权重系数,对词游走距离计算公式进行改进后,选取一定比例关键词的词向量与句向量计算词句转移成本,从而得到文档的文本相似度.通过三组对比实验表明,该方法的效果优于其他文本相似度计算方法和原始词游走距离算法. 展开更多
关键词 文本相似度 向量 句向量 WMD距离 增强权重系数
下载PDF
基于方差权重因子选词的SIF句向量模型
7
作者 孙毅 裘杭萍 康睿智 《计算机工程》 CAS CSCD 北大核心 2019年第9期204-210,234,共8页
针对平滑反频率(SIF)模型在文本分类和情感分析中性能较差的问题,在SIF模型的基础上,根据单词在不同分类任务类别中的分布情况,计算其对任务贡献度的方差权重(VW)因子,建立一种VW因子选词句向量模型CwVW-SIF。在标准文本分类数据集和情... 针对平滑反频率(SIF)模型在文本分类和情感分析中性能较差的问题,在SIF模型的基础上,根据单词在不同分类任务类别中的分布情况,计算其对任务贡献度的方差权重(VW)因子,建立一种VW因子选词句向量模型CwVW-SIF。在标准文本分类数据集和情感分析数据集上进行测试,结果表明,CwVW-SIF相对SIF模型具有较高的分类精度。 展开更多
关键词 平滑反频率 句向量 方差权重 文本分类 情感分析
下载PDF
基于词向量融合的建筑文本分类方法研究
8
作者 胡少云 翁清雄 《微型电脑应用》 2024年第2期18-20,25,共4页
由于建筑领域问题包含复杂多样的领域专有术语,常见的文本分类算法在建筑领域问题分类上难度较大。为提高建筑领域问题的分类性能,提出一种基于融合RoBERTa和Word2Vec的建筑文本分类算法。实验结果表明:在建筑领域问题数据集上,准确率达... 由于建筑领域问题包含复杂多样的领域专有术语,常见的文本分类算法在建筑领域问题分类上难度较大。为提高建筑领域问题的分类性能,提出一种基于融合RoBERTa和Word2Vec的建筑文本分类算法。实验结果表明:在建筑领域问题数据集上,准确率达到91.59%,分类性能较好;在通用数据集上,准确率均高于SVM、CNN等模型。 展开更多
关键词 文本分类 预训练语言模型 句向量 深度学习 问答系统
下载PDF
基于知识的复杂产品装配工艺快速编制方法
9
作者 翟思宽 刘检华 庄存波 《兵工学报》 EI CAS CSCD 北大核心 2024年第4期1332-1343,共12页
针对复杂产品装配工艺设计过程中存在的编制效率低、质量波动大、自动化和智能化程度低等问题,提出一种面向语义的知识实例检索和复用的装配工艺快速编制方法。分析复杂产品装配工艺业务流程,建立基于知识检索层和知识实例层的双层装配... 针对复杂产品装配工艺设计过程中存在的编制效率低、质量波动大、自动化和智能化程度低等问题,提出一种面向语义的知识实例检索和复用的装配工艺快速编制方法。分析复杂产品装配工艺业务流程,建立基于知识检索层和知识实例层的双层装配工艺知识模型,从内容、类型、功能及应用方向对知识进行分类。在此基础上,针对已有的知识实例,提出基于Sentence-BERT句向量模型的工艺文档语义分析方法,结合余弦相似度算法给出了工艺知识的语义检索方法,实现知识在装配工艺设计流程中的快速复用。以某航天产品为例,开发航天产品装配工艺快速设计管理系统,构建装配工艺知识库,并在某制造企业上线运行,验证所提方法的可行性,使工艺编制效率大幅提升。 展开更多
关键词 复杂产品 装配 知识模型 句向量 语义检索 知识库
下载PDF
自然语言处理视角下日语复合动词的语义计量方法探索——以“V1-あげる”和“V1-あがる”为例
10
作者 高晗瑜 常云翼 《现代语言学》 2024年第5期310-318,共9页
本文在自然语言处理视角下,利用Doc2vec句向量工具,以“V1-あげる”、“V1-あがる”为例,就日语复合动词的语义计量方法进行了探索。结果表明,语义分类的平均正确率达90%,利用句向量技术对日语复合动词的语义计量研究具有可行性。同时,... 本文在自然语言处理视角下,利用Doc2vec句向量工具,以“V1-あげる”、“V1-あがる”为例,就日语复合动词的语义计量方法进行了探索。结果表明,语义分类的平均正确率达90%,利用句向量技术对日语复合动词的语义计量研究具有可行性。同时,对于同一复合动词的多个语义,该工具可为大规模自动判断实际语境中的具体语义提供可靠手段。 展开更多
关键词 自然语言处理 句向量 复合动词 语义计量
下载PDF
畜牧兽医基因组学领域技术空白中外对比研究
11
作者 吴蕾 李小杰 +2 位作者 丁倩 孙巍 周正奎 《农业图书情报学报》 2023年第8期88-97,共10页
[目的 /意义]为了挖掘中国在农业重点领域的技术空白,并预测空白点的未来发展趋势,为科技管理决策者提供有效的科技发展技术机会咨询建议。[方法 /过程]首先,使用关键句嵌入方法和句向量聚类方法,对论文和专利的摘要信息进行挖掘;然后... [目的 /意义]为了挖掘中国在农业重点领域的技术空白,并预测空白点的未来发展趋势,为科技管理决策者提供有效的科技发展技术机会咨询建议。[方法 /过程]首先,使用关键句嵌入方法和句向量聚类方法,对论文和专利的摘要信息进行挖掘;然后进行主题聚类对比分析,发现技术空白;其次,构建语义相似性网络和分类相似性网络,发现容易与空白点形成交叉融合的主题方向。[结果 /结论]在畜牧兽医领域对基因组学技术进行了实证分析。结果表明,该方法能够发现技术空白,并结合专家分析,可以对畜牧兽医领域基因组学技术进行发展现状解读和未来趋势预测,并为中国畜牧兽医领域基因组学技术智库咨询提供方法和数据支撑。 展开更多
关键词 技术空白发现 关键抽取 句向量聚类 基因组学 知识产权
下载PDF
基于循环神经网络变体和卷积神经网络的文本分类方法 被引量:18
12
作者 李云红 梁思程 +3 位作者 任劼 李敏奇 张博 李禹萱 《西北大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第4期573-579,共7页
针对长文本在文本分类时提取语义关键特征难度大,分类效果差等问题,建立基于循环神经网络变体和卷积神经网络(BGRU-CNN)的混合模型,实现中文长文本的准确分类。首先,通过PV-DM模型将文本表示为句向量,并将其作为神经网络的输入;然后,建... 针对长文本在文本分类时提取语义关键特征难度大,分类效果差等问题,建立基于循环神经网络变体和卷积神经网络(BGRU-CNN)的混合模型,实现中文长文本的准确分类。首先,通过PV-DM模型将文本表示为句向量,并将其作为神经网络的输入;然后,建立BGRU-CNN模型,经双向门控循环单元(B-GRU)实现文本的序列信息表示,利用卷积神经网络(CNN)提取文本的关键特征,通过Softmax分类器实现文本的准确分类;最后,经SogouC和THUCNews中文语料集测试,文本分类准确率分别达到89.87%和94.65%。测试结果表明,循环层提取的文本序列特征通过卷积层得到了进一步优化,文本的分类性能得到了提高。 展开更多
关键词 文本分类 句向量 循环神经网络 卷积神经网络
下载PDF
基于改进Transformer模型的文本摘要生成方法 被引量:10
13
作者 王侃 曹开臣 +2 位作者 徐畅 潘袁湘 牛新征 《电讯技术》 北大核心 2019年第10期1175-1181,共7页
传统的文本摘要方法,如基于循环神经网络和Encoder-Decoder框架构建的摘要生成模型等,在生成文本摘要时存在并行能力不足或长期依赖的性能缺陷,以及文本摘要生成的准确率和流畅度的问题。对此,提出了一种动态词嵌入摘要生成方法。该方... 传统的文本摘要方法,如基于循环神经网络和Encoder-Decoder框架构建的摘要生成模型等,在生成文本摘要时存在并行能力不足或长期依赖的性能缺陷,以及文本摘要生成的准确率和流畅度的问题。对此,提出了一种动态词嵌入摘要生成方法。该方法基于改进的Transformer模型,在文本预处理阶段引入先验知识,将ELMo(Embeddings from Language Models)动态词向量作为训练文本的词表征,结合此词对应当句的文本句向量拼接生成输入文本矩阵,将文本矩阵输入到Encoder生成固定长度的文本向量表达,然后通过Decoder将此向量表达解码生成目标文本摘要。实验采用Rouge值作为摘要的评测指标,与其他方法进行的对比实验结果表明,所提方法所生成的文本摘要的准确率和流畅度更高。 展开更多
关键词 文本摘要 Transformer模型 先验知识 动态词向量 句向量
下载PDF
融合VAE和StackGAN的零样本图像分类方法 被引量:8
14
作者 张冀 曹艺 +2 位作者 王亚茹 赵文清 翟永杰 《智能系统学报》 CSCD 北大核心 2022年第3期593-601,共9页
零样本分类算法旨在解决样本极少甚至缺失类别情况下的分类问题。随着深度学习的发展,生成模型在零样本分类中的应用取得了一定的突破,通过生成缺失类别的图像,将零样本图像分类转化为传统的基于监督学习的图像分类问题,但生成图像的质... 零样本分类算法旨在解决样本极少甚至缺失类别情况下的分类问题。随着深度学习的发展,生成模型在零样本分类中的应用取得了一定的突破,通过生成缺失类别的图像,将零样本图像分类转化为传统的基于监督学习的图像分类问题,但生成图像的质量不稳定,如细节缺失、颜色失真等,影响图像分类准确性。为此,提出一种融合变分自编码(variational auto-encoder,VAE)和分阶段生成对抗网络(stack generative adversarial networks,StackGAN)的零样本图像分类方法,基于VAE/GAN模型引入StackGAN,用于生成缺失类别的数据,同时使用深度学习方法训练并获取各类别的句向量作为辅助信息,构建新的生成模型stc-CLS-VAEStackGAN,提高生成图像的质量,进而提高零样本图像分类准确性。在公用数据集上进行对比实验,实验结果验证了本文方法的有效性与优越性。 展开更多
关键词 深度学习 零样本学习 图像分类 变分自编码器 生成对抗网络 分阶段网络 句向量 辅助信息
下载PDF
面向短文本分析的分布式表示模型 被引量:7
15
作者 梁吉业 乔洁 +1 位作者 曹付元 刘晓琳 《计算机研究与发展》 EI CSCD 北大核心 2018年第8期1631-1640,共10页
短文本的分布式表示已经成为文本数据挖掘的一项重要任务.然而,直接应用分布式表示模型Paragraph Vector尚有不足,其根本原因是其在训练过程中并没有利用到语料库级别的信息,从而不能有效改善短文本中语境信息不足的情况.鉴于此,提出了... 短文本的分布式表示已经成为文本数据挖掘的一项重要任务.然而,直接应用分布式表示模型Paragraph Vector尚有不足,其根本原因是其在训练过程中并没有利用到语料库级别的信息,从而不能有效改善短文本中语境信息不足的情况.鉴于此,提出了一种面向短文本分析的分布式表示模型——词对主题句向量模型(biterm topic paragraph vector,BTPV),该模型通过将词对主题模型(biterm topic model,BTM)得出的主题信息融入Paragraph Vector中,不仅使得模型训练过程中利用到了全局语料库的信息,而且还利用BTM显性的主题表示完善了Paragraph Vector隐性的空间向量.实验采用爬取到的热门新闻评论作为数据集,并选用K-Means聚类算法对各模型的短文本表示效果进行比较.实验结果表明,基于BTPV模型的分布式表示较常见的分布式向量化模型word2vec和Paragraph Vector来说能取得更好的短文本聚类效果,从而显现出该模型面向短文本分析的优势. 展开更多
关键词 分布式表示 短文本 文本分析 句向量 词对主题模型
下载PDF
网页去重方法研究 被引量:7
16
作者 樊勇 郑家恒 《计算机工程与应用》 CSCD 北大核心 2009年第12期141-143,183,共4页
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度... 搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行较准确的检测。 展开更多
关键词 组块 主题句向量 网页去重
下载PDF
多模型加权融合的文本相似度计算 被引量:6
17
作者 田红鹏 马博 冯健 《计算机工程与设计》 北大核心 2021年第11期3239-3245,共7页
目前传统的文本相似度方法大多数存在未考虑语义及结构信息,容易忽略文本特征细节信息等问题。针对上述问题,提出多模型加权融合的文本相似度计算算法。利用词频、词性、词句位置3个特征共同计算句子相似度;为发现文本的结构信息方面,... 目前传统的文本相似度方法大多数存在未考虑语义及结构信息,容易忽略文本特征细节信息等问题。针对上述问题,提出多模型加权融合的文本相似度计算算法。利用词频、词性、词句位置3个特征共同计算句子相似度;为发现文本的结构信息方面,提出分层池化IIG-SIF用于计算文本的相似程度;结合前两个环节的相似度模型构建一种线性加权模型,汇集两个算法使结果更为精确。实验结果表明,该算法能够提高准确率和召回率,在不同语种和粒度的数据集上均得到更优的实验结果。 展开更多
关键词 文本相似度 特征融合 词移距离 分层池化 句向量
下载PDF
结合Bi-LSTM和注意力模型的问答系统研究 被引量:4
18
作者 邵曦 陈明 《计算机应用与软件》 北大核心 2020年第10期52-56,共5页
针对传统的问答系统普遍存在回答准确率不高、语义识别能力差等问题,提出一种结合双向长短时记忆网络(Bi-LSTM)和注意力(Attention)模型的问答系统。利用生成的句向量,学习句子中的语义特征以及问答之间的匹配关系,获取上下文信息;融合... 针对传统的问答系统普遍存在回答准确率不高、语义识别能力差等问题,提出一种结合双向长短时记忆网络(Bi-LSTM)和注意力(Attention)模型的问答系统。利用生成的句向量,学习句子中的语义特征以及问答之间的匹配关系,获取上下文信息;融合注意力模型,能够找到对话的主题信息,从而为用户做出精准的回答。实验结果表明,该系统的回答准确率高于其他模型,可达到80.76%。 展开更多
关键词 深度学习 Bi-LSTM 注意力模型 句向量 问答系统
下载PDF
基于Bert-Condition-CNN的中文微博立场检测 被引量:10
19
作者 王安君 黄凯凯 陆黎明 《计算机系统应用》 2019年第11期45-53,共9页
微博立场检测是判断一段微博文本针对某一目标话题所表达的观点态度是支持、中立或反对.随着社交媒体的发展,从海量的微博数据中挖掘其蕴含的立场信息成为一项重要的研究课题.但是现有的方法往往将其视作情感分类任务,没有对目标话题和... 微博立场检测是判断一段微博文本针对某一目标话题所表达的观点态度是支持、中立或反对.随着社交媒体的发展,从海量的微博数据中挖掘其蕴含的立场信息成为一项重要的研究课题.但是现有的方法往往将其视作情感分类任务,没有对目标话题和微博文本之间的关系特征进行分析,在基于深度学习的分类框架上,扩展并提出了基于Bert-Condition-CNN的立场检测模型,首先为提高话题在文本中的覆盖率,对微博文本进行了主题短语的提取构成话题集;然后使用Bert预训练模型获取文本的句向量,并通过构建话题集和微博文本句向量之间的关系矩阵Condition层来体现两个文本序列的关系特征;最后使用CNN对Condition层进行特征提取,分析不同话题对立场信息的影响并实现对立场标签的预测.该模型在自然语言处理与中文计算会议(NLPCC2016)的数据集中取得了较好的效果,通过主题短语扩展后的Condition层有效地提升了立场检测的准确度. 展开更多
关键词 立场检测 主题短语 关系矩阵 句向量
下载PDF
基于改进的TextRank算法的计算机辅助定密研究 被引量:1
20
作者 李晨庚 谢四江 《计算机应用与软件》 北大核心 2022年第3期336-340,345,共6页
针对传统定密方式定密不严谨、定密尺度难以把握、经验难以积累等问题,提出基于改进的TextRank算法的计算机辅助定密方法,该方法通过定密规则的词性特点,将句向量分解为名词向量和非名词向量,构造基于词性的句向量,利用改进的TextRank... 针对传统定密方式定密不严谨、定密尺度难以把握、经验难以积累等问题,提出基于改进的TextRank算法的计算机辅助定密方法,该方法通过定密规则的词性特点,将句向量分解为名词向量和非名词向量,构造基于词性的句向量,利用改进的TextRank算法对文档语句排序,获取在定密细则影响下的关键语句权重,计算文档密级分数,判断文档密级。实验结果表明,该方法比目前传统定密方式准确率有所提高。 展开更多
关键词 计算机辅助定密 句向量 图模型
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部