期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于Word2vec的自然语言隐写分析方法 被引量:6
1
作者 喻靖民 向凌云 曾道建 《计算机工程》 CAS CSCD 北大核心 2019年第3期309-314,共6页
为数字化表示文本内容的语义信息,并提高基于同义词替换的隐写文本检测精度,提出一种新的自然语言隐写分析方法。利用Word2vec对大规模语料库进行训练获得包含丰富语义信息的多维词向量,使用同义词及其上下文词向量之间的余弦距离度量2... 为数字化表示文本内容的语义信息,并提高基于同义词替换的隐写文本检测精度,提出一种新的自然语言隐写分析方法。利用Word2vec对大规模语料库进行训练获得包含丰富语义信息的多维词向量,使用同义词及其上下文词向量之间的余弦距离度量2个词之间的相关度,并计算同义词在特定上下文中的合适度。根据信息嵌入过程中同义词替换操作对文本同义词合适度的影响提取检测特征形成特征向量,采用贝叶斯分类模型训练特征向量得到隐写分析特征,从而识别隐写文本。实验结果表明,该方法对于不同嵌入率下隐写文本的平均检测精确率和召回率分别达到97.71%和92.64%,具有较好的检测性能。 展开更多
关键词 自然语言 词向量 同义词替换 隐写分析 上下文合适度
下载PDF
基于Word2vec_BiLSTM的用餐评论情感分析 被引量:2
2
作者 秦精俏 王彤 王玉珍 《枣庄学院学报》 2022年第2期37-44,共8页
为充分了解顾客对餐品的满意程度,帮助商家准确把握顾客的消费需求,以外卖平台用餐评论数据为基础,采用word2vec_BiLSTM文本情感分类模型的方法,使用word2vec预训练出各评论语句表征的词向量,利用三种基线模型RNN、LSTM、BiLSTM进行对... 为充分了解顾客对餐品的满意程度,帮助商家准确把握顾客的消费需求,以外卖平台用餐评论数据为基础,采用word2vec_BiLSTM文本情感分类模型的方法,使用word2vec预训练出各评论语句表征的词向量,利用三种基线模型RNN、LSTM、BiLSTM进行对比试验,根据相应的评价指标对多种分类模型效果进行分析。试验结果表明,word2vec_BiLSTM的F_(1)指标为91.71%,与RNN和LSTM模型相比,分别提高了3.81%、2.46%,word2vec_BiLSTM的ACC值为91.19%,与RNN和LSTM模型相比,分别提高了4.56%、1.62%。 展开更多
关键词 用餐评论 文本情感分析 词向量 BiLSTM 上下文特征提取
下载PDF
基于向量空间模型中义项词语的无导词义消歧 被引量:37
3
作者 鲁松 白硕 黄雄 《软件学报》 EI CSCD 北大核心 2002年第6期1082-1089,共8页
有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下... 有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下,将待消歧多义词与义项词语映射到向量空间中,基于k-NN(k=1)方法,计算二者相似度来实现词义消歧任务.在对10个典型多义词进行词义消歧的测试实验中,采用该方法取得了平均正确率为83.13%的消歧结果. 展开更多
关键词 向量空间模型 义项词语 无导词义消歧 义项词语 自然语言处理
下载PDF
基于引文上下文的学术文本自动摘要技术研究 被引量:4
4
作者 陈海华 黄永 +1 位作者 张炯 陆伟 《数字图书馆论坛》 CSSCI 2016年第8期43-49,共7页
学术文本自动摘要是指对于给定学术文献,自动地抽取其核心内容,以提高用户撰写和阅读文献的效率。目前基于文本词频对句子重要性排序的自动摘要技术,无法从语义层面揭示学术文本的核心内容。本文在已有研究的基础上,引入引文上下文内容... 学术文本自动摘要是指对于给定学术文献,自动地抽取其核心内容,以提高用户撰写和阅读文献的效率。目前基于文本词频对句子重要性排序的自动摘要技术,无法从语义层面揭示学术文本的核心内容。本文在已有研究的基础上,引入引文上下文内容特征,并通过构建支持向量回归模型,综合考虑自动摘要系统中的各个特征对句子权重的影响,重新对句子重要性进行排序。基于WE-ROUGE的评测表明,相比于传统基于词频统计和图模型的方法,本文提出的算法能够有效提升自动摘要的准确度。 展开更多
关键词 文本自动摘要 引文上下文 支持向量回归 词向量
下载PDF
基于改进的VSM的词义排歧策略
5
作者 赵晨光 蔡东风 《计算机应用》 CSCD 北大核心 2010年第6期1671-1672,1693,共3页
为了提高词义排歧的准确率,提出了一种基于改进的向量空间模型(VSM)的词义排歧策略,该模型在提取特征向量的基础上,考虑了语法、词形、语义等因素,计算语境相似度,并引入搭配约束,改进了算法的效果,在开放测试环境下,词义标注正确率可达... 为了提高词义排歧的准确率,提出了一种基于改进的向量空间模型(VSM)的词义排歧策略,该模型在提取特征向量的基础上,考虑了语法、词形、语义等因素,计算语境相似度,并引入搭配约束,改进了算法的效果,在开放测试环境下,词义标注正确率可达到80%以上。实验结果表明,该方法对语境信息的描述更加全面,有利于进一步的语义分析。 展开更多
关键词 向量空间模型 词义排歧 语境相似度 特征向量 词语搭配
下载PDF
基于上下文词向量和主题模型的实体消歧方法 被引量:12
6
作者 王瑞 李弼程 杜文倩 《中文信息学报》 CSCD 北大核心 2019年第11期46-56,共11页
传统词向量训练模型仅考虑词共现而未考虑词序,语义表达能力弱。此外,现有实体消歧方法没有考虑实体的局部特征。综合实体的全局特征和局部特征,该文提出一种基于上下文词向量和主题模型的实体消歧方法。首先,在传统词向量模型上增加上... 传统词向量训练模型仅考虑词共现而未考虑词序,语义表达能力弱。此外,现有实体消歧方法没有考虑实体的局部特征。综合实体的全局特征和局部特征,该文提出一种基于上下文词向量和主题模型的实体消歧方法。首先,在传统词向量模型上增加上下文方向向量,用于表征语序,并利用该模型与主题模型训练主题词向量;其次,分别计算实体上下文相似度、基于实体上下文主题的类别主题相似度以及基于主题词向量的实体主题相似度;最后,融合三种相似度,选择相似度最高的实体作为最终消歧实体。实验结果表明,相比于现有的主流消歧方法,新方法是有效的。 展开更多
关键词 上下文词向量 实体消歧 知识库 主题词向量 主题模型
下载PDF
引入词性标记的基于语境相似度的词义消歧 被引量:6
7
作者 孟禹光 周俏丽 +1 位作者 张桂平 蔡东风 《中文信息学报》 CSCD 北大核心 2018年第8期9-18,共10页
目前的语境向量模型在对语义空间建模的时候,没有考虑到同一个词的不同词性具有不同的含义,将它们看作同一个点进行建模,导致得到的语境向量质量不高,使用这种语境向量计算语境相似度效果不好。针对该类问题,提出了一种加入词性特征的... 目前的语境向量模型在对语义空间建模的时候,没有考虑到同一个词的不同词性具有不同的含义,将它们看作同一个点进行建模,导致得到的语境向量质量不高,使用这种语境向量计算语境相似度效果不好。针对该类问题,提出了一种加入词性特征的语境向量模型,加入词性后,可以将原本用语义空间中一个点表示的几个语义区分出来,得到质量更好的语境向量和语境相似度,进而得到更好的消歧效果。实验结果表明,这种建模方式可以有效区分不同词性的语义,在2004年的Senseval-3测试集上进行测试,准确率达到了75.3%,并在SemEval-13和SemEval-15公开测试集上进行了测试,消歧效果相比未引入词性特征的模型均得到了提升。 展开更多
关键词 语境向量 语境相似度 词义消歧 词性特征
下载PDF
变体上下文窗口下的词向量准确性研究 被引量:1
8
作者 胡正 杨志勇 《现代电子技术》 北大核心 2019年第6期146-148,153,共4页
词向量的准确性在较大程度上影响了这些自然语言处理任务的运行。词向量通过词嵌入产生,在词嵌入的方法中,都将目标单词及其上下文作为训练的输入,因此上下文的选定对词嵌入有着重要的影响。文中通过使用word2vec词嵌入方法,研究各种变... 词向量的准确性在较大程度上影响了这些自然语言处理任务的运行。词向量通过词嵌入产生,在词嵌入的方法中,都将目标单词及其上下文作为训练的输入,因此上下文的选定对词嵌入有着重要的影响。文中通过使用word2vec词嵌入方法,研究各种变体上下文窗口对词嵌入准确度的影响。根据上下文窗口的各种宽度、偏移量、权值进行了一系列实验。从实验结果中发现,上下文窗口的变化只会对整体训练结果的准确性造成很小的影响,然而对于其中具体的各个单词却有显著影响。从而得出结论,即大量单词各自所适应的上下文窗口区别较大,而统一的上下文窗口难以实现对全部单词的最佳训练。 展开更多
关键词 词向量 词嵌入 上下文窗口 自然语言处理 神经网络 深度学习
下载PDF
基于上下文信息的恶意URL检测技术 被引量:5
9
作者 吴海滨 张冬梅 《软件》 2019年第1期63-68,共6页
恶意URL现如今对网络安全影响巨大,能否高效的检测恶意URL成为一个亟待解决的问题。针对传统基于文本特征的检测方法没有考虑到URL中词的位置和上下文信息的缺点,提出了一种基于上下文信息的恶意URL检测方法,首先利用预处理方法解决了UR... 恶意URL现如今对网络安全影响巨大,能否高效的检测恶意URL成为一个亟待解决的问题。针对传统基于文本特征的检测方法没有考虑到URL中词的位置和上下文信息的缺点,提出了一种基于上下文信息的恶意URL检测方法,首先利用预处理方法解决了URL中存在大量的随机字符组成单词的问题,使用特殊符号作为分隔符对URL分词,对得到的分词结果使用Word2vec生成词向量空间,然后训练卷积神经网络提取文本特征并分类。实验结果表明,该方法在大量真实数据上能够达到97.30%的准确率、90.15%的召回率和92.33%的F1值。 展开更多
关键词 恶意URL 网络安全 上下文信息 词向量 卷积神经网络
下载PDF
融合上下文字符信息的泰语神经网络分词方法 被引量:1
10
作者 陶广奉 线岩团 +1 位作者 王红斌 汪淑娟 《计算机工程与科学》 CSCD 北大核心 2018年第5期943-949,共7页
自动分词是自然语言处理的关键基础技术。针对传统泰语统计分词方法特征模板复杂、搜索空间大的问题,提出融合上下文字符信息的泰语神经网络分词模型。该模型借助词分布表示方法,训练泰语字符表示向量,利用多层神经网络分类器实现泰语... 自动分词是自然语言处理的关键基础技术。针对传统泰语统计分词方法特征模板复杂、搜索空间大的问题,提出融合上下文字符信息的泰语神经网络分词模型。该模型借助词分布表示方法,训练泰语字符表示向量,利用多层神经网络分类器实现泰语分词。基于InterBEST 2009泰语分词评测语料的实验结果表明,所提方法相较于条件随机场分词模型、Character-Cluster Hybrid分词模型以及GLR and Ngram分词模型取得了更好的分词效果,分词准确率、召回率和F值分别达到了97.27%、99.26%及98.26%,相比条件随机场分词速度提高了112.78%。 展开更多
关键词 泰语分词 神经网络模型 上下文字符信息 字符向量
下载PDF
采用自注意力机制和CNN融合的实体关系抽取 被引量:13
11
作者 闫雄 段跃兴 张泽华 《计算机工程与科学》 CSCD 北大核心 2020年第11期2059-2066,共8页
目前在实体关系抽取任务中,神经网络模型发挥着重要的作用,利用卷积神经网络可以自动提取特征,但是在卷积神经网络中利用固定窗口大小的卷积核来提取句子中词的上下文语义信息受到限制。因此,提出一种新的采用自注意力和卷积神经网络融... 目前在实体关系抽取任务中,神经网络模型发挥着重要的作用,利用卷积神经网络可以自动提取特征,但是在卷积神经网络中利用固定窗口大小的卷积核来提取句子中词的上下文语义信息受到限制。因此,提出一种新的采用自注意力和卷积神经网络融合的关系抽取模型。利用原始的词向量通过自注意力机制计算得到序列中词之间的相互关系,使得输入的词向量表达出更加丰富的语义信息,从而弥补卷积神经网络自动提取特征的不足。在SemEval-2010 Task 8数据集上的实验结果表明,加入自注意力机制以后,本文模型有利于提升实体关系抽取效果。 展开更多
关键词 实体关系抽取 自注意力机制 卷积神经网络 词向量 上下文语义
下载PDF
基于词频和情景语义的产品特征提取方法 被引量:4
12
作者 陈可嘉 郑晶晶 +1 位作者 靳健 赵政 《广西大学学报(自然科学版)》 CAS 北大核心 2020年第6期1413-1422,共10页
为解决目前产品特征提取方法在种子特征词集构建上存在需要大量人工标注、代表性不足等问题,提出一种基于词频和情景语义的产品特征提取方法。通过少量高频名词和关联规则构建种子特征词集,采用神经网络语言模型进行词向量训练,再通过... 为解决目前产品特征提取方法在种子特征词集构建上存在需要大量人工标注、代表性不足等问题,提出一种基于词频和情景语义的产品特征提取方法。通过少量高频名词和关联规则构建种子特征词集,采用神经网络语言模型进行词向量训练,再通过计算向量间余弦相似度对种子特征词集进行扩充,最后经人工分类后得到完整的产品特征词典。实验结果显示,该方法采用种子特征词集相似度排名前九的单词(top9)来进行产品特征扩充时效果最好,F1值达到了76.44%。此外,与K-means+Word2vec、LDA等方法在top5,top10,top15,top20水平上的对比实验表明,无论是准确率、召回率还是F1值,该方法都更优。 展开更多
关键词 产品特征提取 词频 情景语义 种子特征词集 词向量 文本挖掘
下载PDF
联合分层注意力网络和独立循环神经网络的地域欺凌识别
13
作者 孟曌 田生伟 +1 位作者 禹龙 王瑞锦 《计算机应用》 CSCD 北大核心 2019年第8期2450-2455,共6页
为提高对文本语境深层次信息的利用效率,提出了联合分层注意力网络(HAN)和独立循环神经网络(IndRNN)的地域欺凌文本识别模型——HACBI。首先,将手工标注的地域欺凌文本通过词嵌入技术映射到低维向量空间中;其次,借助卷积神经网络(CNN)... 为提高对文本语境深层次信息的利用效率,提出了联合分层注意力网络(HAN)和独立循环神经网络(IndRNN)的地域欺凌文本识别模型——HACBI。首先,将手工标注的地域欺凌文本通过词嵌入技术映射到低维向量空间中;其次,借助卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)提取地域欺凌文本的局部及全局语义特征,并进一步利用HAN捕获文本的内部结构信息;最后,为避免文本层次结构信息丢失和解决梯度消失等问题,引入IndRNN以增强模型的描述能力,并实现信息流的整合。实验结果表明,该模型的准确率(Acc)、精确率(P)、召回率(R)、F1和AUC值分别为99.57%、98.54%、99.02%、98.78%和99.35%,相比支持向量机(SVM)、CNN等文本分类模型有显著提升。 展开更多
关键词 地域欺凌 结构信息 分层注意力网络 独立循环神经网络 词向量 语境
下载PDF
用于形式背景提取的中文文本表示
14
作者 侯亚南 黄映辉 《计算机技术与发展》 2010年第9期36-39,43,共5页
形式背景需要从实际的数据源中提取。当数据源为无结构的中文文本时,必须选择如何对其进行表示。目前主流的中文文本表示方法主要采用以词语为特征项的向量空间模型(VSM),其主要缺陷是忽略了自然语言中词语之间的语义联系,无法表达文本... 形式背景需要从实际的数据源中提取。当数据源为无结构的中文文本时,必须选择如何对其进行表示。目前主流的中文文本表示方法主要采用以词语为特征项的向量空间模型(VSM),其主要缺陷是忽略了自然语言中词语之间的语义联系,无法表达文本的语义信息。讨论了一种改进方法,其特征是:选择知网(Hownet)作为知识库,采用相似词集集合代替单一特征词,建立中文文本的概念向量空间。对于用概念向量空间表示的中文文本,可以方便地根据用户的具体要求提取所需的形式背景。以214篇交通类中文文本为实例阐释了该改进方法的实际应用。 展开更多
关键词 形式背景 文本表示 相似词集集合 向量空间模型
下载PDF
基于非线性全局上下文的词嵌入 被引量:3
15
作者 刘永彬 欧阳纯萍 +3 位作者 钟东来 李涓子 袁博志 李奇 《中国科学:信息科学》 CSCD 北大核心 2015年第12期1588-1599,共12页
针对当前词表示方法中的上下文的局限性,文章提出了一个基于非线性全局上下文的词表示方法.该方法主要分为两步骤,首先利用维基百科的排歧页,对文档中的当前词进行排歧处理,以此来提高词表示的效果.然后,再针对传统词表示方法中的线性... 针对当前词表示方法中的上下文的局限性,文章提出了一个基于非线性全局上下文的词表示方法.该方法主要分为两步骤,首先利用维基百科的排歧页,对文档中的当前词进行排歧处理,以此来提高词表示的效果.然后,再针对传统词表示方法中的线性局部上下文问题,利用依存和共指关系对语料进行分析,得出基于非线性全局上下文的词表示向量.文章选取英文维基百科数据集作为实验语料,在定性分析方面,该方法可以找到更接近当前词义的相关词,因对多义词进行了排歧处理,词表示结果上明显好于其他的方法.在定量比较方面,通过在Word Sim-353数据集上对比实验表明,该方法在Spearman相关系数上比其他方法高出5%~10%以上. 展开更多
关键词 非线性全局上下文 共指消解 词义排歧 词向量 词嵌入 神经网络 深度学习 依存关系分析
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部