期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
结合GAN与BiLSTM-Attention-CRF的领域命名实体识别 被引量:31
1
作者 张晗 郭渊博 李涛 《计算机研究与发展》 EI CSCD 北大核心 2019年第9期1851-1858,共8页
领域内命名实体识别通常面临领域内标注数据缺乏以及由于实体名称多样性导致的同一文档中实体标注不一致等问题.针对以上问题,利用生成式对抗网络(generative adversarial network, GAN)可以生成数据的特点,将生成式对抗网络与BiLSTM-At... 领域内命名实体识别通常面临领域内标注数据缺乏以及由于实体名称多样性导致的同一文档中实体标注不一致等问题.针对以上问题,利用生成式对抗网络(generative adversarial network, GAN)可以生成数据的特点,将生成式对抗网络与BiLSTM-Attention-CRF模型相结合.首先以BiLSTM-Attention作为生成式对抗网络的生成器模型,以CNN作为判别器模型,从众包标注数据集中整合出与专家标注数据分布一致的正样本标注数据来解决领域内标注数据缺乏的问题;然后通过在BiLSTM-Attention-CRF模型中引入文档层面的全局向量,计算每个单词与该全局向量的关系得出其新的特征表示以解决由于实体名称多样化造成的同一文档中实体标注不一致问题;最后,在基于信息安全领域众包标注数据集上的实验结果表明,该模型在各项指标上显著优于同类其他模型方法. 展开更多
关键词 领域命名实体识别 生成式对抗网络 众包标注数据 实体标注一致 bilstm-attention-crf模型
下载PDF
面向音素序列的黏着语词干提取研究
2
作者 古再力努尔·依明 米吉提·阿不里米提 +1 位作者 哈妮克孜·伊拉洪 艾斯卡尔·艾木都拉 《小型微型计算机系统》 CSCD 北大核心 2023年第10期2362-2368,共7页
针对当前的黏着语词干提取任务难以处理具有上下文信息的句子级语料的问题,本文将维吾尔语作为研究对象,提出了一种句子上下文和字符特征相融合的,由BiLSTM、注意力机制(Attention)和CRF构成的词干提取模型.首先以句子级别的字符特征向... 针对当前的黏着语词干提取任务难以处理具有上下文信息的句子级语料的问题,本文将维吾尔语作为研究对象,提出了一种句子上下文和字符特征相融合的,由BiLSTM、注意力机制(Attention)和CRF构成的词干提取模型.首先以句子级别的字符特征向量为输入,使用BiLSTM模型获取正向和反向的上下文序列特征,并在此模型上加入注意力机制进行权重学习,通过提取全局特征信息来捕获词干和词缀边界;最后添加CRF使其从序列特征中学习更多信息,从而更有效地描述上下文信息.为验证上述模型的有效性,将本文模型在两种不同的数据集上进行了实验,并且将本文模型跟传统模型进行了对比.实验结果表明,本文模型对于句子级语料的效果更好,可以更有效地提取词干.此外,本文提出的模型优于其他传统模型,能全面考虑数据特征,具有一定的优越性. 展开更多
关键词 黏着语 维吾尔语 词干提取 上下文 注意力机制 bilstm-attention-crf
下载PDF
信息安全领域内实体共指消解技术研究 被引量:1
3
作者 张晗 胡永进 +1 位作者 郭渊博 陈吉成 《通信学报》 EI CSCD 北大核心 2020年第2期165-175,共11页
针对信息安全领域内的共指消解问题,提出了一个混合型方法。该方法在原来BiLSTM-attention-CRF模型的基础上引入领域词典匹配机制,将其与文档层面的注意力机制相结合,作为一种新的基于字典的注意力机制,来解决从文本中提取候选词时对稀... 针对信息安全领域内的共指消解问题,提出了一个混合型方法。该方法在原来BiLSTM-attention-CRF模型的基础上引入领域词典匹配机制,将其与文档层面的注意力机制相结合,作为一种新的基于字典的注意力机制,来解决从文本中提取候选词时对稀有实体以及长度较长的实体识别能力稍弱的问题,并通过总结领域文本特征,将提取出的待消解候选词根据词性分别采用规则与机器学习的方式进行消解,以提高准确性。通过在安全领域数据集的实验,分别从共指消解以及提取候选词并分类2个方面证明了方法的优越性。 展开更多
关键词 共指消解 混合型方法 领域词典匹配机制 bilstm-attention-crf模型 信息安全
下载PDF
A Hybrid Method of Coreference Resolution in Information Security 被引量:1
4
作者 Yongjin Hu Yuanbo Guo +1 位作者 Junxiu Liu Han Zhang 《Computers, Materials & Continua》 SCIE EI 2020年第8期1297-1315,共19页
In the field of information security,a gap exists in the study of coreference resolution of entities.A hybrid method is proposed to solve the problem of coreference resolution in information security.The work consists... In the field of information security,a gap exists in the study of coreference resolution of entities.A hybrid method is proposed to solve the problem of coreference resolution in information security.The work consists of two parts:the first extracts all candidates(including noun phrases,pronouns,entities,and nested phrases)from a given document and classifies them;the second is coreference resolution of the selected candidates.In the first part,a method combining rules with a deep learning model(Dictionary BiLSTM-Attention-CRF,or DBAC)is proposed to extract all candidates in the text and classify them.In the DBAC model,the domain dictionary matching mechanism is introduced,and new features of words and their contexts are obtained according to the domain dictionary.In this way,full use can be made of the entities and entity-type information contained in the domain dictionary,which can help solve the recognition problem of both rare and long entities.In the second part,candidates are divided into pronoun candidates and noun phrase candidates according to the part of speech,and the coreference resolution of pronoun candidates is solved by making rules and coreference resolution of noun phrase candidates by machine learning.Finally,a dataset is created with which to evaluate our methods using information security data.The experimental results show that the proposed model exhibits better performance than the other baseline models. 展开更多
关键词 Coreference resolution hybrid method RULES bilstm-attention-crf information security
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部