期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
融合字词模型的中文命名实体识别研究 被引量:39
1
作者 殷章志 李欣子 +1 位作者 黄德根 李玖一 《中文信息学报》 CSCD 北大核心 2019年第11期95-100,106,共7页
命名实体识别(NER)是自然语言处理中一项非常重要的基础任务。传统的机器学习方法在处理该任务时,主要依赖于人们的专业领域知识和人工提取的特征。为了在不需要人工特征的条件下获得较好的结果,该文提出了一种融合字词BiLSTM模型的命... 命名实体识别(NER)是自然语言处理中一项非常重要的基础任务。传统的机器学习方法在处理该任务时,主要依赖于人们的专业领域知识和人工提取的特征。为了在不需要人工特征的条件下获得较好的结果,该文提出了一种融合字词BiLSTM模型的命名实体识别方法。首先分别用BiLSTM-CRF训练得到基于字的模型Char-NER和基于词的模型Word-NER,然后将两个模型得到的分值向量进行运算和拼接,将拼接后的向量作为特征送入SVM进行训练,使用SVM对Char-NER和Word-NER进行模型融合。实验结果表明,该方法在不需要人工特征的条件下,在1998年《人民日报》语料和MSRA语料上对人名、地名、机构名识别的F值分别达到了94.04%、92.15%、87.05%和91.73%、93.20%、83.15%。 展开更多
关键词 命名实体识别 BiLSTM-CRF 模型融合 SVM
下载PDF
基于强化学习的医疗问题诉求分类 被引量:4
2
作者 吴昊 黄德根 林晓惠 《中文信息学报》 CSCD 北大核心 2021年第3期100-106,共7页
医疗问题诉求分类属于文本分类,是自然语言处理中的基础任务。该文提出一种基于强化学习的方法对医疗问题诉求进行分类。首先,通过强化学习自动识别出医疗问题中的关键词,并且对医疗问题中的关键词和非关键词赋予不同的值构成一个向量;... 医疗问题诉求分类属于文本分类,是自然语言处理中的基础任务。该文提出一种基于强化学习的方法对医疗问题诉求进行分类。首先,通过强化学习自动识别出医疗问题中的关键词,并且对医疗问题中的关键词和非关键词赋予不同的值构成一个向量;其次,利用该向量作为attention机制的权重向量,对Bi-LSTM模型生成的隐含层状态序列加权求和得到问题表示;最后通过Softmax分类器对问题表示进行分类。实验结果表明,该方法比基于Bi-LSTM模型的分类结果准确率提高1.49%。 展开更多
关键词 强化学习 Bi-LSTM 注意力机制
下载PDF
多头注意力与字词融合的中文命名实体识别 被引量:12
3
作者 赵丹丹 黄德根 +2 位作者 孟佳娜 谷丰 张攀 《计算机工程与应用》 CSCD 北大核心 2022年第7期142-149,共8页
命名实体识别(named entity recognition,NER)是自然语言处理中重要的基础任务,而中文命名实体识别(Chinese named entity recognition,CNER)因分词歧义和一词多义等问题使其尤显困难。针对这些问题,提出多头注意力机制(multi-heads att... 命名实体识别(named entity recognition,NER)是自然语言处理中重要的基础任务,而中文命名实体识别(Chinese named entity recognition,CNER)因分词歧义和一词多义等问题使其尤显困难。针对这些问题,提出多头注意力机制(multi-heads attention mechanism,Multi-Attention)与字词融合的中文命名实体识别模型(CWA-CNER)。将汉语文本字向量与其在句中可能成词的词向量进行拼接,并将其送入长短时记忆网络(bidirectional long short-term memory neural network,BiLSTM)提取上下文语义信息,进而利用多头注意力机制捕获句中元素间联系的紧密程度,最后通过条件随机场(conditional random field,CRF)进行实体标注。该模型在Boson数据集,1998和2014年《人民日报》三种语料上进行实验,其F1值均达到90%以上,结果表明了模型的有效性。 展开更多
关键词 命名实体识别(NER) 多头注意力机制 字词融合
下载PDF
基于语义对齐的生成式文本摘要研究 被引量:7
4
作者 吴世鑫 黄德根 李玖一 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第1期1-6,共6页
针对当前生成式文本摘要模型在解码时对摘要整体语义信息利用不充分的问题,提出一种基于语义对齐的神经网络文本摘要方法。该方法以带注意力、Pointer机制和Coverage机制的Sequence-to-Sequence模型为基础,在编码器与解码器之间加入语... 针对当前生成式文本摘要模型在解码时对摘要整体语义信息利用不充分的问题,提出一种基于语义对齐的神经网络文本摘要方法。该方法以带注意力、Pointer机制和Coverage机制的Sequence-to-Sequence模型为基础,在编码器与解码器之间加入语义对齐网络,实现文本到摘要的语义信息对齐;将获得的摘要整体语义信息与解码器的词汇预测上下文向量进行拼接,使解码器在预测当前词汇时不仅利用已预测词汇序列的部分语义,而且考虑拟预测摘要的整体语义。在中文新闻语料LCSTS上的实验表明,该模型能够有效地提高文本摘要的质量,在字粒度上的实验显示,加入语义对齐机制可以使Rouge_L值提高5.4个百分点。 展开更多
关键词 生成式文本摘要 Sequence-to-Sequence模型 语义对齐网络
下载PDF
Context Information and Fragments Based Cross-Domain Word Segmentation 被引量:8
5
作者 huang degen Tong Deqin 《China Communications》 SCIE CSCD 2012年第3期49-57,共9页
A new joint decoding strategy that combines the character-based and word-based conditional random field model is proposed.In this segmentation framework,fragments are used to generate candidate Out-of-Vocabularies(OOV... A new joint decoding strategy that combines the character-based and word-based conditional random field model is proposed.In this segmentation framework,fragments are used to generate candidate Out-of-Vocabularies(OOVs).After the initial segmentation,the segmentation fragments are divided into two classes as "combination"(combining several fragments as an unknown word) and "segregation"(segregating to some words).So,more OOVs can be recalled.Moreover,for the characteristics of the cross-domain segmentation,context information is reasonably used to guide Chinese Word Segmentation(CWS).This method is proved to be effective through several experiments on the test data from Sighan Bakeoffs 2007 and Bakeoffs 2010.The rates of OOV recall obtain better performance and the overall segmentation performances achieve a good effect. 展开更多
关键词 上下文信息 分词 解码策略 合理使用 测试数据 未登录词 召回率 分割
下载PDF
MT-Oriented English PoS Tagging and Its Application to Noun Phrase Chunking
6
作者 Ma Jianjun huang degen +1 位作者 Liu Haixia Sheng Wenfeng 《China Communications》 SCIE CSCD 2012年第3期58-67,共10页
A hybrid approach to English Part-of-Speech(PoS) tagging with its target application being English-Chinese machine translation in business domain is presented,demonstrating how a present tagger can be adapted to learn... A hybrid approach to English Part-of-Speech(PoS) tagging with its target application being English-Chinese machine translation in business domain is presented,demonstrating how a present tagger can be adapted to learn from a small amount of data and handle unknown words for the purpose of machine translation.A small size of 998 k English annotated corpus in business domain is built semi-automatically based on a new tagset;the maximum entropy model is adopted,and rule-based approach is used in post-processing.The tagger is further applied in Noun Phrase(NP) chunking.Experiments show that our tagger achieves an accuracy of 98.14%,which is a quite satisfactory result.In the application to NP chunking,the tagger gives rise to 2.21% increase in F-score,compared with the results using Stanford tagger. 展开更多
关键词 词性标注 名词短语 应用 分块 英语 导向 MT 机器翻译
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部