期刊文献+
共找到161篇文章
< 1 2 9 >
每页显示 20 50 100
基于多头注意力机制字词联合的中文命名实体识别
1
作者 王进 王猛旗 +2 位作者 张昕跃 孙开伟 朴昌浩 《江苏大学学报(自然科学版)》 CAS 北大核心 2024年第1期77-84,共8页
针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低... 针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低冗余词汇干扰.建立了多头注意力字词联合模型,包含字词匹配、多头注意力、融合等模块.与现有中文命名实体识别方法相比,本算法避免了设计复杂的序列模型,方便与现有基于字的中文命名实体识别模型结合.采用召回率、精确率以及F 1值作为评价指标,通过消融试验验证模型各个部分的效果.结果表明,本算法在MSRA和Weibo数据集上F 1值分别提升0.28、0.69,在Resume数据集上精确率提升0.07. 展开更多
关键词 中文命名实体识别 词汇冗余 词汇边界信息 字词联合 多头注意力机制 BIE词集
下载PDF
RIB-NER:基于跨度的中文命名实体识别模型
2
作者 田红鹏 吴璟玮 《计算机工程与科学》 CSCD 北大核心 2024年第7期1311-1320,共10页
命名实体识别是自然语言处理领域中诸多下游任务的重要基础。汉语作为重要的国际语言,在许多方面具有独特性。传统上,中文命名实体识别任务模型使用序列标记机制,该机制需要条件随机场捕获标签的依赖性,然而,这种方法容易出现标签的错... 命名实体识别是自然语言处理领域中诸多下游任务的重要基础。汉语作为重要的国际语言,在许多方面具有独特性。传统上,中文命名实体识别任务模型使用序列标记机制,该机制需要条件随机场捕获标签的依赖性,然而,这种方法容易出现标签的错误分类。针对这个问题,提出基于跨度的命名实体识别模型RIB-NER。首先,以RoBERTa-wwm-ext作为模型嵌入层,提供字符级嵌入,以获得更多的上下文语义信息和词汇信息。其次,利用IDCNN的并行卷积核来增强词之间的位置信息,从而使词与词之间联系更加紧密。同时,在模型中融合BiLSTM网络来获取上下文信息。最后,采用双仿射模型对句子中的开始标记和结束标记评分,使用这些标记探索跨度。在MSRA和Weibo 2个语料库上的实验结果表明,RIB-NER能够较为准确地识别实体边界,并分别获得了95.11%和73.94%的F1值。与传统深度学习相比,有更好的识别效果。 展开更多
关键词 中文命名实体识别 双仿射模型 迭代膨胀卷积神经网络 预训练模型 跨度
下载PDF
中文命名实体识别研究综述 被引量:14
3
作者 赵继贵 钱育蓉 +2 位作者 王魁 侯树祥 陈嘉颖 《计算机工程与应用》 CSCD 北大核心 2024年第1期15-27,共13页
命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界... 命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界模糊、语义多样化、形态特征模糊以及中文语料库内容较少等问题,导致中文命名实体识别性能难以大幅提升。介绍了CNER的数据集、标注方案和评价指标。按照CNER的研究进程,将CNER方法分为基于规则的方法、基于统计的方法和基于深度学习的方法三类,并对近五年来基于深度学习的CNER主要模型进行总结。探讨CNER的研究趋势,为新方法的提出和未来研究方向提供一定参考。 展开更多
关键词 自然语言处理 中文命名实体识别 深度学习 预训练模型 机器学习
下载PDF
基于汉字上下文信息增强词典知识融入的中文命名实体识别
4
作者 赵振宇 朱静静 +3 位作者 张宇馨 刘梦珠 陈黎 琚生根 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期104-112,共9页
由于中文语言缺少显式的分隔符,使得中文命名实体识别任务面临缺少词语边界信息的难题.为了解决这一问题,现有的主流模型通过引入词典来利用词语边界信息.然而,词典中的词语信息只是根据字词之间的匹配关系融入汉字表示中,忽视了句子信... 由于中文语言缺少显式的分隔符,使得中文命名实体识别任务面临缺少词语边界信息的难题.为了解决这一问题,现有的主流模型通过引入词典来利用词语边界信息.然而,词典中的词语信息只是根据字词之间的匹配关系融入汉字表示中,忽视了句子信息对于词语选择的影响,与句子语义信息无关的词语不可避免地引入到模型中,使模型感知错误的词语边界信息.为了减少无关词语对于实体识别结果的影响,本文提出了一种新的中文命名实体识别方法 ELKI,通过带有句子语义信息的汉字上下文表示来增强词典知识的融入,从而改善模型感知词语边界的精度.具体地,本文设计了一种新型的交叉注意力网络从词典中挖掘与语义信息相关的词语信息.同时,本文构造了一种门控融合网络来动态地将词典知识融入到汉字的上下文表示中.在Resume、MSRA和OntoNotes三个基准数据集上的实验结果表明本文方法优于其它的基线模型. 展开更多
关键词 中文命名实体识别 交叉注意力网络 门控融合网络 信息抽取
下载PDF
基于词汇融合和依存关系的中文命名实体识别
5
作者 唐卓然 柳毅 《计算机工程》 CAS CSCD 北大核心 2024年第10期145-153,共9页
命名实体识别是自然语言处理领域的重要基础任务,为关系抽取、构建知识图谱等众多下游任务提供有价值的数据支撑。针对中文命名实体识别存在分词错误、实体边界模糊和上下文依赖的难点,以及现有方法不能充分利用词汇信息和有效提取文本... 命名实体识别是自然语言处理领域的重要基础任务,为关系抽取、构建知识图谱等众多下游任务提供有价值的数据支撑。针对中文命名实体识别存在分词错误、实体边界模糊和上下文依赖的难点,以及现有方法不能充分利用词汇信息和有效提取文本内部特征等问题,提出一种基于词汇融合和依存关系的中文命名实体识别模型。首先,获取输入文本中每个字符的自匹配词生成词汇特征向量,并根据字符在它的自匹配词上的位置得到词边界信息,利用双仿射注意力机制将字符向量与词汇特征向量进行融合,将词汇信息和词边界信息融入模型的编码过程,从而使模型获得良好的实体识别能力;然后,根据依存句法建立输入文本的依存图结构,利用图注意力网络(GAT)捕获输入文本内部依存关系特征,增强文本内部的语义依赖信息,同时有利于区分实体边界;最后,使用条件随机场(CRF)计算文本的标签。实验结果表明,该模型在CCKS2017、OntoNote4.0和MSRA数据集上分别获得了92.10%、80.76%和95.66%的F1值,优于对比模型。 展开更多
关键词 注意力机制 依存关系 词汇融合 图注意力网络 中文命名实体识别
下载PDF
融合多特征和句法引导的中文命名实体识别
6
作者 李莉 奚雪峰 +2 位作者 盛胜利 崔志明 周悦尧 《计算机工程与设计》 北大核心 2024年第11期3448-3456,共9页
针对基于字符的中文命名实体识别模型中所存在一词多义和实体边界潜在词歧义的问题,提出一种融合多层语义特征和句法依存引导的中文NER模型。将句法依存引导的注意力机制与双向长短期记忆网络(BiLSTM)结合,获得字特征向量。通过迭代卷... 针对基于字符的中文命名实体识别模型中所存在一词多义和实体边界潜在词歧义的问题,提出一种融合多层语义特征和句法依存引导的中文NER模型。将句法依存引导的注意力机制与双向长短期记忆网络(BiLSTM)结合,获得字特征向量。通过迭代卷积神经网络(IDCNN)提取汉字独有特征:部首与拼音。采用协同注意力机制对句法依存引导的多种向量进行特征融合。使用CRF层来获得最佳标记序列。在多个公开数据集上的实验结果表明了模型的有效性。 展开更多
关键词 中文命名实体识别 多特征融合 句法依存树 BERT 协同注意力机制 一词多义 潜在词歧义
下载PDF
基于深度学习的中文命名实体识别技术研究
7
作者 武文静 岳杰 +1 位作者 王佳丽 刘枫 《河北建筑工程学院学报》 CAS 2024年第3期210-215,共6页
命名实体识别(NER)是NLP领域的一项基础底层任务。针对当前传统的基于规则和统计方法存在特征提取的精准度和模型的可扩展性上不足的问题,中文命名实体识别技术在利用神经网络学习模型时得到了极大地改善。除了通过Bert预训练模型和相... 命名实体识别(NER)是NLP领域的一项基础底层任务。针对当前传统的基于规则和统计方法存在特征提取的精准度和模型的可扩展性上不足的问题,中文命名实体识别技术在利用神经网络学习模型时得到了极大地改善。除了通过Bert预训练模型和相关的公开数据集对文本数据特征提取、识别实体之外还融合了人工标注的地名和组织机构实体的额外数据集来增强模型的词义理解准确度。实验结果表明,模型的实体识别能力有所提高。 展开更多
关键词 自然语言处理 中文命名实体识别 深度学习 中文分词
下载PDF
融合外部知识和位置信息的中文命名实体识别
8
作者 李源 洛桑嘎登 蒋卫丽 《计算机工程与应用》 CSCD 北大核心 2024年第22期162-171,共10页
命名实体识别(named entity recognition,NER)是信息检索和自然语言处理领域重要且基础的任务。与英文不同,目前大部分的中文NER方法,都面临分词困扰、领域知识缺失的问题。针对以上问题,基于Lattice结构,提出一种结合知识图谱嵌入(know... 命名实体识别(named entity recognition,NER)是信息检索和自然语言处理领域重要且基础的任务。与英文不同,目前大部分的中文NER方法,都面临分词困扰、领域知识缺失的问题。针对以上问题,基于Lattice结构,提出一种结合知识图谱嵌入(knowledge graphs embedding,KGE)和带掩码位置信息的中文NER模型。Lattice语义信息的使用,为补充词粒度信息和解决分词问题奠定了结构基础。知识图谱嵌入的使用,为模型补充并定位了其所缺失的领域知识。而带掩码位置信息的使用,则较好地解决了由于知识图谱的引入而带来的知识噪声问题。所提出的方法在通用领域和垂直领域上均能取得较好的表现,在Weibo、Resume以及CCKS 2017上的F1值分别达到了74.01%、96.62%、94.95%。 展开更多
关键词 LATTICE 知识图谱嵌入 位置信息 中文命名实体识别
下载PDF
一种结合词汇信息特征的中文命名实体识别方法
9
作者 闫河 李尧 +1 位作者 雷秋霞 王旭 《小型微型计算机系统》 CSCD 北大核心 2024年第7期1622-1628,共7页
在中文命名实体识别任务中,基于字符级嵌入的模型通常仅采用BiLSTM网络获取序列中字符的上下文特征进行实体识别,并没有考虑到词汇信息特征能够在识别实体边界时提供更优的约束.针对此问题,该文提出了一种结合词汇信息特征的中文命名实... 在中文命名实体识别任务中,基于字符级嵌入的模型通常仅采用BiLSTM网络获取序列中字符的上下文特征进行实体识别,并没有考虑到词汇信息特征能够在识别实体边界时提供更优的约束.针对此问题,该文提出了一种结合词汇信息特征的中文命名实体识别方法.首先,采用带有残差连接的门控空洞卷积网络提取序列局部特征来表示词汇信息特征,以及采用BiGRU提取序列全局上下文信息特征,并添加句子级注意力机制来增强网络的长序列建模能力;其次,利用稀疏注意力机制对特征进行动态融合,获得包含词汇信息的文本特征;最后,运用CRF学习序列中的约束条件,得到最佳的实体标注结果.对比实验结果表明,该文方法在Resume和CLUENER2020数据集上优于主流的中文命名实体识别方法. 展开更多
关键词 中文命名实体识别 门控空洞卷积 稀疏注意力机制 词汇信息特征
下载PDF
基于词汇增强和表格填充的中文命名实体识别
10
作者 褚天舒 唐球 +3 位作者 梁军学 徐睿 王明阳 刘涛 《电子技术应用》 2024年第2期23-29,共7页
中文命名实体识别主要包括中文平面命名实体识别和中文嵌套命名实体识别两个任务,其中中文嵌套命名实体识别任务难度更大。提出了一个基于词汇增强和表格填充的统一模型TLEXNER,该模型能够同时处理上述任务。该模型首先针对中文语料分... 中文命名实体识别主要包括中文平面命名实体识别和中文嵌套命名实体识别两个任务,其中中文嵌套命名实体识别任务难度更大。提出了一个基于词汇增强和表格填充的统一模型TLEXNER,该模型能够同时处理上述任务。该模型首先针对中文语料分词困难的问题,使用词典适配器将词汇信息融合到BERT预训练模型,并且将字符与词汇组的相对位置信息集成到BERT的嵌入层中;然后通过条件层归一化和双仿射模型构造并预测字符对表格,使用表格建模字符与字符之间的关系,得到平面实体与嵌套实体的统一表示;最后根据字符对表格上三角区域的数值判断实体类别。提出的模型在平面实体的公开数据集Resume和自行标注的军事领域嵌套实体数据集上F1分别是97.35%和91.96%,证明了TLEXNER模型的有效性。 展开更多
关键词 词汇增强 中文命名实体识别 表格填充
下载PDF
基于深度学习的中文命名实体边界识别算法
11
作者 张子豪 李文敬 李双 《南宁师范大学学报(自然科学版)》 2024年第1期82-87,共6页
为了解决中文命名实体边界识别产生歧义和识别不准确的问题,提出了基于深度学习的中文命名实体边界识别算法。对以“字”和“词”的中文实体边界识别方法存在的缺陷进行分析,根据句子中命名实体的位置编码原理,对每个命名实体的首尾位... 为了解决中文命名实体边界识别产生歧义和识别不准确的问题,提出了基于深度学习的中文命名实体边界识别算法。对以“字”和“词”的中文实体边界识别方法存在的缺陷进行分析,根据句子中命名实体的位置编码原理,对每个命名实体的首尾位置添加标签,以划分每个实体的边界,同时用标签表示命名实体之间的关系,提出了基于位置标注的中文命名实体识别的词汇信息融合方法,并引入注意力机制对词汇信息融合模块进行改进。利用深度学习的优势,将深度学习与词汇信息融合相结合,构建基于深度学习的中文命名实体词汇信息融合模型和基于深度学习的中文命名实体边界识别算法。该算法在Resume等数据集上进行对比实验和消融实验,查准率为95.94%,查全率为96.46%,F1值为96.58%。实验结果表明,该算法与Lattice等算法相比,准确率、查准率、F1值分别提高了1.13%、2.35%、2.12%。该算法在解决目前中文命名实体识别存在的边界识别不准确和存在歧义的问题上更优。 展开更多
关键词 深度学习 中文命名实体 词汇信息融合 边界识别算法
下载PDF
融合汉字部首及多头注意力的中文命名实体识别
12
作者 薛帆 《计算机应用文摘》 2024年第20期136-140,共5页
针对中文命名实体识别准确率不高的问题,提出了一种融合汉字部首与多头注意力机制的中文命名实体识别方法。首先,采用ERNIE预训练语言模型获取词向量表示,并结合汉字部首特征进行融合。将拼接后的向量通过BiLSTM网络提取文本序列的上下... 针对中文命名实体识别准确率不高的问题,提出了一种融合汉字部首与多头注意力机制的中文命名实体识别方法。首先,采用ERNIE预训练语言模型获取词向量表示,并结合汉字部首特征进行融合。将拼接后的向量通过BiLSTM网络提取文本序列的上下文语义信息,同时利用多头注意力机制来增强模型对长序列数据及关键特征的处理能力。最后,通过CRF模型计算输出序列的条件概率分布并进行命名实体识别。实验结果表明,该方法在中文命名实体识别的CLUNER数据集上的表现优于当前主流模型。 展开更多
关键词 中文命名实体识别 ERNIE模型 部首特征 长短期记忆网络 多头注意力机制
下载PDF
全球海草的中文命名 被引量:25
13
作者 黄小平 江志坚 +3 位作者 张景平 于硕 刘松林 吴云超 《海洋学报》 CAS CSCD 北大核心 2018年第4期127-133,共7页
海草(seagrass)是地球上唯一一类可以完全生活在海水中的高等被子植物。全球已知海草的种类有70余种,隶属6科13属;中国现有海草22种,隶属4科10属。2014年11月"第十一次国际海草生物学研讨会"(The 11^(th) International Seagr... 海草(seagrass)是地球上唯一一类可以完全生活在海水中的高等被子植物。全球已知海草的种类有70余种,隶属6科13属;中国现有海草22种,隶属4科10属。2014年11月"第十一次国际海草生物学研讨会"(The 11^(th) International Seagrass Biology Workshop)在三亚召开时,国内海草研究专家共同探讨了中国海草的"藻"名更改,并进行了统一命名。然而,国内中文文章在引用非中国海草种类时,同一种海草的中文名称不一致,或者同一属不同的物种以一样的中文名出现,或者用属中文名后接拉丁文方式表达。同时,国外海草的中文名也多以"藻"来命名,容易引起混淆。因此,有必要在中国海草"藻"名更改的基础上,进一步规范全球其他海草的中文命名,以利于国内海草研究。 展开更多
关键词 海草 全球 中文命名
下载PDF
基于小规模尾字特征的中文命名实体识别研究 被引量:26
14
作者 冯元勇 孙乐 +1 位作者 张大鲲 李文波 《电子学报》 EI CAS CSCD 北大核心 2008年第9期1833-1838,共6页
本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该... 本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点.在SIGHAN 2006命名实体识别语料上的结果也居于前列. 展开更多
关键词 中文命名实体识别 小规模尾字特征 条件随机场 自然语言处理 机器学习
下载PDF
基于含边界词性特征的中文命名实体识别 被引量:7
15
作者 邱莎 王付艳 +3 位作者 申浩如 段玻 阿圆 丁海燕 《计算机工程》 CAS CSCD 2012年第13期128-130,共3页
根据词性在任务中可能出现的特征表达,在字粒度一级,基于条件随机场模型,对词性特征在中文命名实体识别任务中的应用进行研究,提出一种将词性和词边界合成为一个特征项的方法。在相同实验环境下针对多种词性特征的应用情况,采用序列标... 根据词性在任务中可能出现的特征表达,在字粒度一级,基于条件随机场模型,对词性特征在中文命名实体识别任务中的应用进行研究,提出一种将词性和词边界合成为一个特征项的方法。在相同实验环境下针对多种词性特征的应用情况,采用序列标注的方式在公共语料上进行多次中文命名实体识别实验。通过对多次实验结果的比较分析得出,二级词性与词边界合成的特征在系统执行性能和识别效果等方面均为最优。 展开更多
关键词 中文命名实体识别 条件随机场 特征模板 词性 词边界 标注集
下载PDF
基于单字提示特征的中文命名实体识别快速算法 被引量:24
16
作者 冯元勇 孙乐 +1 位作者 李文波 张大鲲 《中文信息学报》 CSCD 北大核心 2008年第1期104-110,共7页
近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(Linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降... 近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(Linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文命名实体识别精度的同时,有效地降低了模型的训练代价。 展开更多
关键词 计算机应用 中文信息处理 中文命名实体识别 条件随机场 自然语言处理 机器学习
下载PDF
深度学习中文命名实体识别研究进展 被引量:3
17
作者 李莉 奚雪峰 +2 位作者 盛胜利 崔志明 徐家保 《计算机工程与应用》 CSCD 北大核心 2023年第24期46-69,共24页
中文命名实体识别(CNER)指识别中文文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。近年来,深度学习技术依托其端到端的方法,自动学习到更深层次和更抽象的数据特征,摆脱了人工标注的依赖,解决了高维特征空间的数据... 中文命名实体识别(CNER)指识别中文文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。近年来,深度学习技术依托其端到端的方法,自动学习到更深层次和更抽象的数据特征,摆脱了人工标注的依赖,解决了高维特征空间的数据稀疏问题,从而逐渐成为中文命名实体识别方法的主流。回顾了命名实体识别的发展进程和CNER的特殊性和难点;围绕着中文命名实体识别的不同处理特点,将基于深度学习的中文命名实体识别的方法分类为扁平实体边界问题、中文嵌套命名实体识别和CNER小样本问题处理三个领域,并具体阐述这三类领域的模型、细分领域和最近的研究进展并整理了部分典型深度学习方法在相关数据集上的实验结果;再次总结了中文命名实体识别任务的常用数据集和评估方法;指出了当前中文命名实体识别技术面临的挑战和未来的研究方向。 展开更多
关键词 中文命名实体识别 深度学习 实体边界 中文嵌套命名实体识别 低资源中文命名实体识别
下载PDF
词边界字向量的中文命名实体识别 被引量:8
18
作者 姚霖 刘轶 +1 位作者 李鑫鑫 刘宏 《智能系统学报》 CSCD 北大核心 2016年第1期37-42,共6页
常见的基于机器学习的中文命名实体识别系统往往使用大量人工提取的特征,但特征提取费时费力,是一件十分繁琐的工作。为了减少中文命名实体识别对特征提取的依赖,构建了基于词边界字向量的中文命名实体识别系统。该方法利用神经元网络... 常见的基于机器学习的中文命名实体识别系统往往使用大量人工提取的特征,但特征提取费时费力,是一件十分繁琐的工作。为了减少中文命名实体识别对特征提取的依赖,构建了基于词边界字向量的中文命名实体识别系统。该方法利用神经元网络从大量未标注数据中,自动抽取出蕴含其中的特征信息,生成字特征向量。同时考虑到汉字不是中文语义的最基本单位,单纯的字向量会由于一字多义造成语义的混淆,因此根据同一个字在词中处于不同位置大多含义不同的特点,将单个字在词语中所处的位置信息加入到字特征向量中,形成词边界字向量,将其用于深度神经网络模型训练之中。在Sighan Bakeoff-3(2006)语料中取得了F189.18%的效果,接近当前国际先进水平,说明了该系统不仅摆脱了对特征提取的依赖,也减少了汉字一字多义产生的语义混淆。 展开更多
关键词 机器学习 中文命名体识别 深度神经网络 特征向量 特征提取
下载PDF
基于词典和字形特征的中文命名实体识别 被引量:2
19
作者 于舒娟 毛新涛 +1 位作者 张昀 黄丽亚 《中文信息学报》 CSCD 北大核心 2023年第3期112-122,共11页
命名实体识别是自然语言处理中的一项基础任务。通过基于词典的方法增强词内语义和词边界信息是中文命名实体识别的主流做法。然而,汉字由象形字演变而来,汉字字形中包含着丰富的实体信息,这些信息在该任务中却很少被使用。该文提出了... 命名实体识别是自然语言处理中的一项基础任务。通过基于词典的方法增强词内语义和词边界信息是中文命名实体识别的主流做法。然而,汉字由象形字演变而来,汉字字形中包含着丰富的实体信息,这些信息在该任务中却很少被使用。该文提出了一个基于词典和字形特征的中文命名实体识别模型,将词信息和结构信息统一地结合起来,提高了实体匹配的准确性。该文首先通过SoftLexicon方法丰富语义信息,并使用改进的部首级嵌入优化字符表示;然后通过门卷积网络加强了对潜在词和上下文信息的提取;最后在四个基准数据集上实验,结果表明与传统模型和最新模型相比,基于词典和字形特征的模型取得了显著的性能提升。 展开更多
关键词 中文命名实体识别 词典 字形特征
下载PDF
基于注意力机制特征融合的中文命名实体识别 被引量:5
20
作者 廖列法 谢树松 《计算机工程》 CAS CSCD 北大核心 2023年第4期256-262,共7页
命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局... 命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局语义信息。为同时获得全局语义信息和方向信息,提出使用注意力机制动态融合Transformer编码器和BiLSTM的模型。使用相对位置编码和修改注意力计算公式对Transformer编码器进行改进,利用改进的Transformer编码器提取全局语义信息,并采用BiLSTM捕获方向信息。结合注意力机制动态调整权重,深度融合全局语义信息和方向信息以获得更丰富的上下文特征。使用条件随机场进行解码,实现实体标注序列预测。此外,针对Word2Vec等传统词向量方法无法表示词的多义性问题,使用RoBERTa-wwm预训练模型作为模型的嵌入层提供字符级嵌入,获得更多的上下文语义信息和词汇信息,增强实体识别效果。实验结果表明,该方法在中文命名实体识别数据集Resume和Weibo上F1值分别达到96.68%和71.29%,相比ID-CNN、BiLSTM、CAN-NER等方法,具有较优的识别效果。 展开更多
关键词 注意力机制 Transformer编码器 特征融合 中文命名实体识别 预训练模型
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部