-
题名基于字符级截断式循环神经网络的人名国籍识别
- 1
-
-
作者
张钰莎
张礼明
蒋盛益
-
机构
湖南信息学院电子信息学院
广东外语外贸大学广州市非通用语种智能处理重点实验室
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2019年第4期369-375,共7页
-
基金
国家自然科学基金项目(No.61572145)
湖南省教育科学“十三五”规划课题(No.XJK18CGD044)资助~~
-
文摘
人名是反映用户国籍的关键信息,不同国籍的人名在结构和组成成分方面存在差异性和关联性。目前,基于人名的国籍识别研究工作大部分将人名切分成多个独立的字符单元,忽略字符间微妙的搭配和序列关系。针对上述问题,文中提出基于字符级截断式循环神经网络的人名国籍识别模型,将人名通过滑动窗口的方式截断成多个子序列,利用长短期记忆单元模型学习不同子序列内部的字符组合关系,通过平均池化操作聚合所有子序列信息,获取最终的人名向量表示。最后根据该人名向量实现用户的国籍识别。截断式的子序列有利于模型更关注人名内部的细微差异。在Olympic运动员和Aminer学者数据集上的实验表明,文中模型性能较优。
-
关键词
国籍识别
用户画像
字符级表示模型
循环神经网络
-
Keywords
Nationality Identification
User Profiling
Character Modeling
Recurrent Neural Network
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于字符和单词表示的哈萨克语词性标注研究
被引量:1
- 2
-
-
作者
库瓦特拜克·马木提
努尔古丽·艾子木把
-
机构
伊犁师范大学网络安全与信息技术学院
-
出处
《电脑与信息技术》
2022年第4期33-36,40,共5页
-
基金
新疆自然科学基金(项目编号:2019D01C337)
伊犁师范大学校级科研项目(项目编号:2016YSYB09)
伊犁师范大学校级科研项目(项目编号:2021YSYB089)。
-
文摘
自然语言处理任务中词性标注是基础性的工作,其可以应用到后续各种NLP任务中。在神经网络自然语言处理任务中多使用分布式词表示,获取单词的语义和语法信息,并取得了非常明显的效果。对于像哈萨克语这样形态丰富的语言,在词性标注时,单词内部的各种信息非常有用。在文章中,我们构建了基础的哈萨克语词性标注语料库,并采用基于字符并联合单词信息,提出一种有效的哈萨克语词标注模型。使用这一方法,避免了传统机器学习方法中手工构建特征的问题,在新疆日报哈文版构建的语料库上,准确率达到了61.40%。为进一步提升性能提供了很好的参考。
-
关键词
词性标注
神经网路模型
CNN模型
字符级表示
-
Keywords
part-of-speech tagging
neural network model
CNN
character-level representation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名面向物业投诉的字符级短文本分类模型
被引量:1
- 3
-
-
作者
朱明
陈一飞
-
机构
南京审计大学信息工程学院
-
出处
《大众科技》
2022年第4期31-35,85,共6页
-
文摘
文章针对物业投诉短文本人工输入内容复杂、提取特征较困难等问题,提出一种基于字符级文本表示的CNBG深度学习联合模型。该模型首先将物业投诉工单文本进行字符向量表示,然后分别输入到卷积神经网络CNN和双向门控循环单元BiGRU提取特征,并将它们提取到的特征进行融合,最后实现文本分类。实验结果表明,基于字符级CNBG深度学习联合模型在物业投诉工单分类任务上得到的比其它基准模型平均高15%,在物业投诉工单数据集上能够取得更好的效果。
-
关键词
自然语言处理
文本分类
字符级文本表示
CNBG深度学习联合模型
-
Keywords
natural language processing
text classification
character level text representation
CNBG deep learning joint model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于细粒度词表示的命名实体识别研究
被引量:15
- 4
-
-
作者
林广和
张绍武
林鸿飞
-
机构
大连理工大学计算机科学与技术学院
新疆财经大学计算机科学与工程学院
-
出处
《中文信息学报》
CSCD
北大核心
2018年第11期62-71,78,共11页
-
基金
国家自然科学基金(61562080
71561025
+1 种基金
61632011
61572102)
-
文摘
命名实体识别(NER)是自然语言处理中的一项基础任务,其性能的优劣极大地影响着关系抽取、语义角色标注等后续任务。传统的统计模型特征设计难度大、领域适应性差,一些神经网络模型则忽略了词本身所具有的形态学信息。针对上述问题,该文构建了一种基于细粒度词表示的端到端模型(Finger-BiLSTM-CRF)来进行命名实体识别任务。该文首先提出一种基于注意力机制的字符级词表示模型Finger来融合形态学信息和单词的字符信息,然后将Finger与BiLSTM-CRF模型联合进行实体识别,最终该方法以端到端、无任何特征工程的方式在CoNLL 2003数据集上取得了F1为91.09%的结果。实验表明,该文设计的Finger模型显著提升NER系统的召回率,从而使得模型的识别能力显著提升。
-
关键词
命名实体识别
端到端模型
字符级词表示模型
注意力机制
-
Keywords
named entity recognition
end-to-end model
character-level word representation model
attention mechanism
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-