多场景文本的细粒度命名实体识别被引量：15

Fine-grained Named Entity Recognition for Multi-scenario

下载PDF

导出

摘要命名实体识别一直是数据挖掘领域的经典问题之一,尤其随着网络数据的剧增,如果能对多来源的文本数据进行多领域、细粒度的命名实体识别,显然能够为很多的数据挖掘应用提供支持。该文提出一种多领域、细粒度的命名实体识别方法,利用网络词典回标文本数据获得了大量的粗糙训练文本。为防止训练文本中的噪声干扰命名实体识别的结果,该算法将命名实体识别的过程划分为两个阶段,第一个阶段先获得命名实体的领域标签,之后利用命名实体的上下文确定命名实体的细粒度标签。实验结果显示,该文提出的方法使F1值在全领域上平均值达到了80%左右。 Name entity recognition is a classical research issue in data mining community.To recognize the entities in multi-domain with fine-grained labels,we propose a method of utilizes web thesaurus to annotate web data automatically to acquire large-scale training corpus.To minimize the influence of the noises in training corpus,we design a two-phase entity recognition method.First,the entity’s domain label is obtained.After that,the context of each recognized entity is used to determine the fine-grained label for one entity.Experimental results demonstrate that the proposed method can obtain high accuracy on entity recognition in multiple domains.

作者盛剑向政鹏秦兵刘铭王莉峰 SHENG Jian;XIANG Zhengpeng;QIN Bing;LIU Ming;WANG Lifeng(Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology,Harbin. Heilongjiang 150001,China;Tencent Technology(Shenzhen) CO.,Ltd. Shenzhen,Guangdong 518000,China)

机构地区哈尔滨工业大学社会技术与信息检索研究中心腾讯科技(深圳)有限公司

出处《中文信息学报》 CSCD 北大核心 2019年第6期80-87,共8页 Journal of Chinese Information Processing

基金国家自然科学基金(61632011,61772156,61472107)

关键词命名实体识别细粒度类别划分语料回标 named entity recognition fine-grained category annotation corpus annotation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献116

1付秀,陈麒麟,李杰,付毅,包国峰.基于智能预问诊的全景多学科会诊平台的设计与应用[J].中国数字医学,2021,16(10):79-82. 被引量：7
2成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
3张豪杰,毛建华.基于自注意力模型的企业关系抽取[J].电子测量技术,2020,43(10):101-105. 被引量：3
4谭生龙.存储虚拟化技术的研究[J].微计算机应用,2010,31(1):33-38. 被引量：41
5王浩畅,李钰,赵铁军.面向生物医学命名实体识别的多Agent元学习框架[J].计算机学报,2010,33(7):1256-1262. 被引量：6
6鞠久朋,张伟伟,宁建军,周国栋.CRF与规则相结合的地理空间命名实体识别[J].计算机工程,2011,37(7):210-212. 被引量：31
7姜文志,顾佼佼,丛林虎.CRF与规则相结合的军事命名实体识别研究[J].指挥控制与仿真,2011,33(4):13-15. 被引量：16
8杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562. 被引量：124
9钟志农,刘方驰,吴烨,伍江江.主动学习与自学习的中文命名实体识别[J].国防科技大学学报,2014,36(4):82-88. 被引量：15
10曲春燕,关毅,杨锦锋,赵永杰,刘雅欣.中文电子病历命名实体标注语料库构建[J].高技术通讯,2015,25(2):143-150. 被引量：19

引证文献15

1陈国华.企业竞争的计策谋略[J].工厂管理,2000(2):18-19.
2任权.基于原型网络的细粒度实体分类方法[J].中文信息学报,2020,34(12):65-72. 被引量：3
3尹春林,杨政,戴志敏.电科院智能管控平台系统总体设计[J].电力系统装备,2021(1):80-82.
4李韧,李童,杨建喜,莫天金,蒋仕新,李东.基于Transformer-BiLSTM-CRF的桥梁检测领域命名实体识别[J].中文信息学报,2021,35(4):83-91. 被引量：16
5李磊,王路路,吐尔根·依布拉音,姜丽婷,艾山·吾买尔.基于词典分类器的细粒度机构名识别[J].计算机工程与设计,2022,43(1):245-251.
6钟爱,梁小青,肖梅,向黎藜,段凯,李竹.基于正则算法和命名实体识别模型的95598工单结构化信息自动提取[J].电力大数据,2021,24(12):38-45. 被引量：2
7邓凯,杨频,李益洲,杨星,曾凡瑞,张振毓.一种可快速迁移的领域知识图谱构建方法[J].计算机科学,2022,49(S01):100-108. 被引量：2
8童昭,王露笛,朱小杰,杜一.基于预训练模型的军事领域命名实体识别研究[J].数据与计算发展前沿,2022,4(5):120-128. 被引量：2
9宋威,周俊昊.基于多级别特征感知网络的中文命名实体识别[J].中文信息学报,2022,36(9):84-92. 被引量：1
10周祺,陶皖,孔超,崔佰婷.融合记忆网络的细粒度实体分类方法[J].计算机科学与探索,2022,16(11):2565-2574.

二级引证文献37

1李军怀,陈苗苗,王怀军,崔颖安,张爱华.基于ALBERT-BGRU-CRF的中文命名实体识别方法[J].计算机工程,2022,48(6):89-94. 被引量：12
2顾乾晖,徐力晨,涂振宇,黄逸翠.基于BERT-CRF与对抗训练的水利领域命名实体识别[J].南昌工程学院学报,2022,41(3):29-34. 被引量：1
3杨小霞,杨建喜,李韧,罗梦婷,蒋仕新,王桂平,杨一帆.桥梁检测领域知识图谱构建与知识问答方法[J].计算机应用,2022,42(S01):28-36. 被引量：5
4胡婕,胡燕,刘梦赤,张龑.基于知识库实体增强BERT模型的中文命名实体识别[J].计算机应用,2022,42(9):2680-2685. 被引量：4
5童昭,王露笛,朱小杰,杜一.基于预训练模型的军事领域命名实体识别研究[J].数据与计算发展前沿,2022,4(5):120-128. 被引量：2
6唐进君,庹昊南,刘佑,付强.基于BERT-Bi-LSTM-CRF模型的自主式交通系统参与主体识别方法[J].交通信息与安全,2022,40(5):80-90. 被引量：7
7姚蕾,蒋明峰,方贤,魏波,李杨.结合部首特征和BERT-Transformer-CRF的中文电子病历实体识别方法研究[J].软件工程,2022,25(12):30-36. 被引量：1
8黄源航,强梦烨,李涛,晏明昊,张涵艺,贾大昌.基于RoBERTa的电力领域词汇挖掘模型[J].电力大数据,2022,25(6):1-8. 被引量：1
9张海航,陈进东,张健.基于BiLSTM-CRF的食品行业质量安全风险分析[J].系统科学与数学,2022,42(10):2616-2633. 被引量：2
10郭伟鹏,沈松雨.基于BERT模型的领域知识图谱构建研究[J].科技创新与应用,2022,12(36):16-19. 被引量：2

1“微信保健品公司”侵权败诉[J].江淮法治,2018,0(16):6-6.
2王姬卜,陆锋,吴升,余丽.基于自动回标的地理实体关系语料库构建方法[J].地球信息科学学报,2018,20(7):871-879. 被引量：12
3彭杨.论广电行业智能知识库系统的建设构想[J].有线电视技术,2019,26(8):112-114.
4宋希良,韩先培,孙乐.面向新类型人名识别的数据增强方法[J].中文信息学报,2019,33(6):72-79. 被引量：5
5罗钰敏,刘丹,尹凯,赵宏森.加权平均Word2Vec实体对齐方法[J].计算机工程与设计,2019,40(7):1927-1933. 被引量：6
6陈国,刘亮亮,张再跃.用户短文本无关语自动识别方法研究[J].计算机与数字工程,2019,47(7):1748-1752. 被引量：1
7张通,李鸿雁,梁贺.试析模仿笔迹的类型及其检验要点[J].医药界,2019,0(15):0189-0189.
8黄菡,王宏宇,王晓光.结合主动学习的条件随机场模型用于法律术语的自动识别[J].数据分析与知识发现,2019,3(6):66-74. 被引量：14
9王莉军,李旭婕,刘志辉,翟云.基于开放信息源的实体挖掘方法研究[J].情报科学,2019,0(8):139-144. 被引量：6
10郑春雷,曹耀文.跨境电商岗位能力导向下商务英语专业实践教学体系的构建[J].哈尔滨学院学报,2019,40(8):135-138. 被引量：2

中文信息学报

2019年第6期

浏览历史

内容加载中请稍等...

多场景文本的细粒度命名实体识别被引量：15

同被引文献116

引证文献15

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

多场景文本的细粒度命名实体识别 被引量：15

同被引文献116

引证文献15

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

多场景文本的细粒度命名实体识别被引量：15