《知网》在命名实体识别中的应用研究被引量：11

A Research on the Application of HowNet in Named Entity Recognition

下载PDF

导出

摘要命名实体识别是自然语言处理领域的一项基础研究,它对于语言的深层处理有重要意义。该文以最大熵模型为基础来进行名实体识别,提出了基于《知网》的两种改进策略来增强模型的泛化性能。第一种策略是将《知网》中词的义原作为特征加入到最大熵模型中;第二种策略是利用《知网》来计算最大熵模型中词特征之间的概念相似度。在北京大学《人民日报》语料上的实验结果表明第一种策略可以有效地提高名实体识别的性能,第二种策略的改进效果不明显。 Named entity recognition is a foundational issue of natural language processing and of substantial significance to deep language processing. This work adopts the maximum entropy model for named entity recognition and proposes two improvement strategies based on HowNet to enhance the generalization of maximum entropy model. The first strategy is to add the HowNet＇s sememe of concepts into the maximum entropy model as features. The other is to take advantage of HowNet to calculate the similarity between word features in maximum entropy model. The experiments on China Daily corpus show that the first strategy could improve named entity recognition performance significantly, while the second improves the performance trivially.

作者郑逢强林磊刘秉权孙承杰

机构地区哈尔滨工业大学智能技术与自然语言处理实验室计算机科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2008年第5期97-101,共5页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60435020 60673019) 国家863计划资助项目(2006AA01Z197 2007AA01Z172) 黑龙江省自然科学基金资助项目(E200635)

关键词计算机应用中文信息处理名实体识别概念相似度《知网》最大熵模型 computer application Chinese information processing named entity recognition concept similarity HowNet maximum entropy model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1孙景广,蔡东风,吕德新,董燕举.基于知网的中文问题自动分类[J].中文信息学报,2007,21(1):90-95. 被引量：41
2黄德根,杨元生,王省,张艳丽,钟万勰.基于统计方法的中文姓名识别[J].中文信息学报,2001,15(2):31-37. 被引量：34
3朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
4李建华,王晓龙.中文人名自动识别的一种有效方法[J].高技术通讯,2000,10(2):46-49. 被引量：10
5李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
6谭红叶,郑家恒,刘开瑛.基于变换的中国地名自动识别研究(英文)[J].软件学报,2001,12(11):1608-1613. 被引量：23

二级参考文献33

1李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
2吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
3孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
4文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
5吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
6孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
7Tan Hongye，Proc Computational Linguistics，1999年，174页
8中国地名委员会，中国地名录，1994年
9吴胜远.并行分词方法的研究[J].计算机研究与发展,1997,34(7):542-545. 被引量：13
10Vasileios Hatzivassiloglou, Kathleen R. McKeown. Predicting the semantic orientation of adjectives[A]. In: Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and the 8th Conference of the European Chapter of the ACL[C], 1997:174- 181.

共引文献523

1张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
2杜家驹,岂凡超,孙茂松,刘知远.基于局部语义相关性的定义文本义原预测[J].中文信息学报,2020(5):1-9. 被引量：4
3王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
4吴雅娟,陈尧,尚福华.一种新的基于相似度计算的本体映射算法[J].计算机应用研究,2009,26(3):870-872. 被引量：11
5杨频,李涛,赵奎.一种网络舆情的定量分析方法[J].计算机应用研究,2009,26(3):1066-1068. 被引量：19
6申晓晔,封化民,毋非.基于语义的Web新闻内容倾向性分析框架[J].郑州大学学报（理学版）,2009,41(1):33-35.
7张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
8左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
9张燕,宋锦斌.卡通动画数字媒体资源管理系统[J].长沙医学院学报,2010(2):54-56. 被引量：1
10罗安,王勇,张福浩,刘纪平.基于角色标注的中文POI名称语义分类方法[J].测绘通报,2012(S1):521-524. 被引量：3

同被引文献139

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：54
2陈佳,罗振声.一种基于语义搭配的汉语词义消歧方法[J].微计算机信息,2008,24(3):187-188. 被引量：1
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
4JohnHalamka.电子病历与临床信息技术革命美国的现状及深远影响[J].中华医学杂志,2005,85(22):1513-1515. 被引量：37
5张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：67
6孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
7向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：37
8刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
9俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：160
10周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112

引证文献11

1孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：100
2刘影,陈立,宋自林,董庆超,陈兴华,朱卫星,何继贤.一种改进的基于本体概念相似度计算方法研究[J].南京邮电大学学报（自然科学版）,2011,31(6):60-66. 被引量：1
3李波,张蕾.基于错误驱动学习和知网的中文人名识别[J].计算机工程,2012,38(12):179-181. 被引量：3
4管君,谢玮,张仰森.基于多知识源的语义搭配知识库的构建及应用[J].计算机工程与设计,2013,34(6):2136-2140. 被引量：3
5陈锋,翟羽佳,王芳.基于条件随机场的学术期刊中理论的自动识别方法[J].图书情报工作,2016,60(2):122-128. 被引量：22
6刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340. 被引量：151
7王东波,胡昊天,周鑫,朱丹浩.基于深度学习的数据科学招聘实体自动抽取及分析研究[J].图书情报工作,2018,62(13):64-73. 被引量：15
8焦凯楠,李欣,朱容辰.中文领域命名实体识别综述[J].计算机工程与应用,2021,57(16):1-15. 被引量：41
9张军亮,方雪梅,雒曼,孙晶晶.融合HowNet的中文电子病历命名实体识别[J].情报理论与实践,2021,44(10):18-26. 被引量：2
10赵辉,庞海婷,冯珊珊,韩东辰.中文命名实体识别技术综述[J].长春工业大学学报,2021,42(5):444-450. 被引量：9

二级引证文献321

1陈业明,戴齐,刘捷.融合字位置特征的铁路事故命名实体识别[J].计算机系统应用,2022,31(12):211-219. 被引量：3
2贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
3孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：5
4刘雨可,周申培,石英,杜家宝.面向配网一次设备缺陷文本命名实体识别研究[J].武汉理工大学学报,2022,44(10):93-101. 被引量：2
5李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：5
6刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
7张坤丽,赵旭,关同峰,尚柏羽,李羽蒙,昝红英.面向医疗文本的实体及关系标注平台的构建及应用[J].中文信息学报,2020,34(6):36-44. 被引量：13
8熊奥,高畅,赵明辉,张玲玲.基于知识图谱的核电设备健康管理知识建模与分析[J].科技促进发展,2021,17(4):640-649. 被引量：10
9顾佼佼,翟一琛,姬嗣愚,宗富强.基于BERT和知识蒸馏的航空维修领域命名实体识别[J].电子测量技术,2023,46(3):19-24. 被引量：3
10夏奴奴.建筑工程设计中计算机技术应用研究[J].城市建筑空间,2021(S01):3-4. 被引量：1

1伍守芹,李晓昀.信息抽取技术研究与探讨[J].福建电脑,2010,26(4):55-55. 被引量：1
2牛祥春.数据挖掘技术研究与应用初探[J].活力,2006(5):247-247.
3陆文杰,赵群飞,肖义涵.页面扭曲的结构光辅助校正方法[J].计算机应用与软件,2015,32(5):178-181.

中文信息学报

2008年第5期

浏览历史

内容加载中请稍等...

《知网》在命名实体识别中的应用研究被引量：11

参考文献6

二级参考文献33

共引文献523

同被引文献139

引证文献11

二级引证文献321

相关作者

相关机构

相关主题

浏览历史

《知网》在命名实体识别中的应用研究 被引量：11

参考文献6

二级参考文献33

共引文献523

同被引文献139

引证文献11

二级引证文献321

相关作者

相关机构

相关主题

浏览历史

《知网》在命名实体识别中的应用研究被引量：11