基于最大熵的蒙古文人名识别系统的设计与实现

下载PDF

导出

摘要最大熵模型能充分利用上下文,灵活取用多个特征。使用最大熵模型进行蒙古文人名识别,分析蒙古文人名结构及上下文环境,根据语言特点设计特征模板,建立粗选特征集;建立人名知识库,提取精选特征集,训练最大熵模型;实验结果证明,本系统能有效识别蒙古文人名,开放测试的正确率达到94.56%,召回率达到85.15%,F值达到89.61%,识别效果较为理想。

作者通拉嘎刘凯李佳正

机构地区泉州师范学院图书馆中国科学院计算技术研究所

出处《图书馆理论与实践》 CSSCI 北大核心 2015年第5期96-98,共3页 Library Theory and Practice

基金国家自然科学基金重点项目"跨语言社会舆情分析基础理论与关键技术"(项目编号:61331013)的研究成果之一

关键词信息处理蒙古文人名识别最大熵

分类号 G254.29 [文化科学—图书馆学]

引文网络
相关文献

参考文献7

1潘正高.基于规则和统计相结合的中文命名实体识别研究[J].情报科学,2012,30(5):708-712. 被引量：29
2李佳正,刘凯,麦热哈巴.艾力,吕雅娟,刘群,吐尔根.依布拉音.维吾尔语中汉族人名的识别及翻译[J].中文信息学报,2011,25(4):82-87. 被引量：13
3清格尔泰.现代蒙古语语法[M].呼和浩特:内蒙古人民出版社,1980:2-8.
4桑海岩,古丽拉.阿东别克,牛宁宁.基于最大熵的哈萨克语词性标注模型[J].计算机工程与应用,2013,49(11):126-129. 被引量：4
5皇甫晶,王凌云.基于规则的纪传体古代汉语文献姓名识别[J].图书情报工作,2013,57(3):120-124. 被引量：9
6那顺乌日图,等.蒙古丈人名自动识别研究[C]//语言计算与基于内容的文本处理--全国第七届计算语言学联合学术会议论文集.哈尔滨:2003:125.
7Zhang Le. Maximum Entropy Modeling Toolkit for Python and C++ [EB/OL]. [2004-12-29]. http://www. docin.com/p- 13535384.html.

二级参考文献32

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
3罗智勇,宋柔.现代汉语自动分词中专名的一体化、快速识别方法[C]//Ji Dong-Hong.国际中文电脑学术会议,新加坡,2001:323-328.
4买合木提·买买提.基于统计的维吾尔语词性标注研究与实现[D].乌鲁木齐:新疆大学,2009.
5宋柔,朱宏.基于语料库和规则库的人名识别法[C]//陈力为.计算语言研究与应用.北京:北京语言学院出版社,1993.
6Zhang Huaping, Liu Qun, Yu Hongkui, et al. Chinese named entity recognition using role model[J]. The International Journal of Computational Linguistics and Chinese Language Processing, 2003, 8(2) : 29-60.
7Wu Youzheng, Zhao Jun, Xu Bo, et al. Chinese named entity recognition based on multiple feature [C]//Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing(HLT/EMNLP), Vancouver, 2005: 427-434.
8Ratnaparkhi A.A maximum entropy model for part-of-speech tagging[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 1996 : 133-141.
9Zhao Yan, Wang Xiaolong.Applying class triggers in Chi- nese POS tagging based on maximum entropy model[C]// The 3rd International Conference on Machine Learning and Cybernetics,Shanghai,2004: 1641-1645.
10Darroch J N, Ratcliff D.Generalized iterative scaling for log2 linear models[J].Analysis of Mathematical Statistics, 1999,43(5) : 1470-1480.

共引文献52

1刘雨可,周申培,石英,杜家宝.面向配网一次设备缺陷文本命名实体识别研究[J].武汉理工大学学报,2022,44(10):93-101. 被引量：2
2任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
3熊奥,高畅,赵明辉,张玲玲.基于知识图谱的核电设备健康管理知识建模与分析[J].科技促进发展,2021,17(4):640-649. 被引量：10
4苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：15
5谭煜辉.基于统计的改进音译单元的维文—汉文人名音译研究[J].福建电脑,2013,29(8):99-100.
6米成刚,杨雅婷,周喜,李晓,杨明忠.基于字符串相似度的维吾尔语中汉语借词识别[J].中文信息学报,2013,27(5):173-178. 被引量：6
7邹岳琳,吐尔根.依布拉音,麦热哈巴.艾力,艾山.吾买尔,帕力旦.吐尔逊.基于词干提取的维吾尔语事件类时间短语识别[J].计算机工程与设计,2014,35(2):625-630. 被引量：6
8李湘东,巴志超,黄莉.基于加权隐含狄利克雷分配模型的新闻话题挖掘方法[J].计算机应用,2014,34(5):1354-1359. 被引量：14
9帕丽旦.木合塔尔,吾守尔.斯拉木,买买提阿依甫.基于混合模型的维吾尔文词性标注方法[J].计算机仿真,2019,36(1):268-273. 被引量：6
10栗伟,赵大哲,李博,彭新茗,刘积仁.CRF与规则相结合的医学病历实体识别[J].计算机应用研究,2015,32(4):1082-1086. 被引量：44

1通拉嘎,刘凯,李佳正.基于语料库的蒙古人名知识库建设与实践[J].图书馆理论与实践,2015(2):109-112.
2陈辰,宋文.责任者唯一标识符构建及其面临的主要问题[J].图书馆论坛,2013,33(2):125-129. 被引量：9
3图片征集启事[J].福建金融,2014(4):42-42.
4陈辰,郝晓雪,王璐.责任者唯一标识符系统质量控制研究[J].图书馆工作与研究,2016(6):77-82.
5陆伟,鞠源,张晓娟,吴丹.产品命名实体特征选择与识别研究[J].图书情报知识,2012,29(3):4-12. 被引量：13
6尹晓旭,王彦.基于最大熵原理的图书馆流通借阅统计分析[J].图书馆学刊,2010,32(2):26-27. 被引量：1
7乔羽,杨尔弘.特征选择在人名识别中的应用[J].电脑开发与应用,2005,18(6):58-58.
8崔雷,侯跃芳,张晗.论影响因子及其在科研绩效评价中的应用[J].医学情报工作,2003,24(4):241-245. 被引量：23
9陈若冰.信息论在中国社会的经济学中的应用[J].电脑知识与技术（过刊）,2016,22(3X):197-199.
10黄水清,王东波,何琳.基于先秦语料库的古汉语地名自动识别模型构建研究[J].图书情报工作,2015,59(12):135-140. 被引量：43

图书馆理论与实践

2015年第5期

浏览历史

内容加载中请稍等...

基于最大熵的蒙古文人名识别系统的设计与实现

参考文献7

二级参考文献32

共引文献52

相关作者

相关机构

相关主题

浏览历史