基于姓氏驱动的中国姓名自动识别方法被引量：8

Research of Chinese Person Names Identification Based on Surname

下载PDF

导出

摘要文章基于姓氏驱动和上下文信息,利用从真实姓名样本库和文本语料库中得到的大量统计数据,提出了一种中国姓名识别的分级加权筛选模型,利用基于这一模型的识别算法和冲突解决策略,实现中国人名的自动识别。通过从《人民日报》随机抽取的500个含有人名的句子进行测试,表明:中国姓名召回率达89.2%,精确率达93.15%。 The Chinese person names identification has important effect in many fields,for example information retrieval,machine translation and text proofread.This paper presents a hierarchy weighting model for Chinese person name identification.This model is based on the surname and context boundary information,and makes use of a large amount of statistical data,which are extracted from real name library and real text corpus.Using the algorithm based on this model and the strategy for solving contradiction,it bring the Chinese person names identification to pass.The test is carried out ,the testing sample,500sentences containing Chinese person names,are randomly extracted from the People's Daily News Corpus.The experiment shows that the recall and precision of this algorithm reaches89.2%and93.15%respectively.

作者张仰森徐波曹元大宗成庆

机构地区北京理工大学计算机系中国科学院自动化所模式识别国家重点实验室

出处《计算机工程与应用》 CSCD 北大核心 2003年第4期62-65,共4页 Computer Engineering and Applications

基金山西省青年科技研究基金资助项目

关键词人名识别知识库中国姓名识别分级加权模型姓氏驱动自动识别 Chinese name identification,Hierarchy weighting model,Surname drive,Potential names

分类号 TP391.43 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1张俊盛,陈舜德,郑萦,刘显仲,柯淑津.多语料库作法之中文姓名辨识[J].中文信息学报,1992,6(3):7-15. 被引量：14
2刘秉伟,黄萱菁,郭以昆,吴立德.基于统计方法的中文姓名识别[J].中文信息学报,2000,14(3):16-24. 被引量：48
3郑家恒谭红叶.基于变换的中文姓名识别技术探讨[A]..1998中文信息处理国际会议论文集[C].北京:清华大学出版社,1998.163～168.
4孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87

二级参考文献16

1Chang J S，1992年
2Chang J S，1991年
3Wang L J，1991年
4Chen K J，1988年
5Chen S I，1987年
6Kuo J J，1986年
7Ho W H，1983年
8Chang L L，1975年
9Liu I M，1975年
10Chao Y R，A Grammar of Spoken Chinese，1968年

共引文献123

1周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
2王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
3张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
4郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
5陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
6黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1
7季姮,罗振声.基于统计和规则的中文姓名自动辨识[J].语言文字应用,2001(1):14-18. 被引量：13
8孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
9杜鸣.中文姓名输入研究[J].南京师范大学文学院学报,2004(3):184-188.
10熊英,朱杰,孙静.A Semi-automatic Method Based on Statistic for Mandarin Semantic Structures Extraction in Specific Domains[J].Journal of Shanghai Jiaotong university(Science),2004,9(4):25-29. 被引量：1

同被引文献29

1季姮,罗振声.基于统计和规则的中文姓名自动辨识[J].语言文字应用,2001(1):14-18. 被引量：13
2黄德根,马玉霞,杨元生.基于互信息的中文姓名识别方法[J].大连理工大学学报,2004,44(5):744-748. 被引量：12
3钱进.语言性别差异研究综述[J].甘肃社会科学,2004(6):47-50. 被引量：35
4钱进.姓名用字的性别差异统计分析[J].常州工学院学报,2004,17(5):60-62. 被引量：9
5罗智勇 ,宋柔 .一种基于可信度的人名识别方法[J].中文信息学报,2005,19(3):67-72. 被引量：20
6孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
7刘竞,苏万力.统计和规则相结合的中文姓名识别方法研究[J].福建电脑,2006,22(7):92-92. 被引量：3
8孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
9.千家姓[ EB/OL ].http ://www. prc. net. cn/items/zhxs/qian. asp,2004-04.
10S Ye,T S Chua,J Liu.An agent-based approach to Chinese named entity recognition[C].In:Nineteenth International Conference on Computational Linguistics (COLING2002),Taipei,Taiwan,2002

引证文献8

1李成城,赵述芳,刘建毅,钟义信.基于动态规划算法的专有名词切分[J].计算机应用研究,2005,22(7):78-80. 被引量：2
2周波,杨国纬.基于贝叶斯算法的中国人名识别[J].计算机应用,2006,26(4):998-1000. 被引量：12
3余祖波,高庆狮,方淼.中文姓名自动识别系统的设计与实现[J].计算机工程与应用,2006,42(10):5-7. 被引量：4
4毋琳,郑逢斌,乔保军,汤赛丽.HENU汉语分词系统中的中文人名识别算法[J].计算机工程与应用,2006,42(14):180-182.
5贾品贵,杨一平,卢朋.基于统计方法的中文姓名识别研究[J].计算机工程与应用,2006,42(31):168-170. 被引量：3
6钱小飞,陈小荷,董宇,何晓丽.面向大型叙事作品的指人成分识别[J].语言文字应用,2008(1):113-119. 被引量：1
7赵晓凡,赵丹,刘永革.利用CRF实现中文人名性别的自动识别[J].微电子学与计算机,2011,28(10):122-124. 被引量：7
8赵伟,张学,安诚.基于统计和规则的中文姓名识别[J].信息与电脑（理论版）,2011(5):28-29.

二级引证文献29

1贾品贵,杨一平,卢朋.基于类向量模型的中文姓名识别研究[J].计算机应用研究,2007,24(4):111-113. 被引量：2
2余祖波,高庆狮,马建军.基于多级阈值的中文人名识别[J].计算机工程与应用,2007,43(33):1-3. 被引量：1
3琚春华,张捷.基于贝叶斯网络的分布数据挖掘模型DDMB研究[J].情报学报,2008,27(5):643-649. 被引量：3
4余祖波,马建军.一种利用统计语义单元识别中文人名的方法[J].小型微型计算机系统,2008,29(12):2339-2343. 被引量：1
5和雪娟,陈玉华,高丽金,夏幼明.基于统计和规则混合策略的中国人名识别研究[J].云南民族大学学报（自然科学版）,2009,18(1):70-72. 被引量：2
6李艳秋,李成城.基于动态规划算法单字估价值的中文自动分词研究[J].内蒙古师范大学学报（自然科学汉文版）,2010,39(2):202-205. 被引量：1
7刘艳春.我国应用语言学研究方法的历史发展[J].语言文字应用,2010(2):97-106. 被引量：13
8滕青青,吉久明,郑荣廷,李楠.基于文献的中文命名实体识别算法适用性分析研究[J].情报杂志,2010,29(9):157-161. 被引量：9
9朱锁玲,包平.方志类古籍地名识别及系统构建[J].中国图书馆学报,2011,37(3):118-124. 被引量：32
10闫萍.基于规则和概率统计相结合的中文命名实体识别研究[J].计算机与数字工程,2011,39(9):88-91. 被引量：11

1毕广吉.中国姓名地址专用型汉字输入系统的研制[J].计算机科学技术与应用,1992(4):1-4.
2窦嵘,加羊吉,黄伟.统计与规则相结合的藏文人名自动识别研究[J].长春工程学院学报（自然科学版）,2010,11(2):113-115. 被引量：9
3张东站,段永生,宋瀚涛.OA系统的数据分布策略与透明复制技术[J].计算机应用研究,2004,21(1):179-181.
4牛凯.规则引擎Drools在制造业J2EE系统中的应用研究[J].成组技术与生产现代化,2014,31(2):7-13. 被引量：6
5费玲玲,唐兴艳.基于WF-net的工作流模式建模与仿真[J].计算机仿真,2011,28(4):96-99. 被引量：3
6贺尔文,张涛.局域网IP地址的冲突解决策略研究[J].科技创新导报,2015,12(12):242-242. 被引量：1
7张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
8陈骞,刘伟,孟庆久.信息资源规划中的主题数据库研究[J].情报杂志,2006,25(2):136-137. 被引量：12
9李丽双,黄德根,毛婷婷,徐潇潇.基于支持向量机的中国人名的自动识别[J].计算机工程,2006,32(19):188-190. 被引量：9
10陈嘉勇.基于WEKA平台的文本聚类研究与实现[J].中国管理信息化,2009,12(21):9-12. 被引量：1

计算机工程与应用

2003年第4期

浏览历史

内容加载中请稍等...

基于姓氏驱动的中国姓名自动识别方法被引量：8

参考文献4

二级参考文献16

共引文献123

同被引文献29

引证文献8

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于姓氏驱动的中国姓名自动识别方法 被引量：8

参考文献4

二级参考文献16

共引文献123

同被引文献29

引证文献8

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于姓氏驱动的中国姓名自动识别方法被引量：8