基于统计的中文机构名自动识别被引量：1

Chinese organization automatic recognition based on statistical method

导出

摘要通过对中文机构名的语法语义特性进行分析,将中文机构名分成前部词和特征词,提出了一种基于统计的识别方法。使用成熟语料库的训练数据,计算候选机构名的特征词可信度、前部词首词可信度和前部词中部可信度,最终得到机构名构词可信度,并与给定阈值比较,实现了中文机构名识别,在开放性实验中,达到了85.57%的召回率和94.37%的准确率。 By analysing the syntactical and semantical characteristics of Chinese organization and dividing it into the forward word and the special word, an approach based on statistical method is put forward about Chinese organization automatic recognition. The credibilities of both the special word and the forward word for the candidate organization name are computed by using the data from the trained corpus to decide the final credibility of organization name. This final credibility is compared with the given threshold to decide whether it is an organization name. After the primary test, this method can get 85.57% recall, and 94.37% precision.

作者夏赟李志蜀

机构地区四川大学计算机学院

出处《四川大学学报（自然科学版）》 CAS CSCD 北大核心 2009年第3期613-617,共5页 Journal of Sichuan University(Natural Science Edition)

关键词自然语言处理中文机构名识别前部词特征词 natural language processing, Chinese organization recognition, forward word, special word

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：65
2俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：150
3张晓艳,王挺,陈火旺.基于混合统计模型的汉语命名实体识别方法[J].计算机工程与科学,2006,28(6):135-139. 被引量：19
4向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：36

二级参考文献52

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
2季姮,罗振声.基于统计和规则的中文姓名自动辨识[J].语言文字应用,2001(1):14-18. 被引量：13
3罗智勇宋柔.现代汉语自动分词中专名的一体化、快速识别方法[A]..ICCC,Singapore[C].,2001．11..
4Sundheim B M. Named entity task definition, version 2.1. In:Proc. of the Sixth Message Understanding Conf. 1995. 319～332
5Borthwick A. A Maximum Entropy Approach to Named Entity Recognition: [Ph. D]. New York University. Department of Computer Science, Courant Institute 1999
6Humphreys K, Gaizauskas R, Azzam S, et al. Description of the LaSIE-Ⅱ system as used for MUC-7. In:Proc. of the 7th Message Understanding Conference (MUC-7), 1998
7URL http://www. ltg. ed. ac. uk
8Chen H H, Ding Y W, Tsai S C,et al. Description of the NTU System Used for MET2. In: Proc. of 7th Message Understanding Conference, 1998
9Black W J, Rinaldi F,Mowatt D. Facile: Description of the NE System Used For MUC-7. In:Proc. of 7th Message Understanding Conf. 1998
10Fukumoto J, Shimohata M, Masui F, Sasaki M. Oki Electric Industry: Description of the Oki System as Used for MET-2. In:Proc. of 7th Message Understanding Conf. 1998

共引文献237

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2高原,施元磊,张蕾,曹天奕,冯筠.基于游记文本的游客游览行程重构[J].数据分析与知识发现,2020,4(2):165-172. 被引量：5
3郭嘉欣.基于多源异构数据挖掘的“红色记忆”知识图谱构建[J].知识管理论坛,2020(1):59-68. 被引量：9
4成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
5Zhixiang Ji,Xiaohui Wang,Changyu Cai,Hongjian Sun.Power entity recognition based on bidirectional long short-term memory and conditional random fields[J].Global Energy Interconnection,2020,3(2):186-192. 被引量：7
6罗文华.非结构化数据处理分析在电子数据取证中的应用[J].警察技术,2010(3):42-45.
7车海燕,孙吉贵,荆涛,白曦.一个基于本体主题的中文知识获取方法[J].计算机科学与探索,2007,1(2):206-215. 被引量：5
8陈义,胡志宇,曾玮,吴相录.税务业务咨询问答系统[J].计算机应用与软件,2007,24(2):112-115. 被引量：1
9冯元勇,孙乐,李文波,张大鲲.基于单字提示特征的中文命名实体识别快速算法[J].中文信息学报,2008,22(1):104-110. 被引量：24
10王昊,苏新宁.基于模式匹配的中文通用本体概念抽取模型[J].情报理论与实践,2008,31(2):292-297. 被引量：5

同被引文献13

1周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：111
2周蕾,朱巧明.基于统计和规则的未登录词识别方法研究[J].计算机工程,2007,33(8):196-198. 被引量：21
3沈嘉懿,李芳,徐飞玉,Hans Uszkoreit.中文组织机构名称与简称的识别[J].中文信息学报,2007,21(6):17-21. 被引量：31
4Bender O, Och FJ, Ney H. Maximum entropy models for named entity recognition [C] // Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL, 2003: 148-151.
5Dimitra F, Vangelis K, John K, et al. Rule-based named en- tity recognition for greek financial texts[C] //Proceedings of the International Conference on Computational Lexicography and Multimedia Dictionaries, 2000: 75-78.
6库热西·买合木提江·热义思.现代维吾尔语[M].新疆:新疆人民出版社(维吾尔文),2003.
7陈霄,刘慧,陈玉泉.基于支持向量机方法的中文组织机构名的识别[J].计算机应用研究,2008,25(2):362-364. 被引量：18
8李军,王丁,王鑫.基于模板匹配的中文机构名识别[J].信息技术,2008,32(6):97-99. 被引量：4
9黄德根,李泽中,万如.基于SVM和CRF的双层模型中文机构名识别[J].大连理工大学学报,2010,50(5):782-787. 被引量：13
10冯鲸华,古丽拉.阿东别克,玛依来.哈帕尔.基于N-gram语言模型的哈萨克文机构名识别[J].计算机工程与应用,2010,46(31):135-138. 被引量：2

引证文献1

1麦合甫热提,米日姑.肉孜,麦热哈巴.艾力,吐尔根.依布拉音.基于语法语义知识的维吾尔文机构名识别[J].计算机工程与设计,2014,35(8):2944-2948. 被引量：7

二级引证文献7

1王路路,艾山.吾买尔,买合木提.买买提,卡哈尔江.阿比的热西提,吐尔根.依布拉音.基于CRF和半监督学习的维吾尔文命名实体识别[J].中文信息学报,2018,32(11):16-26. 被引量：13
2张海军.维吾尔语短语自动抽取研究进展[J].计算机科学与探索,2015,9(12):1420-1429. 被引量：3
3买合木提.买买提,卡哈尔江.阿比的热西提,艾山.吾买尔,吐尔根.依布拉音,王路路.CRF与规则相结合的维吾尔文地名识别研究[J].中文信息学报,2017,31(6):110-118. 被引量：9
4吐尔根.依布拉音,卡哈尔江.阿比的热西提,艾山.吾买尔,买合木提.买买提.中亚语言自然语言处理综述[J].中文信息学报,2018,32(5):1-13. 被引量：6
5买合木提.买买提,王路路,吐尔根.依布拉音,艾山.吾买尔,卡哈尔江.阿比的热西提.基于条件随机场的维吾尔文机构名识别[J].计算机工程与设计,2019,40(1):273-278. 被引量：5
6王路路,艾山.吾买尔,吐尔根.依布拉音,买合木提.买买提,卡哈尔江.阿比的热西提.基于深度神经网络的维吾尔文命名实体识别研究[J].中文信息学报,2019,33(3):64-70. 被引量：10
7罗凯昂,哈里旦木·阿布都克里木,刘畅,阿布都克力木·阿布力孜,郭文强.融合剪枝和多语微调的黏着语命名实体识别[J].计算机工程与应用,2023,59(24):121-130.

1李军,王丁,王鑫.基于模板匹配的中文机构名识别[J].信息技术,2008,32(6):97-99. 被引量：4
2周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：111
3陈霄,刘慧,陈玉泉.基于支持向量机方法的中文组织机构名的识别[J].计算机应用研究,2008,25(2):362-364. 被引量：18
4杨晓东,晏立,尤慧丽.CCRF与规则相结合的中文机构名识别[J].计算机工程,2011,37(8):169-171. 被引量：6
5黄德根,李泽中,万如.基于SVM和CRF的双层模型中文机构名识别[J].大连理工大学学报,2010,50(5):782-787. 被引量：13
6关晓炟,吕学强,李卓,郑略省.用户查询日志中的中文机构名识别[J].现代图书情报技术,2014(1):72-78. 被引量：4
7钟良伍,郑方.基于中文机构名简称的检索方法研究[J].中文信息学报,2007,21(1):38-42. 被引量：7
8周波,蔡东风.基于条件随机场的中文组织机构名识别研究[J].沈阳航空工业学院学报,2009,26(1):49-52. 被引量：8
9张金龙,王石,钱存发.基于CRF和规则的中文医疗机构名称识别[J].计算机应用与软件,2014,31(3):159-162. 被引量：14
10郑家恒,张辉.基于HMM的中国组织机构名自动识别[J].计算机应用,2002,22(11):1-2. 被引量：18

四川大学学报（自然科学版）

2009年第3期

浏览历史

内容加载中请稍等...

基于统计的中文机构名自动识别被引量：1

参考文献4

二级参考文献52

共引文献237

同被引文献13

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于统计的中文机构名自动识别 被引量：1

参考文献4

二级参考文献52

共引文献237

同被引文献13

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于统计的中文机构名自动识别被引量：1