采用上下文特征匹配的中文机构名简称识别被引量：4

Chinese Organization Abbreviation Recognition Using Context Features

下载PDF

导出

摘要现有识别机构名简称的方法多依赖全称,也依赖简称的组成形式.针对这两个问题,提出一种采用上下文特征匹配的机构名简称识别方法.本文提出的上下文特征分为机构名独有特征和干扰词与机构名相交特征,每一个特征赋予一个错误率权重,在不同错误率范围内,采用上下文特征匹配算法识别机构名简称.还通过建立干扰词表和扩展操作,进一步提高了识别的准确率与召回率.实验中,本文方法在封闭数据集上的F值达到92.23%.利用封闭数据集训练的特征和干扰词,在开放测试集上的F值取得70.28%.最后,与依赖全称生成简称的识别方法进行对比,本文方法识别出有匹配全称的简称和无匹配全称的简称,比依赖全称的识别方法有更好的效果. Many existing methods of recognizing organization abbreviations rely on their full-names and component form of organiza-tion abbreviation. Instead of depending on them, thispaperpresents a new method using context feature to recognize the organization ab-breviation. The context feature which has an error rateconsists of the single feature possessed only by organization name and the inter-secting feature of noise word and organization name. This paper chooses the feature within a certain range of error rateand nsesfeaturematching algorithmto recognize the organization abbreviation. Italso establishes noise word list and uses extended operation to furtherimprove the precision rate and the recall rate. The F value of the paper is 92.23% in close set,and it can get the F value of 70.28%in open set making use of the context feature and noise word list trained in close set. At last,comparing with the method based on gen-erating abbreviation from full-name,this paper achieves a better experimental result. Whether the abbreviations match the full-name,they all can be recognized by this method.

作者郝娟杨静

机构地区华东师范大学信息科学技术学院计算机科学与技术系

出处《小型微型计算机系统》 CSCD 北大核心 2015年第7期1432-1437,共6页 Journal of Chinese Computer Systems

基金上海市科委重大项目(12dz1500205)资助上海国际合作项目(13430710100)资助

关键词机构名简称上下文特征相交特征独有特征特征匹配算法干扰词 organization abbreviations context features intersecting features single features feature matching noise words

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1孙栩,王厚峰,王波.Predicting Chinese Abbreviations from Definitions:An Empirical Learning Approach Using Support Vector Regression[J].Journal of Computer Science & Technology,2008,23(4):602-611. 被引量：8
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
3沈嘉懿,李芳,徐飞玉,Hans Uszkoreit.中文组织机构名称与简称的识别[J].中文信息学报,2007,21(6):17-21. 被引量：32

二级参考文献36

1Wren J D, Chang J T, Pustejovsky J, Adar E, Garner H R, Altman R B. Biomedical term mapping databases. Nucleic Acid Research, 2005, 33: 289-293.
2Yoshida M, Fukuda K, Takagi T. Pnad-css: A workbench for constructing a protein name abbreviation dictionary. Bioinformatics, 2000, 16(2): 169-175.
3Nenadic G, Spasic I, Ananiadou S. Automatic acronym acquisition and term variation management within domain-specific texts. In Proc. the LREC-3, Las Palmas, Spain, 2002, pp.2155-2162.
4Schwartz A, Hearst M. A simple algorithm for identifying abbreviation definitions in biomedical texts. In Proc. the Pacific Symposium on Biocomputing (PSB 2003), pp.451-462.
5Manuel Zahariev. An efficient methodology for acronymexpansion matching. In Proc. the International Conference on Information and Knowledge Engineering ( IKE), Las Vegas, USA, 2003, pp.32-37.
6Adar E. Sarad: A simple and robust abbreviation dictionary. Bioinformatics, 2004, 20(4): 527-533.
7Tsuruoka Y, Ananiadou S, Tsujii J. A machine learning approach to abbreviation generation. In Proc. the ACL-ISMB Workshop on Linking Biological Literature, Ontologies and Databases: Mining Biological Semantics, Michigan, USA, 2005, pp.25-31.
8Fu G, Luke K, Zhang M, Zhou G. A hybrid approach to Chinese abbreviation expansion. In Proe ICCPOL'06: 21st International Conference on Computer Processing of Oriental Languages, Singapore, 2006, pp.277-287.
9Huang C R, Ahrens K, Chen K J. A data-driven approach to psychological reality of the mental lexicon: Two studies on Chinese corpus linguistics. In Proe. Language and Its Psychobiological Bases, Taipei, 1994a.
10Huang C R, Hong W M, Chen K J. Suoxie: An information based lexical rule of abbreviation. In Proc. the Second Pacific Asia Conference on Formal and Computational Linguistics Ⅱ, Japan, 1994b, pp.49-52.

共引文献122

1周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
2王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
3张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
4郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
5陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
6黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1
7季姮,罗振声.基于统计和规则的中文姓名自动辨识[J].语言文字应用,2001(1):14-18. 被引量：13
8孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
9杜鸣.中文姓名输入研究[J].南京师范大学文学院学报,2004(3):184-188.
10郑泽之,张普,杨建国.基于语料库的字母词语自动提取研究[J].中文信息学报,2005,19(2):78-85. 被引量：10

同被引文献36

1张校乾,金玉玲,侯丽波.一种基于Lucene检索引擎的全文数据库的研究与实现[J].现代图书情报技术,2005(2):40-43. 被引量：30
2陈克明,宁震霖.市场调查中样本容量的确定[J].中国统计,2005,20(3):16-17. 被引量：16
3钟良伍,郑方.基于中文机构名简称的检索方法研究[J].中文信息学报,2007,21(1):38-42. 被引量：7
4沈嘉懿,李芳,徐飞玉,Hans Uszkoreit.中文组织机构名称与简称的识别[J].中文信息学报,2007,21(6):17-21. 被引量：32
5张毅超,车玫,马骏.求最长公共子串问题的算法分析[J].计算机仿真,2007,24(12):97-100. 被引量：11
6孙栩,王厚峰,王波.Predicting Chinese Abbreviations from Definitions:An Empirical Learning Approach Using Support Vector Regression[J].Journal of Computer Science & Technology,2008,23(4):602-611. 被引量：8
7苗夺谦,王珏.粗糙集理论中知识粗糙性与信息熵关系的讨论[J].模式识别与人工智能,1998,11(1):34-40. 被引量：138
8曹建军,刁兴春,汪挺,王芳潇.领域无关数据清洗研究综述[J].计算机科学,2010,37(5):26-29. 被引量：27
9曹建军,刁兴春,杜鹢,王芳潇,张潇毅.基于蚁群特征选择的相似重复记录分类检测[J].兵工学报,2010,31(9):1222-1227. 被引量：8
10刁兴春,谭明超,曹建军.一种融合多种编辑距离的字符串相似度计算方法[J].计算机应用研究,2010,27(12):4523-4525. 被引量：41

引证文献4

1陈利燕,林鸿,张新长.一种改进的Lucene算法及在空间数据融合中的应用[J].测绘通报,2016(10):106-109. 被引量：1
2张俊玲,耿光刚,延志伟,李晓东.基于网页信息和分词的中文机构名全称和简称提取方法[J].计算机应用研究,2017,34(4):972-976. 被引量：3
3尚玉玲,曹建军,李红梅,刘艺.挖掘机构别名的Jaccard相似度数据空间转换方法[J].计算机工程与应用,2018,54(13):88-92.
4郭晖,董源,周钢.基于属性关联相似度的中文简称匹配算法研究[J].计算机与数字工程,2018,46(9):1726-1730. 被引量：1

二级引证文献5

1王宇璐,张伟,贺泽宇.面向复杂中文地址关联的三维关系评估模型[J].计算机应用研究,2018,35(12):3541-3546. 被引量：1
2朱明,何永宁,吴博.广西农业信息地理匹配引擎设计与实现[J].南方农业学报,2019,50(1):201-207.
3黄秀常.基于广义线性模型的网页信息搜索错误概率分析[J].菏泽学院学报,2019,41(2):14-20.
4刘月锟.基于约束的字符串相似度研究与应用[J].智能计算机与应用,2019,9(3):180-183.
5李想,肖桂荣,蔡圣准.结合网络文本的模糊层次分析法评价水环境敏感性[J].地球信息科学学报,2019,21(12):1832-1844. 被引量：10

1钟良伍,郑方.基于中文机构名简称的检索方法研究[J].中文信息学报,2007,21(1):38-42. 被引量：7
2盛玉宝,左华林,徐开起.一种智能捡球机器人视觉识别机构研究[J].信息通信,2016,29(2):198-199.
3连誉舜,赵宇明.基于分词信息的中文机构名简称自动生成方法[J].计算机应用与软件,2014,31(4):153-156. 被引量：3
4何汉.试论嵌入式自动指纹识别系统设计[J].信息通信,2014,27(7):55-55. 被引量：7
5孟立军,闫斌.用电子邮箱实现网络存储[J].陶瓷研究与职业教育,2005,3(4):39-40. 被引量：2
6王伟,楚王伟,李迎光,廖文和.面向加工过程的飞机结构件加工特征排序方法[J].机械科学与技术,2010,29(12):1638-1645. 被引量：9
7关晓炟,吕学强,李卓,郑略省.用户查询日志中的中文机构名识别[J].现代图书情报技术,2014(1):72-78. 被引量：4
8丁柯,陈普仁,彭颖红.冲压件的特征识别技术研究[J].金属成形工艺,2000,18(1):15-17. 被引量：2
9陆海山,路通,杨育彬.基于图的三维实体模型相交特征识别[J].计算机应用,2009,29(9):2375-2377. 被引量：1
10王军,欧道江,舒启林,王国勋.基于STEP-NC的相交特征识别技术[J].计算机集成制造系统,2014,20(5):1051-1061. 被引量：15

小型微型计算机系统

2015年第7期

浏览历史

内容加载中请稍等...

采用上下文特征匹配的中文机构名简称识别被引量：4

参考文献3

二级参考文献36

共引文献122

同被引文献36

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

采用上下文特征匹配的中文机构名简称识别 被引量：4

参考文献3

二级参考文献36

共引文献122

同被引文献36

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

采用上下文特征匹配的中文机构名简称识别被引量：4