一种字母词语自动标注算法被引量：2

An Auto-labeling Model of Letter-word Phrases

下载PDF

导出

摘要自动分词是中文信息处理的基础,而未登录词识别是影响分词系统准确率的最主要的因素.字母词语作为中文信息处理中的一类未登录词语,现有的分词软件仍不能有效识别.为此设计了一个规则+统计的自动标注算法,该算法首先对原文本进行扫描,依据字母串正则表达式取得合法的字母串;再以字母串为锚点,往两边扫描,依次调用前后界规则、汉字组成成分规则、例外校正规则,结合搭配概率矩阵对字母词语进行识别和标注.实验结果表明:该算法的召回率为100%,准确率约为92%.该算法不仅对中文自动分词有益,而且所开发的软件可用于建设字母词语知识库和对字母词语语言现象的考察研究. Chinese information processing is based on segmentation. It is the unknown words that affect the precision in every segmentation system mainly. Letter-word phrases,as a group of unknown words of Chinese information processing,by testing,we find that existing segmentation software can＇t identify them from texts rightly. In this paper we designed a rule based ＆ statistical algorithm to label letter-word phrases in Chinese source-texts. At first,the model scans source-texts to get a letter string,according to the principles of the letter string expression,and then takes the letter string as an anchor and scans its two sides,according to boundary words rules,Chinese components rules, exceptive rules and collocation coefficient matrix, finally labels the letter-word phrase from texts. Our experiments have shown that the recall rate of the algorithm is 100% ,and the precision is about 92%. Our research in this paper is beneficial not only to Chinese information processing, but also to the investigation of the letter-word phrase phenomenon in Chinese.

作者郑泽芝

机构地区厦门大学中国语言文学系

出处《厦门大学学报（自然科学版）》 CAS CSCD 北大核心 2007年第5期630-634,共5页 Journal of Xiamen University：Natural Science

基金国家语言资源监测与研究中心项目(04L2004-01-01-03) 福建省社会科学基金(2006B086) 厦门大学科研启动基金资助

关键词字母词语搭配系数自动标注 letter-word phrase collocation coefficient auto-label

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1刘涌泉.关于汉语字母词的问题[J].语言文字应用,2002(1):85-90. 被引量：221
2国家技术监督局.GB/T 12200.2-94 汉语信息处理词汇02部分:汉语和汉字[S].北京:中国标准出版社,1994.
3郑泽之,张普,杨建国.基于语料库的字母词语自动提取研究[J].中文信息学报,2005,19(2):78-85. 被引量：10
4曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
5周正宇,李宗葛.一种新的基于统计的词典扩展方法[J].中文信息学报,2001,15(5):46-51. 被引量：8
6Feng Haodi,Chen Kang,Deng Xiaotie,et al.Accessor variety criteria for chinese word extraction[J].Computational Linguistics,2004,30(1):75-93.
7罗盛芬,孙茂松.基于字串内部结合紧密度的汉语自动抽词实验研究[J].中文信息学报,2003,17(3):9-14. 被引量：32

二级参考文献35

1刘涌泉.关于汉语字母词的问题[J].语言文字应用,2002(1):85-90. 被引量：221
2沈孟璎.浅议字母词的入典问题[J].辞书研究,2001(1):30-38. 被引量：66
3孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
4周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
5冯志伟.论歧义结构的潜在性[J].中文信息学报,1995,9(4):14-24. 被引量：61
6周强.基于语料库和面向统计学的自然语言处理技术[J].计算机科学,1995,22(4):36-40. 被引量：25
7.语言文字规范手册[M](第三版)[M].北京:语文出版社,1997年9月..
8国家技术监督局.GB/T12200．2-94汉语信息处理词汇02部分:汉语和汉字[S].北京:中国标准出版,1994．12．7..
9孙茂松张维杰.中国地名的自动识别[A]..计算语言学进展与应用[C].,1995..
10赵军黄昌宁.汉语基本名词短语识别研究[A]..汉语计量与计算研究[C].,1998..

共引文献266

1高可柔.浅析新型字母词的出现及发展[J].文化创新比较研究,2020,0(6):91-92.
2王姣.从字母词的存亡规律浅析其广泛使用的社会意义[J].汉字文化,2024(3):25-27.
3刘雨.《现代汉语词典》第7版字母词相关问题研究[J].南昌教育学院学报,2019,34(3):109-112.
4张仰奋.字母词在汉语中流行的根据及存在的问题[J].嘉应学院学报,2008,26(2):112-114. 被引量：5
5张玲.汉语中字母词使用的语用理据分析[J].西安外国语大学学报,2009,17(1):53-56. 被引量：6
6付妮妮.汉语拼音字母词的名称、性质及其界说[J].华章（初中读写）,2007(2).
7何彦杰,徐宝锋,何葵.普通话水平测试中新词新语的评定原则[J].河北科技大学学报（社会科学版）,2003,3(3):50-52. 被引量：3
8沈刚.多维视角下汉语字母词的使用动因探析[J].安徽理工大学学报（社会科学版）,2012,14(3):56-58. 被引量：1
9王如辰.字母词语利弊观[J].白城师范学院学报,2012,26(6):89-92.
10李子红.字母词定义与分类新探析[J].湖北函授大学学报,2013,26(7):66-67.

同被引文献18

1刘涌泉.关于汉语字母词的问题[J].语言文字应用,2002(1):85-90. 被引量：221
2郑泽之,张普,杨建国.基于语料库的字母词语自动提取研究[J].中文信息学报,2005,19(2):78-85. 被引量：10
3郑泽之,张普.字母词语自动提取的几点分析[J].语言文字应用,2005(1):75-81. 被引量：6
4关润芝,杨建国.字母词语块中“标点”的使用状况考察[J].语言文字应用,2005(1):82-87. 被引量：11
5邹玉华,马广斌,刘红,韩志湘.关于汉语中使用字母词的语言态度的调查[J].语言教学与研究,2005(4):66-73. 被引量：35
6郑泽之,张普.汉语真实文本字母词语考察[J].语言科学,2005,4(6):65-74. 被引量：9
7邹玉华,马广斌,马叔骏,刘哲,马宇菁.字母词知晓度的调查报告[J].语言文字应用,2006(2):36-42. 被引量：39
8张铁文.《现汉》“西文字母开头的词语”部分的修订[J].语言文字应用,2006(4):131-138. 被引量：23
9原新梅,梁盟.留学生字母词语的知晓度[J].语言文字应用,2007(1):86-93. 被引量：12
10邹玉华,瞿国忠,董春萍.字母词在当代汉语中使用状况的分析[J].佛山科学技术学院学报（社会科学版）,2007,25(2):36-41. 被引量：10

引证文献2

1王秋萍.现代汉语字母词应用研究综述[J].现代语文（下旬．语言研究）,2010(8):18-21. 被引量：1
2王秋萍.面向语言监测的字母词自动获取研究[J].辽宁教育行政学院学报,2016,33(1):91-93.

二级引证文献1

1任惠俐.试析现代汉语中的规范性混合型字母词[J].时代教育,2015,0(10):85-85.

1郑泽之,张普,杨建国.基于语料库的字母词语自动提取研究[J].中文信息学报,2005,19(2):78-85. 被引量：10
2姜韶华,党延忠.自动提取含字母词语的领域新术语的研究[J].计算机工程,2007,33(2):47-49. 被引量：3
3汤斌,王吉华,庞双双.改进的三维模型语义自动标注算法[J].山东师范大学学报（自然科学版）,2015,30(4):50-54.
4胡涛,吴涛,李焱.一种基于场景识别的快速语义标注方法[J].华中科技大学学报（自然科学版）,2013,41(S1):103-107. 被引量：1
5张虹,邱怀中,韩涛.自校正模糊控制器及其应用[J].工业仪表与自动化装置,1997(3):28-30.
6韩涛,邱怀中,张虹.自校正模糊控制器的研究与应用[J].煤炭科学技术,1996,24(9):15-17.
7郑泽芝,敖婷.基于底表的多层扫描术语自动标注算法[J].厦门大学学报（自然科学版）,2011,50(3):546-552.
8杨阳,张文生.基于深度学习的图像自动标注算法[J].数据采集与处理,2015,30(1):88-98. 被引量：26
9谢静.Secure Computing公司全球副总裁来华考察研究[J].网络安全技术与应用,2007(6):3-3.
10刘庆峰.谈谈当前校园网建设中存在的问题[J].教育仪器设备,2001(1):40-42.

厦门大学学报（自然科学版）

2007年第5期

浏览历史

内容加载中请稍等...

一种字母词语自动标注算法被引量：2

参考文献7

二级参考文献35

共引文献266

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种字母词语自动标注算法 被引量：2

参考文献7

二级参考文献35

共引文献266

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种字母词语自动标注算法被引量：2