规则和统计相结合的汉语词类标注方法被引量：43

Chinese Corpus Tagging Using Rule Techniques and Statistics Techniques

下载PDF

导出

摘要本文分析了汉语的多类词现象与汉语词类标注的困难，介绍了汉语词类标注中的规则排歧和统计排歧的处理策略以及规则和统计相结合的处理思路。按此思路设计的软件系统，对封闭语料和开放语料的标注正确率分别达到了９６．０６％和９５．８２％。 Abstract In this paper,we analyze category ambiguities of Chinese words,and introduce the schemes of rulebased disambiguation and statistics-based disambiguation in Chinese corpus tagging.We also propose a method blending rule-based processing with statistics-based processing.Using this method to tag Chinese corpus,we get the tagging accuracy of 96.06%(close testing) and 95.82% (open testing).

作者周强

机构地区北京大学计算语言学研究所

出处《中文信息学报》 CSCD 1995年第3期1-10,共10页 Journal of Chinese Information Processing

基金国家自然科学基金

关键词汉语语料库词类标注规则排歧统计排歧

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1俞士汶，1994年
2周强，计算机研究与运用，1993年
3白栓虎，1992年
4刘开瑛，1992年
5俞士汶，1991年
6减怀德，形容词用法词典，1991年
7孟琮，动词用法词典，1985年
8朱德熙，语法答问，1985年

同被引文献346

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2丁信善.语料库语言学的发展及研究现状[J].当代语言学,1998(1):5-13. 被引量：79
3陈建生.语篇的自动词性附码[J].当代语言学,1998(1):18-29. 被引量：12
4陈建生.关于语料语言学[J].当代语言学,1997(1):1-11. 被引量：24
5毕玉德.面向语言信息处理的韩语谓词及词尾还原分析[J].解放军外国语学院学报,1999,22(1):51-51. 被引量：1
6商务印书馆今年计划出版的哲学译著[J].哲学研究,1959(2):47-47. 被引量：285
7黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
8白锡嘉.机器翻译与自然语言的理解[J].中国科技翻译,1996,9(2):31-34. 被引量：7
9莫少强.计算机辅助图书分类系统的设计与试验[J].现代图书情报技术,1984(1):29-35. 被引量：5
10侯汉清,黄刚.电子计算机与文献分类[J].现代图书情报技术,1982(1):5-14. 被引量：9

引证文献43

1曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
2王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
3于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
4刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
5梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
6王朔.神经网络与规则相结合的词类标注方法[J].天津理工大学学报,2005,21(2):86-88. 被引量：1
7李朝虹,陆建湖.现代汉语自动分析研究现状综述[J].广西教育学院学报,2003(1):112-116. 被引量：1
8蔡勇智.基于最大匹配分词算法的中文词语粗分模型[J].福建电脑,2005,21(9):39-40. 被引量：2
9阿依克孜.卡德尔,开沙尔.卡德尔,吐尔根.依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48. 被引量：22
10刘伟权,王明会,钟义信.应用两种神经网络模型自动标注汉语词类[J].北京邮电大学学报,1997,20(2):42-48. 被引量：2

二级引证文献353

1刘雨可,周申培,石英,杜家宝.面向配网一次设备缺陷文本命名实体识别研究[J].武汉理工大学学报,2022,44(10):93-101. 被引量：1
2陈海艳.新中国成立以来的维吾尔语研究概述[J].民族翻译,2021(1):88-96. 被引量：1
3孙建伟.字料库理论在佛经音义类辞书文字整理与研究中的应用[J].民俗典籍文字研究,2019(2):158-169.
4熊奥,高畅,赵明辉,张玲玲.基于知识图谱的核电设备健康管理知识建模与分析[J].科技促进发展,2021,17(4):640-649. 被引量：8
5刘世兴.基于多尺度的n-grams特征选择加权及匹配算法[J].智能计算机与应用,2020,0(1):61-66. 被引量：1
6战疆,冯月利,王珊.PostgreSQL中文全文索引技术研究与实现[J].华中科技大学学报（自然科学版）,2005,33(z1):213-216. 被引量：3
7方浩,许鸿文,蔡益宇.一种基于语义关系改进的隐马尔可夫模型研究[J].通信技术,2008,41(5):157-159. 被引量：3
8隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
9刘云,俞士汶.“句管控”与中文信息处理[J].汉语学报,2004(2):56-62. 被引量：5
10谢春发.中文信息处理在智能答疑系统中的应用研究[J].福建广播电视大学学报,2005(2):55-57.

1刘伟权,王明会,钟义信.应用两种神经网络模型自动标注汉语词类[J].北京邮电大学学报,1997,20(2):42-48. 被引量：2
2王朔.神经网络与规则相结合的词类标注方法[J].天津理工大学学报,2005,21(2):86-88. 被引量：1
3支天云,张仰森.基于BP网络的汉语文本词类标注方法[J].山西大学学报（自然科学版）,2001,24(1):33-36. 被引量：3
4孙茂松,卢红娜,邹嘉彦.基于隐Markov模型的汉语词类自动标注的实验研究[J].清华大学学报（自然科学版）,2000,40(9):57-60. 被引量：6
5华却才让,才让加.基于班智达藏文查询接口及信息抽取研究[J].微计算机信息,2010,26(18):208-209. 被引量：1
6王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
7刘伟权,钟义信.基于SRNN神经网络的汉语文本词类标注方法[J].计算机研究与发展,1997,34(6):421-426. 被引量：4
8艾孜尔古丽,米尔夏提,玉素甫.艾白都拉.现代维吾尔语词干词类标注标记集验证性研究[J].计算机工程与科学,2015,37(12):2318-2323. 被引量：2
9彭炜明,宋继华,俞士汶.中文信息处理的词法问题--以句本位语法图解树库构建为背景[J].中文信息学报,2014,28(2):1-7. 被引量：5
10孙茂松,左正平,邹嘉彦.基于k-近似的汉语词类自动判定[J].计算机学报,2000,23(2):166-170. 被引量：9

中文信息学报

1995年第3期

浏览历史

内容加载中请稍等...

规则和统计相结合的汉语词类标注方法被引量：43

参考文献8

同被引文献346

引证文献43

二级引证文献353

相关作者

相关机构

相关主题

浏览历史

规则和统计相结合的汉语词类标注方法 被引量：43

参考文献8

同被引文献346

引证文献43

二级引证文献353

相关作者

相关机构

相关主题

浏览历史

规则和统计相结合的汉语词类标注方法被引量：43