一个改进的汉语词性标注系统被引量：7

An Impoved Part-of-Speech (POS) Tagging System

下载PDF

导出

摘要汉语词性标注的难点在于确定具有多个词类的词 (兼类词 )在上下文中的词性 .基于兼类词在词典中仅占很小的比例 (约为 3% ) ,提出了具有双重状态的隐马尔可夫模型 ,它不但有一个常规的状态转移概率矩阵 ,还在逻辑上为每个具有多个词类的词保留一个专有的状态转移概率矩阵 ,使模型从一个状态转移到另一个状态的概率不再和观察无关。 The key problem of Part of Speech (POS) tagging is to identify the POS of the words that have multiple categories in the context. Since multiple categories words only take up a small portion in dictionary, this paper presented a bi states hidden Markov model, which not only has a regular state transfer probability matrix, but also maintains a state transfer matrix for each multiple category words. The state transfer matrix is no longer context free, which improves the accuracy of the model.

作者屈刚陆汝占

机构地区上海交通大学计算机科学与工程系

出处《上海交通大学学报》 EI CAS CSCD 北大核心 2003年第6期897-900,共4页 Journal of Shanghai Jiaotong University

关键词词性标注隐马尔可夫模型自然语言处理 part of speech(POS) tagging hidden Markov model natural language processing(NLP)

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Brown R F, Della-Pietray V J,de Sousa P V,et al.Class-based N-gram models onatural language [J].Computational Linguistics, 1992,18 (4) : 467 - 479.
2Jelinek F. Self-organizing language models for speech recognition [A]. Reading in Speech Reognition [C]. USA: Morgan Kaufman Publishers, Inc,1990. 450-506.
3Morialdo B. Tagging english text with a problistic model [J]. Computational Linguistics, 1994. 20 (2) :155-171.
4Berger A L,Della P, Pietra S A, et al. A maximum entropy approach to natrual language processing [J].Computational Linguistics, 1996,22 ( 1 ) : 450- 480.
5Kuhn R, Mori R. A cache-based natural language model for speech recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1990,PAMI- 12(6) :570-583.
6Rosenfeld R. Adaptive statistical language modeling: maximum entropy approch [D]. Pittsburgh:Carnegie Mellon Univ, 1994.

同被引文献42

1梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
2温锐,朱巧明,李培峰.HMM和负反馈模型在词性标注中的应用[J].苏州大学学报（自然科学版）,2005,21(3):39-42. 被引量：5
3陈晓文.自动词性标注方法的比较[J].温州大学学报,2006,19(1):53-57. 被引量：4
4赵岩,王晓龙,刘秉权,关毅.融合聚类触发对特征的最大熵词性标注模型[J].计算机研究与发展,2006,43(2):268-274. 被引量：20
5姜维,关毅,王晓龙.基于条件随机域的词性标注模型[J].计算机工程与应用,2006,42(21):13-16. 被引量：12
6洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56
7詹卫东.词汇分析(二)从词串到词性标记串[EB/OL].[2007].http://ccl.pku.edu.cn.
8刘群.计算语言学(词法分析Ⅱ).[EB/OL].[2007].http://www.nip.org.cn.
9Daniel Jurafsky, James H. Martin. Speech and Languge Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition[M]. USA: Prentice Hall,2000.
10Doug Cutting, Julian Kupiec, Jan Pedersen, Penelope Sibun. A Practical Part of-Speech Tagger [C]//Proceedings of the Third Conference on Applied Natural Language Processing, 1992: 133-140.

引证文献7

1方华,陆汝占,刘绍明.一个实现多种切分标注算法的系统[J].计算机工程,2004,30(24):122-124. 被引量：2
2刘艳,古丽拉.阿东别克,伊力亚尔.哈萨克语词性自动标注研究初探[J].计算机工程与应用,2008,44(20):242-244. 被引量：8
3邢富坤,宋柔,罗智勇.SSD模型及其在汉语词性标注中的应用[J].中文信息学报,2010,24(1):20-24. 被引量：4
4王敏,郑家恒.基于改进的隐马尔科夫模型的汉语词性标注[J].计算机应用,2006,26(S2):197-198. 被引量：10
5袁里驰.基于改进的隐马尔科夫模型的词性标注方法[J].中南大学学报（自然科学版）,2012,43(8):3053-3057. 被引量：15
6YUAN Lichi.A Part-of-speech Tagging Model Employing Word Clustering and Syntactic Parsing[J].Chinese Journal of Electronics,2014,23(1):109-114. 被引量：1
7马小雯,袁满,刘彦林,李臻,李慧杰.面向标准文本的词性标注集设计[J].信息技术与标准化,2022(10):36-42.

二级引证文献37

1陈昌熊,赵京雷.汉语名物化复合词识别[J].计算机应用与软件,2008,25(9):283-285.
2高玉琢,任思佳,王恒,佘廉.基于数值编码规则的信息抽取方法[J].宁夏大学学报（自然科学版）,2009,30(1):46-49. 被引量：2
3韩普,姜杰.HMM在自然语言处理领域中的应用研究[J].计算机技术与发展,2010,20(2):245-248. 被引量：16
4木合亚提.尼亚孜别克,古力沙吾利.哈萨克文信息处理的现状和发展方向[J].中文信息学报,2010,24(4):111-113. 被引量：8
5冯鲸华,古丽拉.阿东别克,玛依来.哈帕尔.基于N-gram语言模型的哈萨克文机构名识别[J].计算机工程与应用,2010,46(31):135-138. 被引量：2
6王花,古丽拉.阿东别克.基于语料的哈萨克语词频统计研究[J].计算机工程,2010,36(24):59-61. 被引量：6
7侯呈风,古丽拉.阿东别克.改进的HMM应用于哈萨克语词性标注[J].计算机工程与应用,2010,46(36):147-149. 被引量：8
8吐尔根·依布拉音,袁保社.新疆少数民族语言文字信息处理研究与应用[J].中文信息学报,2011,25(6):149-156. 被引量：26
9木合亚提·尼亚孜别克,古力沙吾利.哈萨克文信息处理现状中的若干问题探讨[J].智能计算机与应用,2011,1(4):45-46. 被引量：4
10于江德,周宏宇,余正涛.汉语词性标注的特征工程[J].山东大学学报（工学版）,2011,41(6):12-17.

1孔骏,陈玉泉,陆汝占.基于多层有限状态自动机的多输入汉语词性标注系统[J].计算机工程,2001,27(2):30-31. 被引量：1
2刘小可,王云兰.一个改进的基于最大熵原理的汉语词性标注系统[J].光盘技术,2007(6):17-18.
3孔骏,陈玉泉,陆汝占.自学习结合部分句法分析的汉语词性标注[J].上海交通大学学报,2001,35(9):1370-1372.
4魏欧,孙玉芳.汉语词性标注方法的研究[J].计算机科学,2000,27(7):71-75. 被引量：6
5刘海天,赵政文,盛光磊.隐马尔可夫模型及其在自然语言处理中的应用[J].微处理机,2009,30(3):74-76. 被引量：2
6许长志,闵帆.带权约简及其在汉语词性标注自动校对中的应用[J].控制与决策,2007,22(7):740-744. 被引量：1
7韩霞,黄德根.基于半监督隐马尔科夫模型的汉语词性标注研究[J].小型微型计算机系统,2015,36(12):2813-2816. 被引量：7
8谷川,田喜平.基于条件随机场的汉语词性标注方法研究[J].安阳师范学院学报,2010(5):6-8.
9林红,苑春法,郭树军.基于最大熵方法的汉语词性标注[J].计算机应用,2004,24(1):14-16. 被引量：8
10孙君顶,郭启强,周雪梅.基于颜色和纹理特征的彩色图像检索[J].计算机工程与应用,2010,46(29):176-178. 被引量：9

上海交通大学学报

2003年第6期

浏览历史

内容加载中请稍等...

一个改进的汉语词性标注系统被引量：7

参考文献6

同被引文献42

引证文献7

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

一个改进的汉语词性标注系统 被引量：7

参考文献6

同被引文献42

引证文献7

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

一个改进的汉语词性标注系统被引量：7