基于层叠隐马模型的汉语词法分析被引量：198

Chinese Lexical Analysis Using Cascaded Hidden Markov Model

下载PDF

导出

摘要提出了一种基于层叠隐马模型的汉语词法分析方法 ,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中在分词方面 ,采取的是基于类的隐马模型 ,在这层隐马模型中 ,未登录词和词典中收录的普通词一样处理未登录词识别引入了角色HMM :Viterbi算法标注出全局最优的角色序列 ,然后在角色序列的基础上 ,识别出未登录词 ,并计算出真实的可信度在切分排歧方面 ,提出了一种基于N 最短路径的策略 ,即 :在早期阶段召回N个最佳结果作为候选集 ,目的是覆盖尽可能多的歧义字段 ,最终的结果会在未登录词识别和词性标注之后 ,从N个最有潜力的候选结果中选优得到不同层面的实验表明 ,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用实现了基于层叠隐马模型的汉语词法分析系统ICTCLAS ,该系统在 2 0 0 2年的“九七三”专家组评测中获得第 1名 ,在 2 0 0 3年汉语特别兴趣研究组 (ACLSpecialInterestGrouponChineseLanguageProcessing ,SIGHAN)组织的第 1届国际汉语分词大赛中综合得分获得两项第 1名、一项第 2名这表明 :ICTCLAS是目前最好的汉语词法分析系统之一。 This paper presents an approach for Chinese lexical analysis using cascaded hidden Markov model (CHMM), which aims to incorporate Chinese word segmentation, part-of-speech tagging, disambiguation and unknown words recognition into an integrated theoretical frame. A class-based HMM is applied in word segmentation, and in this model, unknown words are treated in the same way as common words listed in the lexicon. Unknown words are recognized with reliability on roles sequence tagged using Viterbi algorithm in roles HMM. As for disambiguation, the authors bring forth an n-shortest-path strategy that, in the early stage, reserves the top N segmentation results as candidates and covers more ambiguity. Various experiments show that each level in the CHMM contributes to Chinese lexical analysis. A CHMM-based system ICTCLAS is accomplished. The system ranked top in the official open evaluation, which was held by the “973” project in 2002. And ICTCLAS achieved 2 first ranks and 1 second rank in the first international word segmentation bakeoff held by SIGHAN (the ACL Special Interest Group on Chinese Language Processing) in 2003. It indicates that ICTCLAS is one of the best Chinese lexical analyzers. In a word, CHMM is effective for Chinese lexical analysis.

作者刘群张华平俞鸿魁程学旗

机构地区中国科学院计算技术研究所

出处《计算机研究与发展》 EI CSCD 北大核心 2004年第8期1421-1429,共9页 Journal of Computer Research and Development

基金国家"九七三"重点基础研究发展规划项目 (G19980 3 0 5 0 7 4 G19980 3 0 5 10 ) 中国科学院计算技术研究所领域前沿青年基金项目( 2 0 0 2 6180 2 3 )

关键词汉语词法分析分词词性标注未登录词识别层叠隐马模型 ICTCLAS Chinese lexical analysis word segmentation POS tagging unknown words recognition cascaded hidden Markov model ICTCLAS

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献27

1梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
2张华平,刘群.基于N-最短路径方法的中文词语粗分模型[J].中文信息学报,2002,16(5):1-7. 被引量：99
3J Hockenmaier, C Brew. Error-driven learning of Chinese word segmentation. In: J Guo, K T Lua, J Xu, eds. The 12th Pacific Conf on Language and Information, Singapore, 1998
4Andi Wu, Zixin Jiang. Word segmentation in sentence analysis.1998 Int'l Conf on Chinese Information Processing, Beijing, 1998
5D Palmer. A trainable rule-based algorithm for word segmentation. The 35th Annual Meeting of the Association for Computational Linguistics (ACL'97), Madrid, 1997
6Y Dai, C S G Khoo, T E Loh. A new statistical formula for Chinese text segmentation incorporating contextual information.ACM SIGIR99, Berkeley, 1999
7高山,张艳,等.基于三元统计模型的汉语分词及标注一体化研究.见:自然语言理解与机器翻译.北京:清华大学出版社,2001.116-122(Gao Shan, Zhang Yan, et al. The research on integrated Chinese word segmentation and labeling based on trigram statistical model. In: Natural Language Understanding and Machine Translation(in Chinese). Beijing: Tsinghua University Press,2001. 116-122)
8F Peng, D Schuurmans. A hierarchical EM approach to word segmentation. The 6th Natural Language Processing Pacific Rim Symposium (NLPRS-2001), Tokyo, 2001
9WJ Teahan, Y Wen, R McNabI, et al. A Compression-based algorithm for Chinese word segmentation. Computational Linguistics, 2001, 26(3): 375～393
10Nianwen Xue, Susan P Converse. Combining classifiers for Chinese word segmentation. First SIGHAN Workshop Attached with the 19th COLING, Taipei, 2002

二级参考文献12

1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
2周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
3罗智勇,宋柔.现代汉语自动分词中专名的一体化、快速识别方法[C]//Ji Dong-Hong.国际中文电脑学术会议,新加坡,2001:323-328.
4Ji Heng, Luo Zhen-Shen. Inverse name frequency model and rules based on Chinese name identifying. In: Huang ChangNing, Zhang Pu ed.. Natural Language Understanding and Machine Translation. Beijing: Tsinghua University Press,2001, 123 - 128( in Chinese)(季姮,罗振声.基于反比概率模型和规则的中文姓名自动辨识系统.见:黄昌宁,张普编.自然语言理解与机器翻译.北京:清华大学出版社,2001,123-128)
5Zhen Jia-Heng, Liu Kai-Ying. Discussion on strategy of surname and personal name processing in Chinese word segmentation. In: Chen Li-Wei ed.. Research and Application of Computational Linguistics. Beijing: Beijing Institute of Linguistics and Culture Press, 1993(in Chinese)(郑家恒刘开瑛.自动分词系统中姓氏人名的处理策略探讨.见:陈力为编.计算语言研究与应用.北京:北京语言学院出版社,1993)
6Song Rou, Zhu Hong et al.. Approach of personal name recognition based on corpus and rules. In: Chen Li Wei ed.. Research and Application of Computational Linguistics. Beijing:Beijing Institute of Linguistics and Culture Press, 1993(in Chinese)(宋柔,朱宏等.基于语料库和规则库的人名识别法.见:陈力为编.计算语言研究与应用.北京:北京语言学院出版社,1993)
7Wang Sheng, Huang De-Gen, Yang Yuan-Sheng. Chinese person name recognition based on mixture of statistics and rules.In: Huang Chang-Ning, Dong Zhen-Dong ed.. Corpora of Computational Linguistics. Beijing: Tsinghua University Press, 1999 (in Chinese)(王省,黄德根,杨元生.基于统计和规则相结合的中文姓名识别.见:黄昌宁,董振东编.计算语言学文集.北京:清华大学出版社,1999)
8Chen Xiao-He. Automatic Analysis of Modern Chinese. Beijing: Beijing University Linguistics and Culture Press, 2000,104-114(in Chinese)(陈小荷.现代汉语自动分析.北京:北京语言文化大学出版社, 2000, 104-114 )
9Rabiner L. R.. A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of IEEE, 1989, 77(2): 257～286
10Rabiner L. R. , Juang B. H. An introduction to hidden Markov models. IEEE Acoustics, Speech & Signal Processing Magazine, 1986, 3:4～166

共引文献240

1成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
2宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：5
3战疆,冯月利,王珊.PostgreSQL中文全文索引技术研究与实现[J].华中科技大学学报（自然科学版）,2005,33(z1):213-216. 被引量：3
4钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
5张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
6隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
7罗安,王勇,张福浩,刘纪平.基于角色标注的中文POI名称语义分类方法[J].测绘通报,2012(S1):521-524. 被引量：3
8张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
9王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
10孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101

同被引文献1740

1于明坤,柴倩云,梁昌昊,丁砚秋,林子宜,高佳琪,王涵,张立山,刘建平,费宇彤.新型冠状病毒肺炎中医预防及诊疗方案汇总分析[J].中医杂志,2020,61(5):383-387. 被引量：153
2郑文科,张俊华,杨丰文,王玉光,刘清泉,张伯礼.中医药防治新型冠状病毒肺炎各地诊疗方案综合分析[J].中医杂志,2020,61(4):277-280. 被引量：335
3李思聪,冯祥,毕磊,刘欣.新型冠状病毒肺炎诊疗方案中成药选用分析与药理研究进展[J].中药材,2020(3):764-771. 被引量：16
4任伟钰,苏敬,刘永琦,侯雯倩,郑宜,魏本君,靳晓杰,张利英,张志明,刘东玲,宁艳梅.全国各省区中医药治疗新型冠状病毒肺炎(COVID-19)的诊疗方案分析[J].中草药,2020,51(5):1139-1146. 被引量：52
5马路路.唐诗之路镜湖客籍诗人行迹与诗作考述——兼论唐人镜湖诗创作动因[J].玉林师范学院学报,2022,43(2):13-21. 被引量：1
6唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：45
7李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：55
8刘梦迪,梁循.基于偏旁部首知识表示学习的汉字字形相似度计算方法[J].中文信息学报,2021,35(12):47-59. 被引量：6
9马开俊.数字化建设中文献信息主题标引方式管见[J].情报资料工作,2004,25(S1):355-356. 被引量：1
10王卫琴.网络环境下的图书馆与图书馆服务方式[J].理论与现代化,2008(1):122-124. 被引量：7

引证文献198

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：10
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：10
3陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
4尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
5于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
6于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
7李彦,贾爱军,占向辉,李翔龙.面向创新设计的多层次Web信息检索研究[J].工程设计学报,2005,12(3):129-133. 被引量：1
8任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
9俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：160
10雷震,吴玲达,王辰,贺玲.新闻事件分析系统IEventMiner的设计[J].计算机科学,2006,33(4):177-180.

二级引证文献1386

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2陈云涛,郭佩华,王笑喆,施相如.互联网+综合管理平台引导家长促进儿童口腔健康干预效果评价[J].中国健康教育,2020(7):656-659. 被引量：13
3赵奎,杜昕娉,高延军,马慧敏.融合文字与标签的电子病历命名实体识别[J].计算机系统应用,2022,31(10):375-381. 被引量：1
4贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
5唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：45
6王建冬.大数据在经济监测预测研究中的应用进展[J].数据分析与知识发现,2020,4(1):12-25. 被引量：12
7屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：7
8门海燕,杨志霞.话语与社会变迁研究——以2014年至2020年国务院政府工作报告为例[J].时代报告（学术版）,2022(11):85-88.
9刘雨可,周申培,石英,杜家宝.面向配网一次设备缺陷文本命名实体识别研究[J].武汉理工大学学报,2022,44(10):93-101. 被引量：2
10李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：5

1于江德,胡顺义,余正涛.三位一体字标注的汉语词法分析[J].中文信息学报,2015,29(6):1-7. 被引量：4
2于江德,王希杰,樊孝忠.字标注汉语词法分析中上文和下文孰重孰轻[J].计算机科学,2012,39(11):201-203. 被引量：3
3付国宏,王晓龙.面向真实文本的汉语词法自动分析系统[J].高技术通讯,1999,9(12):6-10.
4王继曾,罗恒,刘宽,任浩征.应用条件随机场进行汉语词法分析研究[J].计算机工程与设计,2007,28(2):486-488. 被引量：2
5时迎超,王会珍,肖桐,胡明涵.面向人名消歧任务的人名识别系统[J].中文信息学报,2011,25(3):17-22. 被引量：4
6刘素霞.培养学生的学习兴趣研究[J].软件（教学）,2014,0(11):92-92.
7姜维,王晓龙,关毅,赵健.基于多知识源的中文词法分析系统[J].计算机学报,2007,30(1):137-145. 被引量：29
8张华平,刘群.基于角色标注的中国人名自动识别研究[J].计算机学报,2004,27(1):85-91. 被引量：104
9陶非凡.基于层叠隐马模型的屏蔽关键词研究[J].计算机技术与发展,2014,24(11):167-169.
10董天石,王悦,陈玉泉.ENERGY CALCULUSIN CHINESE LANGUAGE SEGMENTATION[J].Journal of Shanghai Jiaotong university(Science),2000,5(2):70-73.

计算机研究与发展

2004年第8期

浏览历史

内容加载中请稍等...

基于层叠隐马模型的汉语词法分析被引量：198

参考文献27

二级参考文献12

共引文献240

同被引文献1740

引证文献198

二级引证文献1386

相关作者

相关机构

相关主题

浏览历史

基于层叠隐马模型的汉语词法分析 被引量：198

参考文献27

二级参考文献12

共引文献240

同被引文献1740

引证文献198

二级引证文献1386

相关作者

相关机构

相关主题

浏览历史

基于层叠隐马模型的汉语词法分析被引量：198