中文分词和词性标注联合模型综述被引量：1

The Review on the Joint Model of Chinese Word Segmentation and Part-of-speech Tagging

下载PDF

导出

摘要中文分词和词性标注任务作为中文自然语言处理的初始步骤,已经得到广泛的研究。由于中文句子缺乏词边界,所以中文词性标注往往采用管道模式完成:首先对句子进行分词,然后使用分词阶段的结果进行词性标注。然而管道模式中,分词阶段的错误会传递到词性标注阶段,从而降低词性标注效果。近些年来,中文词性标注方面的研究集中在联合模型。联合模型同时完成句子的分词和词性标注任务,不但可以改善错误传递的问题,并且可以通过使用词性标注信息提高分词精度。联合模型分为基于字模型、基于词模型及混合模型。本文对联合模型的分类、训练算法及训练过程中的问题进行详细的阐述和讨论。 Chinese word segmentation and part - of - speech （POS） tagging task as an initial step for Chinese natural lan- guage processing, has been widely studied. Due to the lack of Chinese sentences word boundary, the Chinese POS tagging task is often completed with the pipeline approach： firstly, perform Chinese word segmentation, and then use the results of the prior stage to tag the Chinese sentence. However, in the pipeline approach, word segmentation phase errors will be pas- sed to the POS tagging stage, thereby reducing the accuracy of POS tagging. In recent years, the research on Chinese POS tagging focused on the joint model. The joint model perform both word segmentation and POS tagging in a combined single step simultaneously, through which the error propagation can be avoided and the accuracy of word segmentation can be im- proved by utilizing POS information. There are character - based methods, word - based methods, and hybrid methods. In this paper, the three kinds of joint model, the training algorithm and the problems through the processing will be introduced in detail.

作者赵芳芳蒋志鹏关毅

机构地区哈尔滨工业大学计算机科学与技术学院

出处《智能计算机与应用》 2014年第3期77-80,共4页 Intelligent Computer and Applications

基金国家自然科学基金(60975077)

关键词中文分词中文词性标注联合模型 Chinese Word Segmentation Chinese Part- of- speech Tagging Joint Model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献14

1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
2秦颖,王小捷,张素香.汉语分词中组合歧义字段的研究[J].中文信息学报,2007,21(1):3-8. 被引量：11
3黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
4郑家恒,张剑锋,谭红叶.中文分词中歧义切分处理策略[J].山西大学学报（自然科学版）,2007,30(2):163-167. 被引量：10
5何莘,王琬芜.自然语言检索中的中文分词技术研究进展及应用[J].情报科学,2008,26(5):787-791. 被引量：25
6刘健,张维明.一种快速的交集型歧义检测方法[J].计算机应用研究,2008,25(11):3259-3261. 被引量：3
7奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104
8孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
9张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：44
10梁喜涛,顾磊.中文分词与词性标注研究[J].计算机技术与发展,2015,25(2):175-180. 被引量：48

引证文献1

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：44

二级引证文献44

1苏晓红.建立统一的国债回购市场[J].金融理论与实践,2000(3):18-19.
2张一勇,李建国.第三纪年代地层研究和中国第三纪年代地层表[J].地层学杂志,2000,24(2):120-125. 被引量：15
3韦人予.中文分词技术研究[J].信息与电脑,2020,32(10):26-29. 被引量：12
4刘哲,马乐荣.基于淘宝平台的笔记本电脑商品知识发现[J].延安大学学报（自然科学版）,2020,39(4):63-66. 被引量：1
5邵卫,化柏林.基于依存句法分析的科技政策领域主题词表无监督构建[J].情报工程,2020,6(6):33-44. 被引量：11
6杨柳,吴彦蓉.基于微信小程序的智能客服回复技术的研究与实现[J].太原师范学院学报（自然科学版）,2021,20(1):65-68. 被引量：2
7郭凡莎,杨风暴.基于CRF的交通肇事诉讼案件关键要素抽取[J].计算机与现代化,2021(3):77-81. 被引量：2
8孙弋,李直.使用贝叶斯分类的高考学业规划智能问答系统[J].计算机系统应用,2021,30(4):93-98. 被引量：3
9孔洁.基于深度学习与《中国图书馆分类法》的文献自动分类系统研究[J].新世纪图书馆,2021(5):51-56. 被引量：10
10姬美琳,王德军,孟博,孙贝尔.基于伪孪生网络的政务实体链接模型[J].中南民族大学学报（自然科学版）,2021,40(3):312-318.

1余昕聪,李红莲,吕学强.最大熵和HMM在中文词性标注中的应用[J].无线互联科技,2014,11(11):122-124. 被引量：3
2朱颖.浅谈HMM在词性标注中的应用[J].电脑开发与应用,2011,24(3):52-55. 被引量：3
3孙静,李军辉,周国栋.基于条件随机场的无监督中文词性标注[J].计算机应用与软件,2011,28(4):21-23. 被引量：9
4刘滔,雷霖,陈荦,熊伟.基于MapReduce的中文词性标注CRF模型并行化训练研究[J].北京大学学报（自然科学版）,2013,49(1):147-152. 被引量：5
5杨荣根,杨忠.基于HMM中文词性标注研究[J].金陵科技学院学报,2017,33(1):20-23. 被引量：3
6杨明增,李拴保,唐慧林.安全风险评估模型综述[J].河南教育学院学报（自然科学版）,2010,19(4):6-8. 被引量：2
7邓杰文.P2P系统模型综述[J].中国科技信息,2008(6):116-117. 被引量：2
8金波.人脸图像年龄估计模型综述[J].信息安全与技术,2011,2(6):19-21.
9刘娜,叶春晓.线上社交网络访问控制模型综述[J].计算机系统应用,2014,23(5):1-7. 被引量：1
10章远琳.软件可靠性模型综述[J].计算机科学,1993,20(6):42-47.

智能计算机与应用

2014年第3期

浏览历史

内容加载中请稍等...

中文分词和词性标注联合模型综述被引量：1

同被引文献14

引证文献1

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

中文分词和词性标注联合模型综述 被引量：1

同被引文献14

引证文献1

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

中文分词和词性标注联合模型综述被引量：1