中文分词及词性标注一体化模型研究被引量：10

Research on the Model of Integrating Chinese Word Segmentation with Part-of-speech Tagging

下载PDF

导出

摘要本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自动分词和词性自动标注一体化处理的中文词法分析器。初步的开放测试证明,该分析器的分词准确率和词性标注准确率分别达到98.1%和95.07%。 In this paper, we present a model integrating Chinese word segment with part-of-speech tagging. In the early stage, reserves the top N segmentation results as candidates. After Unknown words recognized and POS tagging finished, we get the final result by select form the top N segmentation candidates. We also develop a Chinese lexical analyzer based on this model. The primary experiment proved that the overall accuracy of the proposed analyzer is 98. 1 for segmentation and 95.7% for POS tagging respectively.

作者佟晓筠宋国龙刘强张俐姜伟

机构地区哈尔滨工业大学(威海)计算机科学与技术学院东北大学信息科学与工程学院辽东学院计算中心

出处《计算机科学》 CSCD 北大核心 2007年第9期174-175,212,共3页 Computer Science

基金 2002年山东省科技发展计划项目基金资助(项目号:2002-276-022090104)

关键词中文分词词性标注 N-最短路径法 Chinese word segmentation, Part-of-speech tagging, N-shortest paths method

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1何克抗,徐辉,孙波.书面汉语自动分词专家系统设计原理[J].中文信息学报,1991,5(2):1-14. 被引量：30
2张华平,刘群.基于N-最短路径方法的中文词语粗分模型[J].中文信息学报,2002,16(5):1-7. 被引量：99

二级参考文献3

1周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
2梁南元.书面汉语自动分词系统—CDWS[J]中文信息学报,1987(02).
3揭春雨,刘源,梁南元.论汉语自动分词方法[J].中文信息学报,1989,3(1):1-9. 被引量：55

共引文献127

1战疆,冯月利,王珊.PostgreSQL中文全文索引技术研究与实现[J].华中科技大学学报（自然科学版）,2005,33(z1):213-216. 被引量：3
2隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
3张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
4王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
7李文翔,晏蒲柳,夏德麟,张滨.基于差异相似矩阵算法的词语用法知识发现[J].计算机应用与软件,2005,22(1):90-92.
8刘新斌,李俊.一种基于N-gram组合的中文垃圾邮件过滤方法[J].微电子学与计算机,2004,21(12):85-91. 被引量：5
9黄建中,王肖雷.Katz平滑算法在中文分词系统中的应用[J].计算机工程,2004,30(B12):371-372. 被引量：5
10夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24

同被引文献103

1多拉.藏语语义理解中功能性虚词研究[J].西藏大学学报（社会科学版）,2011,26(4):106-112. 被引量：4
2苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
3孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
5龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量：26
6张茂元,卢正鼎,邹春燕.一种基于语境的中文分词方法研究[J].小型微型计算机系统,2005,26(1):129-133. 被引量：8
7张永奎,李国臣.新闻语料自动分词系统[J].山西大学学报（自然科学版）,1993,16(3):280-284. 被引量：1
8郭进.统计语言模型及汉语音字转换的一些新结果[J].中文信息学报,1993,7(1):18-27. 被引量：17
9费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
10吴伟斌,肖强,陈联忠,蒲卫,李小华.电子病历系统的设计与实现[J].解放军医院管理杂志,2005,12(3):223-225. 被引量：26

引证文献10

1吴涛,张毛迪,陈传波.一种改进的统计与后串最大匹配的中文分词算法研究[J].计算机工程与科学,2008,30(8):79-82. 被引量：7
2李玉红,柴林燕,张琪.结合分词技术与语句相似度的主观题自动判分算法[J].计算机工程与设计,2010,31(11):2663-2666. 被引量：9
3马志强,苏依拉.基于次优查找树的词典机制研究[J].内蒙古工业大学学报（自然科学版）,2010,29(4):274-278.
4奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104
5扎西加,高定国.藏文文本分词赋码一体化研究[J].西藏大学学报（社会科学版）,2012,27(2):57-61. 被引量：4
6万小娜,陈盛双,张卓.多目标动态规划在电子病历结构化的应用[J].计算机工程与应用,2012,48(35):218-223. 被引量：2
7张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014(9):91-98. 被引量：9
8严顺.先秦文献的语料库构建探究[J].江苏科技信息,2016,33(12):32-33. 被引量：3
9黄秦,李英冰,范雨东.兴趣点数据的组织模型与检索算法[J].测绘科学,2018,43(8):141-145. 被引量：2
10田华.浅议计算机中文自动分词技术[J].经营管理者,2013(23):371-371. 被引量：1

二级引证文献140

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2杨一帆,陈文亮.旅游场景下的实体别名抽取联合模型[J].中文信息学报,2020(6):55-63. 被引量：3
3游家兴,张哲远.文以载道——文本分析研究评述与展望[J].当代会计评论,2022(2):32-59. 被引量：1
4张彩琴,袁健.改进的正向最大匹配分词算法[J].计算机工程与设计,2010,31(11):2595-2597. 被引量：11
5苗利明.基于正序词典的双向最大分词法[J].信息系统工程,2010,23(6):137-137.
6郑炜冬.试卷相似度自动评估技术的研究[J].智能计算机与应用,2011,1(4):16-19.
7邸书灵,刘晓飞,李欢.基于分词的语句相似度计算的改进[J].石家庄铁道大学学报（自然科学版）,2011,24(4):94-97. 被引量：2
8段宇锋,鞠菲.基于N-Gram的专业领域中文新词识别研究[J].现代图书情报技术,2012(2):41-47. 被引量：10
9蔡君,张淋辉.通向三代移动通信的桥梁：GPRS技术及其解决方案概览[J].互联网世界,2000(4):26-31.
10张丽媛.1984—2011年中国自动分词研究综述[J].农业图书情报学刊,2012,24(6):140-143.

1刘遥峰,王志良,王传经.中文分词和词性标注模型[J].计算机工程,2010,36(4):17-19. 被引量：11
2韦绥线,黄胜华.一种快速规避拥塞的路由算法[J].计算机仿真,2007,24(4):136-138. 被引量：3
3陈顺强,马嘿玛伙.基于隐马尔科夫模型的彝文分词系统设计与开发[J].西南民族大学学报（自然科学版）,2012,38(1):146-149. 被引量：6
4王坚,赵恒永.专业搜索引擎中文分词算法的实现与研究[J].福建电脑,2005,21(7):55-55. 被引量：3
5刘震,李树楷.三“S”一体化技术和方法的探讨[J].环境遥感,1995,10(2):152-160. 被引量：24
6吴云志,乐毅,王超,张友华.蚁群算法在物流路径优化中的应用及仿真[J].合肥工业大学学报（自然科学版）,2009,32(2):211-214. 被引量：17
7羊毛卓玛.藏文词性自动标注中歧义问题处理方法研究[J].计算机工程与应用,2013,49(24):135-137. 被引量：1
8海通.Internet的路由传送与ATM的虚电路传输在方式上有哪些不同？[J].电脑爱好者,2000(19):114-114.
9王坚,赵恒永.专业搜索引擎的实现与研究——中文分词算法[J].电子科学技术评论,2005(3):77-79. 被引量：4
10熊桂喜,姚丽.交通管理领域的中文分词算法及应用研究[J].微计算机信息,2009,25(30):135-136.

计算机科学

2007年第9期

浏览历史

内容加载中请稍等...

中文分词及词性标注一体化模型研究被引量：10

参考文献2

二级参考文献3

共引文献127

同被引文献103

引证文献10

二级引证文献140

相关作者

相关机构

相关主题

浏览历史

中文分词及词性标注一体化模型研究 被引量：10

参考文献2

二级参考文献3

共引文献127

同被引文献103

引证文献10

二级引证文献140

相关作者

相关机构

相关主题

浏览历史

中文分词及词性标注一体化模型研究被引量：10