中文分词和词性标注模型被引量：11

Model of Chinese Words Segmentation and Part-of-Word Tagging

下载PDF

导出

摘要构造一种中文分词和词性标注的模型,在分词阶段确定N个最佳结果作为候选集,通过未登录词识别和词性标注,从候选结果集中选优得到最终结果,并基于该模型实现一个中文自动分词和词性自动标注的中文词法分析器。经不同大小训练集下的测试证明,该分析器的分词准确率和词性标注准确率分别达到98.34%和96.07%,证明了该方法的有效性。 This paper proposes a model of Chinese words segmentation and part-of-word tagging. In the words segmentation stage, the top N segmentation results are confirmed as the candidate. The final result among these candidates is gotten after unknown words recognition and part-ofword tagging. A Chinese lexical analyzer is developed. This model with different size of training set is tested. The lexical analyzer＇s accuracy of words segmentation and part-of-word is 9834% and 96.07%. This proves the effectiveness of the method.

作者刘遥峰王志良王传经

机构地区北京科技大学信息工程学院

出处《计算机工程》 CAS CSCD 北大核心 2010年第4期17-19,共3页 Computer Engineering

基金国家"863"计划基金资助项目"智能感知与先进计算技术"(2007AA01Z160) 北京市自然科学基金资助重点项目"基于情绪认知模型的个性化数字教育关键技术研究"(KZ200810028016)

关键词分词词性标注最短路径 words segmentation part-of-word tagging shortest path

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1张华平,刘群.基于N-最短路径方法的中文词语粗分模型[J].中文信息学报,2002,16(5):1-7. 被引量：99
2Mannmg C D,Schutze H.统计自然语言处理基础[M].苑春法,李庆中,王昀,等,译.北京:电子工业出版社,2005.
3梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
4张素智,刘放美.基于矩阵约束法的中文分词研究[J].计算机工程,2007,33(15):98-100. 被引量：11

二级参考文献14

1余战秋.中文分词技术及其应用初探[J].电脑知识与技术（认证考试）,2004(11M):81-83. 被引量：11
2张茂元,卢正鼎,邹春燕.一种基于语境的中文分词方法研究[J].小型微型计算机系统,2005,26(1):129-133. 被引量：8
3周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
4佘莉,符红光,方海光.几何命题处理中的中文分词技术[J].计算机工程,2005,31(18):180-182. 被引量：4
5曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
6Roth D, Zelenko D. Part of Speech Tagging Using a Network of Linear Separators. Coling-ACL, 1998: 1136- 1142
7Sun Jian, Wang Wei, Zhong Yixin. Grammatical Category Disambiguation Based on Second Order Hidden Markov Model.Systems, Man, and Cybernetics, 2001 IEEE International Conference on, 2001, (10): 887-891
8付国宏王晓龙.[D].哈尔滨:哈尔滨工业大学计算机科学与技术学院,2001.
9白拴虎夏莹黄昌宁.汉语语料库词性标注方法研究[J].机器翻译研究进展,1992,:408-418.
10Thede S M, Harper. M P. A Second-order Hidden Markov Model for Part-of-speech Tagging. The 37th Annual Meeting of the Association for Computation Linguistics (ACL-99) College Park MD, USA,1999-06

共引文献131

1战疆,冯月利,王珊.PostgreSQL中文全文索引技术研究与实现[J].华中科技大学学报（自然科学版）,2005,33(z1):213-216. 被引量：3
2方浩,许鸿文,蔡益宇.一种基于语义关系改进的隐马尔可夫模型研究[J].通信技术,2008,41(5):157-159. 被引量：3
3隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
4张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
5王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
6刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
7李文翔,晏蒲柳,夏德麟,张滨.基于差异相似矩阵算法的词语用法知识发现[J].计算机应用与软件,2005,22(1):90-92.
8刘新斌,李俊.一种基于N-gram组合的中文垃圾邮件过滤方法[J].微电子学与计算机,2004,21(12):85-91. 被引量：5
9黄建中,王肖雷.Katz平滑算法在中文分词系统中的应用[J].计算机工程,2004,30(B12):371-372. 被引量：5
10夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24

同被引文献84

1戴祖旭,洪帆.基于词性标记文法的文本信息隐藏算法[J].四川大学学报（工程科学版）,2007,39(S1):97-101. 被引量：2
2王辉,陈凌,张丽娟.信息推拉技术[J].情报科学,2004,22(12):1440-1443. 被引量：17
3刘玉玲,孙星明.通过改变文字大小在Word文档中加载数字水印的设计与实现[J].计算机工程与应用,2005,41(12):110-112. 被引量：21
4梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
5赵岩,王晓龙,刘秉权,关毅.融合聚类触发对特征的最大熵词性标注模型[J].计算机研究与发展,2006,43(2):268-274. 被引量：20
6马金娜,田大钢.基于SVM的中文文本自动分类研究[J].计算机与现代化,2006(8):5-8. 被引量：8
7王思力,张华平,王斌.双数组Trie树算法优化及其应用研究[J].中文信息学报,2006,20(5):24-30. 被引量：29
8盛承光,陈传生.信息隐藏技术及其发展研究[J].计算机与数字工程,2006,34(10):87-90. 被引量：6
9黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：246
10戴祖旭,洪帆.基于词性标记序列逆序数的文本信息隐藏算法[J].计算机工程与应用,2007,43(14):160-161. 被引量：4

引证文献11

1乐娟.基于Trie树的京剧术语语义词典[J].计算机工程,2011,37(S1):30-32. 被引量：3
2冯筠,李刚,孙霞,冯宏伟.一种面向教学的知识点库自动生成方法[J].计算机工程,2012,38(2):201-203. 被引量：2
3陈帅明.胸部闭合性创伤128例X线诊断[J].中外医用放射技术,2000(3):97-98.
4袁里驰.基于改进的隐马尔科夫模型的词性标注方法[J].中南大学学报（自然科学版）,2012,43(8):3053-3057. 被引量：14
5付敏,戴祖旭.基于SPSS统计分析的文本特征值提取算法[J].计算机与数字工程,2014,42(2):220-222. 被引量：2
6华却才让,刘群,赵海兴.判别式藏语文本词性标注研究[J].中文信息学报,2014,28(2):56-60. 被引量：9
7陈硕,赵栋材,周欢欢.基于匹配算法的藏文自动分词[J].电子技术与软件工程,2016(1):169-170. 被引量：2
8曾宪荣.利用精准推送平台促进期刊论文有效传播[J].上海工程技术大学学报,2017,31(2):126-130. 被引量：13
9单国栋,肖彦翠,王皓.基于主题模型的中外期刊文献挖掘对比研究[J].长春大学学报,2019,29(6):23-29. 被引量：1
10景栋盛,薛劲松,冯仁君.基于深度Q网络的垃圾邮件文本分类方法[J].计算机与现代化,2020,0(6):89-94. 被引量：1

二级引证文献47

1郑泉.媒体融合时代提升科技期刊精准传播能力的对策与思考[J].编辑学报,2020(2):188-190. 被引量：16
2白娅娜,张晓宁,刘旸.科技论文精准推送服务模式探索[J].编辑学报,2020,0(1):56-59. 被引量：16
3王杨,李琳.基于读者体验的科技类期刊精准推送质量评价与控制[J].编辑学报,2019,31(S02):130-132. 被引量：8
4刘红梅.基于知识本体的智能答疑系统知识库——以“大学计算机基础”课程为例[J].计算机教育,2012(22):107-110. 被引量：1
5聂金慧,苏红旗,时志远.中文新词提取与过滤研究综述[J].中国科技博览,2013(30):209-210. 被引量：1
6石翠.基于条件随机场的动词细分类研究[J].智能计算机与应用,2014,4(1):83-84.
7董跃华,邓文龙.基于BP-HMM的词性标注方法的研究[J].计算机工程与设计,2014,35(4):1424-1428. 被引量：1
8黄建宇,何剑平,胡菊霞,白小玲.多课程网站不同课程间知识点关联自动生成方法研究[J].职大学报,2014(6):75-78.
9梁喜涛,顾磊.中文分词与词性标注研究[J].计算机技术与发展,2015,25(2):175-180. 被引量：48
10王国龙,杜建强,郝竹林,程春雷,蔡良俊,张鑫.中医诊断古文的词性标注与特征重组[J].计算机工程与设计,2015,36(3):835-840. 被引量：11

1佟晓筠,宋国龙,刘强,张俐,姜伟.中文分词及词性标注一体化模型研究[J].计算机科学,2007,34(9):174-175. 被引量：10
2陈顺强,马嘿玛伙.基于隐马尔科夫模型的彝文分词系统设计与开发[J].西南民族大学学报（自然科学版）,2012,38(1):146-149. 被引量：6
3于洪志,李亚超,汪昆,冷本扎西.融合音节特征的最大熵藏文词性标注研究[J].中文信息学报,2013,27(5):160-165. 被引量：15
4姜维,王晓龙,关毅,徐志明.应用粗糙集理论提取特征的词性标注模型[J].高技术通讯,2006,16(10):996-1000. 被引量：3
5羊毛卓玛.藏文词性自动标注中歧义问题处理方法研究[J].计算机工程与应用,2013,49(24):135-137. 被引量：1
6刘健,郑家恒.基于实例的词性标注方法研究[J].山西气象,2001(2):45-48.
7羊毛卓么,扎西加.藏文词性自动标注方法的比较[J].信息通信,2013,26(2):270-271.
8张贯虹,斯.劳格劳,乌达巴拉.融合形态特征的最大熵蒙古文词性标注模型[J].计算机研究与发展,2011,48(12):2385-2390. 被引量：10
9桑海岩,古丽拉.阿东别克,牛宁宁.基于最大熵的哈萨克语词性标注模型[J].计算机工程与应用,2013,49(11):126-129. 被引量：4
10才华.隐马尔科夫模型在词性标注中的应用[J].西藏大学学报（社会科学版）,2012,27(5):77-81.

计算机工程

2010年第4期

浏览历史

内容加载中请稍等...

中文分词和词性标注模型被引量：11

参考文献4

二级参考文献14

共引文献131

同被引文献84

引证文献11

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

中文分词和词性标注模型 被引量：11

参考文献4

二级参考文献14

共引文献131

同被引文献84

引证文献11

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

中文分词和词性标注模型被引量：11