一种规则与统计相结合的汉语分词方法被引量：35

A Method Combining Rule-based and Statistics-based Approaches for Chinese Word Segmentation

下载PDF

导出

摘要汉语自动分词是中文信息处理领域的一项基础性课题,对现有的汉语分词方法作了简单的概述和分析,然后提出了一种新的分词方法,该方法基于一个标注好了的语料库,并且结合了规则和语料库统计两种分词方法。 Chinese automatic word segmentation is a basic task in the area of Chinese NLP.After summarizing and analyzing current techniques used in Chinese word segmentation,this paper presents a new method for word segmentation which is based on a marked corpus base.The method combines rule-based and corpus-based statistical methods.

作者赵伟戴新宇尹存燕陈家骏

机构地区南京大学计算机科学与技术系软件新技术国家重点实验室

出处《计算机应用研究》 CSCD 北大核心 2004年第3期23-25,共3页 Application Research of Computers

基金国家"863"基金资助项目(2001AA114102)

关键词中文信息处理分词语料库交集型歧义 Chinese NLP Word Segmentation Corpus Crossing Ambiguities

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1沈达阳,孙茂松,黄昌宁.汉语分词系统中的信息集成和最佳路径搜索方法[J].中文信息学报,1997,11(2):34-47. 被引量：13
2孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
3姚天顺,张桂平,吴映明.基于规则的汉语自动分词系统[J].中文信息学报,1990,4(1):37-43. 被引量：43
4王伟,钟义信,孙建,杨力.一种基于EM非监督训练的自组织分词歧义解决方案[J].中文信息学报,2001,15(2):38-44. 被引量：14
5黄德根,朱和合,王昆仑,杨元生,钟万勰.基于最长次长匹配的汉语自动分词[J].大连理工大学学报,1999,39(6):831-835. 被引量：14
6李蓉,刘少辉,叶世伟,史忠植.基于SVM和k-NN结合的汉语交集型歧义切分方法[J].中文信息学报,2001,15(6):13-18. 被引量：19
7王锡江,王启祥,陈家骏.基于邻接知识的汉语自动分词系统[J].计算机研究与发展,1992,29(11):54-58. 被引量：4

二级参考文献34

1孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
2马晏.基于评价的汉语自动分词系统的研究与实现[J].语言信息专论,1996,:2-36.
3郭祥昊.语言信息处理理论及自动文摘关键技术研究[M].北京:北京邮电大学,1998..
4张潮生，中文信息处理国际会议论文集，1987年
5梁南元，中文信息，1986年，1期
6姚天顺，计算机的汉字信息处理，1985年
7管纪文，中文信息处理国际研讨论文集，1983年
8何克杭，中文信息学报，1991年，2期，1页
9朱美英，中文信息学报，1991年，2期，50页
10揭雨春，中文信息学报，1989年，1期，1页

共引文献135

1苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
2刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
3付艳梅.智能答疑系统的中文分词[J].湖北工业大学学报,2009,24(1):65-67. 被引量：4
4肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
5许桢.基于语义网的文本分类系统设计与实现[J].硅谷,2009,2(18).
6王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
7陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
8曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
9张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
10孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37

同被引文献211

1曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
2姚双云.小句中枢理论的应用与复句信息工程[J].汉语学报,2005(4):71-79. 被引量：17
3陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
4张珊,于留宝,胡长军.基于表情图片与情感词的中文微博情感分析[J].计算机科学,2012,39(S3):146-148. 被引量：55
5曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
6文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
7张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
8刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
9孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
10李国栋,李卫.基于文本分类技术的垃圾邮件识别系统[J].微电子学与计算机,2004,21(6):145-146. 被引量：9

引证文献35

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2金华兴,戴新宇,陈家骏.可扩展统计分词系统的构造[J].计算机工程与应用,2005,41(23):176-178.
3熊回香.全文检索中的汉语自动分词及其歧义处理[J].中国图书馆学报,2005,31(5):54-57. 被引量：6
4谈文蓉,杨宪泽,刘莉.汉语自动排歧方法研究[J].西南民族大学学报（自然科学版）,2005,31(6):971-976. 被引量：1
5许春漫.数字图书馆个性化信息检索模型研究[J].现代图书情报技术,2006(3):15-19. 被引量：5
6肖红,许少华,李欣.具有三级索引词库结构的中文分词方法研究[J].计算机应用研究,2006,23(8):49-51. 被引量：16
7张辉丽,孟昭鹏,王慧芝.汉语自动分词中的歧义处理[J].微计算机应用,2006,27(6):685-688. 被引量：3
8徐爱萍,边馥苓,曹杰.Web GIS中文查询语句的词义理解算法研究[J].武汉大学学报（信息科学版）,2006,31(12):1101-1104.
9龚伟,李柳柏.基于IDSS的中文垃圾邮件过滤模型设计[J].计算机技术与发展,2007,17(3):163-165. 被引量：1
10杜超华,胡金柱,沈威,姚双云.基于复句语料库分词系统研究[J].计算机与数字工程,2007,35(5):43-44. 被引量：6

二级引证文献214

1陈武,张海波.社交网络中灾害信息传播的“脱嵌”现象初探——以2021年南通风灾为例[J].风险灾害危机研究,2023(1):27-63.
2周丰,殷丽丽,沈琼,杨怀光.基于word2vec的瓶装水线上评论智能分析[J].包装工程,2022,43(S01):48-55. 被引量：1
3叶施仁,严水歌,杨长春.新浪微博搜索排序方法研究[J].常州大学学报（自然科学版）,2013,25(3):71-75.
4曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
5丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
6翁宏伟.中文信息处理中歧义及歧义自动识别方法的比较[J].现代语文（下旬．语言研究）,2006(12):93-94. 被引量：2
7熊回香,夏立新.基于词索引的中文全文检索关键技术及其发展方向[J].中国图书馆学报,2007,33(4):45-49. 被引量：6
8虞莹.谈高校图书馆期刊信息资源开发利用的主要途径[J].河北科技图苑,2007,20(6):82-83. 被引量：1
9徐殿军,崔宝华.PHP+MYSQL环境下的中文分词技术研究[J].辽宁师范大学学报（自然科学版）,2008,31(1):57-59. 被引量：1
10熊回香,夏立新.汉语分词技术综述[J].图书情报工作,2008,52(4):81-84. 被引量：9

1石翠.依存句法分析研究综述[J].智能计算机与应用,2013,3(6):47-49. 被引量：6
2黄德根,张丽静,张艳丽,杨元生.规则与统计相结合的兼类词处理机制[J].小型微型计算机系统,2003,24(7):1252-1255. 被引量：6
3张文静,梁颖红.术语抽取技术研究[J].信息技术,2008,32(3):6-9. 被引量：10
4崔梦娇,李红莲,吕学强,周建设.基于高校网站内容的实体抽取研究[J].北京信息科技大学学报（自然科学版）,2016,31(5):92-96. 被引量：1
5刘划.基于最优邻接锚点消歧的词对齐方法[J].沈阳航空工业学院学报,2009,26(1):53-55. 被引量：2
6刘健,郑家恒.基于实例的词性标注方法研究[J].山西气象,2001(2):45-48.
7董玉集.CAD中若干接口问题的研究[J].计算机辅助设计与制造,2002(1):74-77. 被引量：5
8张静杰,昝红英.副词“都”用法自动识别研究[J].北京大学学报（自然科学版）,2013,49(1):165-169. 被引量：1
9张辰,冯冲,刘全超,师超,黄河燕,周海云.基于多特征融合的中文比较句识别算法[J].中文信息学报,2013,27(6):110-116. 被引量：10
10龚伟,瞿堃,李柳柏.智能决策支持的E-mail过滤模型[J].计算机工程与设计,2008,29(4):852-854.

计算机应用研究

2004年第3期

浏览历史

内容加载中请稍等...

一种规则与统计相结合的汉语分词方法被引量：35

参考文献7

二级参考文献34

共引文献135

同被引文献211

引证文献35

二级引证文献214

相关作者

相关机构

相关主题

浏览历史

一种规则与统计相结合的汉语分词方法 被引量：35

参考文献7

二级参考文献34

共引文献135

同被引文献211

引证文献35

二级引证文献214

相关作者

相关机构

相关主题

浏览历史

一种规则与统计相结合的汉语分词方法被引量：35