基于两字词簇的汉语快速自动分词算法被引量：18

A Fast Algorithm for Chinese Words Automatic Segment Based on Two letters word family Structure

下载PDF

导出

摘要本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占７５％的统计规律，提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理，也就是把长词的扫描范围限定在词汇量很小的词簇内，从而不仅提高了分词速度，而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外，本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快。 A fast algorithm for Chinese words automatic segment is put forward in this paper.A structure called “two letters word family”which is the collection of all the Chinese words that share the same beginning two letters is introduced.The key idea of the algorithm is to compress the words which consist of more than three Chinese letters into two letters word family and handle together using length changing maximum matching algorithm.In addition to this,a new method to detect segmenting ambiguousness is also introduced.

作者郭祥昊钟义信杨丽

机构地区北京邮电大学人工智能实验室北方交通大学

出处《情报学报》 CSSCI 北大核心 1998年第5期352-357,共6页 Journal of the China Society for Scientific and Technical Information

关键词自然语言处理汉语分词算法自分分词两字词族 natural language processing,Chinese words automatic segmenting,segmenting ambiguousness.

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1苏新宁.汉语词切分标引算法的改进[J].情报学报,1996,15(6):426-430. 被引量：9
2骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
3张民,李生,王海峰,赵铁军,王铁志.基于知识评价的快速汉语自动分词系统[J].情报学报,1996,15(2):95-105. 被引量：4
4姚天顺,张桂平,吴映明.基于规则的汉语自动分词系统[J].中文信息学报,1990,4(1):37-43. 被引量：43
5王晓龙,王开铸,李仲荣,白小华.最少分词问题及其解法[J].科学通报,1989,34(13):1030-1032. 被引量：25

二级参考文献33

1吴蔚天,田鹤卿,丁美珍,胡荣安,霍伯牛.一个汉字科技文献自动标引与检索的实用系统[J].现代图书情报技术,1987(4):30-35. 被引量：2
2徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
3张民,李生,赵铁军,周明,邱祥辉,毛成江.CEMT－Ⅲ汉英机器翻译系统的研究[J].情报学报,1994,13(1):50-63. 被引量：2
4苏新宁.中文单字标引算法的改进设想[J].现代图书情报技术,1989(1):14-16. 被引量：6
5梁南元，中文信息学报，1987年，2卷，2期，45页
6刘源，中文信息学报，1986年，1卷，1期，20页
7关英春，计算机研究与发展，1985年，22卷，12期，5页
8管纪文，中文信息处理国际会议论文集.2，1983年
9张潮生，中文信息处理国际会议论文集，1987年
10梁南元，中文信息，1986年，1期

共引文献95

1苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
2刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
3付艳梅.智能答疑系统的中文分词[J].湖北工业大学学报,2009,24(1):65-67. 被引量：4
4郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6李淑文.试论文本自动分类[J].现代计算机,2004,10(7):38-41. 被引量：2
7温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
8杨春花,万建成,姜合.一个并行分词体系结构模型[J].计算机工程与应用,2004,40(33):89-91.
9亢临生,张永奎.利用分词属性解决歧义切分[J].电脑开发与应用,1994,7(4):2-5. 被引量：4
10亢临生,张永奎.基于标记的分词算法[J].山西大学学报（自然科学版）,1994,17(3):283-286. 被引量：4

同被引文献108

1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
2孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
3曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
4文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
7黄祥喜.书面汉语自动分词的现状和问题[J].情报学报,1989,8(2):125-133. 被引量：11
8张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
9徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
10王玮,刘丹.汉语文献自动分词存在的问题及趋向[J].情报理论与实践,1994,17(6):28-30. 被引量：6

引证文献18

1金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,30(16):146-148. 被引量：8
2温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
3于源,衣袭.中文全切分快速分词方法[J].大连铁道学院学报,2005,26(2):84-85. 被引量：4
4朱巧明,温滔,李培蜂,钱培德.一种基于多元信息库的自适应汉语歧义切分方法[J].小型微型计算机系统,2006,27(8):1597-1600. 被引量：1
5程传鹏.一种简单高效的中文分词方法[J].郑州轻工业学院学报（自然科学版）,2006,21(3):88-90.
6胡麒,何华灿.中文词表检索技术研究[J].微计算机信息,2007,23(33):212-214. 被引量：2
7张启宇,朱玲,张雅萍.中文分词算法研究综述[J].情报探索,2008(11):53-56. 被引量：35
8杨建林.全文检索研究[J].情报理论与实践,2000,23(1):12-13. 被引量：13
9陈桂林,王永成,韩客松,王刚.一种高效的中文电子词表数据结构[J].计算机研究与发展,2000,37(1):109-116. 被引量：26
10邹嵩,赵诗阳,周新志.垂直搜索引擎中分词技术的算法研究[J].计算机技术与发展,2012,22(2):131-133. 被引量：3

二级引证文献228

1丁美荣,冯伟森,黄荣翔,罗嘉俊.基于预训练模型和基础词典扩展的酒店评论情感分析[J].计算机系统应用,2022,31(11):296-308. 被引量：5
2曾志伟,刁明光,王欣鹏,何炳辉.基于口罩评论数据的用户情感趋势与关注分析[J].计算机系统应用,2020,29(12):263-267.
3孙宝刚,肖灵.计算机与数据库技术在舰船建造过程的节本与工时分析应用[J].舰船科学技术,2019,0(20):217-219. 被引量：2
4周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
5刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
6滕伟,王永成.智能代理技术在新一代搜索引擎中的应用[J].计算机工程,2000,26(S1):709-715. 被引量：2
7谢新吾.黄跃佳:北大失业生的三次跳跃[J].职业圈,2005(11):30-31.
8任成义.基于网页的知识元挖掘[J].图书情报工作,2010,54(S1):278-281.
9陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
10邵晓良,刘红.Web信息采集中军事主题信息的识别[J].情报杂志,2004,23(7):14-16. 被引量：2

1郑耿忠.自动分词算法在智能答疑系统中的应用研究[J].计算机工程与设计,2007,28(9):2224-2226. 被引量：4
2黄莉.词法分析在自然语言处理中的地位和作用[J].价值工程,2010,29(10):157-157. 被引量：2
3傅立云,刘新.基于词典的汉语自动分词算法的改进[J].情报杂志,2006,25(1):40-41. 被引量：10
4张贤,周娅.多次Hash自动分词算法[J].微计算机信息,2009,25(24):214-216.
5蒋微.中文搜索引擎的自动分词算法[J].电脑开发与应用,2002,15(6):26-27. 被引量：2
6何国斌,赵晶璐.汉语文本自动分词算法的研究[J].计算机工程与应用,2010,46(3):125-127. 被引量：12
7付海辰.基于二字词检测位图表的MM自动分词算法[J].信息与电脑（理论版）,2011(3):97-97.
8李静莹,史妮君.“斜杠X”式流行语的认知语言学解释[J].内江科技,2016,37(11):80-81.
9李静莹,马亚丽,史妮君.从认知语言学看“x大妈”式流行语[J].内江科技,2015,36(11):109-110. 被引量：1
10孟德宏.Albatross与“鹤”——说说汉英词汇中的“白”义词族[J].英语沙龙（原版阅读）,2015(5):62-63.

情报学报

1998年第5期

浏览历史

内容加载中请稍等...

基于两字词簇的汉语快速自动分词算法被引量：18

参考文献5

二级参考文献33

共引文献95

同被引文献108

引证文献18

二级引证文献228

相关作者

相关机构

相关主题

浏览历史

基于两字词簇的汉语快速自动分词算法 被引量：18

参考文献5

二级参考文献33

共引文献95

同被引文献108

引证文献18

二级引证文献228

相关作者

相关机构

相关主题

浏览历史

基于两字词簇的汉语快速自动分词算法被引量：18