一种改进的快速分词算法被引量：56

AN IMPROVED FAST ALGORITHM FOR CHINESE WORD SEGMENTATION

下载PDF

导出

摘要首先介绍了一种高效的中文电子词表数据结构 ,它支持首字 Hash和标准的二分查找 ,且不限词条长度 ;然后提出了一种改进的快速分词算法 ,在快速查找两字词的基础上 ,利用近邻匹配方法来查找多字词 ,明显提高了分词效率 .理论分析表明 ,该分词算法的时间复杂度为 1.6 6 ,在速度方面。 In this paper, a highly efficient data structure for Chinese thesaurus is introduced, which supports standard binary search and hashing operation by means of the first Chinese character in a string, while the length of every word is not limited. Then an improved fast algorithm for Chinese word segmentation is suggested. Based on searching a word composed of two characters quickly, the word including multiple Chinese characters can be found by utilizing the algorithm, which achieves high performance in Chinese word segmentation by invoking neighborhood matching. In theory, its time complexity is 1.66, which is superior to that of other algorithms for Chinese word segmentation.

作者陈桂林王永成韩客松王刚

机构地区上海交通大学网络信息中心

出处《计算机研究与发展》 EI CSCD 北大核心 2000年第4期418-424,共7页 Journal of Computer Research and Development

基金国家"八六三"高技术研究发展计划基金资助!(项目编号 863 -ZD0 3 -0 4-1)

关键词分词中文信息处理算法中文电子词表计算机 word segmentation, hash, binary search, neighborhood matching, time complexity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
2孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
3徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
4陈桂林,王永成,韩客松,王刚.一种高效的中文电子词表数据结构[J].计算机研究与发展,2000,37(1):109-116. 被引量：26
5黄祥喜.书面汉语自动分词的“生成——测试”方法[J].中文信息学报,1989,3(4):42-49. 被引量：11
6张俊盛,陈舜德,郑萦,刘显仲,柯淑津.多语料库作法之中文姓名辨识[J].中文信息学报,1992,6(3):7-15. 被引量：14
7郭祥昊,钟义信,杨丽.基于两字词簇的汉语快速自动分词算法[J].情报学报,1998,17(5):352-357. 被引量：18
8揭春雨,刘源,梁南元.论汉语自动分词方法[J].中文信息学报,1989,3(1):1-9. 被引量：55
9姚天顺,张桂平,吴映明.基于规则的汉语自动分词系统[J].中文信息学报,1990,4(1):37-43. 被引量：43
10吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49

二级参考文献68

1骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
2张民,李生,王海峰,赵铁军,王铁志.基于知识评价的快速汉语自动分词系统[J].情报学报,1996,15(2):95-105. 被引量：4
3苏新宁.汉语词切分标引算法的改进[J].情报学报,1996,15(6):426-430. 被引量：9
4张潮生，中文信息处理国际会议论文集，1987年
5梁南元，中文信息，1986年，1期
6姚天顺，计算机的汉字信息处理，1985年
7管纪文，中文信息处理国际研讨论文集，1983年
8Chang J S，1992年
9Chang J S，1991年
10Wang L J，1991年

共引文献242

1苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
2曲维光.汉语自动分词的方法选择[J].计算机科学,2002,29(z1):54-56. 被引量：2
3刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
4付艳梅.智能答疑系统的中文分词[J].湖北工业大学学报,2009,24(1):65-67. 被引量：4
5滕伟,王永成.智能代理技术在新一代搜索引擎中的应用[J].计算机工程,2000,26(S1):709-715. 被引量：2
6王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
7肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
8许桢.基于语义网的文本分类系统设计与实现[J].硅谷,2009,2(18).
9陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
10施建军.用计算机对日语进行研究的基础——浅谈机器单词辞典和单词的自动切分[J].解放军外国语学院学报,1991,14(3):25-28.

同被引文献267

1张锦,李光,曹伍,胡瑞芬.基于主成分分析的自动文本分类模型[J].北京邮电大学学报,2006,29(z2):136-138. 被引量：3
2胡俊华,杨波,李金屏.自然语言理解研究略述[J].济南大学学报（社会科学版）,2001,11(5):58-62. 被引量：8
3卜卫.试论内容分析方法[J].国际新闻界,1997,19(4):56-60. 被引量：89
4商务印书馆今年计划出版的哲学译著[J].哲学研究,1959(2):47-47. 被引量：285
5林春实,方燕,全吉成.汉语文献自动分词与标引技术发展浅析[J].情报学报,1997,16(S1):37-40. 被引量：8
6黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
7白锡嘉.机器翻译与自然语言的理解[J].中国科技翻译,1996,9(2):31-34. 被引量：7
8孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
9曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
10文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20

引证文献56

1文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
2温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
3吴启德,吕强.一个比较不同中文分词法的软件[J].苏州大学学报（工科版）,2004,24(6):29-33.
4吴建胜,战学刚,迟呈英.一种基于自动机的分词方法[J].计算机工程与应用,2005,41(8):81-82. 被引量：8
5张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：14
6邱均平,文庭孝,周黎明.汉语自动分词与内容分析法研究[J].情报学报,2005,24(3):309-317. 被引量：11
7王坚,赵恒永.专业搜索引擎中文分词算法的实现与研究[J].福建电脑,2005,21(7):55-55. 被引量：3
8杨芳,杨振山.一种消除中文匹配中交集型歧义的方法[J].计算机辅助工程,2005,14(2):36-38. 被引量：2
9王坚,赵恒永.专业搜索引擎的实现与研究——中文分词算法[J].电子科学技术评论,2005(3):77-79. 被引量：4
10刘晓英.汉语自动分词研究的发展趋势[J].高校图书馆工作,2005,25(4):25-28. 被引量：4

二级引证文献451

1丁美荣,冯伟森,黄荣翔,罗嘉俊.基于预训练模型和基础词典扩展的酒店评论情感分析[J].计算机系统应用,2022,31(11):296-308. 被引量：3
2曾志伟,刁明光,王欣鹏,何炳辉.基于口罩评论数据的用户情感趋势与关注分析[J].计算机系统应用,2020,29(12):263-267.
3唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：41
4杨一帆,陈文亮.旅游场景下的实体别名抽取联合模型[J].中文信息学报,2020(6):55-63. 被引量：3
5吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：8
6游家兴,张哲远.文以载道——文本分析研究评述与展望[J].当代会计评论,2022(2):32-59.
7于再富,袁满.融合BabelNet的多语言智能信息检索模型[J].吉林大学学报（信息科学版）,2020,38(1):99-106. 被引量：7
8卢义峰,张功员.医学文献汉语自动分词技术—单汉字切分[J].预防医学情报杂志,2006,22(5):575-576.
9周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
10苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5

1陈桂林,王永成,韩客松,王刚.一种高效的中文电子词表数据结构[J].计算机研究与发展,2000,37(1):109-116. 被引量：26
2李振星,徐泽平,唐卫清,唐荣锡.全二分最大匹配快速分词算法[J].计算机工程与应用,2002,38(11):106-109. 被引量：39
3李向阳,张亚非.一种Hash高速分词算法[J].解放军理工大学学报（自然科学版）,2004,5(2):40-44. 被引量：12
4张科.多次Hash快速分词算法[J].计算机工程与设计,2007,28(7):1716-1718. 被引量：22
5马志强,苏依拉.基于次优查找树的词典机制研究[J].内蒙古工业大学学报（自然科学版）,2010,29(4):274-278.
6吴晓倩,胡学钢.基于N-最短路径的中文分词技术研究[J].安徽理工大学学报（自然科学版）,2014,34(1):72-75. 被引量：5
7杨安生.二次Hash^+二分最大匹配快速分词算法[J].情报探索,2009(8):90-92. 被引量：1
8姚兴山.基于哈希算法的中文分词算法的改进[J].图书情报工作,2008,52(6):60-62. 被引量：6
9杨进才,陈忠忠,谢芳,胡金柱.基于汉语拼音首字母索引的混合分词算法[J].计算机系统应用,2016,25(4):221-225. 被引量：1
10温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19

计算机研究与发展

2000年第4期

浏览历史

内容加载中请稍等...

一种改进的快速分词算法被引量：56

参考文献10

二级参考文献68

共引文献242

同被引文献267

引证文献56

二级引证文献451

相关作者

相关机构

相关主题

浏览历史

一种改进的快速分词算法 被引量：56

参考文献10

二级参考文献68

共引文献242

同被引文献267

引证文献56

二级引证文献451

相关作者

相关机构

相关主题

浏览历史

一种改进的快速分词算法被引量：56