使用二级索引的中文分词词典被引量：10

Chinese word segmentation dictionary using two-level index

下载PDF

导出

摘要中文分词是中文信息处理的基础,在诸如搜索引擎,自动翻译等多个领域都有着非常重要的地位。中文分词词典是中文机械式分词算法的基础,它将告诉算法什么是词,由于在算法执行过程中需要反复利用分词词典的内容进行字符串匹配,所以中文分词词典的存储结构从很大程度上决定将采用什么匹配算法以及匹配算法的好坏。在研究现存分词词典及匹配算法的基础上,吸取前人的经验经过改进,为词典加上了多级索引,并由此提出了一种新的中文分词词典存储机制——基于二级索引的中文分词词典,并在该词典的基础上提出了基于正向匹配的改进型匹配算法,大大降低了匹配过程的时间复杂度。从而提高了整个中文分词算法的分词速度。 As the basis of Chinese information processing,Chinese word segmentation plays a very important role in the fields of searching engine,automatic and so on.Chinese word dictionary is the basis of mechanic segmentation algorithm,it tells the algorithm what is a Chinese word.Because the algorithm needs the content of dictionary in order to match the string in the text,the storage structure of the dictionary will decide the method of the algorithm and its performance.Through making research into the existed theory and refinement,this paper adds multi-level index for the dictionary,and based on this formulates a new mechanism of Chinese word segmentation dictionary-dictionary based on two-level index.On the basis of this new theory,this paper also improves the positive matching method,reduces the complexity of matching process,moreover,elevates the speed of the segmentation.

作者张庆扬柴胜

机构地区吉林大学计算机科学与技术系

出处《计算机工程与应用》 CSCD 北大核心 2009年第19期139-141,共3页 Computer Engineering and Applications

关键词中文分词二级索引正向最大匹配 Chinese word segmentation two-level index positive maximum matching

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Sproat R,Gale W,Shih C.A stochastic finite-state word-segmentation algorithm for Chinese[J].Computational Linguistics, 1996,22(3 ) : 377-404.
2李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：108
3翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42
4李振星,徐泽平,唐卫清,唐荣锡.全二分最大匹配快速分词算法[J].计算机工程与应用,2002,38(11):106-109. 被引量：39
5张科.多次Hash快速分词算法[J].计算机工程与设计,2007,28(7):1716-1718. 被引量：22
6肖红,许少华,李欣.具有三级索引词库结构的中文分词方法研究[J].计算机应用研究,2006,23(8):49-51. 被引量：16
7陈桂林,王永成,韩客松,王刚.一种改进的快速分词算法[J].计算机研究与发展,2000,37(4):418-424. 被引量：56
8Teahan W J,Mcnab R,Wen Ying-ying,et al.A compression-based algorithm for Chinese word segmentation[J].Computational Linguistics, 2000,26(3 ) : 375 -393.

二级参考文献35

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
3徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
4文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
5骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
6吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
7孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
8张国煊.快速书面自动分词系统及其算法设计[J].计算机研究与发展,1993,1.
9夏征农.辞海缩印本[M].上海辞书出版社,1989..
10刘源.信息处理用现代汉词分词规范及自动分词方法[M].清华大学出版社,1992..

共引文献228

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
3李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
4范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
5刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
6叶施仁,严水歌,杨长春.新浪微博搜索排序方法研究[J].常州大学学报（自然科学版）,2013,25(3):71-75.
7文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
8温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
9吴启德,吕强.一个比较不同中文分词法的软件[J].苏州大学学报（工科版）,2004,24(6):29-33.
10张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60

同被引文献64

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
3王磊.索引在查询优化中的作用[J].长春理工大学学报（高教版）,2009(2):178-179. 被引量：1
4郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(4):94-96. 被引量：68
5曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
6罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128. 被引量：19
7谈文蓉,杨宪泽,谈进,刘莉.MIS智能接口中汉语分词系统的设计与应用[J].计算机科学,2006,33(7):204-206. 被引量：5
8肖红,许少华,李欣.具有三级索引词库结构的中文分词方法研究[J].计算机应用研究,2006,23(8):49-51. 被引量：16
9翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42
10张培颖,李村合.一种中文分词词典新机制——四字哈希机制[J].微型电脑应用,2006,22(10):35-36. 被引量：16

引证文献10

1于绍娜,李霞丽,胥桂仙,杨智君.数据库索引研究[J].电子测试,2010,21(2):84-87. 被引量：2
2孙殿哲,魏海平,陈岩.Nutch中庖丁解牛中文分词的实现与评测[J].计算机与现代化,2010(6):187-190. 被引量：10
3张彩琴,袁健.改进的正向最大匹配分词算法[J].计算机工程与设计,2010,31(11):2595-2597. 被引量：11
4梁桢,李禹生.基于Hash结构词典的逆向回溯中文分词技术研究[J].计算机工程与设计,2010,31(23):5158-5160. 被引量：5
5蒋才智,王浩.基于memcached的动态四字双向词典机制[J].计算机应用研究,2011,28(1):152-154. 被引量：1
6罗会红,傅明.改进的基于位图的中文分词词典[J].微计算机信息,2011,27(10):159-161.
7莫建文,郑阳,首照宇,张顺岚.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(5):1802-1807. 被引量：40
8刘勇,魏光泽.基于双字哈希结构的最大匹配算法机制改进[J].电子设计工程,2017,25(16):11-15. 被引量：6
9徐攀.知识库关键字获取技术的数学模型研究[J].科学与信息化,2023(8):83-85.
10Zhongmin Wang,Jingna Qi,Yan He.Design and Implementation of a New Chinese Word Segmentation Dictionary for the Personalized Mobile Search[J].Communications and Network,2013,5(1):81-85.

二级引证文献70

1霍志华,赵冬泉,孙莹莹,王浩昌,孙艳.污水处理厂绩效管理系统中的数据标准化管理模式研究[J].给水排水,2011,37(S1):448-451.
2崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
3丁洁.基于最佳粒度匹配的中文分词算法的研究[J].自动化与仪器仪表,2016(7):169-170. 被引量：1
4臧勤.雷达辐射源数据库的优化[J].雷达与对抗,2010,30(3):63-66. 被引量：3
5张聪品,赵理莉.统计模型中附加语言学规则的蒙古语词法分析[J].计算机工程与设计,2011,32(8):2861-2864.
6蒋建洪,赵嵩正,罗玫.词典与统计方法结合的中文分词模型研究及应用[J].计算机工程与设计,2012,33(1):387-391. 被引量：18
7胡阿明,王卫东.中文分词歧义识别算法的优化[J].现代电子技术,2012,35(8):107-109. 被引量：2
8郑阳,莫建文.基于专业术语提取的中文分词方法[J].大众科技,2012,14(4):20-23. 被引量：1
9许昊,王跃胜.基于Lucene的FTP搜索引擎的设计与实现[J].福建电脑,2012,28(7):133-135.
10王成平.计算机彝文自动分词技术的设计研究[J].湘潭大学自然科学学报,2012,34(3):107-113. 被引量：4

1朱德康.企业级图档管理信息化的基础[J].中国制造业信息化（应用版）,2006(11):64-65. 被引量：2
2雷琳.基于Java RMI的分布式数据库系统的应用与研究[J].信息技术与信息化,2015(3):247-248. 被引量：3
3邵明敏,张秦.信息反馈融合方法综述[J].飞航导弹,2017(1):55-58. 被引量：2
4陈新.基于Java RMI的分布式数据库系统开发与应用[J].软件导刊,2014,13(6):120-122. 被引量：2
5孙瑜,刘晓燕.基于VHDL的数字电压表设计及实现[J].实验科学与技术,2009,7(2):68-70.
6李哲学,陈树越.快速多阈值图像分割法[J].计算机应用,2010,30(5):1335-1337. 被引量：13
7石秀敏.工作流技术在藏品利用管理系统建设中的应用[J].信息化建设,2010(2):47-50.
8郭皎,鄢沛.基于文档图像的贝叶斯重建算法仿真研究[J].计算机仿真,2011,28(9):298-301.
9徐程杰.计算机科学与技术对经济发展的影响[J].信息与电脑（理论版）,2013,0(3):190-191. 被引量：1
10张东明.基于微信公众号的大学教学辅助平台建设[J].当代教育实践与教学研究（电子版）,2016,0(4):18-19. 被引量：1

计算机工程与应用

2009年第19期

浏览历史

内容加载中请稍等...

使用二级索引的中文分词词典被引量：10

参考文献8

二级参考文献35

共引文献228

同被引文献64

引证文献10

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

使用二级索引的中文分词词典 被引量：10

参考文献8

二级参考文献35

共引文献228

同被引文献64

引证文献10

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

使用二级索引的中文分词词典被引量：10