汉语分词索引字数与分词效率的对比研究

Contrast study on Chinese word segmentation efficiency with different index degree

下载PDF

导出

摘要针对汉语分词词典中双字哈希索引机制未能充分利用索引分词,而分词效率又明显优于首字哈希索引机制的问题,在充分分析汉语构词特点的基础上,提出了基于三字哈希索引的分词词典机制,并通过将字串的三态标记与下一索引指针的乘积作为哈希值的链地址法,简化了词典结构,节省了内存空间。理论分析和真实语料仿真均证明了三字哈希索引机制与不同字数的其他索引机制相比,具有更好的分词效率。 According to the Chinese dictionary word segmentation efficiency that based on the Double-Character-Hash-Index（DCHI） mechanism exceeds clearly based on the First-Character-Hash-Index（FCHI） mechanism,this paper lucubrates to the Chinese word-building characteristic and provides a new segmentation dictionary mechanism named Three-Character-Hash-Indexing（TCHI） mechanism,which exploits character coding index sufficiently.The results show that the TCHI dictionary mechanism can improve speed and achieve more efficiency than FCHI,DCHI and four;character-hash-index in Chinese dictionary word segmentation mechanism.

作者何利益郭罡郭建彬

机构地区中国科学技术大学电子工程与信息科学系中国人民解放军

出处《计算机工程与应用》 CSCD 北大核心 2008年第26期135-137,共3页 Computer Engineering and Applications

关键词计算机应用中文分词词典机制三字哈希索引 computer application Chinese word segmentation dictionary mechanism Three Character Hash Index（TCHI）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1马晏.基于评价的汉语自动分词系统的研究与实现[M]//语言处理专论.北京:清华大学出版社,1996.
2孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
3李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：108
4陈明.数据结构[M].北京:清华大学出版社,2005.

二级参考文献6

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996..
3Choi A, Cheng C H, Ko Y L. Word extraction from Chinese documents by occurrence counts [ A].1988 International Conference on Computer Processing of Chinese and Oriental Languages, Toronto,Canada: 488 - 491.
4Fan C K, Tsai W H. Automatic word identification in Chinese sentences by the relaxation technique[J]. Computer Processing of Chinese and Oriental Languages, 1988, 4(1):33-56.
5梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
6孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118

共引文献186

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：45
2段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
3李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
4范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
5马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
6崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
7张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
8邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6
9冯蜀茗,张小真,奚晓霞.支持CSCL中相关度监控的领域词典构建研究[J].西南师范大学学报（自然科学版）,2005,30(3):430-434. 被引量：1
10解析慧聪资讯有限公司的经营策略[J].人才资源开发,2005(8):39-40.

1彭焕峰,丁宋涛.一种基于全Hash的整词二分词典机制[J].计算机工程,2011,37(21):40-42. 被引量：2
2马志强,苏依拉.基于次优查找树的词典机制研究[J].内蒙古工业大学学报（自然科学版）,2010,29(4):274-278.
3吴晓倩,胡学钢.基于N-最短路径的中文分词技术研究[J].安徽理工大学学报（自然科学版）,2014,34(1):72-75. 被引量：5
4范士勇,肖胜刚,李博,安海宁.基于分词索引的全文检索技术介绍[J].电脑知识与技术,2007(9):1201-1201. 被引量：1
5彭焕峰.基于Lucene的中文分词器的设计与实现[J].微型机与应用,2011,30(18):62-64. 被引量：5
6何国斌,赵晶璐.基于最大匹配的中文分词概率算法研究[J].计算机工程,2010,36(5):173-175. 被引量：16
7吴旭东.正向最大匹配分词算法的分析与改进[J].科技传播,2011,3(20):164-165. 被引量：8
8李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：108
9张培颖,李村合.一种中文分词词典新机制—四字哈希机制[J].微计算机应用,2006,27(4):512-512.
10许华,刘勇.中文分词词典机制的研究[J].福建电脑,2010(3):42-43.

计算机工程与应用

2008年第26期

浏览历史

内容加载中请稍等...

汉语分词索引字数与分词效率的对比研究

参考文献4

二级参考文献6

共引文献186

相关作者

相关机构

相关主题

浏览历史