多次Hash快速分词算法被引量：22

Multi-hash indexing algorism for Chinese character segmentation

下载PDF

导出

摘要中文分词是中文信息处理的一个重要的组成部分。一些应用不仅要求有较高的准确率,速度也是至关重要的。通过对已有分词算法的分析,尤其是对快速分词算法的分析,提出了一种新的词典结构,并根据新的词典结构提出新的分词算法。该算法不仅实现对词首字的Hash查找,也实现了词的其它字的Hash查找。理论分析和实验结果表明,该算法在速度上优于现有的其它分词算法。 Chinese word segmentation is a very important component and the preparation for Chinese information process. In a lot of application, the precision of word segmentation is paramount, at the same time the velocity is also needed. Through the analysis of the existing algorithms of Chinese word segmentation, especially the fast algorithms, a highly efficient algorithm for Chinese word segmentation is introduced, which is based on the improvement of existing data structure for Chinese dictionary. It not only supports hashing operation on the first Chinese character, but also on the other characters. In theory, the above data structure achieve much more efficiency than other methods,

作者张科

机构地区重庆大学计算机学院

出处《计算机工程与设计》 CSCD 北大核心 2007年第7期1716-1718,共3页 Computer Engineering and Design

关键词中文分词中文信息处理哈希数据结构时间复杂度 Chinese word segmentation Chinese information processing Hash data structure time complexity

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1陈桂林,王永成,韩客松,王刚.一种改进的快速分词算法[J].计算机研究与发展,2000,37(4):418-424. 被引量：56
2李振星,徐泽平,唐卫清,唐荣锡.全二分最大匹配快速分词算法[J].计算机工程与应用,2002,38(11):106-109. 被引量：39
3孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
4陈明.数据结构[M].北京:清华大学出版社,2005.
5陈桂林,王永成,韩客松,王刚.一种高效的中文电子词表数据结构[J].计算机研究与发展,2000,37(1):109-116. 被引量：26
6文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
7温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
8严威,赵政.开发中文搜索引擎汉语处理的关键技术[J].计算机工程,1999,25(6):5-6. 被引量：24

二级参考文献66

1胡俊华,杨波,李金屏.自然语言理解研究略述[J].济南大学学报（社会科学版）,2001,11(5):58-62. 被引量：8
2林春实,方燕,全吉成.汉语文献自动分词与标引技术发展浅析[J].情报学报,1997,16(S1):37-40. 被引量：8
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
4白锡嘉.机器翻译与自然语言的理解[J].中国科技翻译,1996,9(2):31-34. 被引量：7
5孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
6郭艳华,周昌乐.自然语言理解研究综述[J].杭州电子工业学院学报,2000,20(1):58-65. 被引量：31
7苏新宁.汉语文献自动标引综析[J].情报学报,1993,12(4):309-318. 被引量：18
8黄祥喜.书面汉语自动分词的现状和问题[J].情报学报,1989,8(2):125-133. 被引量：11
9夏历.中文信息处理与语言文字规范化[J].语文学刊（高等教育版）,2002(6):74-75. 被引量：8
10孙茂松,王洪君,李行健,富丽,黄昌宁,陈松岑,谢自立,张卫国.《信息处理用词汇研究》九五项目结题汇报信息处理用现代汉语分词词表[J].语言文字应用,2001(4):84-89. 被引量：24

共引文献251

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：41
2周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
3苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
4高楚舒,丁于思.因特网中文文本信息分析[J].合肥工业大学学报（自然科学版）,2001,24(z1):751-754.
5李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
6马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
7滕伟,王永成.智能代理技术在新一代搜索引擎中的应用[J].计算机工程,2000,26(S1):709-715. 被引量：2
8崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
9文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
10谭浩,贾自艳,史忠植.新闻专题的高效组织和生成新方法[J].科技导报,2004,22(7):48-51.

同被引文献162

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
3文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
5张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
6费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
7吴建胜,战学刚,迟呈英.一种基于自动机的分词方法[J].计算机工程与应用,2005,41(8):81-82. 被引量：8
8杨宪泽.中文自动分词探讨[J].西南民族学院学报（自然科学版）,1994,20(3):242-245. 被引量：8
9张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：14
10岳涛.汉语自动分词技术的最新发展及其在信息检索中的应用[J].情报杂志,2005,24(4):55-57. 被引量：6

引证文献22

1王键.d-Left CBF技术在P2P中的研究[J].计算机工程与设计,2008,29(7):1711-1712. 被引量：1
2麦范金,叶东海,史慧.基于语义理解的垃圾邮件过滤处理研究[J].中文信息学报,2008,22(5):80-83. 被引量：1
3马如林,蒋华,张庆霞.一种哈希表快速查找的改进方法[J].计算机工程与科学,2008,30(9):66-68. 被引量：28
4张启宇,朱玲,张雅萍.中文分词算法研究综述[J].情报探索,2008(11):53-56. 被引量：35
5张庆扬,柴胜.使用二级索引的中文分词词典[J].计算机工程与应用,2009,45(19):139-141. 被引量：10
6杨安生.二次Hash^+二分最大匹配快速分词算法[J].情报探索,2009(8):90-92. 被引量：1
7王禹,赵跃龙.对等网络中全文检索系统的设计与实现[J].计算机工程与应用,2010,46(10):70-72. 被引量：2
8史长琼,张理阳,赵凯.哈希表动态负载平衡策略的优化[J].长沙理工大学学报（自然科学版）,2010,7(1):68-72.
9孙殿哲,魏海平,陈岩.Nutch中庖丁解牛中文分词的实现与评测[J].计算机与现代化,2010(6):187-190. 被引量：10
10张朝霞,刘耀军.有效的哈希冲突解决办法[J].计算机应用,2010,30(11):2965-2966. 被引量：16

二级引证文献168

1丁美荣,冯伟森,黄荣翔,罗嘉俊.基于预训练模型和基础词典扩展的酒店评论情感分析[J].计算机系统应用,2022,31(11):296-308. 被引量：3
2曾志伟,刁明光,王欣鹏,何炳辉.基于口罩评论数据的用户情感趋势与关注分析[J].计算机系统应用,2020,29(12):263-267.
3丁洁.基于最佳粒度匹配的中文分词算法的研究[J].自动化与仪器仪表,2016(7):169-170. 被引量：1
4朱雅彬.高校图书馆如何利用网络推广科研成果[J].科技情报开发与经济,2009,19(28):25-28. 被引量：3
5宗乾进,游静.基于二元中文分词的高效检索算法研究[J].图书情报工作,2009,53(22):68-71.
6薛尧予,王建林,赵利强.分布式过程实时数据集成方法及其实现[J].计算机工程,2010,36(3):55-57. 被引量：4
7于绍娜,李霞丽,胥桂仙,杨智君.数据库索引研究[J].电子测试,2010,21(2):84-87. 被引量：2
8滕岩,王华新,罗继秋.基于领域知网的垃圾邮件过滤方法[J].计算机安全,2010(2):42-44.
9徐德玉,王迪.基于COPS原型系统的网上文章复制检测[J].科技信息,2009(31):49-50. 被引量：1
10许华,刘勇.中文分词词典机制的研究[J].福建电脑,2010(3):42-43.

1李振星,徐泽平,唐卫清,唐荣锡.全二分最大匹配快速分词算法[J].计算机工程与应用,2002,38(11):106-109. 被引量：39
2姚兴山.基于哈希算法的中文分词算法的改进[J].图书情报工作,2008,52(6):60-62. 被引量：6
3杨安生.二次Hash^+二分最大匹配快速分词算法[J].情报探索,2009(8):90-92. 被引量：1
4李红斌.词典结构及其在编译构造中的应用[J].计算机研究与发展,1991,28(7):53-55.
5蔡蕊.一种改进的基于Hash的中文分词算法研究[J].福建电脑,2010,26(2):69-70. 被引量：3
6郝海涛.基于向量机的文本分类中词典结构研究[J].福建电脑,2009,25(3):83-84.
7陈桂林,王永成,韩客松,王刚.一种改进的快速分词算法[J].计算机研究与发展,2000,37(4):418-424. 被引量：56
8郭屹.对中文自动分词机制的研究和改进[J].电脑知识与技术,2008(3):1240-1245. 被引量：2
9温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
10叶继平,张桂珠.中文分词词典结构的研究与改进[J].计算机工程与应用,2012,48(23):139-142. 被引量：11

计算机工程与设计

2007年第7期

浏览历史

内容加载中请稍等...

多次Hash快速分词算法被引量：22

参考文献8

二级参考文献66

共引文献251

同被引文献162

引证文献22

二级引证文献168

相关作者

相关机构

相关主题

浏览历史

多次Hash快速分词算法 被引量：22

参考文献8

二级参考文献66

共引文献251

同被引文献162

引证文献22

二级引证文献168

相关作者

相关机构

相关主题

浏览历史

多次Hash快速分词算法被引量：22