基于字符树结构的高性能中文词库技术

High Performance Chinese Lexicon Technology Based on Character Tree Structure

下载PDF

导出

摘要海量中文信息处理是大数据处理的一个分支,而利用大数据技术进行中文信息处理一定离不开中文分词,所以中文分词技术是大数据中文信息处理的基础性技术.中文分词技术自本世纪以来,一直在性能与精确度两个方向在推进;在性能方面主要以改进分词扫瞄算法,改进词库存储技术与查询方式来提高性能.在精确度上主要是对未登录词与歧义词的甄别与处理方法进行改进.本文摒弃了通过词库索引查询的思想,提出一种基于字符树的词库存储结构.它的分词速度是普通折半法的35倍,占用内存只是它的1/5.它将为大数据技术在处理中文信息时在性能上推进了一大步. Massive Chinese information processing is a branch of big data processing, and the use of big data technology for Chinese information processing must be inseparable from Chinese word segmentation, so Chinese word segmentation technology is the basic technology of big data Chinese information processing. Chinese word segmentation technology has been advancing in performance and accuracy since this century. In terms of performance, it mainly improves the segmentation scanning algorithm, the word bank storage technology, and query method to improve the performance. In terms of accuracy, it is mainly to improve the processing method of unregistered words and ambiguous words. This paper gives up the idea of searching by lexicon index and proposes a lexicon storage structure based on character tree. Its segmenting speed is 35 times faster than the normal half method, occupying only 1/5 of its memory. It will be a big step forward in the performance of big data technology in processing Chinese information.

作者杨光豹杨丰赫郑慧锦 YANG Guang-Bao;YANG Feng-He;ZHENG Hui-Jin(Qingtian College, Zhejiang Radio & TV University, Qingtian 323900, China;School of Cyber Science and Engineering, Southeast University, Nanjing 211189, China;Zhejiang Qingtian Vocational and Technical School, Qingtian 323900, China)

机构地区浙江广播电视大学青田学院东南大学网络空间安全学院浙江青田县职业技术学校

出处《计算机系统应用》 2019年第8期262-267,共6页 Computer Systems & Applications

关键词字符树中文分词散列法折半法时间复杂度 character tree Chinese word segmentation hash binary query time complexity

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1邓丽萍,罗智勇.基于半监督CRF的跨领域中文分词[J].中文信息学报,2017,31(4):9-19. 被引量：19
2金宸,李维华,姬晨,金绪泽,郭延哺.基于双向LSTM神经网络模型的中文分词[J].中文信息学报,2018,32(2):29-37. 被引量：38
3胡婕,张俊驰.双向循环网络中文分词模型[J].小型微型计算机系统,2017,38(3):522-526. 被引量：11
4张义,李治江.基于高斯词长特征的中文分词方法[J].中文信息学报,2016,30(5):89-93. 被引量：3
5丁洁.基于层次分析法的中文分词算法改进[J].信息技术,2016,40(10):190-193. 被引量：1
6姚兴山.基于Hash算法的中文分词研究[J].现代图书情报技术,2008(3):78-81. 被引量：5
7蔡蕊.一种改进的基于Hash的中文分词算法研究[J].福建电脑,2010,26(2):69-70. 被引量：3
8刘超,王卫东.基于双哈希词典机制中文分词的研究[J].信息技术,2016,40(11):152-156. 被引量：1
9刘勇,魏光泽.基于双字哈希结构的最大匹配算法机制改进[J].电子设计工程,2017,25(16):11-15. 被引量：6
10熊志斌,朱剑锋.基于改进Trie树结构的正向最大匹配算法[J].计算机应用与软件,2014,31(5):276-278. 被引量：11

二级参考文献73

1张妍,许云峰,张立全.基于云计算的中文分词研究[J].河北科技大学学报,2012,33(3):266-269. 被引量：5
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
3赵艳红,费洪晓.一个基于改进的反序分词词典的中文分词算法[J].深圳职业技术学院学报,2004,3(4):28-31. 被引量：2
4费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
5吴建胜,战学刚,迟呈英.一种基于自动机的分词方法[J].计算机工程与应用,2005,41(8):81-82. 被引量：8
6张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：14
7熊回香.全文检索中的汉语自动分词及其歧义处理[J].中国图书馆学报,2005,31(5):54-57. 被引量：6
8吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
9罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128. 被引量：19
10张李义,李亚子.基于反序词典的中文逆向最大匹配分词系统设计[J].现代图书情报技术,2006(8):42-45. 被引量：12

共引文献97

1程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：16
2姚兴山.基于统计的中文文本分类研究[J].情报理论与实践,2009,32(5):95-98. 被引量：1
3奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104
4赵阳阳,王亮,仇阿根.地址要素识别机制的地名地址分词算法[J].测绘科学,2013,38(5):74-76. 被引量：25
5王晓丽,邓达康,孟祥龙,唐先明,郭攀红,林畅松.基于领域本体的油气勘探开发知识获取模式及实现[J].东北石油大学学报,2016,40(4):74-79. 被引量：1
6刘超,王卫东.基于双哈希词典机制中文分词的研究[J].信息技术,2016,40(11):152-156. 被引量：1
7马志程,顾凯成,杨鹏.基于文本分类的电企舆情识别方案设计与实现[J].电子设计工程,2017,25(3):28-31. 被引量：4
8鲁华永,袁越,郭泓佐,袁良,王国栋,刘华伟.基于正则表达式的变电站集中监控信息解析方法[J].电力系统自动化,2017,41(5):78-83. 被引量：22
9张凯,任维平,张仰森,尤建清.基于股民评论信息的股票预测方法研究[J].北京信息科技大学学报（自然科学版）,2017,32(5):67-71. 被引量：1
10冯国明,张晓冬,刘素辉.基于自主学习的专业领域文本DBLC分词模型[J].数据分析与知识发现,2018,2(5):40-47. 被引量：2

1王蕾,关欣.血管活性药物续泵方法的现状与思考[J].中国实用护理杂志,2018,34(15):1125-1129. 被引量：9
2崔尧,丛芳,李建军,朱爱玲,曾明,金龙,司凤山,姚斌,贾威,萧敦武,李东洋,张凯.Alyn水中适应性测试量表2的汉化及在脊髓损伤患者中的信度与效度[J].中国康复理论与实践,2018,24(11):1302-1308. 被引量：10
3沈荣,张保文.大数据分析和大数据处理技术研究综述[J].电脑知识与技术,2019,15(4Z):13-16. 被引量：5
4王金钟,周奕生.从一道习题谈线段倍半的证明[J].初中生天地,2017,0(Z2):77-78.
5杨光豹,杨丰赫,毛贵军.基于分组hash与变长匹配的中文分词技术[J].计算机时代,2019(4):52-55. 被引量：1
6《实用药物与临床》再次被收录为“中国科技论文统计源期刊”[J].实用药物与临床,2019,22(8):812-812.
7张承霞,鲍正德,唐娅雯.浅析数据结构中排序方式及比较[J].计算机系统网络和电信,2019,1(2):348-352. 被引量：1
8贾培养.5G与WiFi技术融合问题的研究[J].信息与电脑,2019,0(13):165-166. 被引量：4
9李欣.基于Spark/HBase的交通流数据存储及索引模型探讨[J].地理与地理信息科学,2019,35(4):1-8. 被引量：6
10郭冰.基于MySQL数据库的索引优化研究[J].信息与电脑,2019,0(12):154-156. 被引量：11

计算机系统应用

2019年第8期

浏览历史

内容加载中请稍等...

基于字符树结构的高性能中文词库技术

参考文献13

二级参考文献73

共引文献97

相关作者

相关机构

相关主题

浏览历史