中文全文检索系统中的压缩模型和模式匹配技术被引量：5

The Compression Scheme and Pattern Matching for Chinese Text

下载PDF

导出

摘要本文给出了一种适用中文全文检索系统的压缩模型 ,使传统的LZW模型能适用于大字符集语言源文本。方法的关键是通过引入切割标记控制字典多叉树的节点的无限扩大。对文件的检索直接在压缩文件上进行 ,因而可较大地提高检索效率。 We propose an efficient compression scheme for Chinese text which is based on the useful LZW method.The general purpose compression utilities is not suited for Chinese text for its large alphabet.The key technique in our scheme is“Chinese words segment signs”which could reduce the size of the tree dictionary.The retrieve of the document is processed in the compressed file directly,therefore,allowing faster search at the same time.

作者刘祖斌王永成刘椿年

机构地区上海交通大学电子信息学院北京工业大学计算机学院

出处《中文信息学报》 CSCD 北大核心 2000年第4期42-47,共6页 Journal of Chinese Information Processing

基金国家 8 6 3项目!(86 3- 30 6 -ZD0 3- 0 4- 1)

关键词模式匹配 LZW模型中文全文检索系统压缩模型 data compression pattern matching full text retrieve

分类号 TP391.3 [自动化与计算机技术—计算机应用技术] G354.4 [文化科学—情报学]

引文网络
相关文献

参考文献2

1Gu H Y，Computer Processing Chinese Oriental Languages，1997年，10卷，3期，321页
2Chang H K，Computer Processing Chinese Oriental Languages，1993年，7卷，2期，257页

同被引文献15

1金卫民.数据通讯中LZW算法的应用研究[J].计算机工程与科学,2004,26(5):46-48. 被引量：7
2闫常友,杨奇逊,刘万顺.基于提升格式的实时数据压缩和重构算法[J].中国电机工程学报,2005,25(9):6-10. 被引量：54
3张凤林,刘思峰.Huffman~*:一个改进的Huffman数据压缩算法[J].计算机工程与应用,2007,43(2):73-74. 被引量：19
4Hiroshi H,Kazuhiro U.Evaluation of users' adaptation by applyingLZW compression algorithm to operation logs[C]//LNCI 3215:KES2004.Berlin Heidelberg:Springer-Verlag,2004:625-631.
5Takuya K,Tetsuya M,Yusuke S,et al.Collage system:a unifying framework for compressed pattern matching[J].Theoretical Computer Science,2003,298:253-272.
6王防修,周康.通过哈夫曼编码实现文件的压缩与解压[J].武汉工业学院学报,2008,27(4):46-49. 被引量：14
7王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275
8陈华辉.一个中英文全文搜索引擎的设计与实现[J].计算机应用研究,2001,18(3):131-133. 被引量：4
9韩家炜,孟小峰,王静,李盛恩.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414. 被引量：356
10阳小华.Web站点的超链结构挖掘[J].计算机工程与应用,2001,37(8):64-65. 被引量：15

引证文献5

1袁向阳,尹建,殷建平.全链接模块化B*树算法设计[J].计算机应用,2005,25(3):617-619.
2张凤林,刘思峰.LZW＊：一个改进的LZW数据压缩算法[J].小型微型计算机系统,2006,27(10):1897-1899. 被引量：19
3张凤林,刘思峰.Huffman~*:一个改进的Huffman数据压缩算法[J].计算机工程与应用,2007,43(2):73-74. 被引量：19
4卢冰,刘兴海.利用改进的哈夫曼编码实现文件的压缩与解压[J].科技通报,2013,29(6):22-24. 被引量：5
5陈定权.Web信息检索技术最新进展[J].现代图书情报技术,2002(2):39-41. 被引量：16

二级引证文献57

1阿静.政企互动打假树维权典范——爱普生打印机胜诉“骗保门”事件[J].办公自动化,2006(14):10-11.
2何晓阳,吴治蓉,连丽红,谢永碧.SALSA算法技术剖析[J].情报杂志,2004,23(7):26-27. 被引量：3
3葛蓉.利用网络日志分析提高搜索引擎的检准率[J].情报科学,2004,22(10):1250-1253. 被引量：5
4何晓阳,吴治蓉,连丽红.国内搜索引擎研究状况分析[J].现代情报,2005,25(2):165-167. 被引量：1
5赵蓉英 ,段宇锋 ,邱均平 .网络信息计量学研究（Ⅰ）——网络链接研究的现状及趋势[J].情报学报,2005,24(2):181-192. 被引量：18
6柳群英.网络信息检索技术现状及发展趋势[J].情报探索,2005(4):66-68. 被引量：8
7张建芬.移动代理技术在图书馆分布式检索系统中的应用[J].情报科学,2007,25(7):1042-1045. 被引量：1
8徐全生,林森.管道泄漏信号的无损压缩技术[J].沈阳工业大学学报,2007,29(6):677-681. 被引量：1
9严鹦鹉.企业搜索分析[J].农业图书情报学刊,2008,20(3):106-110. 被引量：4
10齐文斌,李东平,杨东,吴京涛.广域测量系统数据在线无损压缩算法[J].电网技术,2008,32(8):86-90. 被引量：9

1苏潭英,郭宪勇,金鑫.一种基于Lucene的中文全文检索系统[J].计算机工程,2007,33(23):94-96. 被引量：22
2贺胜.基于Lucene的中文全文检索系统[J].中国高校科技,2006(S3):143-145. 被引量：1
3吴春玉.中文全文检索系统中实现主题词标引思路[J].情报杂志,2005,24(1):115-116. 被引量：4
4曾元鉴,李孝明.一个中文全文检索系统的设计与实现[J].计算机与数字工程,2004,32(3):12-15. 被引量：3
5隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
6聂妮,胡小克,杨志勇,张雅惠.基于lucene的桌面中文全文搜索引擎的设计[J].科技创业家,2012(15):64-64.
7吴春玉.中文全文检索系统主题词标引[J].情报科学,2004,22(6):720-722.
8陈淑燕,罗小彬,吕玉鹏.中文全文检索系统H——QWJS的设计与实现[J].图书情报工作,2000,44(4):43-46. 被引量：1
9罗惠峰,郭淑琴.基于Lucene的中文分词器的改进与实现[J].微型机与应用,2015,34(11):76-78. 被引量：1
10都云程,施水才.WWW与中文全文检索系统[J].中国计算机用户,1996(12):17-20. 被引量：4

中文信息学报

2000年第4期

浏览历史

内容加载中请稍等...

中文全文检索系统中的压缩模型和模式匹配技术被引量：5

参考文献2

同被引文献15

引证文献5

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

中文全文检索系统中的压缩模型和模式匹配技术 被引量：5

参考文献2

同被引文献15

引证文献5

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

中文全文检索系统中的压缩模型和模式匹配技术被引量：5