基于PDC编码的中文文本压缩算法被引量：1

Chinese text compression algorithm based on PDC coding

下载PDF

导出

摘要针对中文文本结构的特点以及传统压缩算法对中文文本压缩的不足,提出并实现了一个基于PDC编码的中文文本压缩算法。该算法采用的是字典压缩方式。根据单个汉字在中文文本出现的概率,采用Huffman编码方式进行前缀变长编码;定义由某个汉字为前缀的词组和短语的深度;对具有相同前缀和相同深度的词组和短语进行局部的定长编码,构成一部压缩编码字典。通过对相同文本分别使用该算法和传统的LZW和LZSS编码算法压缩后得到的数据结果对比,压缩率有2.53%~40.48%的提高,表明该压缩算法有较好的压缩效果。 According to the characteristics of Chinese text structures and the disadvantages of traditional compression algorithm for Chinese text compression, it proposes and implements a Chinese text compression algorithm based on PDC coding. The algorithm uses dictionary compression. According to the words＇ probability that appears in the Chinese text, the prefix encoded variable-length coding uses Huffman coding, it defines the depth of the phrases and short sentences that prefixed by the word, the algorithm encodes partial fixed-length coding for the phrases and short sentences which have the same prefix and depth, it constructs a compression dictionary. By comparing with the tradition compression algorithm LZW and LZSS that in the same texts, the compression algorithm＇s compression ratio increases 2.53% ~40.48%, which means the compression algorithm has a better compression effect than the traditional compression algorithm.

作者曾党泉

机构地区厦门大学嘉庚学院信息科学与技术学院

出处《计算机工程与应用》 CSCD 北大核心 2015年第17期205-209,227,共6页 Computer Engineering and Applications

关键词中文文本压缩算法前缀深度编码压缩率 Chinese text compression algorithm prefix depth coding compression ratio

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1王忠效.汉语文本压缩研究及其应用[J].中文信息学报,1997,11(3):57-64. 被引量：9
2Huffman D A.A method for the construction of minimum- redundancy codes[C]//Proceedings of IRE, 1952, 40 (9) : 1098-1101.
3Ziv J, Lempel A.A universal algorithm for sequential data compression[J].IEEE Transactions on Information Theory, 1977,23 (3) :337-343.
4Ziv J, Lempel A.Compression of individual sequences via variable-rate coding[J].IEEE Transactions on Information Theory, 1978,24(5) :530-536.
5Storer J A, Szymanski T G.Data compression via textual substitution[J].Journal of the ACM, 1982,29(4) : 928-951.
6Welch T A.A technique for high-performance data com- pression[J].Computer, 1978,17 (6) : 8-19.
7徐秉铮,吴立忠,Victor K.Wei.中文文本压缩的LZW算法[J].华南理工大学学报（自然科学版）,1989,17(3):1-9. 被引量：7
8朱巧明,赵英英,钱培德.基于中文词编码的压缩算法ZHCP的实现[J].小型微型计算机系统,2003,24(2):306-308. 被引量：4
9华强.中文文本压缩的 LZSSCH 算法[J].中文信息学报,1998,12(1):50-56. 被引量：12
10常为领,方滨兴,云晓春,王树鹏,余翔湛.一种支持ANSI编码的中文文本压缩算法[J].中文信息学报,2010,24(5):96-105. 被引量：5

二级参考文献65

1贺前华,徐秉铮,彭磊.中文文本压缩的自适应算法[J].中文信息学报,1993,7(3):46-54. 被引量：4
2王忠效,姜丹.关于Lempel－Ziv　77压缩算法及其实现的研究[J].计算机研究与发展,1996,33(5):329-340. 被引量：19
3吴军,王作英.汉语信息熵和语言模型的复杂度[J].电子学报,1996,24(10):69-71. 被引量：14
4沈剑虹.RSS:信息整合传播的未来[J].河北大学学报（哲学社会科学版）,2006,31(2):133-135. 被引量：8
5Huffman,D.A.A Method for the Construction of Minimum-Redundancy Codes[C]//Proc.IRE 40,9(Sept.),1952:1098-1101.
6Ziviani,N.,Moura,E.,Navarro,G.,& BaezaYates,R.Compression:a key for next-generation text retrieval systems[J].IEEE Computer,2000,33(11):37-44.
7Witten,I.,Moffat,A.,& Bell,T.Managing gigabytes 2nd[M].Morgan Kaufmann Publishers.1999.
8Ziv,J.,and Lempel,A.A Universal Algorithm for Sequential Data Compression[J].IEEE Transactions on Information Theory,1977,23(3):337-343.
9Ziv,J.,and Lempel,A.Compression of Individual Sequences via Variable-Rate Coding[J].IEEE Transactions on Information Theory,1978,24(5):530-536.
10J.A.Storer and T.G.Szymanski.Data Compression via Textual Substitution[J].Journal of the ACM,1982,29:928-951.

共引文献34

1梁金会,郑金吾,耿艳峰,孙忠军.LZW数据压缩技术在USB数据采集系统中的应用[J].微型电脑应用,2007,23(5):62-64. 被引量：3
2赵亚星,栾军英,邓士杰,李永华.LZW算法解析及在定点DSP上的应用[J].兵工自动化,2008,27(12):14-16. 被引量：1
3赵丹群.数据压缩技术及其在信息检索中的应用[J].情报杂志,1998,17(6):34-35.
4游荣彦.从GB2312-80汉字到整型数的连续可逆映射[J].中文信息学报,1999,13(2):51-55.
5华强.中西文文本压缩的LZWCH算法[J].计算机工程与应用,1999,35(3):22-23. 被引量：7
6常为领,方滨兴,云晓春,王树鹏,余翔湛.一种支持ANSI编码的中文文本压缩算法[J].中文信息学报,2010,24(5):96-105. 被引量：5
7游荣彦.中文文本简易压缩与即时加密研究[J].计算机工程与设计,1999,20(6):41-45. 被引量：1
8郑翠芳.几种常用无损数据压缩算法研究[J].计算机技术与发展,2011,21(9):73-76. 被引量：46
9王忠效,范植华.汉语文本动态字母表0阶模型算术编码[J].中文信息学报,2000,14(1):39-47. 被引量：1
10华强.LZ77和LZ78在数据压缩中的组合带参运用[J].小型微型计算机系统,2000,21(2):211-215. 被引量：6

同被引文献4

1余结,王防修,胡迪,熊海梦,胡义.一种香农编码优化算法的改进[J].武汉轻工大学学报,2015,34(2):83-86. 被引量：3
2许婷婷,洪丽华,刘真祥,张静敏,周卫红.基于压缩感知的图像稀疏表示和重构[J].云南民族大学学报（自然科学版）,2018,27(2):147-153. 被引量：4
3郝小龙,冯敏,樊强,彭启伟,韩斌.基于深度学习的视频图像再压缩方法[J].电子设计工程,2019,27(11):189-193. 被引量：3
4朱思凝,张立成,宁金忠,金明录.基于压缩感知的阈值多路径稀疏度自适应图像重构算法[J].系统工程与电子技术,2019,41(10):2191-2197. 被引量：3

引证文献1

1高克承,徐桓,刘岩,刘洋,张曦.面向医疗文本数据压缩的主流算法及发展趋势[J].中国医学装备,2020,17(11):195-199.

1王防修.LZW码的改进算法[J].计算机时代,2009(6):45-47. 被引量：1
2贾庭会,桂贵生.雕刻机系统中液晶显示模块的实现[J].合肥工业大学学报（自然科学版）,2006,29(11):1346-1349. 被引量：4
3周昊,火元莲.一种改进协同表示字典的人脸识别方法[J].济南大学学报（自然科学版）,2016,30(1):29-35. 被引量：1
4刘建军.巧获五笔字型编码字典[J].新浪潮,1995(2):60-61.
5华强.中文文本压缩的 LZSSCH 算法[J].中文信息学报,1998,12(1):50-56. 被引量：12
6徐秉铮,吴立忠,Victor K.Wei.中文文本压缩的LZW算法[J].华南理工大学学报（自然科学版）,1989,17(3):1-9. 被引量：7
7陈庆辉,陈小松,韩德良.中文文本压缩的LZW算法[J].计算机工程与应用,2014,50(3):112-116. 被引量：9
8梅松青,周洪建.一种用于协同表示的构造最优编码字典方法[J].计算机技术与发展,2014,24(4):126-130. 被引量：1
9孙胜林.如何修改双拼输入法编码字典[J].电子与电脑,1998,5(4):131-133.
10王娟,刘教民,檀柏红.改进的LZSS压缩算法[J].计算机与信息技术,2005(5):8-9. 被引量：1

计算机工程与应用

2015年第17期

浏览历史

内容加载中请稍等...

基于PDC编码的中文文本压缩算法被引量：1

参考文献14

二级参考文献65

共引文献34

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于PDC编码的中文文本压缩算法 被引量：1

参考文献14

二级参考文献65

共引文献34

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于PDC编码的中文文本压缩算法被引量：1