-
题名COX:高压缩率的中文XML文档压缩技术
被引量:2
- 1
-
-
作者
赵友桥
张山山
路松峰
吴志杰
-
机构
华中科技大学计算机科学与技术学院
中国工程物理研究院计算机应用研究所
-
出处
《计算机工程与应用》
CSCD
2012年第17期143-147,共5页
-
基金
国家自然科学基金委员会与中国工程物理研究院联合基金(No.10876012)
-
文摘
针对当前常用的XML压缩算法没有考虑中文特点的情况,结合中文与XML的特点,提出一种高压缩率的适合中文XML文档的压缩算法COX。利用中文分词技术对XML文档进行分词处理,通过统计词频后获得排序的词典,利用Huffman编码思想对高频及长词汇进行压缩编码;解析XML文档后,把文档元素进行分类,同一类型的元素放入同一容器之中;算法还特别针对数字类型的数据进行了特殊处理。实验结果显示,相对于通用的压缩软件,COX具有更好的压缩效果,但压缩和解压缩时间要慢一些。
-
关键词
中文xml文档
数据压缩
中文分词
词典
-
Keywords
Chinese xml document
data compression
Chinese word segmentation
dictionary
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-