摘要
邮件内容过滤是信息安全领域的重点课题。文章着重介绍了一种中文文本编码自动识别算法,可以对目前互联网通信所使用的各种常用中文编码(GB2312,GBK,BIG5,UNICODE)进行盲识别,基本解决乱码问题,从而降低邮件内容过滤系统的虚警和漏警率,提高其处理范围。
Email content filtering is an important subject for Information Security research.In this paper,an algorithm for multi Chinese Encoding Charsets identification is introduced.This algorithm enables blind automatic identification for most of the frequently used Chinese Encoding Charsets on the Internet(ex.,GB2312,GBK,BIG5 and UNICODE).
出处
《计算机工程与应用》
CSCD
北大核心
2005年第10期131-133,共3页
Computer Engineering and Applications
基金
国家863高技术研究发展计划项目(编号:2003AA142160)
上海市科委"‘软损坏’文件修复系统"项目(编号:035115015)