期刊文献+

邮件内容过滤的中文编码盲识别算法 被引量:1

Chinese Encoding Charsets Blind Identification Algorithm for E-mail Content Filtering
下载PDF
导出
摘要 邮件内容过滤是信息安全领域的重点课题。文章着重介绍了一种中文文本编码自动识别算法,可以对目前互联网通信所使用的各种常用中文编码(GB2312,GBK,BIG5,UNICODE)进行盲识别,基本解决乱码问题,从而降低邮件内容过滤系统的虚警和漏警率,提高其处理范围。 Email content filtering is an important subject for Information Security research.In this paper,an algorithm for multi Chinese Encoding Charsets identification is introduced.This algorithm enables blind automatic identification for most of the frequently used Chinese Encoding Charsets on the Internet(ex.,GB2312,GBK,BIG5 and UNICODE).
出处 《计算机工程与应用》 CSCD 北大核心 2005年第10期131-133,共3页 Computer Engineering and Applications
基金 国家863高技术研究发展计划项目(编号:2003AA142160) 上海市科委"‘软损坏’文件修复系统"项目(编号:035115015)
关键词 中文编码 邮件过滤 高频字符 GB2312 GBK BIG5 UNICODE UTF Chinese encoding charset,E-mail filtering,high frequency Chinese characters,GB2312,GBK,BIG5,UNICODE,UTF
  • 相关文献

参考文献5

  • 1沈洲,王永成,刘功申.改进的中文字串多模式匹配算法[J].情报学报,2002,21(1):27-32. 被引量:6
  • 2陈一凡 朱亮.21世纪初汉语字、词流通频度统计[C]..In:汉字输入技术与应用研讨会论文集(第一期)[C].,..
  • 3Mike Ksar. ISO/IEC 10646-The Unicode Standard Achievements and Directions[C].In:21st International Unicode Conference.
  • 4P Hoffman,F Yergeau. UTF-16,an encoding of ISO10646[DB/OL].http://rfc.net/rfc2781.html.
  • 5F Yergeau. UTF-8,a transformation format of ISO10646[DB/OL].http://rfc.net/rfc2279.html.

二级参考文献1

  • 1王永成.中文信息处理技术及其基础[M].上海:上海交通大学出版社,1990..

共引文献5

同被引文献8

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部