邮件内容过滤的中文编码盲识别算法被引量：1

Chinese Encoding Charsets Blind Identification Algorithm for E-mail Content Filtering

下载PDF

导出

摘要邮件内容过滤是信息安全领域的重点课题。文章着重介绍了一种中文文本编码自动识别算法,可以对目前互联网通信所使用的各种常用中文编码(GB2312,GBK,BIG5,UNICODE)进行盲识别,基本解决乱码问题,从而降低邮件内容过滤系统的虚警和漏警率,提高其处理范围。 Email content filtering is an important subject for Information Security research.In this paper,an algorithm for multi Chinese Encoding Charsets identification is introduced.This algorithm enables blind automatic identification for most of the frequently used Chinese Encoding Charsets on the Internet(ex.,GB2312,GBK,BIG5 and UNICODE).

作者祝佳李生红李建华

机构地区上海交通大学信息电子工程系上海交通大学信息安全学院

出处《计算机工程与应用》 CSCD 北大核心 2005年第10期131-133,共3页 Computer Engineering and Applications

基金国家863高技术研究发展计划项目(编号:2003AA142160) 上海市科委"‘软损坏’文件修复系统"项目(编号:035115015)

关键词中文编码邮件过滤高频字符 GB2312 GBK BIG5 UNICODE UTF Chinese encoding charset,E-mail filtering,high frequency Chinese characters,GB2312,GBK,BIG5,UNICODE,UTF

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1沈洲,王永成,刘功申.改进的中文字串多模式匹配算法[J].情报学报,2002,21(1):27-32. 被引量：6
2陈一凡朱亮.21世纪初汉语字、词流通频度统计[C]..In:汉字输入技术与应用研讨会论文集(第一期)[C].,..
3Mike Ksar. ISO/IEC 10646-The Unicode Standard Achievements and Directions[C].In:21st International Unicode Conference.
4P Hoffman,F Yergeau. UTF-16,an encoding of ISO10646[DB/OL].http://rfc.net/rfc2781.html.
5F Yergeau. UTF-8,a transformation format of ISO10646[DB/OL].http://rfc.net/rfc2279.html.

二级参考文献1

1王永成.中文信息处理技术及其基础[M].上海:上海交通大学出版社,1990..

共引文献5

1祝佳,李生红,李建华.Web内容过滤中的数据预处理模块设计[J].通信学报,2005,26(B01):141-144. 被引量：1
2曹娴静,黄小键.基于内容过滤的模式匹配算法比较[J].情报探索,2009(1):92-94. 被引量：1
3侯整风,张浩,张娜.基于字频分布的中文网页编码识别算法[J].计算机工程,2014,40(12):199-204. 被引量：2
4左正康,柯雨含,黄箐,王玥坤,曾志城,王昌晶.Trie+结构函数式建模、机械化验证及其应用[J].软件学报,2024,35(9):4242-4264.
5吴楠,朱怀宏,夏黎春.一种应用于现代网络搜索引擎的快速串匹配算法[J].计算机与现代化,2003(11):7-8.

同被引文献8

1王鑫,王洪国,王珺,王金枝.数据挖掘中聚类方法比较研究[J].计算机技术与发展,2006,16(10):20-22. 被引量：22
2曹晖.字符集与字符编码标准[J].西北民族大学学报（自然科学版）,2006,27(3):36-42. 被引量：6
3薛丽香,邱保志.基于密度可达的多密度聚类算法[J].计算机工程,2009,35(17):66-68. 被引量：7
4辛春生,孙玉芳.简繁汉字转换系统的设计与实现[J].软件学报,2000,11(11):1534-1540. 被引量：4
5马帅,王腾蛟,唐世渭,杨冬青,高军.一种基于参考点和密度的快速聚类算法[J].软件学报,2003,14(6):1089-1095. 被引量：108
6赵艳厂,宋梅,谢帆,宋俊德.用于不同密度聚类的多阶段等密度线算法[J].北京邮电大学学报,2003,26(2):42-47. 被引量：14
7李继锋,刘群.基于N-Gram模型的高速汉字编码识别系统[J].计算机工程与应用,2004,40(3):39-41. 被引量：4
8李培峰,朱巧明,钱培德.多文种环境下汉字内码识别算法的研究[J].中文信息学报,2004,18(2):73-79. 被引量：16

引证文献1

1章晟,张启飞,潘雪增,朱旭辉.搜索引擎中基于密度聚类的混合编码检测算法[J].数据采集与处理,2011,26(1):95-100.

1中原.熊猫看书[J].电子世界,2010(1):53-54.
2Delight.操作系统多内码支持[J].计算机应用文摘,2000(5):53-56.
3侯整风,张浩,张娜.基于字频分布的中文网页编码识别算法[J].计算机工程,2014,40(12):199-204. 被引量：2
4李云峰.IE打不开二级链接[J].网管员世界,2010(12):95-95.
5宁静.邮件内容过滤技术探讨[J].铁路计算机应用,2006,15(1):43-45.
6big5新解[J].计算机,2001(25):37-37.
7BiGate网站繁简通[J].电脑与电信,2009(3):27-27.
8BETMAN.我来听E-Mail[J].电脑界（应用文萃）,2001(2):60-61.
9李江华,赵国辉.Java中文编码问题研究[J].软件导刊,2009,8(3):49-50. 被引量：1
10姚竟发,唐小强.jsp中文编码乱码的分析与解决[J].科技传播,2011,3(24):183-183.

计算机工程与应用

2005年第10期

浏览历史

内容加载中请稍等...

邮件内容过滤的中文编码盲识别算法被引量：1

参考文献5

二级参考文献1

共引文献5

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

邮件内容过滤的中文编码盲识别算法 被引量：1

参考文献5

二级参考文献1

共引文献5

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

邮件内容过滤的中文编码盲识别算法被引量：1