-
题名邮件内容过滤的中文编码盲识别算法
被引量:1
- 1
-
-
作者
祝佳
李生红
李建华
-
机构
上海交通大学信息电子工程系
上海交通大学信息安全学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2005年第10期131-133,共3页
-
基金
国家863高技术研究发展计划项目(编号:2003AA142160)
上海市科委"‘软损坏’文件修复系统"项目(编号:035115015)
-
文摘
邮件内容过滤是信息安全领域的重点课题。文章着重介绍了一种中文文本编码自动识别算法,可以对目前互联网通信所使用的各种常用中文编码(GB2312,GBK,BIG5,UNICODE)进行盲识别,基本解决乱码问题,从而降低邮件内容过滤系统的虚警和漏警率,提高其处理范围。
-
关键词
中文编码
邮件过滤
高频字符
GB2312
gbk
BIG5
unicode
UTF
-
Keywords
chinese encoding charset,E-mail filtering,high frequency chinese characters,GB2312,gbk,BIG5,unicode,UTF
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名浅谈CALIS联机编目系统中的字符集问题
被引量:5
- 2
-
-
作者
王燕
陈金莉
-
机构
北京大学CALIS管理中心
-
出处
《图书情报工作》
CSSCI
北大核心
2005年第10期114-118,共5页
-
文摘
介绍目前主要的中文编码系统,如GB2312、GBK、Unicode、BIG5等,并形象地解释这些字符集之间的包容关系,指出由于应用程序的运行环境不同,导致字符集之间转码出现问题;深入分析CALIS联机编目系统中遇到的字符集问题,包括检索、显示、排序、著录繁体字、异体字、小语种时的问题,并提出相应的解决方案。
-
关键词
中文编码系统
unicode
gbk
简繁体
-
Keywords
chinese encoding system unicode gbk simplified-chinese traditional-chinese
-
分类号
G254.3
[文化科学—图书馆学]
-