期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于字频分布的中文网页编码识别算法 被引量:2
1
作者 侯整风 张浩 张娜 《计算机工程》 CAS CSCD 2014年第12期199-204,共6页
编码识别是网页内容过滤的必要前提,多种中文编码共存给中文网页的内容过滤带来不便。针对上述问题,提出一种基于字频分布的中文网页编码识别算法。根据汉字的使用频率,选取使用频度较高的字符构成高频字符编码表,以高频字符编码作为关... 编码识别是网页内容过滤的必要前提,多种中文编码共存给中文网页的内容过滤带来不便。针对上述问题,提出一种基于字频分布的中文网页编码识别算法。根据汉字的使用频率,选取使用频度较高的字符构成高频字符编码表,以高频字符编码作为关键字,使用改进的模式匹配算法查找待识别网页,并统计匹配次数。将编码的匹配结果作为分析的依据,最终判定待识别网页的真实码制。实验结果证明,与Unigram算法相比,该算法对目前通用的中文编码识别率较高,适合对未知编码的中文网页进行快速编码识别。 展开更多
关键词 中文编码 网页过滤 高频字符 模式匹配 有限状态自动机
下载PDF
邮件内容过滤的中文编码盲识别算法 被引量:1
2
作者 祝佳 李生红 李建华 《计算机工程与应用》 CSCD 北大核心 2005年第10期131-133,共3页
邮件内容过滤是信息安全领域的重点课题。文章着重介绍了一种中文文本编码自动识别算法,可以对目前互联网通信所使用的各种常用中文编码(GB2312,GBK,BIG5,UNICODE)进行盲识别,基本解决乱码问题,从而降低邮件内容过滤系统的虚警和漏警率... 邮件内容过滤是信息安全领域的重点课题。文章着重介绍了一种中文文本编码自动识别算法,可以对目前互联网通信所使用的各种常用中文编码(GB2312,GBK,BIG5,UNICODE)进行盲识别,基本解决乱码问题,从而降低邮件内容过滤系统的虚警和漏警率,提高其处理范围。 展开更多
关键词 中文编码 邮件过滤 高频字符 GB2312 GBK BIG5 UNICODE UTF
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部