期刊文献+

中文垃圾邮件的索引分词法的研究与设计 被引量:4

Research and design of Chinese-spam's phrase segmentation based on indexing
下载PDF
导出
摘要 为了提高中文垃圾邮件预处理阶段的性能,加快查找分词的速度,基于哈希函数的算法思想创造性的构造了索引词典,设计了一种针对中文垃圾邮件的中文索引分词方法。通过实验,表明该方法提高了传统机械分词法的效率和准确率,改善了邮件预处理阶段的性能,并且可以广泛地应用于中文分词领域。 To improve the preprocessing performance for anfi-spam and to search for phrases more efficiently, this paper creatively constructed an indexing dictionary based on hash algorithm, and designed a method of Chinese phrase segmentation based on this indexing dictionary aiming at anfi-Chinese-spam. Through the study of the experimental data, this method is proved to be more efficient and accurate compared with the traditional mechanical classification, and it does improve the preproeessing performance and can be widely utilized in the field of Chinese phrase segmentation.
作者 强永妍 杨庚
出处 《计算机应用》 CSCD 北大核心 2007年第9期2334-2336,共3页 journal of Computer Applications
关键词 反垃圾邮件 中文分词 哈希函数 anti-spare Chinese phrase segmentation hash algorithm
  • 相关文献

参考文献7

  • 1中国教育和科研网垃圾邮件处理小组.垃圾邮件的文化与历史[EB/OL].[2007-003-09].http://www.ccert.edu.cn/spam_old/culture/history_culture.htm.
  • 2数据库频道.现有的分词算法[EB/OL].[2007-03-09].http://tag.csdn.net/Article/c7c994c6-4622-45bd-8d08-dcee656 398dc.html.
  • 3金麦网络.搜索引擎技术揭密:中文分词技术[EB/OL].[2007-03-09].http://www.kingmx.com/article/16765.
  • 4RFC 2821,Simple mail transfer protocol[S].
  • 5Blogjava.汉字编码解析[EB/OL].[2007-03-02].http://www.blogjava.net/NeonWay/archive/2006/07/05/56665.aspx.
  • 6李振星,徐泽平,唐卫清,唐荣锡.全二分最大匹配快速分词算法[J].计算机工程与应用,2002,38(11):106-109. 被引量:39
  • 7邹涛,王继成,黄源,张福炎.中文文档自动分类系统的设计与实现[J].中文信息学报,1999,13(3):26-32. 被引量:45

二级参考文献11

共引文献82

同被引文献25

引证文献4

二级引证文献8

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部