期刊文献+

基于汉字部件组合的关键词过滤技术 被引量:1

Keywords filtering technology based on combination of Chinese character constituents
下载PDF
导出
摘要 关键词过滤是基于文本内容过滤中最为常用的一种方法,有着广泛的应用。汉字由部件组成,将汉字拆成部件给关键词过滤造成了困难。提出了基于汉字部件组合的关键词过滤技术,依托于汉字结构标注库,运用改进的多模式匹配算法处理海量文本内容。实验结果证明,该方法能够找出被故意拆分的关键词。 Keywords filtering is one of the most common methods in text content filtering and is widely used. Chinese characters are combinations of constituents, and splitting characters into constituents makes keywords filtering difficult. To deal with this problem, a keywords filtering technology based on combination of Chinese character constituents is proposed. It is based on Chinese characters structure library, and uses improved multiple patterns matching algorithm to deal with massive text contents . Tests show that this method can f'md out split keywords efficiently.
出处 《信息技术》 2008年第10期1-3,10,共4页 Information Technology
基金 国家自然科学基金项目(60402019 60502032) 教育部新世纪优秀人才支持计划项目(NCET-06-0393)
关键词 汉字部件 多模式匹配 过滤 Chinese characters constituents multiple patterns matching filtering
  • 相关文献

参考文献5

  • 1张晓明.二十世纪汉字字形结构研究[J].语言教学与研究,2004(5):75-80. 被引量:10
  • 2国家语委..信息处理用GB13000.1字符集汉字部件规范[M]..北京:语文出版社,,1998....
  • 3WU Sun, Manber U. A Fast Algorithm for Multi-Patteva Searching [R]. Technical Report TR 94-17, University of Arizona at Tuscon, May 1994.
  • 4WU Sun, Manber U. Agrep-A fast approximate pattern-matching tool [A]. Prec of the USENIX Technical Conference[ C]. San Fransisco, CA, 1992:153 - 162.
  • 5Sunday D M. A very fast substring search algorithm[ J ]. Communications of the ACM, 1990,33(8):132- 142.

二级参考文献11

共引文献9

同被引文献6

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部