期刊文献+

利用prefix-hash-tree实现从中文文本到事务数据的转换

Transforming Chinese Document into Transaction Data Using Prefix-Hash-Tree
下载PDF
导出
摘要 电子文档的飞速增长为自动文本分类提供了巨大的机遇和挑战。在现有的众多方法中,关联分类以其较高的准确率和较快的训练时间而成为一种重要的自动文本分类方法。为实现基于关联的文本分类,首先需要将无结构的文本转换为结构化的事务数据,本文提出的prefix-hash-tree是针对汉语的特殊性而设计的一种数据结构,利用它可以方便地将中文文本转化为事务数据,实验证明利用该数据结构相应的查找、插入和重构算法都具有较好的效率。 The rapid growth in the amount of electronic documents brings both great opportunities and real challenges for automatic text classification. Among many existed approaches, association rule based document classification has aroused great attention as to its high accuracy and fast training time. In this paper, a special data structure called pre- fix-hash-tree is designed to efficiently transform unstructured Chinese text into structured transaction data. Experi- ments confirm that its relevant algorithms show high efficiency.
出处 《计算机科学》 CSCD 北大核心 2005年第5期167-169,184,共4页 Computer Science
基金 科技部科技电子政务系统关键技术及应用系统的研究(项目编号2001BA110B01)资助.
  • 相关文献

参考文献6

二级参考文献28

  • 1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量:45
  • 2俞士汶,现代汉语语法信息词典详解,1998年
  • 3Chang Y I,IEEE Trans Knowledge Data Engineering,1997年,9卷,1期,179页
  • 4Chen C Y,IEEETranson Know ledge and Data Engineering,1997年,9卷,1期,148页
  • 5Chen I R,Computer J,1995年,38卷,3期,245页
  • 6Chen M S,IEEE Trans Knowledge Data Engineering,1995年,7卷,4期,656页
  • 7周国栋,学位论文,1992年
  • 8王永成,中文信息处理技术及其基础,1991年
  • 9夏征农,辞海 1989年版 缩印本(1989年版缩印本),1990年
  • 10刘源,现代汉语词表,1984年

共引文献157

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部