利用prefix-hash-tree实现从中文文本到事务数据的转换

Transforming Chinese Document into Transaction Data Using Prefix-Hash-Tree

下载PDF

导出

摘要电子文档的飞速增长为自动文本分类提供了巨大的机遇和挑战。在现有的众多方法中,关联分类以其较高的准确率和较快的训练时间而成为一种重要的自动文本分类方法。为实现基于关联的文本分类,首先需要将无结构的文本转换为结构化的事务数据,本文提出的prefix-hash-tree是针对汉语的特殊性而设计的一种数据结构,利用它可以方便地将中文文本转化为事务数据,实验证明利用该数据结构相应的查找、插入和重构算法都具有较好的效率。 The rapid growth in the amount of electronic documents brings both great opportunities and real challenges for automatic text classification. Among many existed approaches, association rule based document classification has aroused great attention as to its high accuracy and fast training time. In this paper, a special data structure called pre- fix-hash-tree is designed to efficiently transform unstructured Chinese text into structured transaction data. Experi- ments confirm that its relevant algorithms show high efficiency.

作者钱铁云王元珍冯小年

机构地区华中科技大学计算机学院数据库与多媒体技术研究所中国电力财务有限公司华中分公司

出处《计算机科学》 CSCD 北大核心 2005年第5期167-169,184,共4页 Computer Science

基金科技部科技电子政务系统关键技术及应用系统的研究(项目编号2001BA110B01)资助.

关键词中文文本 HASH 事务自动文本分类电子文档分类方法文本转换数据结构实验证明重构算法准确率结构化特殊性结构相关联 Chinese text classification Prefix-hash-tree Transaction data

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP393.08 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Liu B, Hsu W, Ma Y. Integrating Classification and Association Rule Mining. [C]. In:The Fourth Intl. Conf. on Knowledge Discovery and Data Mining(KDD), New York, USA, 1998
2Antonie M-L, Zaiane O R. Text Document Categorization by TermAssociation. [C]. In:Proc. of the IEEE Intl. Conf. on Data Mining, ICDM, Maebashi City, Japan,2002.19～26
3王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13
4孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
5杨文峰,陈光英,李星.基于PATRICIA tree的汉语自动分词词典机制[J].中文信息学报,2001,15(3):44-49. 被引量：30
6陈桂林,王永成,韩客松,王刚.一种高效的中文电子词表数据结构[J].计算机研究与发展,2000,37(1):109-116. 被引量：26

二级参考文献28

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2俞士汶，现代汉语语法信息词典详解，1998年
3Chang Y I，IEEE Trans Knowledge Data Engineering，1997年，9卷，1期，179页
4Chen C Y，IEEETranson Know ledge and Data Engineering，1997年，9卷，1期，148页
5Chen I R，Computer J，1995年，38卷，3期，245页
6Chen M S，IEEE Trans Knowledge Data Engineering，1995年，7卷，4期，656页
7周国栋，学位论文，1992年
8王永成，中文信息处理技术及其基础，1991年
9夏征农，辞海 1989年版缩印本（1989年版缩印本），1990年
10刘源，现代汉语词表，1984年

共引文献157

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
3王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
4马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
5滕伟,王永成.智能代理技术在新一代搜索引擎中的应用[J].计算机工程,2000,26(S1):709-715. 被引量：2
6曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
7崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
8金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,30(16):146-148. 被引量：8
9温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
10张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60

1李淑芝,郑剑.一种基于Hash_tree的产生关联规则的方法[J].南昌大学学报（理科版）,2004,28(2):197-200. 被引量：1
2伊波,扬抒.Hash—Tree—一种词典组织方法[J].小型微型计算机系统,1989,10(1):17-20.
3曾传璜,郑剑,邵利平.多项集元素的hash_tree快速查找方法[J].南方冶金学院学报,2003,24(5):41-43. 被引量：2
4王强.基于事务标识列表的关联规则挖掘算法[J].现代图书情报技术,2008(8):63-69. 被引量：4
5杜孝平,罗宪,唐世渭.频繁项集挖掘中的两种哈希树构建方法[J].计算机科学,2002,29(12):138-140. 被引量：5

计算机科学

2005年第5期

浏览历史

内容加载中请稍等...

利用prefix-hash-tree实现从中文文本到事务数据的转换

参考文献6

二级参考文献28

共引文献157

相关作者

相关机构

相关主题

浏览历史