基于关联规则的中文文本分类算法的改进被引量：6

Improvement of Chinese Text Categorization Based on Associate Rules

下载PDF

导出

摘要随着中文电子刊物和Web文档数量的飞速增加,中文文本自动分类工作变得日益重要.将文档视为事务,将关键词视为项,文本预处理时提出特征权重阈值,用构造的分类器对未知文档分类时,采用了CDD(Class Differen-tiate Degree)改进算法,对基于关联规则挖掘的中文文本自动分类方法进行了改进.实验结果表明,该算法能较快地获得可理解的规则并且具有较好的宏平均和微平均值. With the rapid expansion of Chinese electronic publication and web documents, the work of automatic Chinese text categorization is important increasingly. A new method called improved automatic Chinese text categorization based on associate ruels mining is proposed in the algorithm. Each documnet and keyword is represented as transaction and item. Character threshold is introduced in the text being preprocessed. CDD（Class Differentiate Degree） improved algorithm is used when using the classifier to classify the unknown documents. Experiments confirm that this algorithm gets the understandable rules of classifer faster and better in terms of the average promising recall and precision rate.

作者张玉芳杨柯熊忠阳

机构地区重庆大学计算机学院

出处《郑州大学学报（理学版）》 CAS 2007年第2期114-117,共4页 Journal of Zhengzhou University:Natural Science Edition

基金重庆市科委自然科学基金资助项目编号CSTC2006BB2021

关键词关联规则挖掘中文文本文本自动分类算法 associate rules mining Chinese documents text automatic classified algorithm

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1梁开健.基于DCSSM的文本特征提取及文本挖掘研究[J].自动化技术与应用,2005,24(5):54-56. 被引量：2
2王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13
3唐懿芳,牛力,张师超.多数据源关联规则挖掘算法研究[J].广西师范大学学报（自然科学版）,2002,20(4):27-31. 被引量：14
4陈晓云,胡运发.一种基于兴趣度的大型数据库关联规则挖掘方法[J].模式识别与人工智能,2003,16(4):494-499. 被引量：4
5刘斌,黄铁军,程军,高文.一种新的基于统计的自动文本分类方法[J].中文信息学报,2002,16(6):18-24. 被引量：48

二级参考文献34

1苏毅娟,严小卫.一种改进的频繁集挖掘方法[J].广西师范大学学报（自然科学版）,2001,19(3):22-26. 被引量：10
2吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
3卜东波.聚类/分类理论研究及其在文本挖掘中的应用.中科院计算所博士学位论文[M].-,2000..
4YANG BINGRU. KD(D&K) and Double - Bases Cooperating Mechanism[J]. Journal of System Engineering and Electronics. 1999,10(1) :56 - 64.
5C.H. PAPAADIMITRIOU,etal. Latent Semantic Indexing: A Probabilistic Analysis[A]. In Proceedings of PODS'98[C], Seattle, W A. 1998,159-168.
6Agrawal R, Srikant R. Fast algorithm for mining association rules in large databases [C]. In: Research Report RJ9839.IBM Almaden Research Center. San Jose. Ca, June 1994: 1-32.
7Liu Bing. Integrating classification and association rule mining[J]. KDD-98, 1998.
8Li Wen-rain, Han Jia-wei,Pei Jian. CMAR: Accurate and efficient classification based on multiple class-association rules[C]. ICDM2001:369-376.
9Osmar R Zaiane, Maria-Luiza Antonie. Classifying text document by association terms with text categories [C]. The Thirteenth Australssian Database Conference (ADC2002), Melbourne, Australia : 215-222.
10Agrawal R,Imielinski T,Swami A. Mining associations between sets of items in large databases[A]. Proceeding of the 1993 ACM-SIGMOD international conference on management of data[C]. Washington:Springer-Verlag,, 1993.207-216.

共引文献76

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2卢景丽,徐章艳,刘美玲,区玉明.一种改进的负关联规则挖掘算法[J].广西师范大学学报（自然科学版）,2004,22(2):41-46. 被引量：8
3雷小锋,夏征义,谢昆青.SROC:一种面向结构鲁棒性的迭代聚类方法[J].计算机研究与发展,2007,44(z3):263-267.
4邵建.供水管网GIS系统在管网管理中的应用探索[J].给水排水,2013,39(S1):540-542. 被引量：2
5尹云飞,区玉明,张师超,黄红兵.双重区间值聚类挖掘模型[J].广西师范大学学报（自然科学版）,2004,22(3):15-18. 被引量：3
6卢娇丽,郑家恒.基于粗糙集的文本分类方法研究[J].中文信息学报,2005,19(2):66-70. 被引量：16
7罗永莲,张永奎.基于混合特征的中文文本分类[J].电脑开发与应用,2005,18(4):4-5. 被引量：1
8胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
9白振田,侯汉清.基于向量空间的行业自动分类系统应用[J].情报科学,2005,23(6):940-944. 被引量：4
10王强,王晓龙,关毅,徐志明.K-NN与SVM相融合的文本分类技术研究[J].高技术通讯,2005,15(5):19-24. 被引量：10

同被引文献56

1陈晓靖.从隐性知识的缺失看大学英语教学[J].牡丹江大学学报,2009,18(11):138-140. 被引量：1
2李玉峰.隐性知识理论研究及其对教师培训的启示[J].南阳师范学院学报,2004,3(10):110-112. 被引量：4
3尹云飞,区玉明,张师超,黄红兵.双重区间值聚类挖掘模型[J].广西师范大学学报（自然科学版）,2004,22(3):15-18. 被引量：3
4周星,周韵.大学英语课堂教师话语的调查与分析[J].外语教学与研究,2002,34(1):59-68. 被引量：775
5闻曙明,王剑敏.隐性知识显性化问题初探[J].苏州大学学报（哲学社会科学版）,2005,21(1):117-119. 被引量：29
6曲春锦.改进的关联规则挖掘算法及其在教育信息挖掘中的应用[J].交通与计算机,2005,23(4):68-71. 被引量：17
7龙昊,冯剑琳,李曲.R-means:以关联规则为簇中心的文本聚类[J].计算机科学,2005,32(9):156-159. 被引量：3
8樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
9谷峰,吴扬扬.文本分类关键技术[J].福建电脑,2006,22(9):5-6. 被引量：2
10何玉,冯剑琳,王元珍.基于最大关联规则的文本分类[J].计算机科学,2006,33(11):143-145. 被引量：6

引证文献6

1时雷,虎晓红,席磊.基于集成学习的网页分类算法[J].郑州大学学报（理学版）,2009,41(3):26-29. 被引量：1
2黄名选,严小卫,张师超.基于文本库的完全加权词间关联规则挖掘算法[J].广西师范大学学报（自然科学版）,2007,25(4):24-27. 被引量：15
3高媛,刘大中.中文文本分类方法比较研究[J].科技信息,2008(2):7-8. 被引量：2
4左欣,李小琳,连伟,王利民.基于数据挖掘的隐性知识显性化及其构建[J].广西师范大学学报（自然科学版）,2010,28(1):77-81. 被引量：2
5何泉昊,樊兴华,周鹏.基于两步策略的文本分类方法实验研究[J].广西师范大学学报（自然科学版）,2011,29(4):35-38.
6郭金龙,许鑫,陆宇杰.人文社会科学研究中文本挖掘技术应用进展[J].图书情报工作,2012,56(8):10-17. 被引量：22

二级引证文献42

1李树祥,褚淑贞,庄倩.我国药品注册法规体系的演变分析——基于文本挖掘方法[J].中国新药杂志,2020,29(1):1-8. 被引量：4
2赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：31
3孙颖,冯晨旭.科学知识图谱对人文社会科学研究情报质量的优化——以基于CiteSpace的完美主义热点研究为例[J].图书情报工作,2013,57(S1):227-231. 被引量：3
4黄名选,陈燕红,张师超.基于关联规则挖掘的查询扩展模型研究[J].现代图书情报技术,2007(10):47-51. 被引量：7
5黄名选,严小卫,张师超.基于完全加权关联规则的局部反馈查询扩展[J].计算机工程与应用,2008,44(7):190-192. 被引量：3
6黄名选,陈燕红,张师超.基于关联规则挖掘的查询扩展检索性能研究[J].计算机技术与发展,2008,18(10):103-105. 被引量：1
7黄名选,张师超.一种有效的信息检索模型[J].计算机应用研究,2008,25(8):2345-2348. 被引量：1
8黄名选,张师超,严小卫.基于查询行为和关联规则的相关反馈查询扩展[J].计算机工程,2009,35(10):78-79. 被引量：5
9李晓念.完全加权关联规则挖掘及其在数字图书馆中的应用[J].图书馆界,2009(2):68-70. 被引量：1
10蒙韧,李新友,袁鼎荣,邵延振.基于频繁链表的完全加权项频繁集挖掘算法[J].网络安全技术与应用,2009(8):39-41.

1梁刚健,赵春晖,许增福.基于级连式支持向量机的文本自动分类算法[J].黑龙江大学自然科学学报,2006,23(6):814-817.
2解冲锋,李星.基于序列的文本自动分类算法[J].软件学报,2002,13(4):783-789. 被引量：35
3赵敏涯.文本自动分类算法的比较与研究[J].电脑知识与技术（过刊）,2009,15(2X):1183-1184. 被引量：1
4张保富,施化吉.一种基于粗糙集文本自动分类的改进算法[J].计算机工程与应用,2011,47(24):129-131. 被引量：1
5唐云,罗俊松.基于粗糙集和BP神经网络的文本分类研究[J].计算机仿真,2011,28(6):219-222. 被引量：7
6张其华.习惯—惯性—话网[J].互联网世界,1998(10):79-79.
7令狐冲浪.免费邮箱大哥大[J].少年电世界,2000(10):44-44.
8伊哥.为什么收不到索易电子刊物？[J].少年电世界,2003(9):95-96.
9汪晓刚,蒋健安,孙志挥.一种面向专利信息的文本自动分类算法[J].科技创新导报,2009,6(15):25-26. 被引量：2
10陈勤,张国煊,王小华.基于模糊综合评判的文本自动分类算法[J].计算机应用与软件,2001,18(9):56-59. 被引量：1

郑州大学学报（理学版）

2007年第2期

浏览历史

内容加载中请稍等...

基于关联规则的中文文本分类算法的改进被引量：6

参考文献5

二级参考文献34

共引文献76

同被引文献56

引证文献6

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于关联规则的中文文本分类算法的改进 被引量：6

参考文献5

二级参考文献34

共引文献76

同被引文献56

引证文献6

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于关联规则的中文文本分类算法的改进被引量：6