基于扩展概念格模型的文本分类规则提取的研究被引量：3

Research on the Extracting Rules of Text Categorization Based on the Extended Concept Lattice Model

下载PDF

导出

摘要文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。概念格是规则提取和数据分析的有效工具,然而概念格的构造效率始终是概念格应用的一大难题。本文研究了基于扩展概念格模型的文本分类规则提取,利用粗糙集和扩展概念格模型来进行分类规则提取。该方法利用概念树,极大地除去了冗余的概念,只需要建造很少的概念就能够提取出全部的分类规则,不仅效率较高,而且同时提取的分类规则与概念格相同。本文算法在MATLAB7.0的环境中运行的实验表明,查全率比KNN算法和SVM算法稍低,但是查准率比它们都高,因此该分类规则用于文本分类时效果与KNN和SVM相当。 The technique of auto text categorization is the foundation in text mining, and text feature selection is the core of the text categorization. Concept lattice is a very effective method to extract rules and data analysis, however, its building efficiency is very low. This paper extracts the rules of the text categorization based on the extended concept lattices model, takes advantage of concept lattice in the categorization rule extracting which eliminates the useless concepts. This method can extract all rules by using a few concepts, which is efficient. This algorithm shows in the environment of running MAT-LAB7. 0 that the recall-precision is slightly lower than KNN and SVM , but precision ratio is higher than them. Therefore, if the classification rules are applied to text categorization, the categorization effect can be comparable with KNN and SVM.

作者周顽周才学

机构地区九江学院信息科学与技术学院．江西九江

出处《计算机工程与科学》 CSCD 北大核心 2010年第8期98-100,103,共4页 Computer Engineering & Science

关键词文本分类数据挖掘粗糙集概念格分类规则 document eategorization data mining rough set,concept lattice categorization rule

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Liu B, Hsu W, Ma Y M. Integrating Classification and Association Rule Mining [C]//Proc of the 4th Int'l Conf on Knowledge Discovery and Data Mining, 1998 : 80-86.
2Will R. Restructuring Lattice Theory: An Approach Based on Hierarchies on Concepts, Ordered Sets Dordrecht[M]. Boston: Reidel, 1982.
3张文修吴伟志梁吉业.粗糙集理论与方法[M].北京:科学出版社,2003.107-112.
4Hu Xuc-Gang, Chen Hui. The Mining of Classification Rules Based on Multiple Extended Concept Lattice[C]//Proc of ICMLC'05,2005 : 18-21.
5Dobole F, Sebastinai F. Supervised Term Weight for Automated Text Categorization[C]//Proc of the 18th ACM Symp on Applied Computing, 2003 : 784-788.
6Lertnattee V, Theeramkong T. Effect of Term Distributions on Centroi&Based Text Categorization[J]. Information Sciences,2004,158(1) :89- 115.
7Wang Hao,Yang Jing, Hu Xue-gang. A New CIassification Algorithm Based on Entropy and Relative Reduced Extended Concept Lattice[C]//Proc of ICMLC'04, 2004 :26-29.

共引文献103

1王名扬,卫金茂,伊卫国.变精度粗集模型在决策树生成过程中的应用[J].计算机工程与科学,2005,27(1):96-98. 被引量：4
2彭玉兵,吴根秀,张亮.近似决策规则的形成及其应用[J].江西师范大学学报（自然科学版）,2005,29(1):18-22.
3胡利平,周云,田东,傅泽田.粗分析案例检索算法在鱼病诊断中的应用研究[J].计算机工程与应用,2005,41(18):184-187. 被引量：1
4蔡金燕,肖小锋,梁玉英,马飒飒.电子设备智能监测与诊断技术综述[J].测试技术学报,2005,19(2):204-208. 被引量：12
5方婷婷.一般二元关系下的粗糙度不等式[J].天津工程师范学院学报,2005,15(4):46-48.
6朱六兵,唐德波,杨斌.基于粗糙集信息观的决策表属性约简方法[J].信息技术,2006,30(1):46-49. 被引量：6
7王刚,黄丽华,夏洁,高阳.新的混合智能系统R-FC-DENN[J].系统工程与电子技术,2006,28(3):448-453. 被引量：1
8王海花,朱六兵,杨斌.一种新的基于区别矩阵的决策表属性约简方法[J].南昌大学学报（工科版）,2006,28(2):160-163. 被引量：2
9王宏.基于属性约简的决策树构建[J].统计与决策,2006,22(14):60-61. 被引量：2
10吴朗,胡红武.粗糙集理论在评定农村公务员素质中的应用[J].安徽农业科学,2006,34(14):3487-3487. 被引量：1

同被引文献27

1宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
2翟林,刘亚军.支持向量机的中文文本分类研究[J].计算机与数字工程,2005,33(3):21-23. 被引量：14
3张文修,魏玲,祁建军.概念格的属性约简理论与方法[J].中国科学（E辑）,2005,35(6):628-639. 被引量：194
4陈立孚,周宁,李丹.基于机器学习的自动文本分类模型研究[J].现代图书情报技术,2005(10):23-27. 被引量：9
5倪茂树,赵晶,林鸿飞.生物医学文本分类方法比较研究[J].计算机工程与应用,2007,43(12):147-149. 被引量：3
6刘美茹.基于LSI和SVM的文本分类研究[J].计算机工程,2007,33(15):217-219. 被引量：8
7Ganter B,wille R. Formal Concept Analysis,Mathematical Foundations[M].Berlin:Spriniger,1999.
8Yao.Y.Y. Formal concept analysis and Hierarchical classes analysis[Z].
9Yao,Y.Y. Concept lattices in rough set theory[A].IEEE Catalog Nunmber:04TH8736,2004.27-30.796-801.
10Yao,Y.Y. A comparative study of formal concept analysis and rough set theory in data analysis,Rough Sets and Current Trends in Computing[A].RSCTC'04,2004.

引证文献3

1徐坤,曹锦丹,毕强.FCA在医学领域文本分类中的研究和应用[J].现代图书情报技术,2012(3):23-26. 被引量：2
2万宇文,黄林颖.粗糙集和模糊集中概念格的学习[J].科技广场,2013(11):6-11. 被引量：1
3李湘东,潘练.LDA模型下文本自动分类算法比较研究——基于网页和图书期刊等数字文本资源的对比[J].信息资源管理学报,2015,5(4):24-31. 被引量：5

二级引证文献8

1王昊,苏新宁,朱惠.中文医学专业术语的层次结构生成研究[J].情报学报,2014,33(6):594-604. 被引量：4
2李湘东,丁丛,高凡.基于复合加权LDA模型的书目信息分类方法研究[J].情报学报,2017,36(4):352-360. 被引量：14
3森维哈,明均仁.基于知识聚合的数字图书馆社区平台构建研究[J].图书馆学研究,2018,0(7):13-18. 被引量：6
4刘高军,陈强强.基于极限学习机和混合特征的中文书目自动分类模型研究[J].北方工业大学学报,2018,30(5):99-104. 被引量：5
5叶辉,卓奕荣,曹东,李敬华.基于深度学习的中文病历病史智能分类研究[J].中国数字医学,2019,14(3):41-43. 被引量：8
6赵旸,张智雄,刘欢,丁良萍.基于BERT模型的中文医学文献分类研究[J].数据分析与知识发现,2020,4(8):41-49. 被引量：29
7言圣,杨献,王继丽.基于LKJ异常数据的复杂关联网络模型研究[J].控制与信息技术,2020(6):72-76.
8曹丽靓.运用物理知识提升篮板球技术[J].中学物理教学参考,2017,0(8X):32-33.

1王旭阳,李明.基于概念格的知识约简算法的实现[J].科学技术与工程,2009,9(1):127-130.
2孟慧丽,马媛媛,徐久成.决策概念格及决策规则的提取[J].河南师范大学学报（自然科学版）,2013,41(6):134-137. 被引量：1
3胡学钢,刘卫,王德兴.基于剪枝概念格模型的频繁项集表示及挖掘[J].合肥工业大学学报（自然科学版）,2007,30(9):1095-1098. 被引量：3
4徐红升,张瑞玲.基于粗概念格模型的电子商务领域本体的构建研究[J].计算机工程与科学,2014,36(3):530-535. 被引量：1
5温云霞,王俊红.一种粒度概念格模型及其构造方法研究[J].计算机工程与应用,2016,52(4):46-50. 被引量：1
6安靖,陈宇行.形式化概念分析在信息检索中的应用[J].软件导刊,2013,20(1):121-122.
7胡学钢,陈慧,张玉红,马冯.基于分布式概念格的分类规则挖掘[J].合肥工业大学学报（自然科学版）,2007,30(2):132-136. 被引量：2
8马明华,邓廷权.直觉模糊概念意义下的属性约简[J].哈尔滨工程大学学报,2012,33(11):1447-1452. 被引量：1
9周游.基于MapReduce和AprioriAll的分布式序列挖掘算法[J].计算机光盘软件与应用,2014,17(23):57-58.
10李云,徐涛,田素方,李拓.带兴趣度的序列概念格模型及其构造[J].计算机应用,2008,28(3):726-728. 被引量：4

计算机工程与科学

2010年第8期

浏览历史

内容加载中请稍等...

基于扩展概念格模型的文本分类规则提取的研究被引量：3

参考文献7

共引文献103

同被引文献27

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于扩展概念格模型的文本分类规则提取的研究 被引量：3

参考文献7

共引文献103

同被引文献27

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于扩展概念格模型的文本分类规则提取的研究被引量：3