文本分类中基于词条聚合的特征抽取被引量：4

Feature extraction of text classification based on word clustering

下载PDF

导出

摘要特征抽取是文本分类的重要研究领域,针对原始特征空间的高维性与稀疏性给分类算法带来"维数灾难"问题,探讨了基于词条聚合的特征抽取方法,设计了一种利用词条聚合进行特征抽取的文本分类的方案.该方案利用改进的树型动态自组织映射(TGSOM)进行词条聚合,并根据聚合特征的特点,考虑所包含的词条的文档频率的不同和区分文档类别属性的能力的不同,提出了一种新权重计算方法,最后利用SPR INT决策树算法进行分类,实验表明该方法比普通方法分类精度提高4.32%. Feature extraction is essential for text classification. In this paper we discussed the basic ideas behind word-clustering-based feature extraction. Then a text classification method for feature extraction by the means of words clustering was presented. It employed an improved tree-structured growing self-organization map （TGSOM） to carry out word clustering. Also a new formula for calculating weights was developed by taking account of the distinction between clustered word features and plain word features. Finally, the SPRINT decision tree was applied to complete the text classification. Experiments showed that the precision of text classification using the proposed method is improved by 4.32%.

作者蒋宗礼徐学可李帅

机构地区北京工业大学计算机学院清华大学电子工程系

出处《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2008年第11期1205-1209,共5页 Journal of Harbin Engineering University

关键词特征抽取词条聚合 TGSOM 权重计算 feature extraction word clustering TGSOM weight calculation

分类号 TP397.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1BAKER L D, MCCALLUM A K. Distributional clustering of words for text classification [ C ]// ACM SIGIR 98. Melbourne, Australia, 1998: 96-103.
2王煜,张明,马力.基于词条聚合和决策树的文本分类方法[J].河北大学学报（自然科学版）,2005,25(3):338-342. 被引量：4
3王煜,王正欧.基于模式聚合和决策树的文本分类规则抽取[J].情报科学,2006,24(1):96-99. 被引量：3
4张晓辉,李莹,王华勇,赵宏.应用特征聚合进行中文文本分类的改进KNN算法[J].东北大学学报（自然科学版）,2003,24(3):229-232. 被引量：60
5KOHONEN T. The self-organizing maps [ J ]. Proceedings of the IEEE, 1990, 78 (9) : 1464-1480.
6王莉,王正欧.TGSOM:一种用于数据聚类的动态自组织映射神经网络[J].电子与信息学报,2003,25(3):313-319. 被引量：28
7庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
8DEVOLVE F, SEBASTIANI F. Supervised term weighting for automated text categorization [ C ]// Proceedings of the 2003 ACM Symposium on Applied Computing. Melbourne, USA, 2003: 784-788.
9MEHTA M, AGRAWAL R, RISSANEN J. SLIQ: A fast scalable classifier for data mining[ C]//Proc 1996 Int Conf Extending DataBase Technology. Avignon, France, 1996 : 573-580.
10SHAFER J C, AGRAWAL R, MEHTA M. SPRINT: A scalable parallel classifier for data mining[ C ]//Proc 1996 Int Conf Very Large DataBases. Bombay, India, 1996: 544-555.

二级参考文献31

1黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
2鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
4[1]M.S. Chen, J. Han, P. S. Yu, Data niining, An overview fiom a database perspective, IEEE Trans. on Knowledge & Data Engineering, 1996, 8(6), 866-883 .
5[2]T. Kohonen, Self-Organization and Associate Memory, Berlin, Springer-Verlag, 1984, Chapter 5.
6[3]D. Alahakoon, S. K. Halgamuge, Dynamic self-organizing maps with controlled growth for knowledge discovery, IEEE Trans. on Neural Networks, 2000, NN-11(3), 601-614.
7[4]D. Choi, S. Park, Self-creating and organizing neural networks, IEEE Trans. on Neural Networks,1994, NN-5(4), 561-575.
8黄萱菁，2000 International Conference on Multilingual Information Processing，2000年，37页
9鲁松，2000 International Conference on Multilingual Information Processing，2000年，31页
10卜东波，博士学位论文，2000年

共引文献389

1朱丹,吴兹古力.基于机器视觉的农业机械图像识别系统分析[J].农机化研究,2020,42(10):28-31. 被引量：13
2李敏,冯亚丽,吴东林.采摘机器人动态果实目标检测与跟踪技术研究——基于云存储[J].农机化研究,2020,42(9):207-211. 被引量：10
3张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
4安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
5蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
6李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
7蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
8孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
9杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
10李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.

同被引文献48

1赵林,胡恬,黄萱菁,吴立德.基于知网的概念特征抽取方法[J].通信学报,2004,25(7):46-54. 被引量：17
2王煜,张明,马力.基于词条聚合和决策树的文本分类方法[J].河北大学学报（自然科学版）,2005,25(3):338-342. 被引量：4
3熊亮.基于概念树的文本自动分类系统的研究与实现[J].计算机工程与应用,2005,41(30):6-9. 被引量：2
4http://www.shenmeshi.com/Education/Education_20090827155153.html.
5张华平.ICTCLAS[CP].http://www.ictcias.org/.
6CHANG C C, LIN C J. LIBSVM : a library for support vector ma- chines [ CP]. 2001. Software available at http://www, csientu, edu. tw/-cjlin/libsvm.
7刘群李素建.基于《知网》的词汇语义相似度计算.中文计算语言学,2002,7(2):59-76.
8HE Cong, HAN Tong Loh. Grouping of TRIZ Inventive Principles to Facilitate Automatic Patent Classification [ J ]. Expert Systems with Applications, 2008, 34( 1 ) :788 -795.
9WEBB Alan. TRIZ: An Inventive Approach to Invention [ J ]. Manufacturing Engineer, 2002, 81 (4) :171 - 177.
10蔡小艳,寇应展.汉语词法分析系统ICTCLAS在Nutch中的应用与实现[J].军械程学院学报,2008,20(5):63-66.

引证文献4

1朱坤红,邓蓉.基于知识树的文本自动分类方法探索[J].电脑知识与技术,2010,6(8):6305-6306.
2何杰,朱征宇,董曙佳,于春雷.基于概念词的特征提取方法[J].世界科技研究与发展,2012,34(1):119-122.
3翟继强,王克奇.依据TRIZ发明原理的中文专利自动分类[J].哈尔滨理工大学学报,2013,18(3):1-5. 被引量：11
4沈传年,徐彦婷.数据脱敏技术研究及展望[J].信息安全与通信保密,2023(2):105-116. 被引量：4

二级引证文献15

1胡正银,方曙.专利文本技术挖掘研究进展综述[J].现代图书情报技术,2014(6):62-70. 被引量：17
2傅骏,魏继业,周杰,殷国富.基于TRIZ矛盾矩阵的快速熔模铸造工艺开发与实践[J].铸造技术,2016,37(2):380-383. 被引量：6
3闫树军,何邦贵,王伟,李勇,万畅.基于TRIZ矛盾矩阵的热钢在线自动打码装置的创新[J].冶金设备,2016(6):4-8. 被引量：1
4秦晓梅.基于TRIZ的专利标引系统的设计与实现[J].电脑知识与技术,2018,14(8):65-66. 被引量：1
5刘晓英,文庭孝,孙玥莹.专利技术信息挖掘及实证研究:以我国的行李箱专利为例[J].图书馆,2018(4):37-43. 被引量：6
6胡学钢,杨恒宇,林耀进,鲍艳伟.基于协同过滤的专利TRIZ分类方法[J].情报学报,2018,37(5):512-518. 被引量：10
7文庭孝,李俊,杜林.基于技术路线图的专利技术信息挖掘实证研究——以无线鼠标技术为例[J].大学图书情报学刊,2019,37(1):7-13. 被引量：4
8王保越,及歆荣.基于TRIZ发明原理的专利自动分类方案设计与实现[J].电脑知识与技术,2019,15(8Z):215-217. 被引量：3
9吕璐成,韩涛,周健,赵亚娟.基于深度学习的中文专利自动分类方法研究[J].图书情报工作,2020,64(10):75-85. 被引量：23
10张春祥,赵凌云,高雪瑶.结合词形词性和译文的汉语词义消歧[J].哈尔滨理工大学学报,2020,25(3):131-136. 被引量：2

1王煜,张明,马力.基于词条聚合和决策树的文本分类方法[J].河北大学学报（自然科学版）,2005,25(3):338-342. 被引量：4
2王莉,王正欧.TGSOM:一种用于数据聚类的动态自组织映射神经网络[J].电子与信息学报,2003,25(3):313-319. 被引量：28
3刘飞荣,段隆振,陈梅香,杨艳玲.一种基于动态模糊Kohonen网络的聚类模型及应用[J].南昌大学学报（理科版）,2010,34(6):603-606. 被引量：5
4徐建锁,王正欧,王莉.一种基于自组织神经网络的中文文本聚类新方法[J].情报学报,2003,22(6):676-680. 被引量：11
5陈立潮,李鑫环,张英俊,赵勇.基于改进的TGSOM图像分割算法研究[J].计算机仿真,2010,27(6):239-243.
6王煜,王正欧.基于模式聚合和决策树的文本分类规则抽取[J].情报科学,2006,24(1):96-99. 被引量：3
7耿新青,王正欧.DFKCN:一种动态模糊自组织神经网络及其应用[J].计算机工程,2006,32(20):22-24. 被引量：1
8吴丽花,刘鲁,卫昆,吴菊华.基于动态自组织映射网的用户兴趣建模方法[J].计算机集成制造系统,2006,12(8):1183-1187. 被引量：7
9李清峰,周伟林,何静,丁小玲.一种基于模糊聚类的文本挖掘新方法[J].计算机应用研究,2009,26(12):4453-4456. 被引量：1
10耿新青,王正欧.TGFCM:基于模糊聚类的中文文本挖掘的新方法[J].计算机工程,2006,32(5):7-9.

哈尔滨工程大学学报

2008年第11期

浏览历史

内容加载中请稍等...

文本分类中基于词条聚合的特征抽取被引量：4

参考文献12

二级参考文献31

共引文献389

同被引文献48

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

文本分类中基于词条聚合的特征抽取 被引量：4

参考文献12

二级参考文献31

共引文献389

同被引文献48

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

文本分类中基于词条聚合的特征抽取被引量：4