一种基于特征提取的二级文本分类方法被引量：1

A Two-level Text Classification Based on Feature Extraction

下载PDF

导出

摘要提出了一种改进的基于特征提取的二级文本分类方法.通过提取出文本的特征项并计算其权重值,将文本表示成由特征项和权重值组成的向量,利用向量的夹角余弦计算二级分类模型下文本之间的相似度,可以更准确快速地定位海量信息.实验结果表明本文提出的分类方法的准确率优于传统的类中心分类法,提高了系统的适应性和分类能力. An improved two-level text classification method is proposed,based on feature extraction.First,the characteristics of the text were extracted,and the weights were calculated.Then,the text was represented as a vector composed of characteristics and weight value.The vector angle cosine was used to calculate the similarity among the text so as to position the vast amount of information more accurately and rapidly.The experimental results show that the proposed classification method is superior to the existing center classification method in accuracy of classification,improving the adaptability and classification ability of the system.

作者邹丽娜凌捷

机构地区广东工业大学计算机学院

出处《广东工业大学学报》 CAS 2012年第4期65-68,共4页 Journal of Guangdong University of Technology

基金广东省教育部产学研合作资助项目(2011A090200068) 广东省自然科学基金资助项目(9151009001000043)

关键词文本分类特征提取向量空间模型 KNN算法 text classification feature extraction vector space model KNN algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1Yi-Hsing Chang.Automatically Constructing an Effective Domain Ontology for Document Classification[J].Computer Technology and Application,2011,2(3):182-189. 被引量：2
2祝伟华,卢熠,刘斌斌.基于HMM的Web信息抽取算法的研究与应用[J].计算机科学,2010,37(2):203-206. 被引量：12
3吕震宇,林永民,赵爽,陈景年,朱卫东.基于类信息的文本特征选择与加权算法研究[J].计算机工程与应用,2008,44(20):145-147. 被引量：8
4张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：97

二级参考文献27

1林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
2钱云涛,谢维信.一种由模糊逻辑神经元网络实现的聚类分析方法[J].西安电子科技大学学报,1995,22(1):1-7. 被引量：12
3赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
4钟敏娟,郝谦,刘云中.基于多模板隐马尔可夫模型的文本信息抽取算法[J].计算机工程,2006,32(2):203-205. 被引量：9
5王雷,陈治平,李志成.基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J].山东大学学报（理学版）,2006,41(3):25-28. 被引量：4
6袁方,苑俊英.基于类别核心词的朴素贝叶斯中文文本分类[J].山东大学学报（理学版）,2006,41(3):111-114. 被引量：12
7柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息,2006,22(08X):24-26. 被引量：32
8张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
9尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
10Yang Y,Pedersen J O.A comparative study on feature selection in text categorization[C]//Proc of the 14th Int'l Conf on Machine Learning(ICML' 97 ).San Francisco : Morgan Kaufmann, 1997.

共引文献114

1刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
2常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
3任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
4唐明,张自力.文本挖掘在多文化交流平台中的应用研究[J].西南师范大学学报（自然科学版）,2006,31(3):110-113. 被引量：2
5杨洁,张建忠,申庆永,何云.基于Milter实现的中文垃圾邮件过滤系统[J].计算机工程,2007,33(1):267-270.
6伍建军,康耀红.一种基于特征词聚类的文本分类方法[J].情报理论与实践,2007,30(1):109-111. 被引量：2
7伍建军,康耀红.文本分类中特征选择方法的比较和改进[J].郑州大学学报（理学版）,2007,39(2):110-113. 被引量：16
8葛润霞,刘培玉.基于最近邻聚类的INTERNET信息检索系统[J].信息技术与信息化,2007(1):60-62.
9陈益军.一种基于元数据方法的KNN网页分类器的设计与实现[J].福建电脑,2007(6):137-137.
10伍建军,康耀红.文本分类中特征降维方式的研究[J].海南大学学报（自然科学版）,2007,25(1):62-66. 被引量：4

同被引文献9

1王卫平,郭长旺.基于文本挖掘的企业竞争情报系统[J].现代情报,2004,24(9):188-189. 被引量：7
2张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：97
3周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
4Yi-Hsing Chang.Automatically Constructing an Effective Domain Ontology for Document Classification[J].Computer Technology and Application,2011,2(3):182-189. 被引量：2
5黄晓斌,钟辉新.基于大数据的企业竞争情报系统模型构建[J].情报杂志,2013,32(3):37-43. 被引量：103
6闫永刚,马廷淮,王建.KNN分类算法的MapReduce并行化实现[J].南京航空航天大学学报,2013,45(4):550-555. 被引量：21
7徐雅斌,李卓,陈俊伊.基于改进K最近邻分类算法的不良网页并行识别[J].计算机应用,2013,33(12):3368-3371. 被引量：6
8顾涛.基于大数据的竞争情报协作分析研究[J].情报科学,2013,31(12):114-118. 被引量：33
9滕少华,樊继慧,陈潇,张巍,刘冬宁,梁路.基于KNN的多组合器协同挖掘局域气象数据[J].广东工业大学学报,2014,31(1):25-31. 被引量：8

引证文献1

1王勇,许钟涛,王瑛.大数据环境下竞争情报系统的研究与实现[J].广东工业大学学报,2014,31(3):27-31. 被引量：9

二级引证文献9

1杨洋,陈立军,张莹.我国竞争情报系统模型构建研究综述[J].情报科学,2016,34(6):98-102. 被引量：5
2梁春华.大数据环境情报研究平台发展现状与思考[J].情报理论与实践,2017,40(6):63-66. 被引量：23
3王晓慧,李迎迎,成志强.大数据时代我国企业竞争情报研究综述[J].电子商务,2017,18(4):21-23. 被引量：3
4刘冬宁,卢明俊,黄宝莹,梁路.先序约束下的群组角色指派及其优化[J].广东工业大学学报,2017,34(3):21-29. 被引量：2
5谢振东,吴金成,李之明,伍冠桦.企业大数据能力的构建与培育研究[J].广东工业大学学报,2017,34(3):110-114. 被引量：16
6石进,李益婷,刘千里.企业竞争情报态势感知系统研究[J].情报杂志,2019,38(4):43-51. 被引量：19
7曲欣.“互联网+”背景下企业竞争情报变革模式[J].丝路视野,2020,0(1):36-36.
8孙明霞,刘红霞,索德军,李彩玲,梁春华.航空发动机情报研究工作平台功能需求研究[J].情报理论与实践,2020,43(4):18-23. 被引量：1
9张素娟.第四范式视角下基于多源信息与多元方法的企业竞争情报服务范式[J].情报探索,2020(8):31-36. 被引量：5

1林思娟,林柏钢,许为,杨旸.一种基于词语能量值变化的微博热点话题发现方法研究[J].信息网络安全,2015(10):46-52. 被引量：7
2祝闽琼,顾鹏宇,李佳佳.语音播报测重值设计[J].软件导刊,2013,12(6):136-139.
3吕乾涛,秦兴.用于动物的动态称重系统设计与研究[J].工业控制计算机,2016,29(11):100-101. 被引量：13
4段振云,李文强,赵文辉.基于BP神经网络的飞机称重传感器在线标定研究[J].自动化仪表,2016,37(11):99-102.
5夏虎,庄健,于德弘.面向高维特征故障数据的进化软子空间聚类算法[J].西安交通大学学报,2013,47(5):115-120. 被引量：1
6李明明,耿玉琴,何云云.基于物联网的体重秤的设计[J].测控技术,2016,35(6):153-156. 被引量：2
7韩义波,韩璞.一种迭代加权更新的带加速算子的半监督AP聚类算法[J].计算机应用研究,2015,32(2):376-378. 被引量：1
8李金旭,管彦诏,陈纪旸,马晓静,杨江利.基于S7-300PLC的控制系统与在线称重机通讯的研究[J].电子世界,2016,0(16):73-74.
9徐春风,王庭有.基于PIC单片机的谷物容重测量系统设计[J].机电产品开发与创新,2007,20(5):117-118. 被引量：1
10李胜勇.按摩椅自动称重系统设计[J].仪表技术,2015(9):34-35 38. 被引量：1

广东工业大学学报

2012年第4期

浏览历史

内容加载中请稍等...

一种基于特征提取的二级文本分类方法被引量：1

参考文献4

二级参考文献27

共引文献114

同被引文献9

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于特征提取的二级文本分类方法 被引量：1

参考文献4

二级参考文献27

共引文献114

同被引文献9

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于特征提取的二级文本分类方法被引量：1