基于语义关联的文本分类研究被引量：4

Text categorization based on semantic relatedness

下载PDF

导出

摘要传统的文本表示是在向量空间模型的基础上,采用特征选择方法降低文本的维数,这种方法认为文本中词语是相互独立的,没有考虑彼此之间的语义信息。文章提出一种新的基于语义特征选择的文本分类方法,在已有特征选择的基础上,利用词语之间的语义关联性,将那些与已选择的词语具有密切联系的词语加入词语特征空间。实验表明,该方法与已有的特征选择方法比较,提高了文本分类的精度。 Traditional text representation is based on the vector space model that uses the method of feature selection to reduce the dimension of the feature space. The words in the＇text are considered to be mutually independent without any semantic information between them. In this paper, a new method of text categorization is proposed based on semantic feature selection. Based on the traditional feature selection and considering the semantic relatedness between the words, those words that have strong semantic relatedness with the traditionally selected ones are also added into the feature space. The experimental results show that compared with the traditional methods of feature selection, the proposed method in the paper improves the precision of text categorization.

作者张浩谢飞

机构地区合肥工业大学计算机与信息学院皖南医学院基础医学部合肥师范学院计算机科学与技术系

出处《合肥工业大学学报（自然科学版）》 CAS CSCD 北大核心 2011年第10期1501-1504,共4页 Journal of Hefei University of Technology：Natural Science

基金安徽省高校自然科学研究基金资助项目(KJ2010B168) 安徽省高校优秀人才青年基金资助项目(2010SQRL148 2010SQRL149ZD)

关键词文本分类向量空间模型特征选择语义关联 text categorization vector space model feature selection semantic relatedness

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1韩红旗,朱东华,刘嵩,汪雪锋.关联词约束的半监督文本分类方法[J].计算机工程与应用,2010,46(4):113-116. 被引量：3
2朱靖波,王会珍,张希娟.面向文本分类的混淆类判别技术[J].软件学报,2008,19(3):630-639. 被引量：9
3Yang Y, Lin X. A re-examination of text categorization methods [C]//The 22 nd Annual ACM SIGIR Conf on Reaearch and Development in Information Retrieval. New York: ACM Press, 1999 : 42- 49.
4张文良,黄亚楼,倪维健.一种基于聚类的文本特征选择方法[J].计算机应用,2007,27(1):205-206. 被引量：10
5黄萱菁,吴立德,石崎洋之,徐国伟.独立于语种的文本分类方法[J].中文信息学报,2000,14(6):1-7. 被引量：52
6周水庚,关佶红,胡运发.隐含语义索引及其在中文文本处理中的应用研究[J].小型微型计算机系统,2001,22(2):239-243. 被引量：41
7李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
8何伟,胡学钢,谢飞.基于张量空间模型的中文文本分类[J].合肥工业大学学报（自然科学版）,2010,33(12):1806-1810. 被引量：2
9Salton G,Wong A,Yang C S. On the specification of term values in automatic indexing [J]. Journal of Documenta- tion, 1973,29(4) : 351- 372.
10Yang Y. A comparative study on feature selection in text categorization [C]//Proceeding of the Fourteenth Interna- tional Conference on Machine Learning (ICML 97), 1997 : 412-420.

二级参考文献122

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3李昆仑,黄厚宽,田盛丰,刘振鹏,刘志强.模糊多类支持向量机及其在入侵检测中的应用[J].计算机学报,2005,28(2):274-280. 被引量：49
4胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
5吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
6张翔,肖小玲,徐光祐.基于样本之间紧密度的模糊支持向量机方法[J].软件学报,2006,17(5):951-958. 被引量：84
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
8Shankar S,Karypis G.Weight adjustment schemes for a centroid based classifier[R].Computer Science Technical Report TR00-035 ,Department of Computer Science,University of Minnesota,Minneapolis,Minnesota, 2000.
9Yang Y.An Evaluation of Statistical Approaches to Text Category[J]. Journal of Information Retrieval, 1999 ; 1 (1/2) :67-88.
10Cairo R A,Partridge M.A Comparative Study of Principal Component Analysis Techniques[C].In:Proe Ninth Australian Conf On Neural Networks, Brisbane, QLD, 1998.

共引文献737

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：4
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
4张云涛,龚玲,王永成.基于主成分分析的文本检索结果集的排序和聚类[J].计算机科学,2002,29(z1):45-46.
5王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
6吕彦红,陈基漓,阮百尧.基于遗传算法的中文自动分类特征选择[J].山东理工大学学报（自然科学版）,2009,23(1):100-102.
7蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
8姚学礼.文本分类中的特征提取方法的研究[J].光盘技术,2009(6):15-16.
9黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
10李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20

同被引文献43

1牟廉明.k子凸包分类方法[J].山西大学学报（自然科学版）,2011,34(3):374-380. 被引量：5
2王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：24
3张承立,陈剑波,齐开悦.基于语义网的语义相似度算法改进[J].计算机工程与应用,2006,42(17):165-166. 被引量：38
4琚旭,王浩,姚宏亮.基于Boosting的支持向量机组合分类器[J].合肥工业大学学报（自然科学版）,2006,29(10):1220-1222. 被引量：7
5席运江,党延忠.基于加权知识网络的个人知识存量表示与度量方法[J].管理学报,2007,4(1):28-31. 被引量：8
6周晓飞,姜文瀚,杨静宇.l_1范数最近邻凸包分类器在人脸识别中的应用[J].计算机科学,2007,34(4):234-235. 被引量：5
7胡学钢,董学春,谢飞.基于词向量空间模型的中文文本分类方法[J].合肥工业大学学报（自然科学版）,2007,30(10):1261-1264. 被引量：14
8Gomaa W H, Fahmy A A. A survey of text similarity ap- proaches [J]. International Journal of Computer Applica-tions, 2013,68(13) : 13- 18.
9Gupta N, Saxena P C, Gupta J P. Document summarization based on sentence ranking using vector space model[J]. In- ternational Journal of Data Mining, Modeling and Manage- ment, 2013,5(4) : 380-406.
10Figueiredo F, Rocha L, Couto T, et al. Word features for text classification [J]. Information Systems, 2011,36(5) ,843-858.

引证文献4

1廖开际,杨彬彬.基于加权语义网的文本相似度计算的研究[J].情报杂志,2012,31(7):182-186. 被引量：10
2牟廉明.基于度量学习的邻域k凸包集成方法[J].合肥工业大学学报（自然科学版）,2013,36(2):171-175. 被引量：2
3刘星含,霍华.基于互信息的文本自动摘要[J].合肥工业大学学报（自然科学版）,2014,37(10):1198-1203. 被引量：7
4王渊,刘业政,姜元春.基于粗糙KNN算法的文本分类方法[J].合肥工业大学学报（自然科学版）,2014,37(12):1513-1517. 被引量：5

二级引证文献24

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2郭佳.浅析数据挖掘在高校教育实习评定中的应用[J].计算机光盘软件与应用,2013,16(18):215-217.
3赵士杰,陈秋.基于语义和TF-IDF的项目相似度计算方法[J].计算机时代,2015(5):1-3. 被引量：8
4章宦记.改良的kmeans与K近邻算法特性分析[J].电子产品世界,2016,23(1):79-80. 被引量：4
5程玉胜,梁辉,王一宾,任勇.结合关键词微变和LD算法的文本相似性研究[J].计算机工程与应用,2016,52(8):70-73.
6李孟爽,昝红英,贾会贞.基于多特征和Ranking SVM的微博新闻自动摘要研究[J].郑州大学学报（理学版）,2017,49(2):43-47. 被引量：2
7刘海燕,张钰.基于LexRank的中文单文档摘要方法[J].兵器装备工程学报,2017,38(6):85-89. 被引量：5
8杨毅.基于句子聚类的中文文本自动摘要算法的研究[J].微型电脑应用,2017,33(8):54-56. 被引量：1
9尹绍锋,郑蕙,徐少华,荣辉桂,张娜.一种基于特征库投影的文本分类算法[J].中南大学学报（自然科学版）,2017,48(7):1782-1789. 被引量：1
10牟廉明,刘好斌.基于特征选择的相对k子凸包分类方法[J].数据采集与处理,2017,32(5):1005-1011.

1周立柱,王小京,衣丰超,王健斐.面向对象的语义关联数据模型查询语言在C语言中的嵌入[J].软件学报,1992,3(1):60-64. 被引量：3
2牛延莉,张化.文本自动分类研究进展[J].软件导刊,2008,7(4):24-26. 被引量：3
3刘洁.计算机技术与信息技术联用的探讨[J].中国科技博览,2015,0(27):277-277.
4赵书阳.论通信技术与计算机技术融合[J].电子世界,2014(8):148-148. 被引量：7
5陈祎荻,秦玉平.基于机器学习的文本分类方法综述[J].渤海大学学报（自然科学版）,2010,31(2):201-205. 被引量：12
6崔彩霞,王素格.基于粗集的支持向量机文本分类方法研究[J].科技广场,2006(8):4-6. 被引量：1
7崔彩霞,张朝霞.文本分类方法对比研究[J].太原师范学院学报（自然科学版）,2007,6(4):52-54. 被引量：5
8何国辉,吴礼发.基于机器学习的文本分类技术的研究[J].计算机与现代化,2009(8):4-6. 被引量：9
9冀胜利,李波.基于SVM的中文文本分类算法[J].重庆工学院学报（自然科学版）,2008,22(7):84-87. 被引量：5
10殷越.计算机信息网络及其应用关键技术刍议[J].数字技术与应用,2016,34(7):212-212. 被引量：1

合肥工业大学学报（自然科学版）

2011年第10期

浏览历史

内容加载中请稍等...

基于语义关联的文本分类研究被引量：4

参考文献17

二级参考文献122

共引文献737

同被引文献43

引证文献4

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于语义关联的文本分类研究 被引量：4

参考文献17

二级参考文献122

共引文献737

同被引文献43

引证文献4

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于语义关联的文本分类研究被引量：4