基于词向量空间模型的中文文本分类方法被引量：14

Method of Chinese text categorization based on the word vector space model

下载PDF

导出

摘要大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。 Most of the methods of text categorization are based on the vector space model,but the high dimension of document vectors based on the model leads to difficulty in improving efficiency of the classifier. In view of the defect, a method of Chinese text categorization based on the word vector space model is presented in this paper. The characteristic words of a text are defined as space vectors, and the word-class supporting matrix can be gotten by training, and then the characteristic words and the word-class supporting matrix are used for computing text similarity. Experiment shows that the presented method has higher precision and efficiency.

作者胡学钢董学春谢飞

机构地区合肥工业大学计算机与信息学院

出处《合肥工业大学学报（自然科学版）》 CAS CSCD 北大核心 2007年第10期1261-1264,共4页 Journal of Hefei University of Technology：Natural Science

基金安徽省自然科学基金资助项目(050420207)

关键词文本分类向量空间模型 K-最近邻居词向量空间模型 text categorization vector space model K-nearest neighbor word vector space model

分类号 TP182 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1HanJiawei MichelineKambe.数据挖掘概念与技术[M].北京：机械工业出版社,2001..
2Friedman J H. Flexible metric nearest neighbor classification[R]. Department of Statistics and Stanford Linear Accelerator Center, Stanford University, 1994.
3庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
4Yang Y, Liu X. A re-examination of text categorization methods [C]//Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval. Berkeley,2002:42-49.
5Salton G, Wong A, Yang C S. On the specification of term values in automatic indexing[J]. Journal of Documentation, 1973,29(4) :351-372.
6Yang Yiming , Pederson J O. A comparative study on feature selection in text categorization[C]//Proceedings of the 14th International Conference on Machine learning. Nashville: Morgan Kaufmann,1997:412 420.
7周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165

二级参考文献16

1黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
2鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
4黄萱菁，2000 International Conference on Multilingual Information Processing，2000年，37页
5鲁松，2000 International Conference on Multilingual Information Processing，2000年，31页
6卜东波，博士学位论文，2000年
7Yang Yiming，Proceedings of ACMSIGIR Conference on Research and Development in Information Retrieval（SIGIR），1999年，42页
8Yang Yiming，J Information Retrieval，1999年，1卷，1/2期，67页
9Yang Yiming,Pederson J O.A Comparative Study on Feature Selection in Text Categorization [A].Proceedings of the 14th International Conference on Machine learning[C].Nashville:Morgan Kaufmann,1997:412-420.
10Y.Yang.Noise reduction in a statistical approach to text categorization[A].Proceedings of the 18th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR95)[C].Seattle:ACM Press,1995:256-263.

共引文献596

1安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
2蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
3李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
4蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
5王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
6孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
7蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
8黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
9杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
10尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.

同被引文献102

1贾鹤鹏.全球变暖、科学传播与公众参与——气候变化科技在中国的传播分析[J].科普研究,2007,2(3):39-45. 被引量：22
2江黎黎.网络舆情突发事件的处置机制研究[J].杭州电子科技大学学报（社会科学版）,2010,6(1):38-42. 被引量：13
3胡俊平,钟琦,罗晖.科普信息化的内涵、影响及测度[J].科普研究,2015,10(1):10-16. 被引量：18
4孙建涛,郭崇慧,陆玉昌,石纯一.多项式核支持向量机文本分类器泛化性能分析[J].计算机研究与发展,2004,41(8):1321-1326. 被引量：16
5高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
6李道国,苗夺谦,张红云.粒度计算的理论、模型与方法[J].复旦学报（自然科学版）,2004,43(5):837-841. 被引量：41
7孙国菊,张杰.中文文本分类的特征选取评价[J].哈尔滨理工大学学报,2005,10(1):76-78. 被引量：14
8张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
9包金龙.基于向量空间模型的信息检索系统的设计[J].情报杂志,2005,24(7):44-45. 被引量：16
10李道国,苗夺谦,张东星,张红云.粒度计算研究综述[J].计算机科学,2005,32(9):1-12. 被引量：54

引证文献14

1刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
2刘怀亮,张治国,马志辉,赵捧未.基于KNN的中文文本分类反馈学习研究[J].图书情报工作,2008,52(10):101-104. 被引量：3
3郝祥根,杨思春,高远飙,张伟.基于向量空间模型的中文问答系统研究与实现[J].苏州科技学院学报（自然科学版）,2009,26(1):76-80. 被引量：2
4陈键,胡学刚.词分布均衡度评价特征词选取方法的文本分类[J].安徽科技学院学报,2009,23(2):38-40. 被引量：1
5张焕明.网络舆情分析系统的研究与设计[J].微计算机信息,2010,26(18):119-121. 被引量：15
6何伟,胡学钢,谢飞.基于张量空间模型的中文文本分类[J].合肥工业大学学报（自然科学版）,2010,33(12):1806-1810. 被引量：2
7黄剑韬.基于商空间的向量空间模型文本分类方法[J].计算机应用,2011,31(A02):67-69. 被引量：5
8段园磊,张太红.基于向量空间模型中文农业网页分类技术研究[J].新疆农业大学学报,2012,35(2):164-167. 被引量：1
9王亨桂.电力行业舆情监测系统的设计与实现[J].信息安全与技术,2013,4(5):66-67. 被引量：1
10谢海源,钱明理,李劲松.人工智能技术在医疗耗材分类中的应用研究[J].中国医疗器械杂志,2014,38(5):386-388. 被引量：5

二级引证文献56

1王黎明,钟琦.论信息化在智慧科技馆中的几种角色[J].自然科学博物馆研究,2019,0(4):33-39. 被引量：2
2梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
3曹效阳,张璐,励敏,姚少群,郑云兰,黄菲.基于语义字典构建的中山大学BBS舆情监测研究[J].中山大学研究生学刊（社会科学版）,2013,34(4):43-54. 被引量：1
4任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
5施聪莺,徐朝军,杨晓江.基于规则和Rocchio分类器的学前综合教育资源分类[J].现代图书情报技术,2009(7):75-79. 被引量：1
6胡改蝶,马建芬.文本分类中一种特征选择方法的改进[J].计算机与现代化,2011(5):20-21. 被引量：1
7王晓艳,梁晋春,郭晓霞,姚颖颖,汪瑛.基于互联网的数字媒体内容舆情分析系统[J].计算机系统应用,2011,20(8):37-41. 被引量：3
8郭岩,万明,朱丹燕,陈强,张群,鲍一丹,苏雪梅,潘守东,蔡宝河,相生昌,孙长莹,刘威.公共卫生网络舆情监测系统设计及实现[J].医学信息学杂志,2011,32(8):6-9. 被引量：25
9张浩,谢飞.基于语义关联的文本分类研究[J].合肥工业大学学报（自然科学版）,2011,34(10):1501-1504. 被引量：4
10黄美璇.基于聚类分析的网络舆情监控系统的设计[J].宝鸡文理学院学报（自然科学版）,2011,31(4):40-44. 被引量：5

1张云涛,于治楼,张化祥.关联规则中频繁项集高效挖掘的研究[J].计算机工程与应用,2011,47(3):139-141. 被引量：18
2谭德坤,付雪峰,赵嘉,涂振宇.基于异常数据驱动的WSN簇内数据融合方法[J].传感技术学报,2017,30(2):306-312. 被引量：21
3白永珍.基于支持度矩阵特征向量的数据融合方法研究[J].传感器世界,2015,21(1):9-14. 被引量：1
4高方伟,刘贵喜,王蕾,张靖.基于支持度矩阵的一种多传感器融合方法[J].弹箭与制导学报,2007,27(4):284-287. 被引量：12
5尚晓星,李俊霞.基于不敏Kalman滤波的多传感器数据融合算法[J].河南师范大学学报（自然科学版）,2011,39(4):66-69. 被引量：1
6李为,王池.基于支持度矩阵的关联规则挖掘算法在公安情报分析中的应用[J].警察技术,2014,0(3):87-90.
7何云峰.AprioriHybird算法的改进及在股市中的应用[J].电脑开发与应用,2007,20(10):36-38. 被引量：1
8何云峰.一种改进的Apriori算法及在计算机一级等级考试的应用[J].数字技术与应用,2016,34(6):147-147. 被引量：1
9黄嘉满,张冬茉.基于文本的关联规则提取方法的研究[J].计算机仿真,2008,25(1):96-99. 被引量：5
10秦吉胜,宋瀚涛.关联规则挖掘AprioriHybrid算法的研究和改进[J].计算机工程,2004,30(17):7-8. 被引量：10

合肥工业大学学报（自然科学版）

2007年第10期

浏览历史

内容加载中请稍等...

基于词向量空间模型的中文文本分类方法被引量：14

参考文献7

二级参考文献16

共引文献596

同被引文献102

引证文献14

二级引证文献56

相关作者

相关机构

相关主题

浏览历史

基于词向量空间模型的中文文本分类方法 被引量：14

参考文献7

二级参考文献16

共引文献596

同被引文献102

引证文献14

二级引证文献56

相关作者

相关机构

相关主题

浏览历史

基于词向量空间模型的中文文本分类方法被引量：14