计算文本相似度阈值的方法被引量：18

Computing similarity threshold for text classification

导出

摘要基于VSM(向量空间模型)的相似度分类器的相似度阈值通常由经验确定导致分类精度不高。该文提出一种基于Boosting机制在不同文档集上自动计算相似度阈值的方法。它利用Boosting迭代生成多个基于相似度划分的子分类器,通过加权把决定这些子分类器的相似度阈值组合起来,得到对理想相似度阈值的一种逼近。实验表明:这样得到的相似度分类器的平均精度比传统方法高15%左右,甚至可以与一些复杂方法相比。它在处理网络实时文本信息处理问题(分类、过滤和检索)中的效率是这些复杂方法的3倍以上,且问题规模越大、越复杂,其优势越大。 The VSM (vector space model) based similarity classifier is a simple and popular text categorization method. However, since its similarity threshold is always set empirically, the accuracy of the similarity classifier is generally not good. A boostingbased mechanism was developed to adaptively compute a similarity threshold for different datasets to improve the accuracy. The process first generates a certain number of similaritypartitionbased subclassifiers via boosting iterations, and then combines their individual similarity thresholds with weighting, as an approximation to the real similarity threshold. Tests showed that this similarity classifier was about 15% more accurate than traditional similarity classifiers, and was comparable to some complex classification methods but with an efficiency at least 3 times better than the complex methods for realtime text classification, filtering and retrieval problems from the Internet. The advantages of this method are even more pronounced for more complex, larger problems.

作者刁力力王丽坤陆玉昌石纯一

机构地区清华大学计算机科学与技术系智能技术与系统国家重点实验室

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2003年第1期108-111,共4页 Journal of Tsinghua University(Science and Technology)

基金国家自然科学基金资助项目(79990580) 国家重点基础研究发展规划项目(G1998030414)

关键词相似度阈值数据挖掘文本挖掘文本分类 Boosting机制向量空间模型计算方法 data mining text mining text categorization boosting learning similarity

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1刁力力,胡可云,陆玉昌,石纯一.用Boosting方法组合增强Stumps进行文本分类(英文)[J].软件学报,2002,13(8):1361-1367. 被引量：15

二级参考文献5

1[1]Freund, Y., Schapire, R. A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences, 1997,55(1):119～139.
2[2]Breiman, L., Friedman, J., Olshen, R., et al. Classification and Regression Trees. Belmont, CA: Wadsworth, 1984. 1～357.
3[3]Schapire, R., Singer, Y. BoosTexter: a boosting-based system for text categorization. Machine Learning, 2000,39(2/3):135～168.
4[4]Salton, G., Wong, A., Yang, C. A vector space model for automatic indexing. Communications of the ACM, 1995,18:613～620.
5[5]Schapire, R., Singer, Y. Improved boosting algorithms using confidence-related predictions. Machine Learning, 1999,37(3): 297～336.

共引文献14

1董乐红,耿国华,高原.Boosting算法综述[J].计算机应用与软件,2006,23(8):27-29. 被引量：26
2姜远,周志华.基于词频分类器集成的文本分类方法[J].计算机研究与发展,2006,43(10):1681-1687. 被引量：22
3王志玲,王效岳.国内文本分类研究论文的统计分析[J].图书情报工作,2006,50(11):136-138. 被引量：2
4谭建龙,张吉,郭莉.基于通用后缀树模型的垃圾邮件过滤方法[J].计算机工程,2007,33(9):100-102.
5潘志松,燕继坤.少数类的集成学习[J].南京航空航天大学学报,2009,41(4):520-526. 被引量：1
6李文斌,刘椿年,钟宁.基于两阶段集成学习的分类器集成[J].北京工业大学学报,2010,36(3):410-419. 被引量：4
7杨国田,吴章宪,杨鹏远.Boosting在火灾识别中的应用研究[J].计算机工程与应用,2010,46(5):200-204. 被引量：3
8武振宇,贾慧珣,朱骥.Boosting算法对卵巢癌代谢组数据的应用研究[J].中国卫生统计,2012,29(6):786-789. 被引量：4
9谭爱平,成亚玲.基于支持向量机的网络入侵检测集成学习算法[J].湖南工业职业技术学院学报,2013,13(2):3-7. 被引量：1
10谭爱平,陈浩,吴伯桥.基于SVM的网络入侵检测集成学习算法[J].计算机科学,2014,41(2):197-200. 被引量：34

同被引文献172

1邱绵浩,安钢,从华.提高装备战备完好性的新举措——综合诊断[J].装甲兵工程学院学报,2001,15(1):88-94. 被引量：1
2晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：27
3张洪彦,周广明,宁克焱.综合传动装置状态监测与故障诊断系统的研究[J].车辆与动力技术,2004(3):1-5. 被引量：3
4袁远,季星来,孙之荣,李衍达.Isomap在基因表达谱数据聚类分析中的应用[J].清华大学学报（自然科学版）,2004,44(9):1286-1289. 被引量：11
5蒋萍,崔志明.智能搜索引擎中用户兴趣模型分析与研究[J].微电子学与计算机,2004,21(11):24-26. 被引量：32
6史彦军,滕弘飞,金博.抄袭论文识别研究与进展[J].大连理工大学学报,2005,45(1):50-57. 被引量：36
7费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
8金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
9王志勇,郭创新,曹一家.基于模糊粗糙集和神经网络的短期负荷预测方法[J].中国电机工程学报,2005,25(19):7-11. 被引量：53
10栗然,刘宇,黎静华,顾雪平,牛东晓,刘永奇.基于改进决策树算法的日特征负荷预测研究[J].中国电机工程学报,2005,25(23):36-41. 被引量：30

引证文献18

1韩建保,罗小江.基于数据挖掘的坦克传动装置故障征兆识别展望[J].车辆与动力技术,2005(4):53-57. 被引量：6
2刘艳艳,张代远.一种改进的无结构P2P网络搜索方法[J].计算机时代,2008(3):13-14.
3郭武斌,周宽久,苏振魁.基于词序方法的文本相似度计算模型[J].情报学报,2008,27(6):857-862. 被引量：7
4赵俊杰,胡学钢.基于文本分类的文档相似度计算[J].微型电脑应用,2008,24(12):46-47. 被引量：6
5梁文婷,何中市,龙华,田春娥.改进传统文本结构关系图的文本结构分析[J].微计算机信息,2009,25(3):213-215. 被引量：5
6王建军,牛东晓,李莉.基于相似度与神经网络的协同短期负荷预测模型[J].华东电力,2009,37(1):64-66.
7卢雪燕.基于关键词的文献分类[J].梧州学院学报,2004,15(4):69-74.
8张文萍,黎春兰.基于文本空间表示模型的文本相似度计算研究[J].现代情报,2013,33(2):21-23. 被引量：4
9周小平,王佳,马晓轩.基于VSM的电子作业反抄袭系统的设计与实现[J].实验技术与管理,2013,30(3):109-111. 被引量：2
10白如江,王晓笛,王效岳.基于数字指纹的文献相似度检测研究[J].图书情报工作,2013,57(15):88-95. 被引量：7

二级引证文献71

1梁志瑞,陈鹏,苏海锋.关联规则挖掘在电厂设备故障监测中应用[J].电力自动化设备,2006,26(6):17-19. 被引量：20
2罗小江,韩建保.车辆传动系运行状态监测信号的预处理[J].车辆与动力技术,2006(2):43-46. 被引量：1
3陈时秋,韩建保,罗小江.变速箱典型故障奇异性指数的模糊神经网络识别[J].车辆与动力技术,2006(4):44-48.
4肖成林,韩建保,罗小江.基于退火遗传算法的传动装置故障征兆识别[J].车辆与动力技术,2006(4):53-56. 被引量：1
5杨琴,彭力.基于量子小波神经网络的传动装置模式识别[J].自动化仪表,2008,29(6):4-8. 被引量：1
6赵国光,尹湘舟,余希田,刘金刚.构建生物医学文献相关性数据库[J].微计算机信息,2010,26(12):158-160.
7陈燕敏,楼喜中.一种基于集聚确定文本意向结构的方法[J].微计算机信息,2010,26(18):14-15.
8褚镇飞,杨小康,张瑞,朱俊.视频自动标注系统中的文本对齐算法[J].微计算机信息,2010,26(24):147-149. 被引量：2
9孔华锋,鲁宏伟,张辉.电子商务中基于相似信任度的信任协商机制研究[J].信息网络安全,2010(10):40-42. 被引量：4
10魏小锐.基于关联分析的偏离主题探测[J].东莞理工学院学报,2010,17(5):24-27. 被引量：1

1张雷,李人厚.基于免疫原理和Boosting机制的模糊分类规则挖掘算法[J].西安交通大学学报,2007,41(8):927-930. 被引量：2
2崔林,付克明,石生树,宋瀚涛.基于Boosting机制的Naive Bayesian文本分类器[J].计算机工程与应用,2005,41(8):31-33. 被引量：3
3张学港.小小文件夹[J].少年电脑世界,2010(1):25-26.
4明朝辉,曹卫东,张亚图.分形树的迭代生成[J].江苏教育学院学报（自然科学版）,2007,23(4):49-51.
5保护隐私实现网络监控的实用方法[J].计算机与网络,2012,38(1):45-45. 被引量：1
6王卫民,贺冬春,符建辉.基于种子扩充的专业术语识别方法研究[J].计算机应用研究,2012,29(11):4105-4107. 被引量：6
7方育柯,傅彦,周俊临,佘莉,孙崇敬.基于选择性集成的最大化软间隔算法[J].软件学报,2012,23(5):1132-1147. 被引量：7
8李赵红,侯建军,宋伟.混沌映射的半脆弱图像数字水印算法[J].北京交通大学学报,2007,31(2):52-56. 被引量：3
9陈冬冬,彭其渊.一组预测方法的比较分析[J].计算机工程与应用,2009,45(26):199-203. 被引量：3
10许少华,潘俊辉.基于OODB技术的GIS空间查询和空间分析模型研究[J].计算机应用研究,2006,23(7):57-58. 被引量：1

清华大学学报（自然科学版）

2003年第1期

浏览历史

内容加载中请稍等...

计算文本相似度阈值的方法被引量：18

参考文献1

二级参考文献5

共引文献14

同被引文献172

引证文献18

二级引证文献71

相关作者

相关机构

相关主题

浏览历史

计算文本相似度阈值的方法 被引量：18

参考文献1

二级参考文献5

共引文献14

同被引文献172

引证文献18

二级引证文献71

相关作者

相关机构

相关主题

浏览历史

计算文本相似度阈值的方法被引量：18