基于改进决策树算法的网络关键资源页面判定被引量：11

Web Key Resource Page Judgment Based on Improved Decision Tree Algorithm

下载PDF

导出

摘要关键资源页面是网络信息环境中一种重要的高质量页面,是用户进行网络信息检索的主要目标.决策树算法是机器学习中应用最广的归纳推理算法之一,适用于关键资源页面的判定.然而由于Web数据均一采样的困难性,算法缺乏有足够代表性的反例进行训练.为了解决这个问题,提出一种利用训练样例的统计信息而非个体信息进行学习的改进决策树算法,并利用这种算法实现了独立用户查询的关键资源页面判定.在2003年文本信息检索会议(TextRetrievalConference,简称TREC)标准的评测条件下,基于此种改进决策树算法的大规模网络信息检索实验获得了超过基本算法40%的性能提高.这不仅提供了一种查找Web关键资源页面的有效方式,也给出了提高决策树算法性能的一个可行途径. Key resource page is one of the most important search target pages for Web search users. Decision tree learning is one of the most widely-used and practical methods for inductive inference in machine learning. Because of the difficulty in uniform sampling of Web pages, there are not enough negative instances for training a key resource decision tree. To solve the problem, the original algorithm is partly modified to learn from global instead of individual instance information. With the same evaluation method as TREC （Text Retrieval Conference） 2003, large scale retrieval experiments based on improved decision tree algorithm achieves more than 40% improvement than the ones based on the original algorithm. It not only offers an effective way for selecting Web key resource pages, but also shows a possible way to imorove decision tree learning performances.

作者刘奕群张敏马少平

机构地区智能技术与系统国家重点实验室(清华大学)

出处《软件学报》 EI CSCD 北大核心 2005年第11期1958-1966,共9页 Journal of Software

基金国家自然科学基金国家重点基础研究发展规划(973) 国家教育部科学技术研究重大项目资助~~

关键词网络信息检索关键资源页面机器学习决策树 Web information retrieval key resource page machine learning decision tree

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1Amento B, Terveen L, Hill W. Does authority mean quality? Predicting expert quality ratings of Web documents. In: Belkin NJ,Ingwersen P, Leong MK, eds. SIGIR 2000: Proc. of the 23rd Annual Int'l ACM SIGIR Conf. on Research and Development in Information Retrieval 2000. New York: ACM Press, 2000. 296-303.
2Davison BD. Topical locality in the Web. In: Belkin NJ, Ingwersen P, Leong MK, eds. SIGIR 2000: Proc. of the 23rd Annual Int'l ACM SIGIR Conf. on Research and Development in Information Retrieval 2000. New York: ACM Press, 2000. 272-279.
3Bharat K, Henzinger M. Improved algorithms for topic distillation in a hyperlinked environment. In: Croft BW, Moffat A, van Rijsbergen CJ, Wilkinson R, Zobel J, eds. SIGIR'98: Proc. of the 21st Annual Int'l ACM SIGIR Conf. on Research and Development in Information Retrieval. New York: ACM Press, 1998. 104-111.
4Broder A. A taxonomy of Web search. SIGIR Forum, 2002,36(2):1-8.
5Henzinger MR, Motwani R, Silverstein C. Challenges in Web search engines. In: Gottlob G, Walsh T, eds. IJCAI 2003, Proc. of the 18th Int'l Joint Conf. on Artificial Intelligence. San Francisco: Morgan Kanfmann Publishers, 2003. 1573-1579.
6Kleinberg JM. Authoritative sources in a hyperlinked environment. Journal of the ACM, 1999,46(5):604-632.
7Chakrabarti S, Dom B, Kumar R, Raghavan P, Rajagopalan S, Tomkins A. Experiments in topic distillation. In: Brown E, Smeaton A, eds. Proc. of the ACM SIGIR Workshop on Hypertext Information Retrieval. New York: ACM Press, 1998. 13-21.
8Chakrabarti S, Joshi M, Tawde V, Bombay IIT. Enhanced topic distillation using text, markup, tags and hyperlinks. In: Croft BW,Harper D J, Kraft DH, Zobel J, eds. SIGIR 2001: Proc. of the 24th Annual Int'l ACM SIGIR Conf. on Research and Development in Information Retrieval. New York: ACM Press, 2001. 208-216.
9Mitchell TM. Machine Learning. New York: McGraw-Hill, 1997. 55-64.
10刘小虎,李生.决策树的优化算法[J].软件学报,1998,9(10):797-800. 被引量：130

二级参考文献4

1洪家荣，计算机学报，1991年，6卷
2洪家荣，Int J Computer Inf Sci，1985年，14卷，6期，421页
3Tu Peilei，Proceedings of the 1992 IEEE International Conference on Tools for Artificial Intelligence，1992年
4Hong J R，Internat J Comput Infor-mation Sci，1985年，14卷，6期，421页

共引文献184

1陈超,赫春晓.一种基于二叉决策树的植被分类方法研究[J].现代测绘,2019,0(5):28-31.
2郭玉滨.决策树ID3算法研究及其改进[J].菏泽学院学报,2005,27(5):44-46. 被引量：2
3吴宣为,史斌宁.一种新的简化ID3决策树的算法[J].合肥工业大学学报（自然科学版）,2004,27(12):1565-1569. 被引量：3
4张伟.数据挖掘中的ID3算法研究与实现[J].软件导刊,2010,9(5):176-178. 被引量：2
5张仁伟,王洪斌.一种基于行为检测的垃圾邮件过滤技术[J].哈尔滨职业技术学院学报,2008(4):123-125. 被引量：1
6徐远纯,盛昭瀚,柳炳祥.一种基于决策树的客户流失危机分析方法[J].计算机与现代化,2004(8):1-4. 被引量：10
7崔旻,顾洁.电力系统中长期负荷预测的改进决策树算法[J].上海交通大学学报,2004,38(8):1246-1249. 被引量：7
8牛晓太,郭锋,邓其军,王玉华.CBR方法在谈判中的研究与应用[J].计算机工程与应用,2004,40(35):215-217. 被引量：2
9丁华,张少中,王秀坤.基于改进ID3算法的轨迹化决策研究[J].计算机工程与设计,2004,25(10):1721-1723. 被引量：8
10何宝群.数学教学要渗透人文精神[J].教学与管理（小学版）,2005(1):49-50. 被引量：1

同被引文献76

1王成山,王继东.基于小波包分解的电能质量扰动分类方法[J].电网技术,2004,28(15):78-82. 被引量：68
2王静红,王熙照,邵艳华,王伍伶.决策树算法的研究及优化[J].微机发展,2004,14(9):30-32. 被引量：31
3马骞,杨以涵,刘文颖,齐郑,郭金智.多输入特征融合的组合支持向量机电力系统暂态稳定评估[J].中国电机工程学报,2005,25(6):17-23. 被引量：137
4刘安定,肖先勇,邓武军.基于离散余弦变换和小波变换的电能质量扰动信号检测方法[J].电网技术,2005,29(10):70-74. 被引量：35
5孙微微,胡月明,刘才兴,薛月菊.基于决策树的土壤质量等级研究[J].华南农业大学学报,2005,26(3):108-110. 被引量：23
6李天云,赵妍,李楠,冯国,高宏慧.基于HHT的电能质量检测新方法[J].中国电机工程学报,2005,25(17):52-56. 被引量：178
7韩松来,张辉,周华平.基于关联度函数的决策树分类算法[J].计算机应用,2005,25(11):2655-2657. 被引量：36
8曾纪勇,丁洪发,段献忠.基于数学形态学的谐波检测与电能质量扰动定位方法[J].中国电机工程学报,2005,25(21):57-62. 被引量：39
9李庚银,罗艳,周明,王宇宾.基于数学形态学和网格分形的电能质量扰动检测及定位[J].中国电机工程学报,2006,26(3):25-30. 被引量：88
10凌玲,徐政.基于数学形态学的动态电能质量扰动的检测与分类方法[J].电网技术,2006,30(5):62-66. 被引量：44

引证文献11

1刘金红,陆余良.一种基于锚文本和改进C4.5决策树算法的主题爬行方法[J].计算机应用,2006,26(12):3012-3014. 被引量：1
2胡彩霞.利用决策树获取搜索结果页面中的匹配数[J].科技咨询导报,2007(6):171-172.
3叶明全,胡学钢.一种基于灰色关联度的决策树改进算法[J].计算机工程与应用,2007,43(32):171-173. 被引量：13
4孔英会,车辚辚,苑津莎,安静,刘云峰.基于小波分解和数据挖掘中决策树算法的电能质量扰动识别方法[J].电网技术,2007,31(23):78-82. 被引量：22
5严志嘉,金连甫.一种基于模糊增益比例的决策树属性选择方法[J].计算机工程与应用,2008,44(25):146-148. 被引量：1
6傅明,张颖,陈曦,万力.决策树算法的程序演化方法优化[J].计算机工程与应用,2009,45(15):72-74.
7何萍,徐晓华,陈崚.潜在属性空间树分类器[J].软件学报,2009,20(7):1735-1745. 被引量：3
8黄天强,胡斌,李峰,卓月明,蔡国民,颜一鸣.增量式关键资源页面判定树[J].情报学报,2009,28(3):469-474.
9孔英会,蔡维,何伟.基于特征组合的SVM电能质量扰动信号分类[J].华北电力大学学报（自然科学版）,2010,37(4):72-77. 被引量：4
10刘浩力.多层次压缩决策树在计算机取证中的应用[J].中国信息界,2011(1):60-62.

二级引证文献49

1杨文,李文敬,李双,杨琰.基于基因表达式编程的多数据流分类并行算法[J].华中科技大学学报（自然科学版）,2012,40(S1):116-119. 被引量：2
2魏善沛,章景,王凯.粗糙集与SVM的组合算法在人工林地力评价中的应用[J].中南林业科技大学学报,2013,33(5):1-5. 被引量：4
3张春丽,张磊.一种基于修正信息增益的ID3算法[J].计算机工程与科学,2008,30(11):46-47. 被引量：9
4易吉良,彭建春.基于广义S变换的短时电能质量扰动信号分类[J].电网技术,2009,33(5):22-27. 被引量：23
5周胜军,于坤山,冯满盈,孙生鸿,贺春.电气化铁路供电电能质量测试主要结果分析[J].电网技术,2009,33(13):54-57. 被引量：75
6孔英会,吕云洁,吕云清.改进的基于移动小波树的数据流异常检测方法[J].华北电力大学学报（自然科学版）,2009,36(4):67-72. 被引量：2
7王莉莉,王玉兰,王茂芝,刘祖涵,张斌.基于Matlab的灰色系统工具箱wll的构建[J].资源开发与市场,2009,25(10):870-871.
8曹健,林涛,刘林,张蔓,崔一铂.基于最小二乘法和复连续小波变换的电力系统间谐波测量方法[J].电网技术,2009,33(17):86-90. 被引量：11
9陈红坤,黄娟.数据挖掘及其在电能质量分析中的应用[J].电力系统及其自动化学报,2009,21(5):51-55. 被引量：15
10何伟,蔡维,王建伟,锁娟.基于虚拟仪器技术的电能质量分析仪校准检测系统设计与应用[J].电网技术,2010,34(1):84-89. 被引量：13

1黄天强,胡斌,李峰,卓月明,蔡国民,颜一鸣.增量式关键资源页面判定树[J].情报学报,2009,28(3):469-474.
2刘奕群,张敏,马少平.基于非内容信息的网络关键资源有效定位[J].智能系统学报,2007,2(1):45-52. 被引量：2
3钟银,梁少峰.基于SAN的存储软件网络管理系统分析[J].硅谷,2014,7(12):68-68.
4牛成名.校园计算机网络安全与防范[J].中国科技投资,2013(A35):484-484.
5马跃,王金霞,刘晓冰.基于Lotus Notes科研院所办公自动化系统[J].大连理工大学学报,2002,42(5):621-625. 被引量：7
6赵艳林.网络信息化建设存在的安全问题详细阐述与讨论[J].黑龙江科技信息,2016(7):149-149. 被引量：2
7刘润宗,阮汝祥,房斌,宋璞.逆向快速决策树算法概要[J].计算机应用研究,2011,28(12):4456-4458. 被引量：1
8蒋耘晨,罗森林,韩磊,潘丽敏.Text retrieval algorithm that decreases confusion[J].Journal of Beijing Institute of Technology,2014,23(1):108-116.
9蔡滨荣.构建和谐网络信息环境——关于互联网内容安全管理的思考[J].中国电信业,2010(3):26-27. 被引量：3
10周雪.浅析网络信息时代中的信息素养[J].电脑知识与技术,2010(01Z):319-320. 被引量：1

软件学报

2005年第11期

浏览历史

内容加载中请稍等...

基于改进决策树算法的网络关键资源页面判定被引量：11

参考文献16

二级参考文献4

共引文献184

同被引文献76

引证文献11

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

基于改进决策树算法的网络关键资源页面判定 被引量：11

参考文献16

二级参考文献4

共引文献184

同被引文献76

引证文献11

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

基于改进决策树算法的网络关键资源页面判定被引量：11