Web图像清洗技术的研究与实现被引量：1

RESEARCH AND IMPLEMENTATION OF WEB IMAGE CLEANING

下载PDF

导出

摘要目前 Web文档中充斥着各种图像 ,因此 ,对 Web上的图像进行清洗就显得非常必要 .提出了 Web图像清洗的概念 ,给出了一种基于机器学习的 Web图像清洗方案 ,并实现了基于此方案的系统 .将图像特征的提取建立在 Web文档的 DOM结构之上 ,并在决策树算法的基础上对多种特征表示及组合进行了实验和评估 .实验结果表明 ,提出的 Web图像清洗方案切实可行 ,清洗方法具有较快的速度和准确性 . Now all kinds of images can be found in web documents, so it is necessary to clean web images. In this paper, the concept of web image cleaning is introduced, the framework of web image cleaning is designed, and a system of web image cleaning is implemented based on this framework. Image feature extraction is based on DOM tree, and experiment and evaluation of different feature combination are carried out based on the decision tree algorithm. According to the experiment result, the framework is feasible and the method works with fast speed and high accuracy.

作者张波王继成王强张福炎

机构地区南京大学软件新技术国家重点实验室南京大学计算机科学与技术系

出处《计算机研究与发展》 EI CSCD 北大核心 2002年第11期1484-1490,共7页 Journal of Computer Research and Development

基金国家自然科学基金 ( 6 0 0 730 30 ) 日本富士通研究所"Web文档清洗技术研究"项目资助

关键词 WEB 图像清洗机器学习特征提取决策树图像处理图像过滤 web, image cleaning, machine learning, information extraction, decision tree

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Tom Mitchell. Machine Learning. McCraw Hill, 1997
2Arnaud Le Hors, Chris Wilson et al. Document Object Model (DOM) Level 2 HTML Specification(Version 1. 0). W3C Working Draft, 2000. http://www. w3. org/DOM/
3Nicholas Kushmerick. Learning to remove Internet advertisement. The 3rd Int'l Conf on Autonomous Agents (Agents'99), Seattle, WA, USA, 1999
4J Quinlan. Simplifying decision trees. International Journal of Man-Machine Studies, 1987, 27: 221～234
5王继成,萧嵘,孙正兴,张福炎.Web信息检索研究进展[J].计算机研究与发展,2001,38(2):187-193. 被引量：118
6王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275
7MUFFIN-World Wide Web Filtering System. 2001. http://muffin. doit. org/
8Filtering the Web Using WebFilter. 2001. http://math-www.uni paderborn. de/～axel/NoShit/

二级参考文献7

1王继成邹涛等.网络信息搜集与出版系统WinGPS.南京大学计算机科学与技术系，科技报告[M].,1999..
2Zalane O R，Proc of 1998ACM-SIGMOD Conf onManagement of Data.Seattle，1998年，581页
3Wang Ke，Newport Beach，1997年
4Salton G，Commun ACM，1975年，18卷，5期，613页
5王继成，科技报告，1999年
6邹涛,王继成,张福炎.基于WWW的资料搜集系统的设计与实现[J].情报学报,1999,18(3):195-201. 被引量：32
7邹涛,王继成,杨文清,张福炎.文本信息检索技术[J].计算机科学,1999,26(9):72-75. 被引量：31

共引文献384

1兰晓芳,刘霞,肖毅.基于Django的校友在线平台的设计与实现[J].办公自动化,2021,26(18):17-18. 被引量：3
2王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
3张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
4赵燕平,朱东华.科技信息的网络动态监测和信息自动获取技术研究[J].科学学研究,2003,21(z1):230-237. 被引量：6
5杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10
6杨万春.基于访问控制的内部网搜索引擎[J].科技信息,2009(1).
7李爱国,白冰.基于内容图像检索的Web搜索器[J].郑州大学学报（理学版）,2009,41(2):60-62. 被引量：1
8周云真,舒建文,王平根.数据挖掘在基于WEB的智能远程教育中的应用[J].文教资料,2006(27):154-155. 被引量：1
9郑泠.Web数据挖掘技术应用[J].科技经济市场,2006(12):302-303.
10薛帆,顾兆军,王静,张俊.面向校园网的搜索引擎CAUCIIC[J].中国民航大学学报,2005,23(z1):134-136.

同被引文献6

1周春光,邢辉,徐振龙,王哲.商业数据的预测模型及其算法研究[J].吉林大学学报（信息科学版）,2002,20(3):53-60. 被引量：15
2邓奇根,王燕,曹庆贵.重大危险源风险评价研究[J].工业安全与环保,2006,32(11):59-61. 被引量：8
3Pedro Domingos,Michael Pazzani. On the Optimality of the Simple Bayesian Classifier under Zero-One Loss[J] 1997,Machine Learning(2-3):103～130
4李军红,颜慧,郑渊,宋文华,张时善,李乃岩,何学柱.大危险源普查监控系统建立研究之一:重大危险源快速评价[J].南开大学学报（自然科学版）,2000,33(4):82-86. 被引量：4
5徐蔚然,郭军,潘兴德.基于贝叶斯评判子的字体判断[J].计算机学报,2003,26(7):802-805. 被引量：5
6孙延风,梁艳春,姜静清,吴春国.金融时间序列预测中的神经网络方法[J].吉林大学学报（信息科学版）,2004,22(1):49-52. 被引量：15

引证文献1

1董立岩,李真,阎鹏飞.基于贝叶斯分类器的重大危险源辨识[J].吉林大学学报（理学版）,2009,47(4):800-804. 被引量：4

二级引证文献4

1梁好,徐长庚,林和平.实用高效的垃圾邮件过滤算法[J].吉林大学学报（信息科学版）,2010,28(3):298-302. 被引量：1
2张影秋,吴瑞明,张扬.基于离差最大化与灰色关联分析的危险源辨识方法[J].科学技术与工程,2010,10(25):6358-6362. 被引量：9
3汪明,张征.SQL Server 2008 R2贝叶斯算法研究[J].河北软件职业技术学院学报,2011,13(3):58-61.
4孙国磊,李京.基于属性加权贝叶斯分类器的目标毁伤效果分析[J].舰船电子工程,2016,36(1):29-32. 被引量：1

1薛建龙.高效、成熟的DDoS威胁清洗方案[J].电信技术,2012(11):71-73.
2郭文龙.异构数据库集成中相似重复记录清洗方法[J].宜春学院学报,2014,36(3):37-39. 被引量：2
3田泽轶,彭设强,吴志勇.基于DOM结构的分布式IE浏览器漏洞挖掘探究[J].电子测试,2014,25(10):31-32.
4解姝,叶施仁,肖春.社会媒体网页内容的分割与抽取[J].计算机工程,2011,37(21):155-158.
5陈琛.助力DDoS防护 Arbor提出流量清洗方案[J].通信世界,2012(37):41-41.
6李国军.大流量DDoS攻击防护方案探讨[J].邮电设计技术,2016(12):64-67. 被引量：1
7李俊奎,王元珍,李专.Azszp:一种基于规则的数据清洗方案[J].山东大学学报（理学版）,2007,42(9):71-74. 被引量：1
8周健昌,卜媛媛.条件函数依赖及其在领域无关数据清洗中的应用[J].微型电脑应用,2012,28(9):23-26. 被引量：2
9周源远,王继成,郑刚,张福炎.Web页面清洗技术的研究与实现[J].计算机工程,2002,28(9):48-50. 被引量：20
10娄建楼,史春雷.大数据下基于页面复杂度的文本抽取方法[J].数字技术与应用,2015,33(12):91-91.

计算机研究与发展

2002年第11期

浏览历史

内容加载中请稍等...

Web图像清洗技术的研究与实现被引量：1

参考文献8

二级参考文献7

共引文献384

同被引文献6

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

Web图像清洗技术的研究与实现 被引量：1

参考文献8

二级参考文献7

共引文献384

同被引文献6

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

Web图像清洗技术的研究与实现被引量：1