基于访问日志的网页内容监控挖掘系统

Webpage Content Monitoring and Mining System Based on Visiting Log

下载PDF

导出

摘要 URL是用于完整描述Internet上网页和其他资源地址的一种标识方法,URL访问日志能记录用户的上网痕迹。针对该特点,提出一种基于访问日志的网页内容监控挖掘系统,实现网页内容抓取、监控、分析、报表生成等一系列过程的自动化。系统运行测试结果表明,该系统的准确率较高,能有效解决运营商和互联网监管部门的网络监管问题。 URL is the global address of documents and other resources in Internet. For the function that URL visiting logs record the traces of users on Internet, the paper discusses key techniques of Web monitoring and mining system based on users visiting log. This system can automatically grasp webpage, monitor, analyze contents and generate tables. Test results show that the system has high accuracy rate and it can satisfy design demands and effectively settle the network supervision problems for Internet operators and government supervision departments.

作者丘海澜文翰肖南峰

机构地区北京城市热点资讯有限公司研发部华南理工大学计算机科学与工程学院

出处《计算机工程》 CAS CSCD 北大核心 2011年第4期70-72,共3页 Computer Engineering

基金国家自然科学基金与中国民用航空总局联合基金资助项目(60776816) 广东省自然科学基金资助重点项目(8251064101000005)

关键词用户访问日志网页内容挖掘网页分类 user visiting log webpage content mining webpage classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Tvewe.Web挖掘技术总结[EB/OL].(2008-03-06).http:/Polog.csdnnet/tvetve/archive/2008/03/06/2155064.aspx.
2李嘉佑,贾自艳,何清,史忠植.基于Web挖掘的网页清洗技术[J].计算机工程与应用,2006,42(25):98-101. 被引量：7
3周源远,王继成,郑刚,张福炎.Web页面清洗技术的研究与实现[J].计算机工程,2002,28(9):48-50. 被引量：20
4Liger F,Queen C M,Wilton P.C#字符串和正则表达式参考手册[M].刘乐亭,译.北京:清华大学出版社,2003.
5Cho Junghoo. Crawling the Web: Discovery and Maintenance of Large-Scale Web Data[D]. Stanford; California, USA: Stanford University, 2001.
6张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：99

二级参考文献13

1Salton G,Lesk M E.Computer Evaluation of Index and Text Processing. Association for Computing Machinery,1968,15(1).
2Maron M E. On Relevance,Probabilistic Indexing and Information Retrieval. Journal of the ACM,1960,7(3).
3Lewis D D. Feature Selection and Feature Extraction for Text Categorization. In Proceedings of Speech and Natural Language Workshop. Defense Advanced Research Projects Agency,Morgan Kaufmann,1992-02:212-217.
4Yang Yiming,Liu Xin. A Re-examination of Text Categorization Methods. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR),1999:42-49.
5Junghoo Cho.CRAWLING THE WEB:DISCOVERY AND MAINTENANCE OF LARGE-SCALE WEB DATA[D].Ph D Dissertation.2001
6Steve Lawrence,C Lee Giles.Searching the World Wide Web[J].Science,1998; 280 (5360)
7Information Extraction:A Multidisciplinary Approach to an Emerging Information Technology[C].In:Pazienza,Maria Teresa Pazienza eds.volume 1299 of Lecture Notes in Artificial Intelligence,Springer,International Summer School,SCIE-97,Frascati,Italy,1997
8N Kushmerick.Cleaning the web[J].IEEE Intelligent System,1999;14(2):20～22
9S Soderland.Learning information extraction rules for semi-structured and free text[J].Machine Learning,1999;34:233～272
10D Freigat.Information extraction from html:application of a general learning approach[C].In:proceedings of the fifteenth conference on artifical intelligence AAAI-98,1998:517～523

共引文献128

1刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
2付德宇,杨庆海,代成琴.网站关键资源与域名活跃度相结合的高校信息化评价方法[J].武汉大学学报（理学版）,2012,58(S1):167-170. 被引量：1
3常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
4郭彦兵.网页文本分类技术研究[J].科技创业家,2013(9):54-54.
5程冲,黄水清.利用正则表达式解析新闻网页的算法研究[J].农业图书情报学刊,2005,17(4):5-8. 被引量：7
6许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
7翟东升,余旸.国际贸易技术壁垒信息采集系统设计与实现[J].情报杂志,2005,24(8):33-35. 被引量：3
8任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
9翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1
10侯锟,罗海龙.Web页面表格信息的自主抽取[J].科技广场,2006(4):70-72. 被引量：2

1苏晶,潘蕾,徐汀荣.结合内容挖掘的事务识别改进[J].计算机应用,2006,26(6):1411-1414. 被引量：1
2王洪侠.基于Web数据挖掘技术的研究[J].科技创新导报,2015,12(13):31-31. 被引量：2
3清除搜狗浏览器中上网记录的简单方法[J].计算机与网络,2009,35(22):33-33.
4Q.y.巧妙调用系统功能一键清除上网痕迹[J].电脑爱好者,2007(9):39-39.
5W.5y.用注销脚本清除上网痕迹[J].个人电脑,2005,11(2):215-215.
6尹飞.我的浏览，你不知道[J].大众软件,2008(20):62-63.
7宋梦馨,缪红萍,王溯,张二松.基于Hadoop平台的网站日志分析[J].信息系统工程,2015,0(12):35-36. 被引量：3
8宋梦馨.基于Hive的邮件日志分析[J].信息系统工程,2016,29(4):115-115. 被引量：1
9佘明祥.清除上网痕迹[J].网管员世界,2012(8):108-109.
10茅琴娇,冯博琴,李燕,潘善亮.一种基于概念格的用户兴趣预测方法[J].山东大学学报（工学版）,2010,40(5):159-163. 被引量：2

计算机工程

2011年第4期

浏览历史

内容加载中请稍等...

基于访问日志的网页内容监控挖掘系统

参考文献6

二级参考文献13

共引文献128

相关作者

相关机构

相关主题

浏览历史