一种启发式网络信息采集系统设计与实现

The Design and the Implementation of Net Information Gathering with Heuristic Method

下载PDF

导出

摘要为解决目前网络信息采集中信息主题单一与垃圾信息过多的问题,讨论了一种半人工监督的启发式采集系统。用户向系统提交同一个主题的一组关键词后,系统自动合并多个搜索引擎返回的结果,从而构成一个有序的文档集合。对这个集合利用后缀树算法进行聚类,人工对聚类的结果进行有效与垃圾状态标注并生成训练集构造分类器。当用户提交该主题更多的关键词时,系统可以从各成员搜索返回的结果中自动识别并采集有效数据而过滤垃圾信息。实验结果显示,系统对定主题数据的平均有效信息识别率达到92%以上。 To solve the problems of unitary theme and too many garbage information in net information gathering, a new semi-automated heuristic system and the meta-search expanding technology are studied. A set of keywords in the same theme should be submitted by user in this system, and then a sorted files set is constructed after combining the new key words with other results from memberships of search engine. The clustering method is used on this set with post-tree algorithm. The results are checked manually and are labelled with the symbol of valid status and invalid status as dualistic group. When more key words are summated by users, the classifier can identify whether a result from other element search engine is invalid or not, and so the garbage information can be filtered. The experimental data show that the average identify ratio of effective information can be more than 92%.

作者陈爽陈福杜天苍

机构地区西北工业大学计算机学院北京石油化工学院自动化系

出处《北京石油化工学院学报》 2007年第4期38-42,共5页 Journal of Beijing Institute of Petrochemical Technology

基金国家自然科学基金资助项目项目号:60673160

关键词后缀树聚类支持向量机分类逆向文件频率 suffix Tree clustering SVM classification IDF

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1[1]杨善林.管理信息学[M].北京:高等教育出版社,2002:62-65.
2[2]Zamir O.Clustering Web Documents:A Phrase-Based Method for Group Search Engine Results[D].Washington:Dept.Computer Science & Engineering,Univ.of Washington,1999.
3杨沐昀,刘晓月,李生.基于汉英双语语料库的汉英词典编撰研究[J].情报学报,2003,22(3):310-314. 被引量：7
4钟艳花,余伟红,余永权.Web文本挖掘系统及其关键技术研究[J].计算机工程与应用,2003,39(34):167-169. 被引量：11
5王国强,郑海清,牛军钰.基于STC的中文文本聚类算法[J].上海师范大学学报（自然科学版）,2006,35(5):21-26. 被引量：2
6王晓宇,熊方,凌波,周傲英.一种基于相似度分析的主题提取和发现算法[J].软件学报,2003,14(9):1578-1585. 被引量：32
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
8郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12

二级参考文献50

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量：5
4..http://www.yahoo.com,2001.
5J Nie, M Simard, et al. Cross-language information retrieval based on parallel texts and automatic mining parallel texts from the Web. ACM-SIGIR Conference, Berkeley, California,1999.
6D Lonsdale, E Mitamura, E Nyberg. Acquisition of large lexicons for practical knowledge-based MT. Machine Translation,1995, 9(3) : 101 - 133.
7M Barlow. Parallel texts in language reaching. In: A M McEnery, et al. ed. Corpora and Language Reasearch: A Selection of Papers from Talc96. Lancaster University. 1996.
8W A Gale, K W Church. Identifying word correspondences in parallel texts. Proceedings of the 4th DARPA Workshop on Speech and Natural Language. 1991: 152- 157.
9P F Brown, J Cocke and S A Pietra, et al. A statistical approach to machine translation. Computational Linguistics,1990, 16(2) :79 - 85.
10I Dagan, K W Church and W A Gale. Robust bilingual word alignment for machine aided translation. Proc. of Workshop on Very Large Corpora. 1993 : 1 - 8.

共引文献445

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3孙辉,陈晓云,马志新.基于语句-词条矩阵的聚簇式动态增长聚类算法[J].清华大学学报（自然科学版）,2005,45(S1):1814-1817. 被引量：1
4张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
5徐宏斌,王燕.一种改进的静态取证数据挖掘算法[J].计算机时代,2009(4):7-8.
6王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
7徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
8袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
9彭静,翟英,冯爽.后缀树算法在舆情聚类中的应用[J].河北科技大学学报,2012,33(1):65-68. 被引量：1
10贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1

1苏炜.关于网络信息采集现状及技术的研究[J].中国电子商务,2012(6):137-137.
2肖祥云.网络信息采集技术探析[J].华中师范大学研究生学报,2011(3):158-163. 被引量：4
3王凯,苗英瑞,刘怡红.计算机网络服务质量优化方法探析[J].电脑知识与技术,2014,10(5X):3498-3499. 被引量：2
4唐彰国,李焕洲,钟明全,张健.基于量子神经网络的启发式网络隐蔽信道检测模型[J].计算机应用研究,2012,29(8):3033-3035. 被引量：6
5刘洋.探究如何控制网络信息数据采集的质量[J].信息系统工程,2017,30(2):139-139. 被引量：1
6乔琪珑,王继业,杨舒.基于超像素和SVM的交互式联合分割算法研究[J].电视技术,2015,39(22):85-88.
7刘桂芳.基于EDA技术的网络信息采集资源的应用[J].内蒙古科技与经济,2008(10):141-141.
8小抄速记[J].电脑爱好者,2009(17):45-45.
9贠晓晴.基于.NET 3.5的网络信息采集系统设计与实现[J].电脑编程技巧与维护,2010(16):73-74. 被引量：1
10张卓.基于AHP方法的成员搜索引擎调度策略[J].西安石油大学学报（自然科学版）,2014,29(4):106-110. 被引量：2

北京石油化工学院学报

2007年第4期

浏览历史

内容加载中请稍等...

一种启发式网络信息采集系统设计与实现

参考文献8

二级参考文献50

共引文献445

相关作者

相关机构

相关主题

浏览历史