一种面向海量实时数据的信息检索算法被引量：1

An Information Retrieval Algorithm for Massive and Real-time Data

下载PDF

导出

摘要网络信息资源的迅猛膨胀推进了信息检索技术的发展和成熟,但将现有的技术应用于海量实时网络数据时,传统的信息检索算法仍存在种种不足之处.本文中以CER-NET华(东)北地区的海量实时网络数据环境为依托,研究和设计了两段向量簇聚类信息检索算法,通过插入聚类和优化聚类两阶段的操作,提供高效的信息处理能力.同时,基于簇聚类树实现了群发邮件甄别的应用,对网络数据中的垃圾邮件进行过滤,进一步地提高检索效率. With the rapid expansion of information resources in networks, information retrieval technologies are now becoming more and more well-developed. But their current applications to massive and real-time data, especially for the conventional information retrieval algorithms, still reveal some shortcoming. In this paper, aiming at the massive and real-time network data from CERNET East China North center, a two-phase vector clustering algorithm is investigated and designed, in which a high-efficiency information processing ability is implemented by a two-phase operation; clustering insertion and clustering optimization. Meanwhile, the application of the proposed algorithm in the group mail discrimination system for filtering junk mails of network data is achieved by means of the clustering tree. Thus, the retrieval efficiency is further improved.

作者丁伟林容容倪良胜

机构地区东南大学计算机科学与工程系

出处《华南理工大学学报（自然科学版）》 EI CAS CSCD 北大核心 2004年第z1期6-10,共5页 Journal of South China University of Technology(Natural Science Edition)

关键词信息检索簇聚类两段向量邮件甄别 information retrieval clustering two-phase vector mail discrimination

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1[1]北京晨报.垃圾邮件超过正常邮件,四部门将进行专项治理[EB/OL].http://www.sina.com.cn,2004-02-04.
2[3]Ron Papka,James Allan. Document classification using multiword features [A]. [s.n]. Proceedings of the Seventh International Conference on Information and Knowledge Management New York [C]. New York USA: ACM Press, 1998. 124 - 131.
3[4]http ://www. cs. jhu. edu/～ weiss/glossary. html.
4[5]Salton G,Wong A,Yang C S. A vector space model for automatic indexing [J]. Communications of the ACM New York, 1975,18 (11) :613 - 620.
5[6]Salton G,McGill M J. The Smart and Sire Experimental Retrieval Systems (Morgan Kaufmann Multimedia Information and Systems Series) [M]. San Trancisce, CA,USA :Morgan Kaufmann Publishers Inc, 1997. 381 - 399.

同被引文献4

1张素智,刘放美.基于矩阵约束法的中文分词研究[J].计算机工程,2007,33(15):98-100. 被引量：11
2赵欢,朱红权.基于双数组Trie树中文分词研究[J].湖南大学学报（自然科学版）,2009,36(5):77-80. 被引量：16
3黄德根,焦世斗,周惠巍.基于子词的双层CRFs中文分词[J].计算机研究与发展,2010,47(5):962-968. 被引量：23
4胡继宽,汪维清.一种适宜于海量数据的快速分组排序算法[J].西南大学学报（自然科学版）,2010,32(6):173-176. 被引量：4

引证文献1

1刘昌,王振武.基于LINQ技术的海量数据查询匹配算法研究[J].电脑编程技巧与维护,2010(24):53-54.

1程诚,陈笑蓉,曾林肖.基于本体的GIS语料库信息检索[J].毕节学院学报（综合版）,2008,26(4):87-91.
2谭平平.基于ORACLE的海量数据实时处理系统的性能优化[J].华南金融电脑,2002,10(2):46-48. 被引量：3
3宋峻峰,李国辉.信息检索算法评价指标的分析与改进[J].小型微型计算机系统,2003,24(10):1800-1803. 被引量：6
4岳文,陈治平,林亚平.基于查询扩展和分类的信息检索算法[J].系统仿真学报,2006,18(7):1926-1929. 被引量：10
5张亮,邹福泰,张文举,马范援.基于社区的对等网络信息检索[J].上海交通大学学报,2006,40(5):767-770. 被引量：4
6陶锐.信息检索中P2P技术的应用研究[J].电子技术与软件工程,2014(6):20-20. 被引量：2
7朱颖.电力公司海量实时数据管理平台概要设计[J].信息通信,2014,27(6):111-111.
8张济强,高玉良.遗传模拟退火算法在k—means聚类中的应用[J].电脑知识与技术,2012,8(3):1611-1613. 被引量：1
9张前进.基于Storm的物联网海量实时数据流处理研究[J].常州工学院学报,2016,29(6):30-33. 被引量：3
10李庆华,赵彦斌,赵峰,彭进劲.基于向量空间模型的并行信息检索算法[J].小型微型计算机系统,2005,26(9):1560-1562. 被引量：8

华南理工大学学报（自然科学版）

2004年第z1期

浏览历史

内容加载中请稍等...

一种面向海量实时数据的信息检索算法被引量：1

参考文献5

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种面向海量实时数据的信息检索算法 被引量：1

参考文献5

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种面向海量实时数据的信息检索算法被引量：1