一种基于后缀树的Web搜索结果聚类方法被引量：5

A Clustering Method for Web Search Results Based on Suffix Tree

下载PDF

导出

摘要为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求，本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法，其中后缀树的构建以中文汉字为基本单位，一种有效的策略解决了基于二进制方法合并短语类后的类别描述问题，利用短语类语义层面的相似性合并同义短语类，有效地改善了聚类结果的质量。测试结果表明：与传统的文档聚类算法相比，基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性。 In order to satisfy the key requirements for Web document clustering, including relevance, speed, browseable summaries and so on, a method called Suffix Tree Clustering （STC） algorithm is proposed for Web search results clustering in Chinese context. The suffix tree in the paper is built in terms of Chinese words. An effective strategy is introduced into solving the problem of cluster description for cluster merging based on the binary similarity measure, and also similar phrase clusters are merged based on the semantic similarity calculation to improve the quality of clusters. Experiments show that the proposed STC algorithm has a better performance in both precision and speed than traditional document clustering algorithms.

作者吴江宁王治江

机构地区大连理工大学系统工程研究所

出处《情报学报》 CSSCI 北大核心 2010年第1期78-83,共6页 Journal of the China Society for Scientific and Technical Information

基金国家自然科学基金资助项目（70771019）.

关键词 WEB搜索后缀树文档聚类 Web search, suffix tree, document clustering

分类号 TP311.131 [自动化与计算机技术—计算机软件与理论] TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1YANGJian-wu.A Chinese Web Page Clustering Algorithm Based on the Suffix Tree[J].Wuhan University Journal of Natural Sciences,2004,9(5):817-822. 被引量：4
2Wang Junze, Mo Yijun, Huang Benxiong, et al. Web Search Results Clustering Based on a Novel Suffix Tree Structure [ M ] . Springer Berlin Press, 2008.
3王咏,申瑞民.采用构造后缀树方法的在线挖掘浏览模式[J].计算机工程,2004,30(19):126-128. 被引量：3
4郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12
5傅鹏,张德运,陈海诠,董皓.基于后缀树词序列核挖掘Web文档[J].微电子学与计算机,2005,22(12):4-7. 被引量：2
6Zamir Oren, Etzioni Oren. Web document clustering: A feasibility demonstration [ C ]//Proceedings of the 19th International ACM SIGIR Conference on Research and Development of Information Retrieval ( SIGIR' 98 ). 1998 : 46-54.
7Zamir Oren, Etzioni Oren. Grouper: A dynamic clustering interface to web search results [ C ]//Computer Networks. 1999 : 1361-1374.
8Hung Chim, Xiaotie Deng. A new suffix tree similarity measure for document clustering [ C ]//Proceedings of the 16th International Conference on World Wide Web. 2007: 121-129.
9http ://www. wordnet, org.
10http ://www. google, cn.

二级参考文献22

1王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量：5
2Agrawal R, Srikant R. Mining Sequential Patterns. In: Proceedings of 11th International Conference on Data Engineering Taipei, Taiwan,IEEEComputer Society press, Silver Spring, 1995-03
3Chen M S, Park J S, Yu P S. Efficient Data Mining for Path Travsersal Patems. IEEE Trans. Knowledge Data Engineer, 1998,10(2): 209-211
4Pei J, Hah J, Mortazavi B, et al. Mining Access Patterns Efficiently from Web Logs. In: Proceedings 2000 Pacific-Asia Conference on Knowledge Discovery and Data Mining, Kyoto, Japan(PAKDD00),2000-04
5Spiliopoulou M. Web Usage Mining for Web Site Evaluation.Commun., ACM, 2000, 43(8): 127-134
6Ukkonen E. On Line Construction of Suffix Tree. AIgorithmica, 1995,14(3): 249-260
7T Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Proceedings of ECML-98, 10th European Conference on Machine Learning, 1998: 137～142.
8Lodhi H, Saunders C, et al. Text Classification Using String Kernels. Journal of Machine Learning Reseaching, 2002,2: 419～444.
9Vapnik V. Statistical Learning Theory. Berlin, Heidelberg,New York, 1998.
10David Haussler. Convolution Kernels on Discrete Structures. Technical report. UCSC-CRL-99-10, 1999.

共引文献16

1彭静,翟英,冯爽.后缀树算法在舆情聚类中的应用[J].河北科技大学学报,2012,33(1):65-68. 被引量：1
2陈志雄,陈健,闵华清.基于信息增益的中文文本关联分类[J].中文信息学报,2007,21(3):61-68. 被引量：1
3谭建龙,张吉,郭莉.基于通用后缀树模型的垃圾邮件过滤方法[J].计算机工程,2007,33(9):100-102.
4杨振华.递归算法在面向内容音乐信息近似检索中的应用[J].电脑开发与应用,2007,20(12):32-34.
5陈爽,陈福,杜天苍.一种启发式网络信息采集系统设计与实现[J].北京石油化工学院学报,2007,15(4):38-42.
6曲文龙,王彦琪,张敬敏,杨炳儒.基于广义后缀树的事件流频繁情节在线挖掘算法[J].微电子学与计算机,2007,24(12):32-36.
7杨振华.递归算法在面向内容音乐信息近似检索中的应用[J].南通大学学报（自然科学版）,2007,6(4):87-91.
8余希田,万莉莉,胡铁军,李丹亚.基于向量空间模型的文献相关性数据库的研究与实现[J].现代图书情报技术,2008(6):61-66. 被引量：5
9黄旭,朱艳琴,罗喜召.实时文本分类系统的研究与实现[J].计算机工程,2008,34(18):87-88. 被引量：5
10赵宝华.基于Web挖掘的互动式作业分配与评价系统[J].微型电脑应用,2009,25(2):35-39.

同被引文献49

1冯晋,李春平.基于统计学和语义信息的中文文本主题识别技术[J].清华大学学报（自然科学版）,2005,45(S1):1791-1794. 被引量：6
2彭静,翟英,冯爽.后缀树算法在舆情聚类中的应用[J].河北科技大学学报,2012,33(1):65-68. 被引量：1
3张玥杰,郭依昆,连理,吴立德.基于英汉机译实现跨语言信息检索[J].小型微型计算机系统,2004,25(7):1135-1140. 被引量：10
4张会平,周宁,陈立孚.跨语言信息检索可视化研究[J].情报科学,2007,25(1):134-138. 被引量：10
5张复兴,孙甲霞.广义表在数据结构中的位置[J].河南科技学院学报,2006,34(4):103-104. 被引量：4
6Bollacker K D, Lawrence S, Giles C L. Discovering relevant scientific literature on the Web [ J ]. IEEE Intelligent Systems ,2000,15 ( 2 ) :42-47.
7Zamir O E. Grouper: a dynamic clustering interface to Web search results [ J]. Computer Networks, 1999,31 (1) :1361-1374.
8Zhang D, Dong Y. Semantic, hierarchical, online clustering of Web search results [ C ]//Proceedings of APWEB-04, 6th Asia-Pacific Web Conference, 2004: 69-78.
9Osinski S, Stefanowski J, Weiss D. Lingo: search results clustering algorithm based on singular value decomposition [ C ]//Proceedings of Intelligent Information Systems Conference. 2003.
10Koshman S,Spink A, Jansen B J. Web Searching on the Vivisimo Search Engine [ J]. Journal of The American Society for Information Science and Technology,2006,57 (14) :1875-1887.

引证文献5

1庞观松,蒋盛益,张黎莎,区雄发,赖旭明.Web搜索结果多层聚类方法研究[J].情报学报,2011,30(5):464-470. 被引量：1
2庞观松,张黎莎,蒋盛益.个性化跨语言学术搜索技术研究[J].情报学报,2011,30(8):870-874. 被引量：4
3龚立,黄波,刘忠.大规模作战仿真数据存储模型研究[J].计算机与数字工程,2012,40(2):52-55. 被引量：7
4骆绍烨.一种基于用户兴趣的STC改进算法[J].江南大学学报（自然科学版）,2015,14(1):85-89.
5董亚则,李万龙,李航,郑山红.改进的基于后缀树的Web搜索结果聚类算法[J].吉林大学学报（信息科学版）,2016,34(4):543-549.

二级引证文献12

1张鹏鹰.舰艇自防御系统指挥决策模型研究[J].舰船电子工程,2012,32(6):31-32. 被引量：1
2张继春,吴伟泽.美国陆军数字化部队研究现状和发展趋势[J].舰船电子工程,2013,33(3):7-8. 被引量：5
3唐晓波,房小可.基于文本聚类与LDA相融合的微博主题检索模型研究[J].情报理论与实践,2013,36(8):85-90. 被引量：44
4王冰玉.计算机网络设计中关系数据库技术的应用探析[J].硅谷,2013,6(12):87-87. 被引量：12
5吕勇.计算机网络设计中关系数据库技术的应用[J].网络安全技术与应用,2013(9):77-78. 被引量：10
6杨丽坤.计算机网络设计中关系数据库技术的应用初探[J].电子技术与软件工程,2013(24):207-207. 被引量：7
7崔天明.探讨计算机网络设计中关系数据库技术的应用[J].电脑编程技巧与维护,2014(12):32-34. 被引量：5
8司莉,贾欢.2004—2014年我国多语言信息组织与检索研究进展与启示[J].情报学报,2015,34(6):662-672. 被引量：10
9常媛秋宇.探讨计算机网络设计中关系数据库技术的应用[J].科学与财富,2015,7(31):261-261. 被引量：1
10马静.“互联网+”时代翻译课程应引入检索技术[J].洛阳师范学院学报,2017,36(1):77-79. 被引量：1

1童亚拉.基于自适应混沌粒子群的Web搜索结果聚类研究[J].微电子学与计算机,2010,27(1):173-176. 被引量：1
2许方,张桂珠.基于SFLA和FCM的Web搜索结果聚类[J].计算机工程与应用,2013,49(14):109-112. 被引量：1
3李优.Web搜索结果组织与展示的一种机制[J].信息安全与技术,2011,2(6):51-53.
4彭松行.基于描述优先算法的Web搜索结果聚类系统研究[J].心智与计算,2010,0(4):250-257. 被引量：1
5丁振国,孟星.基于K-center和信息增益的Web搜索结果聚类方法[J].计算机应用研究,2008,25(10):3125-3127. 被引量：1
6易高翔,胡和平.一种基于容错粗糙集的Web搜索结果聚类方法[J].计算机研究与发展,2006,43(2):275-280. 被引量：5
7原福永,杨治秋,王海霞.一种基于向量空间模型的文档聚类算法研究[J].信号处理,2005,21(z1):606-608.
8找钱的GG.QQ群名片显个性[J].网友世界,2006(21):28-28.
9商亚东,毛乐山,汤敏.在单片机系统中实现中文汉字的显示[J].电测与仪表,2000,37(2):44-46. 被引量：2
10韩建福,卢苇.文档聚类在Web搜索结果中的应用研究[J].中国科技信息,2006(23):99-101. 被引量：1

情报学报

2010年第1期

浏览历史

内容加载中请稍等...

一种基于后缀树的Web搜索结果聚类方法被引量：5

参考文献10

二级参考文献22

共引文献16

同被引文献49

引证文献5

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种基于后缀树的Web搜索结果聚类方法 被引量：5

参考文献10

二级参考文献22

共引文献16

同被引文献49

引证文献5

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种基于后缀树的Web搜索结果聚类方法被引量：5