Web搜索结果多层聚类方法研究被引量：1

Research on Multi-level Clustering for Web Search Results

下载PDF

导出

摘要为了便于用户浏览搜索引擎返回结果,本文提出了一种基于TFIDF新的文本相似度计算方法,并提出使用具有近似线性时间复杂度的增量聚类算法对文本进行多层聚类的策略。同时,提出了一种从多文本中提取关键词的策略：提取簇中的名词或名词短语作为候选关键词,综合考虑每个候选关键词的词频、出现位置、长度和文本长度设置加权函数来计算其权重,不需要人工干预以及语料库的协助,自动提取权重最大的候选关键词作为类别关键词。在收集的百度、ODP语料以及公开测试的实验结果表明本文提出方法的有效性。 In order to facilitate the browse of the search results produced by search engines,this paper proposed a TFIDF-based new method to calculate the similarity of the documents and Web search results multi-level clustering by using one-pass clustering algorithm with linear time complexity.At the same time,we proposed a strategy to extract cluster keyword from multi-texts：selected noun or noun phrase as candidate cluster keywords,and took term frequency,the position of term occurring,the length of term and text into consideration to set a weighting function to compute every words weights of the search results,then automatically extracted the weightiest candidate keyword for each cluster generated by multi-level clustering without the intervene of human and the assistance of corpus.Experimental results on Baidu,ODP corpus and user investigation show the efficient and acceptance of our algorithm.

作者庞观松蒋盛益张黎莎区雄发赖旭明

机构地区广东外语外贸大学国际工商管理学院广东外语外贸大学信息学院

出处《情报学报》 CSSCI 北大核心 2011年第5期464-470,共7页 Journal of the China Society for Scientific and Technical Information

基金国家自然科学基金项目（60673191）广东省自然科学基金项目（9151026005000002）广东省高等学校自然科学研究重点项目（06Z012）

关键词文本聚类多层聚类类别关键词提取加权函数 text clustering multi-level clustering extracting keyword weighting function

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献16

1Bollacker K D, Lawrence S, Giles C L. Discovering relevant scientific literature on the Web [ J ]. IEEE Intelligent Systems ,2000,15 ( 2 ) :42-47.
2Zamir O E. Grouper: a dynamic clustering interface to Web search results [ J]. Computer Networks, 1999,31 (1) :1361-1374.
3Zhang D, Dong Y. Semantic, hierarchical, online clustering of Web search results [ C ]//Proceedings of APWEB-04, 6th Asia-Pacific Web Conference, 2004: 69-78.
4Osinski S, Stefanowski J, Weiss D. Lingo: search results clustering algorithm based on singular value decomposition [ C ]//Proceedings of Intelligent Information Systems Conference. 2003.
5Koshman S,Spink A, Jansen B J. Web Searching on the Vivisimo Search Engine [ J]. Journal of The American Society for Information Science and Technology,2006,57 (14) :1875-1887.
6冯晋,李春平.基于统计学和语义信息的中文文本主题识别技术[J].清华大学学报（自然科学版）,2005,45(S1):1791-1794. 被引量：6
7张清军,朱才连.基于统计的中文文本主题自动提取研究[J].四川大学学报（工程科学版）,2004,36(3):97-100. 被引量：7
8罗准辰,王挺.基于分离模型的中文关键词提取算法研究[J].中文信息学报,2009,23(1):63-70. 被引量：11
9Jiang S Y, Song X Y. A clustering-based method for unsupervised intrusion detections [ J ]. Pattern Recognition Letters,2006,5 : 802-810.
10Stoica E, Hearst M, Richardson M. Automating Creation of Hierarchical Faceted Metadata Structures [ C ]/! Proceedings of NAACL HLT, 2007.

二级参考文献34

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
2王咏,申瑞民.采用构造后缀树方法的在线挖掘浏览模式[J].计算机工程,2004,30(19):126-128. 被引量：3
3YANGJian-wu.A Chinese Web Page Clustering Algorithm Based on the Suffix Tree[J].Wuhan University Journal of Natural Sciences,2004,9(5):817-822. 被引量：4
4王志梅,张俊林,李秋山.Web检索结果快速聚类方法的研究与实现[J].计算机工程与设计,2004,25(12):2231-2233. 被引量：2
5郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12
6王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
7傅鹏,张德运,陈海诠,董皓.基于后缀树词序列核挖掘Web文档[J].微电子学与计算机,2005,22(12):4-7. 被引量：2
8索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
9刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17
10Turney P . D . Learning to extract keyphrases from text[R].National Research Council, Canada, NRC Technical Report ERB-1057,1999.

共引文献38

1胡彧,苏雪峰.特定主题的相关概念挖掘研究与实现[J].电脑开发与应用,2007,20(2):14-16. 被引量：1
2孔庆苹,刘宗田,廖涛.基于概念获取的多文档主题划分研究[J].计算机科学,2008,35(5):131-133. 被引量：6
3陈毅恒,秦兵,刘挺,王平,李生.基于潜在语义索引和自组织映射网的检索结果聚类方法[J].计算机研究与发展,2009,46(7):1176-1183. 被引量：4
4黄振晗.基于文档特征的Web主题文本提取[J].现代计算机,2009,15(8):26-30.
5贾荣飞,金茂忠,王晓博.基于用户查询日志的查询聚类[J].北京航空航天大学学报,2010,36(4):500-503. 被引量：4
6靳宇倡,秦启文,安俊秀.网络群体心理趋势智能分析模型研究[J].计算机科学,2010,37(6):273-277. 被引量：3
7于洪,谌强.一种结合K-Means的层次化的搜索结果聚类方法[J].重庆邮电大学学报（自然科学版）,2010,22(3):355-359.
8安俊秀.基于服务器集群的云检索系统的研究与示范[J].计算机科学,2010,37(7):179-182. 被引量：7
9庞观松,张黎莎,蒋盛益,邝丽敏,吴美玲.一种基于名词短语的检索结果多层聚类方法[J].山东大学学报（理学版）,2010,45(7):39-44. 被引量：3
10蒋昌金,彭宏,陈建超,马千里,严桂夺.基于组合词和同义词集的关键词提取算法[J].计算机应用研究,2010,27(8):2853-2856. 被引量：18

同被引文献14

1吴江宁,王桂才.文本聚类分析结果可视化方法研究[J].情报学报,2011,30(2):115-120. 被引量：7
2王永恒,贾焰,杨树强.基于频繁词集聚类的海量短文分类方法[J].计算机工程与设计,2007,28(8):1744-1746. 被引量：6
3王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40. 被引量：13
4王力,李培峰,等.一种基于LDA模型的主题句抽取方法[ EB/OL ]. http: //www. cnki. net/kcms/detail/11. 2127. TP. 20111024. 1013. 054. html/2011, 10, 24.
5MA Dashun, RAO Lan, WANG Ting. An empirical study of SLDA for information retrieval [ J ]. Information Retrieval Technology, 2011 (1): 84-92.
6WEI Xing, CROFT W B. LDA-based document models for Ad- hoc retrieval [ C ] // Proceeding of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2006.
7LUKINS S K, KRAFT N A, ETZKORN L H. Source code retrieval for bug localization using latent dirichlet allocation [ C ]. Working Conference on Reverse Engineering, 2008.
8BLEI D, NG A, JORDAN M. Latent dirichlet allocation[J]. Journal of Machine Learning Research , 2003 (3).
9吴启明,易云飞.文本聚类综述[J].河池学院学报,2008,28(2):86-91. 被引量：21
10赵学锋,陈传红,陈获帆,张金隆,周敏.基于文本聚类的电子零售商信誉维度发现研究[J].情报学报,2011,30(1):69-75. 被引量：4

引证文献1

1唐晓波,房小可.基于文本聚类与LDA相融合的微博主题检索模型研究[J].情报理论与实践,2013,36(8):85-90. 被引量：44

二级引证文献44

1温志强,刘楠.从单向线性到迭代闭环:重大公共决策网络舆情风险研判体系构建[J].上海行政学院学报,2021,22(4):30-42. 被引量：8
2王永贵,张旭,任俊阳,刘宪国.结合微博关注特性的UF_AT模型用户兴趣挖掘研究[J].计算机应用研究,2015,32(7):1982-1985. 被引量：5
3高永兵,聂知秘,周环宇,钟振华.基于JS综合相似度的个人微博时序事件归类研究[J].计算机应用与软件,2015,32(7):56-59. 被引量：2
4叶春蕾,邢燕丽.基于LDA和社会网络中心度的研究生个性化检索推荐模型研究[J].图书情报工作,2015,59(13):104-110. 被引量：4
5颜端武,陶志恒,李兰彬.一种基于HDP模型的主题文献自动推荐方法及应用研究[J].情报理论与实践,2016,39(1):128-132. 被引量：9
6王征,王林森,赵磊.基于信息密度的微博突发话题检测模型研究[J].情报理论与实践,2016,39(3):125-129. 被引量：5
7陈雪,胡晓峰,徐浩.基于短文本的突发事件发展过程表示方法[J].计算机应用,2016,36(6):1605-1612.
8夏火松,李保国,杨培.基于改进K-means聚类的在线新闻评论主题抽取[J].情报学报,2016,35(1):55-65. 被引量：15
9杨清泉,李卫疆.基于文摘的SLDA主题模型[J].价值工程,2016,35(19):231-234.
10赵冬晓,王效岳,白如江,刘自强.面向情报研究的文本语义挖掘方法述评[J].现代图书情报技术,2016(10):13-24. 被引量：7

1刘红兵,李文坤,张仰森.基于LDA模型和多层聚类的微博话题检测[J].计算机技术与发展,2016,26(6):25-30. 被引量：15
2庞观松,张黎莎,蒋盛益,邝丽敏,吴美玲.一种基于名词短语的检索结果多层聚类方法[J].山东大学学报（理学版）,2010,45(7):39-44. 被引量：3
3许爱琴,王梦洁,刘永坚,王卫华.一种新的生成候选关键词集的方法[J].武汉理工大学学报（信息与管理工程版）,2013,35(6):816-819.
4时永宾,余青松.基于共现词卡方值的关键词提取算法[J].计算机工程,2016,42(6):191-195. 被引量：4
5金山WPS 2009个人版公开测试[J].数码时代,2009(2):129-129.
6王志军.Firefox只让文本缩放[J].网友世界,2008(8):37-37.
7王志军.IE8的六大使用技巧[J].电脑时空,2008(5):154-155.
8阿San.WINDOWS7公开测试遭热心用户狂追捧宣告暂停[J].青年科学,2009(1):57-57.
9主流笔记本实战Windows8[J].数码世界,2012(4):140-143.
10Live Messenger和雅虎通实现互联互通[J].计算机研究与发展,2006,43(9).

情报学报

2011年第5期

浏览历史

内容加载中请稍等...

Web搜索结果多层聚类方法研究被引量：1

参考文献16

二级参考文献34

共引文献38

同被引文献14

引证文献1

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

Web搜索结果多层聚类方法研究 被引量：1

参考文献16

二级参考文献34

共引文献38

同被引文献14

引证文献1

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

Web搜索结果多层聚类方法研究被引量：1