基于频繁词义序列的检索结果聚类算法研究被引量：3

Search result clustering algorithm based on frequent itemsets meaning sequence

下载PDF

导出

摘要目前大多搜索引擎结果聚类算法针对用户查询生成的网页摘要进行聚类,由于网页摘要较短且质量良莠不齐,聚类效果难以保证。提出了一种基于频繁词义序列的检索结果聚类算法,利用Word Net结合句法和语义特征对搜索结果构建聚类及标签。不像传统的基于向量空间模型的聚类算法,考虑了词语在文档中的序列模式。算法首先对文本进行预处理,生成压缩文档以降低文本数据维度,构建广义后缀树,挖掘出最大频繁项集,然后获取频繁词义序列。从文档中获取的有序频繁项集可以更好地反映文档的主题,把相同主题的搜索结果聚类在一起,与用户查询相关度高的优先排序。实验表明,该算法可以获得与查询相关的高质量聚类及基于语义的聚类标签,具有更高的聚类准确度和更高的运行效率,并且可扩展性良好。 Most of existing web page clustering algorithms are based on short and uneven snippets of web pages, which often cause bad clustering performance. This paper presents a clustering algorithm based on frequent itemsets meaning sequence, which combines the use of WordNet syntactic and semantic features to build the search results clustering and labeling. Most of existing text clustering algorithms use the vector space model, which treats documents as bags of words. A word（meaning）sequence is frequent if it occurs in more than certain percentage of the documents in the text database. Firstly, the text is pre-processed to generate compact document to reduce the dimension of the document, build generalized suffix tree, and dig out the maximum frequent itemsets, then the frequent word meaning sequences is generated. Document theme can be better reflected by frequent itemsets meaning sequence, the search results having same themes clustered together with the user＇s query prioritization highly relevant. Experimental results show that the clustering algorithm can obtain a high quality cluster that related to the query semantic tags, which has higher accuracy, efficiency and good scal- ability.

作者王晓博李晓马博

机构地区中科院新疆理化技术研究所多语种信息技术研究室

出处《计算机工程与应用》 CSCD 北大核心 2015年第1期13-20,共8页 Computer Engineering and Applications

基金中国科学院战略先导专项(No.XDA06030400) 新疆维吾尔自治区"十二五"重大专项(No.201230118) 中科院西部之光项目(No.YB201304)

关键词聚类算法频繁项信息检索 WORDNET clustering algorithm frequent itemset information retrieval WordNet

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献35

1Huang L.A Survey on Web information retrieval technologies,ECSL Technical Report[R].State University of New York,2000.
2Zamir O.Clustering Web documents:a phrase-based method for grouping search engine results[D].Washington DC:University of Washington,1999.
3Steinbach M,Karypis G,Kumar V.A comparison of document clustering techniques[C]//Proceedings of KDD-2000Workshop on Text Mining,2000.
4Fung B C M,Wang K,Ester M.Hierarchical document clustering using frequent itemsets[C]//Proceedings of SIAM International Conference on Data Mining,2003.
5Hotho A,Staab S,Stumme G.Ontologies improve text document clustering[C]//Proceedings of the 3rd IEEE International Conference on Data Mining,2003:541-544.
6Kowalski G.Information retrieval systems:theory and implementation[M].[S.l.]:Kluwer Academic Publishers,1997.
7Zamir O,Etzioni O,Madani O,et al.Fast and intuitive clustering of Web documents[C]//Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining,1997:287-290.
8Zeng H,He Q,Chen Z,et al.Learning to cluster Web search results[C]//Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,2004:210-217.
9Cutting D,Karger D,Pedersen J,et al.Scatter/gather:a cluster-based approach to browsing large document collections[C]//Proceedings of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,1992:318-329.
10Koller D,Sahami M.Hierarchically classifying documents using very few words[C]//Proceedings of Machine Learning International Workshop,1997:170-178.

二级参考文献14

1杨明,孙志挥,宋余庆.快速更新全局频繁项目集[J].软件学报,2004,15(8):1189-1197. 被引量：18
2吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
3陆介平,杨明,孙志挥,鞠时光.快速挖掘全局最大频繁项目集[J].软件学报,2005,16(4):553-560. 被引量：27
4宋余庆,朱玉全,孙志挥,杨鹤标.一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法[J].计算机研究与发展,2005,42(5):777-783. 被引量：21
5李新征.一种新的高效Apriori算法[J].微计算机信息,2006,22(03X):193-194. 被引量：18
6王黎明,赵辉.基于FP树的全局最大频繁项集挖掘算法[J].计算机研究与发展,2007,44(3):445-451. 被引量：16
7Schuster A, Wolff R. Communication-efficient distributed mining of association rules [ C ]//PrOceedings of the ACM SIGMOD International Conference on Management of Data. New York : ACM Press,2001:473 - 584.
8Han J W, Pei J, Yin Y. Mining frequent patterns without candidate generation [ C ]//Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. ACM Press,2000 : 1 - 12.
9R.Agrawal,S.Srikant.Fast Algorithms for Mining Association Rules[C] In:VLDB'94.Santiago:Chile,1994:487-499.
10何波.快速挖掘分布式数据库全局最大频繁项集[J].控制与决策,2011,26(8):1214-1218. 被引量：2

共引文献8

1徐红艳,陈锋,张森林,冯勇.一种存在全局站点的分布式增量挖掘算法[J].辽宁大学学报（自然科学版）,2013,40(1):41-47.
2陈勇.基于EMFP-树的频繁模式挖掘算法[J].陕西理工学院学报（自然科学版）,2009,25(2):40-44. 被引量：3
3张忠平,郑为夷.基于事务树的最大频繁项集挖掘算法[J].计算机工程,2009,35(15):97-99. 被引量：7
4汪继文,汪磊锋,韩超.基于频繁项集的Web文档聚类的应用改进[J].现代计算机,2009,15(10):11-13.
5翟悦.改进的基于内积的最大频繁项集生成算法[J].科教文汇,2011(4):89-90.
6陈智,梁娟.基于GM(1,1)模型的元规则挖掘研究[J].微计算机信息,2012,28(4):175-176. 被引量：1
7朱清香,于欣,刘晶,刘彦凯,尹佳.基于加权关联增量更新模型的设备故障诊断研究[J].燕山大学学报,2014,38(4):365-370. 被引量：1
8王利钢,陈平.基于十字链表的关联规则改进算法[J].宝鸡文理学院学报（自然科学版）,2016,36(4):27-30. 被引量：1

同被引文献21

1张庆林,邱江.顿悟与源事件中启发信息的激活[J].心理科学,2005,28(1):6-9. 被引量：62
2张亚旭,舒华,张厚粲,周晓林.话语参照语境条件下汉语歧义短语的加工[J].心理学报,2002,34(2):126-134. 被引量：29
3冯志伟.自然语言处理中的概率语法[J].当代语言学,2005,7(2):166-178. 被引量：10
4刘壮,张娟娟,郭荷清.Web Services发现和集成句法匹配算法研究[J].计算机工程与应用,2006,42(20):190-192. 被引量：3
5窦东徽,沃建中.顿悟问题解决过程中抑制解除理论有效性的实验研究[J].心理科学,2007,30(2):362-364. 被引量：2
6White T.周敏齐,王晓玲,金澈清,钱卫宁,译.Hadoop权威指南.北京:清华大学出版社,2010.
7Airplay. http://en.wikipedia.org/wiki/Airplay, 2015.
8Digital living network alliance, http://en.wikipedia.org/wiki/ Digital_Living_Network_Alliance, 2015.
9Miracast. http://en.wikipedia.org/wiki/Miracast, 2015.
10ConwayD,WhiteJM.机器学习实用案例分析.陈开江,刘逸哲,孟晓楠等泽.北京:机械工业出版社,2013.

引证文献3

1沈昕,黄莹,王风.OTT TV业务流量经营及关键技术应用[J].电信科学,2015,31(4):16-22.
2董亚则,李万龙,李航,郑山红.改进的基于后缀树的Web搜索结果聚类算法[J].吉林大学学报（信息科学版）,2016,34(4):543-549.
3杜家利,于屏方.英语花园幽径句的线性剖析:基于斯坦福解析器的分析[J].鲁东大学学报（哲学社会科学版）,2017,34(5):39-46.

1李晶,顾国强.一种改进的FCM检索结果聚类算法研究[J].软件产业与工程,2014(5):39-41.
2柏晗,成颖,柯青.网络检索结果聚类研究综述[J].情报理论与实践,2015,38(10):138-144. 被引量：2
3陈永超,刘贵全.一种基于命名实体的搜索结果聚类算法[J].计算机工程,2009,35(7):46-48. 被引量：6
4骆雄武,万小军,杨建武,吴於茜.基于后缀树的Web检索结果聚类标签生成方法[J].中文信息学报,2009,23(2):83-88. 被引量：9
5袁津生,荣元媛.改进后缀树的中文检索结果聚类研究[J].计算机工程与应用,2014,50(21):143-146. 被引量：1
6胡诗未,李晓峰,徐伟.基于主题词匹配频数的搜索引擎结果聚类算法[J].计算机工程与科学,2011,33(6):130-132. 被引量：2
7柳渤,李建中.基于广义后缀树的最长重复子模式算法[J].航天控制,2008,26(2):74-78.
8王非.基于微博的情感新词发现研究[J].软件,2015,36(11):6-8. 被引量：8
9自动删除解压后的压缩包[J].电脑迷,2012(8):91-91.
10邹华军,张爱强,曾育星.基于网络编程技术实现INTERNET上多搜索引擎信息的获取[J].电脑编程技巧与维护,1999(6):40-42. 被引量：1

计算机工程与应用

2015年第1期

浏览历史

内容加载中请稍等...

基于频繁词义序列的检索结果聚类算法研究被引量：3

参考文献35

二级参考文献14

共引文献8

同被引文献21

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于频繁词义序列的检索结果聚类算法研究 被引量：3

参考文献35

二级参考文献14

共引文献8

同被引文献21

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于频繁词义序列的检索结果聚类算法研究被引量：3