-
题名基于频繁词义序列的检索结果聚类算法研究
被引量:3
- 1
-
-
作者
王晓博
李晓
马博
-
机构
中科院新疆理化技术研究所多语种信息技术研究室
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第1期13-20,共8页
-
基金
中国科学院战略先导专项(No.XDA06030400)
新疆维吾尔自治区"十二五"重大专项(No.201230118)
中科院西部之光项目(No.YB201304)
-
文摘
目前大多搜索引擎结果聚类算法针对用户查询生成的网页摘要进行聚类,由于网页摘要较短且质量良莠不齐,聚类效果难以保证。提出了一种基于频繁词义序列的检索结果聚类算法,利用Word Net结合句法和语义特征对搜索结果构建聚类及标签。不像传统的基于向量空间模型的聚类算法,考虑了词语在文档中的序列模式。算法首先对文本进行预处理,生成压缩文档以降低文本数据维度,构建广义后缀树,挖掘出最大频繁项集,然后获取频繁词义序列。从文档中获取的有序频繁项集可以更好地反映文档的主题,把相同主题的搜索结果聚类在一起,与用户查询相关度高的优先排序。实验表明,该算法可以获得与查询相关的高质量聚类及基于语义的聚类标签,具有更高的聚类准确度和更高的运行效率,并且可扩展性良好。
-
关键词
聚类算法
频繁项
信息检索
WORDNET
-
Keywords
clustering algorithm
frequent itemset
information retrieval
WordNet
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-