一种基于聚类模式的RDF数据聚类方法被引量：3

Cluster Pattern Based RDF Data Clustering Method

下载PDF

导出

摘要如何有效管理并利用日益庞大的RDF数据是当今Web数据管理领域面临的挑战之一。对大规模的RDF数据集进行聚类操作从而得到数据集的有效划分是RDF数据存储和应用时通常采取的策略。针对现有RDF聚类过程中忽略RDF三元组自身模式特征的问题,在对RDF聚类结果的形式深入分析的基础上,定义了3种不同类型的聚类模式,从而提出基于模式的聚类方法。通过对RDF数据集的重新描述,自动生成适用于RDF数据集特征的聚类模式,在此基础上实现数据聚类的任务。在不同测试集上的实验结果验证了所提方法的正确性和有效性。 How to manage and exploit the large mount of RDF dataset availably has become a vital issue in Web data management field. In order to partition the large scale RDF dataset for efficient data processing, clustering is usually adopted. The related researches tend to use classical clustering methods, and neglect the structure features of RDF tri- ples. This paper analyzed the RDF clustering results intensively, and defined three types of cluster patterns. Based on the cluster patterns,a novel RDF data clustering strategy was proposed. By redescribing the RDF dataset, the cluster patterns can be generated automatically. The experiments on different test benches prove the accuracy and efficiency of the new method.

作者袁柳张龙波

机构地区陕西师范大学计算机科学学院山东理工大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2015年第10期266-270,296,共6页 Computer Science

基金国家自然科学基金项目:云计算环境下旅游信息个性化服务模型研究(41271387)资助

关键词聚类开放关联数据聚类模式 RDF, Clustering, Linked open data, Clustering pattern

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献16

1Bizer C,Heath T,Berners-Lee T,et al. Linked data on the Web[C] // Proceedings of the 17th International Conference onWorld Wide Web. 2008: 1265-1266.
2Tran T,Wang H, Haase P. Hermes:Data web search on a pay-as-you-go integration infrastructure [ J ] Web Semantics: Science,Services and Agents on the World Wide Web,2009, 7(3) : 189-203.
3Zeng K, Yang J, et al, A distributed graph engine for web scalerdf data[C] // Proceedings of the 39th International Conferenceon Very Large Data Bases. 2013:265-276.
4Wu A Y, Garland M,Han J. Mining scale-free networks usinggeodesic clustering[C] // Proceedings of the Tenth ACM SIGK-DD International Conference on Knowledge Discovery and DataMining. 2004:719-724.
5Kaushik R, Shenoy P, Bohannon P, et al. Exploiting local simi-larity for indexing paths in graph-structured data[C]//Procee-dings of the 18th International Conference on Data Engineering.2002:129-140.
6Konrath M,Gottron T, Staab S,et al. Schemex efficient con-struction of a data catalogue by stream-based indexing of linkeddata[J]. Web Semantics: Science, Services and Agents on theWorld Wide Web,2012,16:52-58.
7Boohm C, Lorey J, Naumann F. Creating void descriptions forWeb-scale data[J]. Web Semantics : Science.Services and Agentson the World Wide Web,2011,9(3) :339-345.
8Fanizzi N, d,Amato C. A hierarchical clustering method for se-mantic knowledge bases[C]//Proceedings of KES 2007. 2007 :653-660.
9Grimnes G A,Edwards P,Preece A D. Instance based clusteringof semantic web resources [C] // Proceedings of ESWC 2008.2008:303-317.
10Alzogbi A,Lausen G. Similar structures inside rdf~graphs[C]//Proceedings of Proceedings of the WWW 2013 Workshop onLinked Data on the Web. 2013.

二级参考文献22

1李曼,杜小勇,王珊.语义Web环境中本体库管理系统体系结构研究[J].计算机研究与发展,2006,43(z3):39-45. 被引量：2
2吴刚,唐杰,李涓子,王克宏.细粒度语义网检索[J].清华大学学报（自然科学版）,2005,45(S1):1865-1872. 被引量：11
3Berners-Lee T,Hendler J,Lassila O.The semantic Web.Scientific American,2001,284(5):34-43.
4Cheng G,Qu Y.Searching linked objects with falcons:Approach,implementation and evaluation.International Journal on Semantic Web and Information Systems,2010,5(3):49-70.
5Perez J,Arenas M,Gutierrez C.Semantics and complexity of SPARQL//Proceedings of the International Semantic Web Conference.Athens,GA,USA,2006:30-43.
6Broekstra J.SeRQL:Sesame RDF query language//Ehrig M.SWAP Deliverable 3.2 Method Design.2003.:55-68.
7Lei Y,Uren V,Motta E.Semsearch:A search engine for the semantic Web//Proceedings of the EKAW.Podebrady,Czech Republic,2006:238-245.
8Zhou Q,Wang C,Xiong M,Wang H,Yu Y.SPARK:Adapting keyword query to semantic search/ /Proceedings of the ISWC.Busan,Korea,2007:649-707.
9Tran T,Wang H,Rudolph S,Cimiano P.Top-kexploration of query candidates for efficient keyword search on graphshaped (RDF) data//Proceadings of the IEEE International Conference on Data Engineering.Shanghai,China,2009:405-416.
10Lamberti F,Sanna A,Demartini C.A relation-based page rank algorithm for semantic Web search engines.IEEE Transactions on Knowledge and Data Engineering,2009,21 (1):123-136.

共引文献82

1朱敏,程佳,柏文阳.一种基于HBase的RDF数据存储模型[J].计算机研究与发展,2013,50(S1):23-31. 被引量：8
2李广庆,何丰.一种基于本体的农业气象系统的研究及设计[J].硅谷,2010,3(21):87-87.
3王星,宋金玉,陈爽,陈萍.基于列数据库的RDF数据管理实现[J].计算机技术与发展,2012,22(6):53-56. 被引量：3
4刘宁,左凤华,张俊.一种层次聚类的RDF图语义检索方法研究[J].计算机应用研究,2012,29(8):2858-2861. 被引量：1
5袁平鹏,刘谱,张文娅,吴步文.高可扩展的RDF数据存储系统[J].计算机研究与发展,2012,49(10):2131-2141. 被引量：9
6李韧,杨丹,胡海波,谢娟,吴云松,傅鹂.云计算环境下的SWRL规则分布式推理框架[J].重庆大学学报（自然科学版）,2013,36(2):56-62. 被引量：2
7杨书新,徐慧琴.一种基于数据图划分的关系数据库关键词检索方法[J].江西理工大学学报,2013,34(1):79-83.
8任长宁,郑东霞,李绪成.基于传感器的远程设备知识获取系统的设计与实现[J].软件工程师,2013(4):30-31.
9杜方,陈跃国,杜小勇.RDF数据查询处理技术综述[J].软件学报,2013,24(6):1222-1242. 被引量：64
10许德山,张运良.集成化本体管理平台的设计与实现[J].数字图书馆论坛,2013(11):15-20. 被引量：3

同被引文献32

1罗辛,欧阳元新,熊璋,袁满.通过相似度支持度优化基于K近邻的协同过滤算法[J].计算机学报,2010,33(8):1437-1445. 被引量：126
2于戈,谷峪,鲍玉斌,王志刚.云计算环境下的大规模图数据处理技术[J].计算机学报,2011,34(10):1753-1767. 被引量：98
3刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012,39(2):8-13. 被引量：99
4吴琴霞,高峰,刘永革.基于XML语言甲骨文语料库元数据抽取的研究[J].计算机技术与发展,2012,22(5):216-218. 被引量：5
5王红运,黄映辉.语义Web粗糙本体:定义、模型和存储方法[J].计算机应用研究,2012,29(7):2520-2523. 被引量：2
6魏书堤.基于最小熵值相似矩阵构造方法及其聚类过程[J].湖南科技大学学报（自然科学版）,2012,27(3):72-75. 被引量：4
7杜方,陈跃国,杜小勇.RDF数据查询处理技术综述[J].软件学报,2013,24(6):1222-1242. 被引量：64
8陈淑平,梁东魁.基于机器学习的扫描图书元数据自动抽取研究[J].现代情报,2013,33(6):45-48. 被引量：4
9闫振丰,黄映辉.基于概念格的语义Web粗糙模糊本体构建[J].计算机工程与设计,2013,34(11):4002-4006. 被引量：2
10荣辉桂,火生旭,胡春华,莫进侠.基于用户相似度的协同过滤推荐算法[J].通信学报,2014,35(2):16-24. 被引量：149

引证文献3

1任秀春.基于RDF三元组的电子商务竞争者数据挖掘[J].电子设计工程,2017,25(10):18-21.
2安敬民,李冠宇.基于最小信息熵分类的不确定元数据本体构建[J].计算机工程与设计,2018,39(9):2758-2763. 被引量：5
3杨程,陆佳民,冯钧.分布式环境下大规模资源描述框架数据划分方法综述[J].计算机应用,2020,40(11):3184-3191. 被引量：6

二级引证文献11

1孙小虎,宋慧娟,代安琪,许刚.基于预测的输变电工程元数据分级索引算法[J].计算机工程与设计,2019,40(11):3192-3199. 被引量：5
2王煜,叶赛,范文涛.基于粒度结构分析的数控机床制造信息资源自动化检测方法[J].制造业自动化,2019,41(12):120-124. 被引量：2
3圣文顺,孙艳文.一种改进的ID3决策算法及其应用[J].计算机与数字工程,2019,47(12):2943-2945. 被引量：5
4赵诚,赵传信,夏芸.基于模糊向量机优化的信息分类优化模型设计[J].计算机仿真,2021,38(5):398-402.
5潘威,夏翠娟,张光伟,孙涛.历史地理信息化与图情研究融合的必要性与可行性--以“数字历史黄河”为中心的考察[J].图书情报知识,2021,38(3):50-60. 被引量：9
6潘威,张光伟,夏翠娟,孙涛.古旧地图的信息化[J].图书馆论坛,2021,41(11):79-89. 被引量：5
7崔铁军,李莎莎.线性熵的系统故障熵模型及其时变研究[J].智能系统学报,2021,16(6):1136-1142. 被引量：2
8冯钧,王秉发,陆佳民.分布式资源描述框架数据管理系统查询性能评价[J].计算机应用,2022,42(2):440-448. 被引量：1
9李然,杨玉婷,张志强,刘鹰,黄健隆,李浩淼.智能鱼类信息共享平台的构建[J].大连海洋大学学报,2022,37(3):497-504. 被引量：2
10赵小虎,蔡长煦.基于农田墒情监测的轻量级语义传感网络[J].湖南大学学报（自然科学版）,2023,50(8):181-193.

1段寿建,甘健侯.基于RDF、OWL的知识表示及其转换研究与实现[J].保山师专学报,2006,25(2):68-71.
2丁伟.安腾处理器升级重整市场定位[J].微电脑世界,2004(23):25-25.
3易雅鑫,宋自林,尹康银.RDF数据存储模式研究及实现[J].情报科学,2007,25(8):1218-1222. 被引量：11
4徐德智,刘扬,Sarfraz Ahmed.基于Hadoop的RDF数据存储及查询优化[J].计算机应用研究,2017,34(2):477-480. 被引量：15
5杨健,罗军.基于Hadoop的RDF数据存储策略综述[J].信息安全与技术,2015,6(5):46-48. 被引量：1
6刘娟,朱翔鸥,刘文斌.基于交互信息的数据集特征结构研究[J].模式识别与人工智能,2014,27(1):82-88. 被引量：1
7李洪奇,徐青松,朱丽萍,戚雪晨.基于数据集相似性的分类算法推荐[J].计算机应用与软件,2016,33(8):62-66. 被引量：6
8曾子林,张宏军,张睿,王之腾.基于元学习思想的算法选择问题综述[J].控制与决策,2014,29(6):961-968. 被引量：14
9康杰华,罗章璇.基于图形数据库Neo4j的RDF数据存储研究[J].信息技术,2015,39(6):115-117. 被引量：25
10孟小峰.Web数据管理研究综述[J].计算机研究与发展,2001,38(4):385-395. 被引量：83

计算机科学

2015年第10期

浏览历史

内容加载中请稍等...

一种基于聚类模式的RDF数据聚类方法被引量：3

参考文献16

二级参考文献22

共引文献82

同被引文献32

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种基于聚类模式的RDF数据聚类方法 被引量：3

参考文献16

二级参考文献22

共引文献82

同被引文献32

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种基于聚类模式的RDF数据聚类方法被引量：3