数据起源在多版本文档检索中的应用

Application of data provenance in multi-version documents retrieval

下载PDF

导出

摘要随着计算机的普及和大数据时代的来临,个人计算机中文档的版本数急剧增加,用户想要迅速找到所需的文档绝非易事.相关研究表明,文件的起源信息可以为用户提供快速定位目标文档的线索.已有的一些基于数据起源的检索方式,其起源粒度多数是文件级的.但对于内容相关性较高的文档来说,文件级的起源信息无法清晰地描述内容间的关联关系,也就无法给予用户充分的帮助.基于PROV模型,针对文档版本的变化建立内容级的起源概念模型,并给出了起源词汇表.在资源描述框架(resource description framework, RDF)语言的基础上建立了起源信息的查询访问机制,并给出了可视化方案,为用户提供直观的信息表达.结果表明,该方法通过对文档检索结果的扩展和解释,可以为用户提供更有价值的帮助信息,从而达到快速锁定目标文件的目的,提高工作效率. As the big data era emerges,the number of document versions is rapidly growing to make document retrieval difficult.Related studies show that provenance information is an important cue in helping users find needed documents.Information retrieval researches based on data provenance often capture files events that cannot describe particular relationship between documents,and therefore are not useful enough for re-finding documents.This paper presents a provenance model based on PROV at the content level,and constructs a specific vocabulary for multi-version documents retrieval.Furthermore,a low-level mode is described with resource description framework(RDF),and the high-level is formed based on query of the former.Finally,to give users a more accessible way to evaluate information,a visualization method of the provenance information is proposed.The results show that the model provides users with more valuable cues by using provenance information to expand retrieval results,and help them find target document quickly and improve efficiency.

作者陈悦董红斌谭成予梁意文 CHEN Yue;DONG Hongbin;TAN Chengyu;LIANG Yiwen(School of Computer Science,Wuhan University,Wuhan 430072,China;International School of Software,Wuhan University,Wuhan 430079,China)

机构地区武汉大学计算机学院武汉大学国际软件学院

出处《上海大学学报（自然科学版）》 CAS CSCD 北大核心 2018年第5期730-744,共15页 Journal of Shanghai University:Natural Science Edition

基金国家自然科学基金资助项目(61170306) 国家高技术研究发展计划(863计划)资助项目(2012AA09A410)

关键词多版本文档文档检索数据起源 PROV模型 multi-version documents document retrieval data provenance PROV

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1戴超凡,王涛,张鹏程.数据起源技术发展研究综述[J].计算机应用研究,2010,27(9):3215-3221. 被引量：40
2倪静,孟宪学.PROV数据溯源模型及Web应用[J].图书情报工作,2014,58(3):13-19. 被引量：17

二级参考文献100

1刘喜平,万常选.数据起源研究综述[J].科技广场,2005(1):47-52. 被引量：13
2李亚子.数据起源标注模式与描述模型[J].现代图书情报技术,2007(7):10-13. 被引量：16
3BOSE R,FREW J.Lineage retrieval for scientific data processing:a survey[J].ACM Computing Surveys,2005,37(1):1-28.
4WIDOM J.Trio:a system for integrated management of data,accuracy,lineage[C]//Proc of the 2nd Biennial Conference on Innovative Data Systems.2006:262-276.
5IKEDA R,WIDOM J.Panda:a system for provenance and data[J].IEEE Data Engineering Bulletin,2010,33(3):1-4.
6WANG Y R,MADNICK S E.A polygen model for heterogeneous database systems:the source tagging perspective[R].Cambridge:Sloan School of Management,1990.
7WOODRUFF A,STONEBRAKER G.Supporting fine-grained data lineage in a database visualization environment[C]//Proc of the 13th International Conference on Data Engineering.Washington DC:IEEE Computer Society,1997:91-102.
8STONEBRAKER M,CHEN J,NATHAN N,et al.Tioga:providing data management support for scientific visualization applications[C]//Proc of the 19th International Conference on Very Large Databases.San Francisco:Morgan Kaufmann,1993:25-38.
9BUNEMAN P,MAIER D,WIDOM J.Where was your data yesterday,where will it go tomorrow? data annotation and provenance for scientific applications[EB/OL].(2000-02-28).http://hermes.dpi.inpe.br:1910/col/dpi.inpe.br/ban on/2004/04.21.11.45/doc/BunemanWhereTomorrow.pdf.
10CUI Ying-wei,WIDOM J,WIENER J L.Tracing the lineage of view data in a data warehousing environment[J].ACM Trans on Database Systems,2000,25(2):179-227.

共引文献50

1王芳,赵洪.数据溯源研究与实践进展[J].情报学进展,2020(1):313-353. 被引量：9
2王海音,孙连山,祁志斌.一种可视化数据起源管理工具[J].网络安全技术与应用,2020,0(3):59-61.
3颜倩倩,王凤英.云计算平台下的数据起源安全方案[J].山东理工大学学报（自然科学版）,2011,25(5):67-70. 被引量：1
4沈志宏,张晓林.语义网环境下数据溯源表达模型研究综述[J].现代图书情报技术,2011(4):1-8. 被引量：25
5肖飞,张为华,王东辉.面向科学过程的工作流技术研究现状与趋势[J].计算机应用研究,2011,28(11):4013-4019. 被引量：7
6明华,张勇,符小辉.数据溯源技术综述[J].小型微型计算机系统,2012,33(9):1917-1923. 被引量：48
7唐钰,陈浩,叶柏龙.基于逆向清理的实时异构数据整合模型研究[J].计算机工程,2012,38(23):47-50. 被引量：3
8刘通,王凤英.基于Merkle树的起源完整性解决方案[J].山东理工大学学报（自然科学版）,2012,26(3):68-71. 被引量：6
9刘通,王凤英.基于OPM的安全起源模型[J].计算机应用研究,2013,30(10):3117-3120. 被引量：7
10余祖坤,许景楠,郑小林,陈德人.基于信任的真实数据判定方法[J].系统工程理论与实践,2013,33(9):2404-2414. 被引量：4

1郑晓东,胡汉辉,刘喜凤.基于起源信息的水位衰老数据的筛选算法[J].水利水电技术,2018,49(6):23-29.
2杨溢,林煜明,邹文静.基于图模型的海量商品知识表示与管理[J].计算机应用与软件,2018,35(4):6-9. 被引量：2
3孙建星,刘思妤,杨俊杰.用信息化搭建高效办公平台[J].农业发展与金融,2018(7):123-123. 被引量：1
4龚国伟.国际商业/经济信息库的分类与选择[J].技术与市场,1992(6):440-448.
5赵廷雄,孟玲.浅淡在课堂教学中如何调动学生学习数学主动性和积极性[J].好家长,2018,0(42):243-243.
6唐晓波,翟夏普.基于本体知识集合的知识检索研究[J].图书馆学研究,2018(1):60-66. 被引量：12
7孙放,郭淳,郑思思,彭筱娴,刘晓峰.《黄帝内经宣明论方》62证与《圣济总录》的渊源[J].西部中医药,2018,31(7):55-58. 被引量：2
8邱慧,邹兆年.Spark GraphX上的SPARQL查询处理算法[J].计算机科学与探索,2018,12(9):1361-1371.
9胡佳慧.运用结构化思维重构知识体系培育学科核心素养——以人教版小学数学五年级上册《多边形面积》为例[J].吉林教育,2018,0(17):50-52. 被引量：1
10IObit Unlocker[J].网络安全和信息化,2018,0(8):164-164.

上海大学学报（自然科学版）

2018年第5期

浏览历史

内容加载中请稍等...

数据起源在多版本文档检索中的应用

参考文献2

二级参考文献100

共引文献50

相关作者

相关机构

相关主题

浏览历史