基于特征码的大规模XML文档去重研究被引量：1

下载PDF

导出

摘要本文总结了目前基于XML文档的一些信息检索技术,并通过一种特征码技术,将海量的XML文档中内容重复的文档检索出来。利用可以将XML文档映射到关系数据库中的X-RESTORE技术管理、存储、查找XML文档,并利用它的解析器快速定位特征码。将特征码通过高效的B+树来索引,大大提高系统的处理效率。

作者韩正服杨喜权张一鸣丛荣华

机构地区吉林大学网络中心东北师范大学计算机学院

出处《中国管理信息化（综合版）》 2006年第7期75-77,共3页 China Management Informationization

基金国家自然科学基金项目(60473042)

关键词 XML 信息检索特征码技术 X-RESTORE B+树

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1[4]万长选编著.XML数据库技术[M].北京:清华大学出版社,2004.
2赵汀,孟祥武.基于LUCENEAPI的中文全文数据库设计与实现[J].计算机工程与应用,2003,39(20):179-181. 被引量：24

二级参考文献5

1胡盈盈.单汉字标引与检索技术综析[M].南京大学信息管理系,..
2张政保.全文数据库研究[M].中山大学,1995..
3杨沛.全文数据库索引机制的比较研究[M].中国科技信息研究所,1995..
4Lucene 1.2-RC4 API.http://jakarta.apache.org/lucene/docs/api/index.html, 2002.
5java offical web site.http://java.sun.com/,2002.

共引文献23

1周强.用Lucene实现MARC记录全文索引之探索[J].图书馆学刊,2005,27(2):22-24. 被引量：2
2郭一平,向晖,王亮.基于Lucene的Ftp搜索引擎的设计[J].高校图书情报论坛,2005,4(4):7-9.
3郭一平,向晖,王亮.基于Lucene的Ftp搜索引擎的设计[J].图书情报工作,2006,50(4):122-125. 被引量：3
4蒋国瑞,孙明.基于Lucene的TBT文档管理Agent系统研究[J].情报杂志,2006,25(5):37-40. 被引量：1
5向晖,郭一平,王亮.基于Lucene的中文字典分词模块的设计与实现[J].现代图书情报技术,2006(8):46-50. 被引量：27
6蔡建超,郭一平,王亮.基于Lucene.Net校园网搜索引擎的设计与实现[J].计算机技术与发展,2006,16(11):73-75. 被引量：14
7张晓卫,朱巧明.一种基于Lucene的Web全文信息检索系统的设计与实现[J].计算机与现代化,2006(12):111-115. 被引量：6
8温艳鸿.基于lucene的文件搜索引擎的设计与扩展[J].福建电脑,2007,23(8):144-144. 被引量：4
9宋佳,诸云强,刘润达.一种基于Lucene改进的全文检索工具包[J].计算机工程与应用,2008,44(4):172-175. 被引量：15
10周祥,王丽芳,蒋泽军,张羽.基于Lucene的企业信息门户搜索引擎设计[J].微处理机,2009,30(4):62-64. 被引量：6

同被引文献21

1谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
2姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
3白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量：3
4陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
5高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量：13
6郭晨娟,李战怀.基于概念的网页相似度处理算法研究[J].计算机应用,2006,26(12):3030-3032. 被引量：8
7连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
8张元丰,董守斌,张凌,陈晓志.基于Map/Reduce的网页消重并行算法[J].广西师范大学学报（自然科学版）,2007,25(2):153-156. 被引量：2
9王鹏,张永奎,张彦,刘睿.基于新闻网页主题要素的网页去重方法研究[J].计算机工程与应用,2007,43(28):177-180. 被引量：7
10魏丽霞,郑家恒.基于网页文本结构的网页去重[J].计算机应用,2007,27(11):2854-2856. 被引量：13

引证文献1

1李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9

二级引证文献9

1程芃森,安俊秀.基于特征词群的新闻类重复网页和近似网页识别算法[J].成都信息工程学院学报,2012,27(4):374-379.
2高翔,李兵.中文短文本去重方法研究[J].计算机工程与应用,2014,50(16):192-197. 被引量：4
3王君泽,曾润喜,杜洪涛.基于网页转载关系判别的网络舆情传播态势分析[J].情报杂志,2015,34(1):144-149. 被引量：4
4贲兴龙,贾大文,袁林.一种面向大规模网页去重的三层分布式架构[J].计算机与数字工程,2015,43(10):1751-1755. 被引量：2
5刘年国,王芬,吴家奇,李雪,陶涛.基于Counting Bloom Filter的海量网页快速去重研究[J].安徽电气工程职业技术学院学报,2016,21(3):92-97.
6黄伟建,杨海龙.Hadoop下改进布隆过滤器算法的网页去重[J].计算机工程与科学,2017,39(2):285-290. 被引量：1
7张庆梅.舆情去重算法的研究与比较[J].电子设计工程,2017,25(14):23-27. 被引量：1
8吴家奇,刘年国,李雪,谢翔,王涛.基于Counting Bloom Filter的海量网页快速去重研究[J].电力大数据,2018,21(12):37-42. 被引量：1
9李洪奇,冯海波,张伟,杨中国,宋伟城.基于字集特征向量的网页消重改进算法[J].计算机工程与应用,2017,53(2):53-57.

1张迎春.基于特征码技术的攻防策略[J].计算机系统应用,2009,18(3):114-117. 被引量：4
2刘卓.相同内容重复巧输入[J].电脑爱好者,2012(9):51-51. 被引量：1
3徐勇,成良玉,李猛.基于XML数据的关联规则挖掘研究[J].计算机工程与设计,2006,27(24):4704-4706. 被引量：3
4杨树珍,徐红伟.两种GML数据挖掘方法之比较[J].产业与科技论坛,2011(8):96-97.
5贾小恒.XML文档存储在关系数据库中的研究[J].电脑编程技巧与维护,2009(24):56-57. 被引量：1
6朱连军,董雪.数据库中XML文档的存储研究[J].河南教育学院学报（自然科学版）,2009,18(3):35-37.
7朝格.浅谈EXCEL与XML的数据交换[J].软件,2012,33(5):48-50. 被引量：1
8杨科,赖朝安,赵阳.基于XML数据的FP-growth算法挖掘研究[J].计算机工程与应用,2008,44(19):150-152. 被引量：2
9王行哲.XML Schema到UML类图的转换方法[J].电脑知识与技术（过刊）,2007(24):113-114.
10崔清华.XML文档在关系数据库中的存储研究[J].微计算机信息,2007,23(04X):184-186. 被引量：4

中国管理信息化（综合版）

2006年第7期

浏览历史

内容加载中请稍等...

基于特征码的大规模XML文档去重研究被引量：1

参考文献2

二级参考文献5

共引文献23

同被引文献21

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于特征码的大规模XML文档去重研究 被引量：1

参考文献2

二级参考文献5

共引文献23

同被引文献21

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于特征码的大规模XML文档去重研究被引量：1