相似文本的快速搜索被引量：1

Faster Algorithm for Searching Similar Text

下载PDF

导出

摘要相似文本的快速搜索是大规模文本处理需要解决的基本问题。从两方面改进了Udi的相似文本搜索方法,通过Hash把集合映射成ID,从而得到更快的集合比较算法,重新定义了相似关系,能够减少误判,同时对有固定格式的文本也有更好的效果。 Searching similar texts is a fundamental problem for many large scale text processing tasks. Udi's algorithm for searching similar texts is improved in two ways. By mapping each set to an [D, a faster algorithm to compare sets is obtained. And the relation of similar to is redefined in order to both reduce false decision and improve the performance for those texts with fixed format.

作者燕继坤郑辉席建民

机构地区西南电子电信技术研究所国家重点实验室

出处《计算机工程》 CAS CSCD 北大核心 2004年第15期22-23,71,共3页 Computer Engineering

基金国防预研基金资助项目

关键词大规模文本处理相似文本搜索复制检测 Large scale text processing Similar texts searching Copy detection

分类号 TP391.43 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Heintze N. Scalable Document Fingerprinting. Oakland. California:Proceedings of the Second USENIX Workshop on Electronic Commerce, http://www.cs.cmu.edu/afs/cs/user/nch/www/koa la/main.html,1996
2Rivest. The MD5 Message-Digest Algorithm. http://www.faqs.org/rfcs/rfc 1321 .html, 1992
3Brin S, Davis J, Garcia-Molina H. Copy Detection Mechanisms for Digital Documents. San Francisco,CA: Proc. of the ACM SIGMOD Annual Conference, 1995
4Shivakumar N, Gareia-Molina H. SCAM: A Copy Detection Mechanism for Digital Documents. In: Proceedings of the 2nd International Conference in Theory and Practice of Digital Libraries (DL′95),http://wwwdb. stanford.edu/pub/shivakumar/1995/scam.ps, 1995
5Manber U. Finding Imilar Files in a Large File System. San Francisco,CA: Proceedings of the Winter 1994 USENIX Technical Conference,1994

共引文献1

1方柯南,秦亚黎.痰热清治疗手足口病重症疗效观察[J].中国实用医药,2011,6(32):180-181. 被引量：4

同被引文献5

1叶彤,吴钦章,蒋平.实时数据库的应用研究[J].光电工程,2004,31(6):70-72. 被引量：15
2刘震,罗欣.嵌入式实时数据库技术研究[J].电子产品世界,2005,12(02A):57-57. 被引量：7
3贾泽露,刘耀林,张彤.可视化交互空间数据挖掘技术的探讨[M].北京:测绘科学出版社,2004.
4Oliveira F, Levkowitz H. From visual data exploration to visual data mining: a survey [ J ]. IEEE Transactions on Visualization and Computer Graphics, 2003(3).
5谷国栋.内存数据库相关技术的研究与分析[J].电脑知识与技术,2007(10):5-6. 被引量：5

引证文献1

1杨锦辉,倪良胜,吴友武.基于多维散列桶的数据定位技术MDHash[J].中国人民公安大学学报（自然科学版）,2009,15(4):87-90.

1胡维华,鲍乾,李柯.结合汉明距离及语义的文本相似度量方法研究[J].杭州电子科技大学学报（自然科学版）,2016,36(3):36-41. 被引量：6
2胡朝举,杨孟英.中文文本分类关键技术的研究[J].电脑编程技巧与维护,2016(14):14-15. 被引量：1
3燕秀霞,刘芳.常用数字视频接口的比较研究[J].音响技术,2009(1):54-56.
4郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
5李霞,蒋盛益,张倩生,朱靖.适用于大规模文本处理的动态密度聚类算法[J].北京大学学报（自然科学版）,2013,49(1):133-139. 被引量：10
6许长山.利用UDI系统实现批量数据交换[J].中国金融电脑,2005(12):50-52.
7严丽丽,陈鹤年.一种基于支持向量机和遗传算法的启发式多层文本分类算法[J].软件导刊,2010,9(10):52-53.
8孙军,黎琪,李和睿.基于集合映射的彩色图像边缘检测[J].四川兵工学报,2012,33(10):86-87. 被引量：4
9苏晓翠.医疗器械唯一标识(UDI)常见问题(一)[J].条码与信息系统,2017,0(1):29-29. 被引量：3
10范策,王培东.实体数据结构的空间变换[J].哈尔滨理工大学学报,1996,1(2X):51-55.

计算机工程

2004年第15期

浏览历史

内容加载中请稍等...

相似文本的快速搜索被引量：1

参考文献5

共引文献1

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

相似文本的快速搜索 被引量：1

参考文献5

共引文献1

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

相似文本的快速搜索被引量：1