基于特征迭代的短文本去重算法被引量：4

Short Text Duplicate Removal Algorithm Based on Feature Iteration

下载PDF

导出

摘要由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,迭代直至收敛,从而实现短文本的去重检测。在真实数据集上的实验结果表明,与现有的文本去重算法相比,该算法对于短文本具有更好的去重效果。 Because of the single word frequency and the simple structure of short text,algorithms based on normal feature selection methods do not fit to short text.This paper proposes an iteration method of weighting features for short text.It produces the fingerprints of short text using SimHash,and clusters these fingerprints with Shared Nearest Neighbor（SNN）.Initial features are added or deleted according to the clusters.This process is circulatory so as to realize the duplicate removal of short text.Experimental results based on two real datasets show that this method fits short text well and has better duplicate removal effects than existing methods.

作者曹海孙婧史喜斌

机构地区复旦大学计算机科学技术学院上海市数据科学重点实验室

出处《计算机工程》 CAS CSCD 北大核心 2015年第12期54-57,63,共5页 Computer Engineering

基金国家科技支撑计划基金资助项目(2012BAH13F02) 上海市科委基金资助项目(12511502403 12511509602)

关键词 SimHash算法共享最近邻迭代特征选择短文本去重 SimHash algorithm Shared Nearest Neighbor（SNN） iteration feature selection short text duplicate removal

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1Campbell D M,Chen W R, Smith R D. Copy Detection Systems for Digital Documents [ C]//Proceedings of IEEE Advances in Digital Libraries. Washington D. C. , USA : IEEE Press, 2000 : 78-88.
2Si A,Leong H V, Lau R W H. Check: A Document Plagiarism Detection System [ C ]//Proceedings of 1997 ACM Symposium on Applied Computing. New York, USA : ACM Press, 1997:70-77.
3Phan X H,Nguyen L M, Horiguchi S. Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections[ C ]//Proceedings of the 17th International Conference on World Wide Web. New York, USA:ACM Press,2008:91-100.
4Charikar M S. Similarity Estimation Techniques from Rounding Algorithms [ C ]//Proceedings of the 34th Annual ACM Symposium on Theory of Computing. New York, USA : ACM Press,2002 : 380-388.
5Bernstein Y,Zobel J. Accurate Discovery of Co-deriva- tive Documents via Duplicate Text Detection [ J]. Info- rmation Systems ,2006,31 (7) :595-609.
6董博,郑庆华,宋凯磊,田锋,马瑞.基于多SimHash指纹的近似文本检测[J].小型微型计算机系统,2011,32(11):2152-2157. 被引量：21
7Wang Meng, Lin Lanfen, Wang Jing, et al. Improving Short Text Classification Using Public Search Engines[M]. Berlin, Germany: Springer-Vertag ,2013.
8Ni Xingliang, Quan Xiaojun, Lu Zhi, et al. Short Text Clustering by Finding Core Terms [ J]. Knowledge and Information Systems ,2011,27 ( 3 ) :345-365.
9Gong Caichun, Huang Yulan, Cheng Xueqi, et al. Detecting Near-duplicates in Large-scale Short Text Databases [ M ]. Berlin, Germany : Springer-Verlag, 2008.
10Coskun B, Giura P. Mitigating SMS Spare by Online Detection of Repetitive Near-duplicate Messages [ C ]// Proceedings of IEEE International Conference on Com- munications. Washington D. C., USA: IEEE Press, 2012:999-1004.

二级参考文献9

1Andrei Z Broder, Steven C Glassman, Mark S Manass~, et al. Syntactic clustering of the Web[ J]. Computer Networks and ISDN Systems, 1997, 29(8-13) :1157-1166.
2Huang Lian-en, Wang Lei, Li Xiao-ming. Achieving both high precision and high recall in near-duplicate detection[A]. In: Pro- ceeding of the 17th ACM Conference on Information and Knowl- edge Management~ C], ACM, 2008: 63-72.
3Moses S Chafikar. Similarity estimation techniques from rounding algorithms[ A] . In: Proceedings of 34th Annual ACM Symposium on Theory of Computing[ C ], ACM, 2002: 380-388.
4Alcksandcr Kolcz, Abdur Chowdhury, Joshua Alspcctor. Improvedrobustness of signature-based near-replica detection via lexicon ran- domization[A]. In: Proceedings of the 10th ACM SIGKDD Inl~r- national Conference on Knowledge Discovery and Data Mining [C], ACM, 2004: 605-610.
5Gurmeet Singh Manku, Arvind Jain, Anish Das Sanna. Detecting near-duplicates for Web crawling[ A]. In: Proceedings of the 16th International Conference on World Wide Web[ C], ACM, 2007: 141-149.
6liang Qi-xia, Sun Mao-song. Semi-supervised SimHash for effi- cient document similarity search[C]. In: Proceedings of the 49th Annual Meeting of the Association for Computa~onal Linguistics, 2011 : 93-101.
7Panagiotis Papadimitriou, Ali Dasdan, Hector Garcia-Molina. Web graph similarity for anomaly detection[ J]. Journal of Internet Serv- ices and Applications,2010, 1 ( 1 ) : 19-30.
8ScoR Huffrnan, April Lehman, Alexei Stolboushkin, et al. Multi- pie-signal duplicate detection for march evaluation[ C ]. In: Pro- ceeding of the 30th Annual International ACM SIGIR Conference, 2007: 223-230.
9张祖平,徐昕,龙军,袁鑫攀.文本相似性度量中参数相关性与优化配置研究[J].小型微型计算机系统,2011,32(5):983-988. 被引量：11

共引文献20

1白如江,王晓笛,王效岳.基于数字指纹的文献相似度检测研究[J].图书情报工作,2013,57(15):88-95. 被引量：7
2俞枫,王引娜.基于DRPKP算法的文本去重研究与应用[J].微型电脑应用,2014(1):58-60. 被引量：3
3徐济惠.基于Simhash算法的海量文档反作弊技术研究[J].计算机技术与发展,2014,24(9):103-107. 被引量：7
4张广庆,葛唯益,贺成龙.基于Simhash的海量相似文档快速搜索优化方法[J].指挥信息系统与技术,2015,6(2):61-65. 被引量：7
5周龙泉,卫文学.基于主成分分析与Simhash的入侵检测方法[J].计算机与数字工程,2015,43(7):1291-1294. 被引量：3
6叶施仁,孙宁.基于SVM的新浪微博营销类水帖识别研究[J].湘潭大学自然科学学报,2015,37(4):70-74. 被引量：5
7岳亚伟.一种充分利用现有资源的开放性作业查重系统设计[J].电子技术与软件工程,2016(10):193-193.
8李锐,游景扬,刘稳,王锦,陈建峡.基于SimHash算法的案件辅助判决系统研究[J].湖北工业大学学报,2017,32(5):67-72. 被引量：1
9周晟劼,袁骏毅,侯晋.基于Simhash算法的自助胶片打印系统设计与实现[J].中国数字医学,2018,13(7):61-62.
10张朋,杨鹤标.基于Activiti的教学过程控制系统设计与实现[J].软件导刊,2018,17(10):102-105.

同被引文献36

1金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
2章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17
3熊浩,晏海华,郭涛,黄永刚,郝永乐,李舟军.代码相似性检测技术:研究综述[J].计算机科学,2010,37(8):9-14. 被引量：23
4张亮,尹存燕,陈家骏.基于语义树的中文词语相似度计算与分析[J].中文信息学报,2010,24(6):23-30. 被引量：36
5田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：178
6彭家寅.格值下推自动机与格值上下文无关文法[J].计算机工程与应用,2011,47(25):34-38. 被引量：8
7董博,郑庆华,宋凯磊,田锋,马瑞.基于多SimHash指纹的近似文本检测[J].小型微型计算机系统,2011,32(11):2152-2157. 被引量：21
8王洋,周学广,孙艳.基于统计的词语相关度网络自动构建方法研究[J].计算机与数字工程,2012,40(2):15-18. 被引量：2
9詹志建,梁丽娜,杨小平.基于百度百科的词语相似度计算[J].计算机科学,2013,40(6):199-202. 被引量：21
10李栋,徐志明,李生,刘挺,王秀文.在线社会网络中信息扩散[J].计算机学报,2014,37(1):189-206. 被引量：63

引证文献4

1张莉,孙丽娜,郭峰.在线社会网络中近似网页识别方法研究[J].微电子学与计算机,2017,34(2):141-144.
2许福,郝亮,陈飞翔,李冬梅,崔晓晖.面向开源代码复用的程序比对分析方法[J].计算机工程,2020,46(1):222-228. 被引量：2
3仲远,王芳,黄树成.基于百度百科多特征信息的词汇相似度计算[J].计算机与数字工程,2020,48(7):1580-1584. 被引量：1
4阮嘉琨,蔡延光,蔡颢,张丽.基于灰狼算法的Simhash冗余数据检测算法[J].东莞理工学院学报,2020,27(5):38-43. 被引量：4

二级引证文献7

1李呓瑾,宁浩宇,刘秀.基于代码仓库分析的代码推荐研究[J].科学与信息化,2021(2):33-34.
2张玉良,王艳兵.基于分层聚合的通信信息冗余数据检测方法[J].上海电机学院学报,2022,25(3):182-186.
3王东,王飘,江俊鹏,李青,徐晨阳.科技项目申报书查重方法研究[J].中国科技资源导刊,2022,54(5):30-40.
4严浩洲,刘旺盛,蔡振亮,敬添俊.改进麻雀搜索算法及其应用研究[J].东莞理工学院学报,2022,29(5):60-68. 被引量：2
5唐磊,陈璇,王庆宇.基于Hough变换的企业财务重复数据批量剔除方法[J].河北北方学院学报（自然科学版）,2023,39(3):22-26.
6赵慧.融合知识图谱关联检索的Web用户访问行为预测[J].计算机仿真,2023,40(10):496-500.
7姚鹏,段兴锋.基于改进灰狼算法的港作拖轮调度研究[J].东莞理工学院学报,2024,31(1):37-43.

1苏晓珂,郑远攀,万仁霞.基于共享最近邻的离群检测算法[J].计算机应用研究,2012,29(7):2426-2428. 被引量：2
2李霞,蒋盛益.一种垃圾邮件快速识别方法[J].小型微型计算机系统,2013,34(3):498-502. 被引量：2
3郑灵芝,黄德才.基于最近邻相似度的孤立点检测及半监督聚类算法[J].计算机系统应用,2012,21(2):117-121. 被引量：3
4张伟舒,吕云翔.微博情感倾向算法的改进与实现[J].知识管理论坛,2013(9):21-27. 被引量：8
5高兵,张健沛,邹启杰.基于共享最近邻密度的演化数据流聚类算法[J].北京科技大学学报,2014,36(12):1703-1711. 被引量：1
6高学东,王立敏,马红权,武森.基于共享最近邻探测社团结构的算法[J].系统工程理论与实践,2009,29(10):102-109. 被引量：5
7刘纪平,汪宏斌,汪诚波,周洞汝.基于模糊最近邻的高维数据聚类[J].小型微型计算机系统,2005,26(2):261-263. 被引量：5
8季铎,蔡云雷,蔡东风,苗雪雷.基于共享最近邻的专利自动分类技术研究[J].沈阳航空工业学院学报,2010,27(4):41-46. 被引量：6
9陈宝平.浅议多媒体语文教学要适合学科特点及文本特点[J].甘肃科技纵横,2008,37(3):185-185. 被引量：1
10姜利雪,季铎,蔡东风.专利中基于语义角色的术语相似度计算方法[J].中文信息学报,2016,30(4):37-43. 被引量：2

计算机工程

2015年第12期

浏览历史

内容加载中请稍等...

基于特征迭代的短文本去重算法被引量：4

参考文献14

二级参考文献9

共引文献20

同被引文献36

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于特征迭代的短文本去重算法 被引量：4

参考文献14

二级参考文献9

共引文献20

同被引文献36

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于特征迭代的短文本去重算法被引量：4