一种高效的文本查重算法在电子商务中的应用被引量：1

APPLYING AN EFFICIENT TEXTUAL REPLICAS DETECTION ALGORITHM IN E-COMMERCE

下载PDF

导出

摘要研究一种高效的文本信息查重算法,对电子商务网站的相似信息进行自动归类排序,大幅度提高信息审核效率与正确性。测试表明,信息数量在100-1000条时,该算法十分有效,1000条的文本信息相互比较可控制在2秒之内。信息数量超过1000条后,计算时间会大幅度上升。可通过调整算法中相关参数来调整精度。对于过短信息(少于10个字),可将本算法与Levenshtein算法相结合,以提高该文本信息查重算法的灵活性。 In this paper, an efficient textual information replicas detection algorithm is studied. Similar information on the e-commerce site is automatically classified and sorted, which greatly increases the efficiency and accuracy of information auditing. Tests show that when the information number is between 100 and 1000 ,the algorithm is quite effective,for the comparison of 1000 text messages can be controlled within two seconds. When the information amount is over 1000, the computation time will be significantly increased. The precision can be rectified by adjusting the relevant parameters of the algorithm. For the case that the information is too short （less than 10 words）, the algorithm can be combined with the Levenshtein algorithm in order to improve the flexibility of the textual replicas detection algorithm.

作者刘利俊吴达胜

机构地区杭州广播电视大学网络中心浙江林学院信息工程学院

出处《计算机应用与软件》 CSCD 2009年第1期197-199,共3页 Computer Applications and Software

关键词查重算法电子商务 Replicas detection Algorithm E-commerce

分类号 TP393.4 [自动化与计算机技术—计算机应用技术] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1PENGDaiyuan FANPingzhi.New theoretical bounds on the aperiodic correlation functions of binary sequences[J].Science in China(Series F),2005,48(1):28-45. 被引量：4
2Jian-Hua Xu.Identifying G-protein Coupled Receptors Using Weighted Levenshtein Distance and Nearest Neighbor Method[J].Genomics, Proteomics & Bioinformatics,2005,3(4):252-257. 被引量：1
3张建平,王作英,赵庆卫,陆大紟.语音理解中的容错技术的研究[J].电子学报,2000,28(3):84-86. 被引量：5

二级参考文献40

1[1]Fan, P. Z., Darnell, M., Sequence Design for Communications Applications, New York: Wiley, 1996.
2[2]Pursley, M. B., Sarwate, D. V., Performance evaluation for phase-coded spread spectrum multiple-access communications-Part Ⅰ: System analysis, IEEE Trans. Commun., 1977, COM-25: 795-799.
3[3]Sarwate, D. V., Pursley, M. B., Crosscorrelation properties of pseudonoise and related sequences, Proceedings of IEEE, 1980, 68(5): 593-619.
4[4]Sarwate, D. V., Bounds on crosscorrelation and autocorrelation of sequences, IEEE Trans. Inform. Theory,1979, 25: 720-724.
5[5]Welch, L. R., Lower bounds on the maximum crosscorrelation of signals, IEEE Trans. Inform. Theory, 1974,IT-20: 397-399.
6[6]Sidelnikov, V. M., Crosscorrelation of sequences, Probl. Kybem (in Russian), 1971, 24:15-42.
7[7]Sidelnikov, V. M., On mutual correlation of sequences, Soviet Math Doklady, 1971, 12: 197-201.
8[8]Massey, J. L., On Welch's Bound for the crosscorrelation of a sequence set, Proceedings of EEE ISIT'90,Sept. 1990, 385.
9[9]Levenshtein, V. I., New lower bounds on aperiodic crosscorrelation of binary codes, IEEE Trans. Inform.Theory, 1999, 45(1): 284-288.
10[10]Peng, D. Y., Fan, P. Z., Bounds on Aperiodic auto- and cross-correlations of binary sequences with low or zero correlation zone, PDCAT'2003 Proceedings, IEEE Press, August, 2003, 882-886.

共引文献7

1王霅煜,涂惠燕.基于内容的语音课件关键词检索系统:设计与实现[J].计算机应用与软件,2011,28(4):120-123. 被引量：1
2龙德浩,陈志清.δ/θ型基带相关检测/解扩方案[J].电讯技术,2012,52(9):1438-1442. 被引量：5
3龙德浩,陈志清.适用于δ-相关解扩的扩频码检验方法[J].电讯技术,2012,52(10):1577-1581. 被引量：5
4李翠霞.现代计算机智能识别技术处理自然语言研究的应用与进展[J].科学技术与工程,2012,20(36):9912-9918. 被引量：10
5龙德浩,陈志清.δ/θ型相关解扩抑制多址干扰的能力分析[J].电讯技术,2013,53(5):553-559. 被引量：3
6李明琴,王作英,陆大■.语音识别音字转换中的快速容错算法[J].中文信息学报,2002,16(5):38-43. 被引量：5
7练朝春,李淑英,肖峰,梁仁德,季伟伟.基于手机车机融合的智能车联网系统开发[J].电子元器件与信息技术,2019,3(12):21-26. 被引量：3

同被引文献11

1孙木楠,史志俊.基于粒子群优化算法的结构模型修改[J].振动工程学报,2004,17(3):350-353. 被引量：18
2连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
3陈君波,叶庆卫,周宇,曹小华.一种新的混合变异粒子群算法[J].计算机工程与应用,2007,43(7):59-61. 被引量：13
4Natsuki H, Hitoshi I. Particle Swarm Optimization with Gassian Mutation[C]//Proc. of IEEE Swarm Intelligence Symposium. [S. l.]: IEEE Press. 2003: 72-79.
5Yi Da, Ge Xiurun. An Improved PSO-based ANN with Simulated Annealing Technique[J]. Neurocomputing, 2005, 63(11): 527-533.
6刘小军,赵栋,姚卫东.一种用于中文文本查重的双因子相似度算法[J].计算机仿真,2007,24(12):312-314. 被引量：5
7王涛,樊孝忠,林培光,陈康.基于复杂特征集的剽窃检测[J].北京理工大学学报,2008,28(2):129-133. 被引量：2
8马成前,毛许光.网页查重算法Shingling和Simhash研究[J].计算机与数字工程,2009,37(1):15-17. 被引量：17
9常先英,李荣钧.粒子群优化算法中加速系数的实验分析[J].计算机工程,2010,36(4):183-186. 被引量：10
10吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量：41

引证文献1

1叶庆卫,武冬星,周宇,王晓东.基于粒子群优化的文档子内容查重算法[J].计算机工程,2011,37(20):203-205.

1叶庆卫,武冬星,周宇,王晓东.基于粒子群优化的文档子内容查重算法[J].计算机工程,2011,37(20):203-205.
2黄菊.一种基于语义向量空间模型的作业查重算法[J].电子科学技术,2016,3(6):786-789. 被引量：2
3陈志刚,张伟.网页资源的消重研究[J].电子技术与软件工程,2015(8):39-39.
4卢少平,郑明,吴耀华.基于RFID的教室考勤系统设计研究[J].现代电子技术,2010,33(18):44-46. 被引量：11
5吉胜军.基于Levenshtein distance算法的句子相似度计算[J].电脑知识与技术,2009,0(3X):2177-2178. 被引量：13
6胡玉琦.基于Levenshtein算法的题库相似度检测算法的设计与改进[J].东莞理工学院学报,2014,21(5):57-60. 被引量：1
7赵德平,蔡丽静,李鹏.基于Newshingling的相似文本检测算法[J].沈阳建筑大学学报（自然科学版）,2011,27(4):771-775. 被引量：1
8卢伟.探究物联网的一种自适应实时数据分发机制[J].通讯世界,2017,23(3):44-45.
9严大治.字符串匹配算法比较与分析[J].计算机光盘软件与应用,2013,16(2):138-138. 被引量：2
10韩戟,何成浩,苏星,施成云,刘东映.一种基于SVM的电力行业物资需求预测方法[J].电气技术,2016,17(12):152-154. 被引量：5

计算机应用与软件

2009年第1期

浏览历史

内容加载中请稍等...

一种高效的文本查重算法在电子商务中的应用被引量：1

参考文献3

二级参考文献40

共引文献7

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种高效的文本查重算法在电子商务中的应用 被引量：1

参考文献3

二级参考文献40

共引文献7

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种高效的文本查重算法在电子商务中的应用被引量：1