基于Hash技术的重复性评论检测被引量：4

Detection of repetitive reviews base on Hash technology

下载PDF

导出

摘要随着互联网技术的迅速发展,论坛已经成为人们获取信息、发表言论的重要场所,但大量的重复评论已成为论坛舆情信息内容获取与监管系统中新的难题,因此对重复评论进行有效检测和消重就至关重要。针对重复评论在一定时间内具有数量大、密度高、内容相似度高的特点,提出了一种基于SHA-1技术的重复评论检测方法。该方法以句和段为粒度块计算评论Hash值,然后统计Hash表中相同的指纹数目以此判断评论之间的相似度,最后依据给出的相似度阈值检测评论是否为重复评论。实验结果表明,该方法可以对重复评论进行有效检测和消重,且优于传统方法。 With the rapid development of Internet, BBS had become an important place for the people to acquire information and make comments. However the existence of a vast number of repeated reviews had become a new problem, so the effective detection and duplication removal of repeated reviews were crucial for the BBS information acquisition and supervision system. A method of repeated reviews detection based on SHA-1 algorithm was proposed in consideration of its large quantity, high density and closely content similarity in a period of time. The method first calculated the Hash value of each sentence and paragraph and then counted the number of same Hash table fingerprints as a means of calculating the similarity between the different reviews. Finally the given similarity threshold was used to verify whether the reviews were repeated. The experimental results show that the proposed method is very effective and superior to traditional methods.

作者李真林琛李弼程

机构地区信息工程大学信息工程学院

出处《计算机应用》 CSCD 北大核心 2009年第B12期263-266,共4页 journal of Computer Applications

基金国家863计划项目(2007AA01Z439)

关键词舆情信息重复评论相似度计算 HASH表 public opinion information repeated comment similarity calculation Hash table

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1韩运荣,喻国明.舆论学[M].北京:中国传媒大学出版社,2005.
2鲍军鹏,沈钧毅,刘晓东,宋擒豹.自然语言文档复制检测研究综述[J].软件学报,2003,14(10):1753-1760. 被引量：69
3MANBER U. Finding similar flies in a large file system[ C]//Proceedings of the USENIX Winter 1994 Technical Conference on USENIX. Washington, DC: IEEE, 1994:2-2.
4BRODER A Z, GLASSMAN S C, MANASSE M S. Syntactic clustering of the Web[ J]. Computer Networks and ISDN Systems, 1997, 29(8/13) : 1157 - 1166.
5CHOWDHURY A, FLEXLER O, GROSSMAN, et al. Collection statistics for fast duplicate document detection[ J]. ACM Transactions on Information Systems, 2002, 20(2) : 171 - 191.
6GYONGYI Z, GARCIA-MOLINA H. Web spare taxonomy[ C]// First International Workshop on Adversarial Information Retrieval on the Web. Chiba, Japan: [ s. n. ], 2004:1 - 8.
7LI KANG. ZHONG ZHENYU. Fast statistical spare filter by approximate classifications[ C]// Proceeding of ACM SIGMETRICS. New York: ACM, 2006:347 - 358.
8NTOULAS A, NAJORK M, MANASSE M, et al. Detecting spare Web pages through content analysis[ C]// Proceedings of the 15th International Conference on World Wide Web. Washington, DC: IEEE, 2006:83-92.
9WU B, GOEL V, DAVISON B D. Topical trust rank: Using topicality to combat Web spare[ C]// Proceedings of the 15th International Conference on World Wide Web. Washington, DC: IEEE, 2006:63 - 72.
10SALTON G. Automatic Text Processing[M]. Boston: Addison Wesley Longman Publishing, 1988.

二级参考文献2

1卢汉清,孔维新,廖明,马颂德.基于内容的视频信号与图像库检索中的图像技术[J].自动化学报,2001,27(1):56-59. 被引量：30
2宋擒豹,沈钧毅.数字商品非法复制和扩散的监测机制[J].计算机研究与发展,2001,38(1):121-125. 被引量：38

共引文献69

1卢小康,王小华,王荣波.一种句子级别的中文文本复制检测方法[J].杭州电子科技大学学报（自然科学版）,2009,29(6):45-48. 被引量：1
2王雯,廖祥忠.数字图像作品抄袭鉴定研究[J].大连理工大学学报,2011,51(S1):98-101.
3白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量：3
4金博,史彦军,滕弘飞.中文文档复制检测系统研究[J].计算机工程,2005,31(19):79-81. 被引量：9
5金博,史彦军,滕弘飞.基于篇章结构相似度的复制检测算法[J].大连理工大学学报,2007,47(1):125-130. 被引量：28
6连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
7邓爱萍,徐国梁,肖奔.基于串匹配方法的源代码复制检测技术研究[J].科学技术与工程,2007,7(10):2251-2254. 被引量：9
8耿崇,薛德军.中文文档复制检测方法研究[J].现代图书情报技术,2007(6):33-37. 被引量：4
9易彤,徐升华,万常选,吴方君.抄袭剽窃论文识别研究综述[J].情报学报,2007,26(4):567-573. 被引量：7
10张慰,秦新国.电子作业管理系统的设计与开发[J].中小学电教（综合）,2007(10):59-62. 被引量：1

同被引文献37

1苑洪亮.基于内容的“发布/订阅”若干关键技术研究[D]国防科学技术大学,国防科学技术大学2006.
2徐锋.基于ESB的分布式应用系统的研究与应用[D]大庆石油学院,大庆石油学院2009.
3陈靖.用企业服务总线（ESB）对SOA的改进与应用[D]重庆大学,重庆大学2005.
4Global Trust in Advertising and Brand Messages [EB/OL]. [2015-08-09]. http://www.fi.nielsen.com/site/documents/NielsenTrus tinAdvertisingGlobalReportApril2012.pdf.
5中国互联网信息中心(CNNIC).中国网络购物市场研究报告[EB/R].[2015-08-09]. http://www.cnnic.net.cn.
6Luca M, Zervas G.Fake it till you make it:reputation,competition,and yelp review fraud[EB/OL].[2015-08-09] http://people.bu.edu/zg/ publications/fakereviews.pdf.
7Dellarocas C. Strategic manipulation of internet opinion forums: implications for consumers and firms [J]. Management Science, 2006, 52(10):1577-1593.
8Yoo K H, Gretzel U. Comparison of deceptive and truthful travel reviews [C].//Information and Communication Technologies in Tourism 2009. Springer Vienna, 2009: 37-47.
9Yoo K H, Lee Y, Gretzel U, et al. Trust in travel-related consumer generated media [C].//Information and Communication Technologies in Tourism 2009. Springer Vienna, 2009: 49-59.
10Ott M, Choi Y, Cardie C, et al. Finding deceptive opinion spam by any stretch of the imagination[C]. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, 2011: 309-319.

引证文献4

1辛义定,丁君辉,徐远兵.基于企业服务总线的系统集成架构[J].计算机工程,2011,37(S1):67-69.
2赵衍.网络虚假评论研究述评[J].上海管理科学,2014,36(4):85-88. 被引量：4
3赵衍.基于“文本-主题”双层次分析的网络虚假评论检测法研究——以电子商务网站为例[J].数字图书馆论坛,2015(9):53-60. 被引量：2
4周金萍.浅析淘宝网信用问题[J].西部皮革,2016,38(18):129-129.

二级引证文献6

1王伟军,宋艳秋,张婷婷,黄英辉,陈博洋.基于话语标记理论的在线商品评分修正方法[J].情报学报,2016,35(4):358-368. 被引量：4
2朱娟.在线商品虚假评论关键问题研究综述[J].现代情报,2017,37(5):166-171. 被引量：6
3邓胜利,汪奋奋.互联网治理视角下网络虚假评论信息识别的研究进展[J].信息资源管理学报,2019,9(3):73-81. 被引量：17
4薛晨杰,王召义.虚假评论形成动机研究[J].新乡学院学报,2020,37(11):22-27. 被引量：1
5刘逸,孟令坤,李想,郭建楠.旅游无效评论特征研究初探[J].旅游论坛,2021,14(3):31-43. 被引量：1
6魏瑾瑞,王金伟.在线评论回报的动态声誉机制研究[J].中国管理科学,2022,30(1):252-262. 被引量：5

1陈璐,赵衍,尚珊珊.基于加权词频的I-Match算法改进及其应用分析--以电商网站为例[J].上海管理科学,2016,38(1):51-54.
2宋海霞,严馨,余正涛,石林宾,郭剑毅.基于半监督主动学习的虚假评论检测[J].昆明理工大学学报（自然科学版）,2015,40(5):59-65. 被引量：2
3石范锋.Flash元素在网页中的运用[J].电脑知识与技术,2011,7(10):6990-6991. 被引量：1
4ISL9206/206A：电池认证IC[J].世界电子元器件,2008(5):51-51.
5仲华,崔志明.一种高效的Deep Web内容获取技术[J].计算机应用与软件,2008,25(6):60-62. 被引量：1
6搜索，有求是否必应？[J].新电脑,2009(8):54-67.
7宋海霞,严馨,余正涛,石林宾,苏斐.基于自适应聚类的虚假评论检测[J].南京大学学报（自然科学版）,2013,49(4):433-438. 被引量：33
8王裕邦,卢显良,段翰聪,唐晖,吴车海,刘江.基于hash技术的ext3目录索引机制的改进[J].计算机应用研究,2007,24(10):229-231.
9刘胤,杨世平.基于RFC算法的快速多维数据包分类算法[J].计算机工程,2008,34(6):95-97. 被引量：7
10张明,刘宇,郗亚辉.基于领域本体的Deep Web内容获取技术研究[J].广西师范大学学报（自然科学版）,2011,29(1):162-166. 被引量：1

计算机应用

2009年第B12期

浏览历史

内容加载中请稍等...

基于Hash技术的重复性评论检测被引量：4

参考文献12

二级参考文献2

共引文献69

同被引文献37

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Hash技术的重复性评论检测 被引量：4

参考文献12

二级参考文献2

共引文献69

同被引文献37

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Hash技术的重复性评论检测被引量：4