IMTS:融合图像与文本语义的虚假评论检测方法被引量：5

IMTS:Detecting Fake Reviews with Image and Text Semantics

导出

摘要【目的】针对网络“水军”发布的虚假评论信息在电商网站泛滥的问题,集成了一种面向中文电商网站评论的融合图像信息与文本语义的虚假评论检测方法(IMTS)。【方法】IMTS方法使用文本卷积神经网络及BERT预训练模型分别对文本评论信息进行特征提取,并得到对应的特征向量。再融入评论者特征,通过拼接评论文本语义与评论者ID的输出特征,进一步加强模型对整体语义信息的捕捉。将用户在评论中发布的图片利用残差网络进行特征抽取,获得对应的视觉特征,最后将文本特征与视觉特征进行多模态融合,检测虚假评论。【结果】IMTS方法在自建的多模态中文虚假评论数据集上,达到0.9636的准确率、0.9635的召回率以及0.9635的F1值。【局限】限于计算能力,本文数据集规模较小,且在文本处理阶段使用了BERT预训练模型,在大规模的数据计算情况下,时间成本较高。【结论】运用多模态思想以及特征融合方法对虚假评论文本进行特征补充从而检测虚假评论是有效的,此方法可以有效提升虚假评论整体的检测精度。 [Objective]This paper proposes a fake comment detection method(IMTS)integrating image information and text semantics for Chinese e-commerce websites,aiming to address the proliferation of fake comments posted by“Internet Water Army”.[Methods]First,we used the text convolutional neural network(TextCNN)and the BERT pre-training model to extract features of the text review information,and obtained the corresponding feature vectors.Then,we integrated the reviewer features to enhance the model’s capture of the overall semantic information by splicing the review text semantics and the output features of the reviewer ID.Third,we used the Residual Network(ResNet)to extract features from pictures posted by users in comments to obtain corresponding visual features.Finally,we conducted multimodal fusion of text features and visual features to detect the fake comments.[Results]The IMTS method achieved 96.36%accuracy,96.35%recall and 96.35%F1 value on the self-built multimodal Chinese fake comment dataset.[Limitations]The dataset in this paper was small in scale,and the BERT pre-training model was used in the text processing stage.[Conclusions]The proposed method could effectively improve the overall detection accuracy of fake comments.

作者施运梅袁博张乐吕学强 Shi Yunmei;Yuan Bo;Zhang Le;Lv Xueqiang(Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science and Technology University,Beijing 100101,China;School of Computer Science,Beijing Information Science and Technology University,Beijing 100101,China)

机构地区北京信息科技大学网络文化与数字传播北京市重点实验室北京信息科技大学计算机学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第8期84-96,共13页 Data Analysis and Knowledge Discovery

基金国家重点研发计划基金项目(项目编号:2018YFB1004100) 国家自然科学基金项目(项目编号:62171043)的研究成果之一。

关键词虚假评论多模态文本图像 BERT False comment Multimodal Text Image BERT

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1陈燕方,谭立辉.在线商品虚假评论信息治理策略研究[J].现代情报,2015,35(2):150-153. 被引量：5
2张紫琼,叶强,李一军.互联网商品评论情感分析研究综述[J].管理科学学报,2010,13(6):84-96. 被引量：154
3李菲菲,吴璠,王中卿.基于生成式对抗网络和评论专业类型的情感分类研究[J].数据分析与知识发现,2021,5(4):72-79. 被引量：7
4田金霓,尤天慧,袁媛.基于在线评论的产品竞争力分析方法[J].东北大学学报（自然科学版）,2021,42(10):1498-1505. 被引量：1
5行娟娟.基于Markov逻辑网的虚假评论识别方法[J].中文信息学报,2016,30(5):94-100. 被引量：4
6张琪,纪淑娟,傅强,张纯金.基于带权评论图的水军群组检测及特征分析[J].计算机应用,2019,39(6):1595-1600. 被引量：7
7张国标,李洁.融合多模态内容语义一致性的社交媒体虚假新闻检测[J].数据分析与知识发现,2021,5(5):21-29. 被引量：13
8陈鹏,李擎,张德政,杨宇航,蔡铮,陆子怡.多模态学习方法综述[J].工程科学学报,2020,42(5):557-569. 被引量：28

二级参考文献30

1姚天昉,娄德成.汉语语句主题语义倾向分析方法的研究[J].中文信息学报,2007,21(5):73-79. 被引量：78
2Yoo K H,Gretzel U. Comparison of deceptive and truthfiil travel re-views [M] // Information and communication technologies in tourism2009. Springer Vienna, 2009 : 37 - 47.
3Hu N, Bose I’ Gao Y, Liu L. Manipulation in digital word - of -mouth: A reality check for book reviews [ j] . Decision Support Sys-tems, 2011,50 (3): 627 - 635.
4淘宝网.诗宝规则[EB/OL]. http: //rule, taobao. com/detail -62.htm, 2014-03-10.
5新华网.首例差评师案告破[EB/OL].http: // news. sina. com.cn/o/2013 - 07 - 04/050927571266.shtml,2014 - 03-10.
6Jindal N,Liu B. Opinion spam and analysis [ C] // Proceedings ofthe international conference on Web search and web data mining.ACM, 2008 : 219-230.
7Ott M, Choi Y,Cardie C, Hancock J T. Finding deceptive opinionspam by any stretch of the imagination [ J ]. arXiv preprint arXiv:1107. 4557, 2011.
8Algur S P,PatiJ A P, Hiremath P S, Shivashankar S. Conceptuallevel similarity measure based review spam detection [C] //Signal andImage Processing (ICSIP) , 2010 International Conference on. IEEE,2010: 416-423.
9Lim E P, Nguyen V A,Jindal N, Liu B, Lauw H W. Detectingproduct review spammers using rating behaviors [C] //Proceedings ofthe 19th ACM international conference on Information and knowledgemanagement. ACM,2010 : 939 - 948.
10Jindal N, Liu B, Lim E P. Finding unusual review patterns usingune^ected rules [ C] // Proceedings of the 19th ACM internationalconference on Information and knowledge management. ACM, 2010:1549 - 1552.

共引文献209

1贾超,常永才.如何将新媒体技术深度整合到民族地区国家通用语言文字教育——基于多重读写教育观的启示[J].青海民族研究,2022,33(2):91-96. 被引量：7
2王昭雨,庄惟敏.情感语义视角:街区更新后评估方法应用研究[J].建筑学报,2020(S02):105-109. 被引量：19
3秦艳琴,朱婧婷.网络图书评论分析与编辑智慧[J].中国编辑,2011(2):75-78. 被引量：4
4李健.在线商品评论对产品销量影响研究[J].现代情报,2012,32(1):164-167. 被引量：32
5汪军远.血管生成抑制因子及血管生成抑制疗法[J].国外医学情报,2000,21(1):11-13. 被引量：2
6李枫林,刘昌平,胡媛.网络消费者在线评论搜寻行为研究[J].情报科学,2012,30(5):720-724. 被引量：17
7陈江涛,张金隆,张亚军.在线商品评论有用性影响因素研究:基于文本语义视角[J].图书情报工作,2012,56(10):119-123. 被引量：17
8杨善林,罗贺,丁帅.基于云计算的多源信息服务系统研究综述[J].管理科学学报,2012,15(5):83-96. 被引量：86
9张玉峰,何超.基于Web评论挖掘的动态竞争情报分析研究(上)——问题分析与模型构建[J].情报理论与实践,2012,35(6):63-66. 被引量：10
10明均仁.融合语义关联挖掘的文本情感分析算法研究[J].图书情报工作,2012,56(15):99-103. 被引量：6

同被引文献64

1魏瑾瑞,徐晓晴.虚假评论、消费决策与产品绩效——虚假评论能产生真实的绩效吗[J].南开管理评论,2020,0(1):189-199. 被引量：31
2李实,叶强,李一军,罗嗣卿.挖掘中文网络客户评论的产品特征及情感倾向[J].计算机应用研究,2010,27(8):3016-3019. 被引量：69
3郭国庆,陈凯,何飞.消费者在线评论可信度的影响因素研究[J].当代经济管理,2010,32(10):17-23. 被引量：73
4苗光胜,冯登国,苏璞睿.P2P信任模型中基于模糊逻辑的共谋团体识别方法[J].计算机研究与发展,2011,48(12):2187-2200. 被引量：8
5赵佳,马钦海,张跃先.C2C环境下感知在线评论与初始信任的调节因素[J].东北大学学报（自然科学版）,2012,33(12):1790-1794. 被引量：5
6宋海霞,严馨,余正涛,石林宾,苏斐.基于自适应聚类的虚假评论检测[J].南京大学学报（自然科学版）,2013,49(4):433-438. 被引量：33
7孟美任,丁晟春.虚假商品评论信息发布者行为动机分析[J].情报科学,2013,31(10):100-104. 被引量：37
8聂卉,王佳佳.产品评论垃圾识别研究综述[J].现代图书情报技术,2014(2):63-71. 被引量：11
9任亚峰,尹兰,姬东鸿.基于语言结构和情感极性的虚假评论识别[J].计算机科学与探索,2014,8(3):313-320. 被引量：27
10陈燕方,李志宇.基于评论产品属性情感倾向评估的虚假评论识别研究[J].现代图书情报技术,2014(9):81-90. 被引量：20

引证文献5

1杜姗,杨敏,仇蓉蓉.基于SMOTE-RF与多维特征向量的在线商品虚假评论识别研究[J].情报杂志,2023,42(4):156-164. 被引量：4
2王星,刘贵娟,陈志豪.高斯混合模型与文本图卷积网络结合的虚假评论识别算法[J].计算机应用,2024,44(2):360-368.
3宋思根,袁必凯.在线评论特征对用户虚假评论感知的影响机制[J].数字图书馆论坛,2024,20(3):34-46.
4谷岩,郑楷洪,胡勇军,宋益善,刘东屏.支持跨领域的中文虚假评论识别方法[J].数据分析与知识发现,2024,8(2):84-98.
5雒泽阳,田华,窦英通,李曼文,张泽华.基于残差网络融合多关系评论特征的虚假评论检测[J].计算机科学,2024,51(4):314-323.

二级引证文献4

1汪鹏,邓钰佳,方兴华.在线评论识别用户需求的研究热点与前沿分析[J].标准科学,2023(5):111-116.
2卫善春.基于数据挖掘的就业需求信息资源采集研究[J].情报科学,2023,41(9):130-137.
3郑森,齐晓轩,柳亿霖.非平衡情感数据背景下基于边界度的过采样方法[J].价值工程,2023,42(31):129-131.
4陈润萌,宋益善,王胤哲,梁靖韵.基于ETW⁃BERT模型的网购商品虚假评论识别[J].现代计算机,2024,30(3):83-89.

1刘娟,朱佳,王娟,路素英,孙斐斐,黄俊廷,阙旖,蔡瑞卿,甄子俊,孙晓非,张翼鷟.儿童和青少年炎性肌纤维母细胞瘤临床病理特征及生存分析[J].中国小儿血液与肿瘤杂志,2022,27(1):31-35. 被引量：5
2童涛,张新燕,孔德钱,古超帆,李昌陵.基于同步挤压变换的电力系统谐波分析[J].太阳能学报,2021,42(8):49-56. 被引量：3
3马睿,周伍光,邹应全.基于传统图像处理算法和YOLOv4的水位识别方法研究[J].计算机测量与控制,2022,30(7):219-225. 被引量：5
4殷倩文,杨自丽,薛雯烨,涂玮.基于扎根理论的高淳国际慢城游客慢文化感知研究[J].现代商贸工业,2022,43(16):29-31.
5周小淳.16世纪图像与描述的历史——以博物志书籍为例[J].美术教育研究,2022(17):84-87.
6宁新丽,孙圆.基于豆瓣网短评的网络水军识别[J].统计与咨询,2022(3):6-9. 被引量：3
7陶佳兰,喻敏,陈贵词,王斌.基于SWT的电力系统基波检测[J].电力系统保护与控制,2022,50(18):39-49. 被引量：1
8Peng Zhou,Yi-Hao Chen,Jiang-Hao Lu,Chun-Chun Jin,Xiao-Hong Xu,Xue-Hao Gong.Inflammatory myofibroblastic tumor after breast prosthesis:A case report and literature review[J].World Journal of Clinical Cases,2022,10(4):1432-1440. 被引量：1
9刘虹良,孔令胜,郭俊达,张恩齐.基于相似系数的颜色纹理特征在图像分割中的应用[J].机电工程技术,2022,51(5):133-137. 被引量：3
10王婕,刘芸,纪淑娟.基于矩阵分解双线性池化的多模态融合虚假新闻检测[J].计算机应用研究,2022,39(10):2968-2973. 被引量：4

数据分析与知识发现

2022年第8期

浏览历史

内容加载中请稍等...

IMTS:融合图像与文本语义的虚假评论检测方法被引量：5

参考文献8

二级参考文献30

共引文献209

同被引文献64

引证文献5

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

IMTS:融合图像与文本语义的虚假评论检测方法 被引量：5

参考文献8

二级参考文献30

共引文献209

同被引文献64

引证文献5

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

IMTS:融合图像与文本语义的虚假评论检测方法被引量：5