基于异质集成学习的虚假评论检测被引量：4

Fake comment detection based on heterogeneous ensemble learning

导出

摘要为了防止卖家的恶性竞争、保证电商平台能够公平交易、保护消费者的权益不受侵犯,针对虚假评论检测领域中数据集小、标注不准确等问题,基于亚马逊最新发布的虚假评论数据集对相关算法进行改进。考虑到Word2vec模型无法识别英语中的词对,提出了Bigram-Word2vec模型;提出"二分类加权硬投票法"以解决异质集成学习中分类器投票数相等的情况;针对异质集成学习中分类器权重设置问题提出"加权软投票法"。试验结果表明,文中对相关算法的改进取得了较为理想的结果。 In view of the problem of small data set and inaccurate labeling in the field of fake comment detection, in order to prevent the vicious competition of sellers, ensure the fair trading of e-commerce platform, and protect the rights of consumers, the latest fake comment data set released by Amazon was used. The research was carried out and the related algorithms were improved. The Word2 vec model could not recognize the word pairs in English. The Bigram-Word2 vec model was proposed. The "two-class weighted hard voting" was proposed to solve the heterogeneous integration learning’s case where the number of votes of the classifier was equal. The "weighted soft voting" was studied for how to set the weight of the classifier in heterogeneous integration learning. The experimental results showed that the improvement of related algorithms in this paper had achieved more ideal results.

作者张大鹏刘雅军张伟沈芬杨建盛 ZHANG Dapeng;LIU Yajun;ZHANG Wei;SHEN Fen;YANG Jiansheng(School of Information Science and Engineering,Yanshan University,Qinhuangdao 066004,Hebei,China;College of Information Engineering,Hebei Institute of Architecture and Civil Engineering,Zhangjiakou 075000,Hebei,China)

机构地区燕山大学信息科学与工程学院河北建筑工程学院信息工程学院

出处《山东大学学报（工学版）》 CAS CSCD 北大核心 2020年第2期1-9,共9页 Journal of Shandong University（Engineering Science）

基金张家口市科学技术研究与发展指令计划项目(1711007B,1711045H,1811009B-04)。

关键词机器学习异质集成学习投票法虚假评论检测 Word2vec machine learning heterogeneous ensemble learning voting fake comment detection Word2vec

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

同被引文献30

1武新丽,李柔,令狐大智.电子商务用户评价信息有效性研究——基于淘宝服装类商品[J].沿海企业与科技,2019,0(6):8-13. 被引量：4
2游星.ID3算法在网络商铺客户稳定性分析中的应用研究[J].广西质量监督导报,2020(10):196-197. 被引量：1
3方匡南,吴见彬,朱建平,谢邦昌.随机森林方法研究综述[J].统计与信息论坛,2011,26(3):32-38. 被引量：671
4任亚峰,尹兰,姬东鸿.基于语言结构和情感极性的虚假评论识别[J].计算机科学与探索,2014,8(3):313-320. 被引量：27
5唐波,陈光,王星雅,王非,陈小慧.微博新词发现及情感倾向判断分析[J].山东大学学报（理学版）,2015,50(1):20-25. 被引量：8
6汪建成,严馨,余正涛,宋海霞,石林宾.基于主题-对立情感依赖模型的虚假评论检测方法[J].山西大学学报（自然科学版）,2015,38(1):31-38. 被引量：8
7唐浩浩,王波,席耀一,周杰,唐永旺.基于HDP的无监督微博情感倾向性分析[J].信息工程大学学报,2015,16(4):463-469. 被引量：2
8赵军,王红.融合情感极性和逻辑回归的虚假评论检测方法[J].智能系统学报,2016,11(3):336-342. 被引量：16
9刘畅,殷聪.电子商务中基于深度学习的虚假交易识别研究[J].现代情报,2016,36(10):62-67. 被引量：5
10陈雁,赵瑜,管才路,郭晓明.智能视频分析技术在轨道交通视频监控系统中的应用[J].科技视界,2017(14):19-19. 被引量：9

引证文献4

1曹东伟,李邵梅,陈鸿昶,张建朋,张桥.融合情感特征的虚假评论检测方法[J].信息工程大学学报,2021,22(3):326-330. 被引量：3
2李慧,王琢.一种基于无监督集成学习的虚假评论检测方法[J].沈阳理工大学学报,2021,40(6):31-35. 被引量：2
3陈晓,彭湃,李新,陈鹏.基于机器学习的商品虚假价格检测[J].信息技术与信息化,2022(2):214-217.
4张强,宫玉昕,张馨,蔡晓蕾,郑军.基于异质集成学习方法的城轨列车客流智能分析系统研究[J].铁路计算机应用,2023,32(7):73-78.

二级引证文献5

1杨大为,王诗念,包立岩,要虹吏,刘畅.基于文本及HTML标签密度的网页正文提取[J].沈阳理工大学学报,2022,41(4):14-19. 被引量：1
2任帅,任化娟,井靖,董姝岐.融合发文时序特征的用户属性预测方法[J].信息工程大学学报,2022,23(6):724-729.
3杜姗,杨敏,仇蓉蓉.基于SMOTE-RF与多维特征向量的在线商品虚假评论识别研究[J].情报杂志,2023,42(4):156-164. 被引量：4
4连晓丹,黄坤平,刘林.基于数据挖掘的医疗大数据可视化分析系统设计[J].自动化与仪器仪表,2023(6):170-174. 被引量：2
5王伟贤,吴俊.基于情感词典与语义规则集的微博文本情感分析[J].计算机科学与应用,2023,13(4):754-763.

1胡润龙.基于马尔科夫随机场的虚假评论检测方法研究[J].信息周刊,2019,0(48):0486-0486.
2曾致远,卢晓勇,徐盛剑,陈木生.基于多层注意力机制深度学习模型的虚假评论检测[J].计算机应用与软件,2020,37(5):177-182. 被引量：4
3付慧姝.合理调节流押禁令的适用范围[J].中国社会科学文摘,2020,0(2):159-159.
4马戈.“公平交易”有玄机——兑子七题(七)[J].棋艺（象棋）,2020,0(3):43-45.

山东大学学报（工学版）

2020年第2期

浏览历史

内容加载中请稍等...

基于异质集成学习的虚假评论检测被引量：4

同被引文献30

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于异质集成学习的虚假评论检测 被引量：4

同被引文献30

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于异质集成学习的虚假评论检测被引量：4