-
题名不平衡数据集上在线评论有用性识别研究
被引量:3
- 1
-
-
作者
刘嘉宇
李贺
谷莹
时倩如
杨心苗
-
机构
吉林大学商学与管理学院
-
出处
《情报理论与实践》
CSSCI
北大核心
2023年第11期119-125,153,共8页
-
基金
国家自然科学基金面上项目“基于图模型的多源异构在线产品评论数据融合与知识发现研究”的成果,项目编号:71974075。
-
文摘
[目的/意义]先前研究在识别有用性在线评论时假设数据集类是平衡的,但真实数据往往不符合这一假定。为克服这一局限,文章从真实情景出发提出了在不平衡数据集上识别在线评论的有用性,以提升在线评论的效用。[方法/过程]提出不平衡数据集上在线评论有用性识别模型,该模型包括在线评论有用性特征集构建、融合SMOTE和Boosting的有用性识别算法以及识别效果评价等模块,并从真实数据集出发验证了模型的识别效果。[结果/结论]模型在解决类不平衡后准确识别在线评论有用性的综合性能超过89%,优于未解决类不平衡的分类识别算法,为在线评论有用性识别提供了有效的方法和工具。
-
关键词
在线评论
有用性识别
集成学习
不平衡数据集
文本分类
-
Keywords
online reviews
helpfulness identification
ensemble learning
imbalanced dataset
text classification
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-