-
题名面向软件工程的情感分析技术研究
被引量:1
- 1
-
-
作者
陈震鹏
姚惠涵
曹雁彬
刘譞哲
梅宏
-
机构
高可信软件技术教育部重点实验室(北京大学)
北京大学信息科学技术学院计算机科学与技术系
-
出处
《软件学报》
EI
CSCD
北大核心
2023年第5期2218-2230,共13页
-
基金
北大百度基金(2020BD007)。
-
文摘
情感分析在软件工程领域具有广泛的应用场景,例如,从代码提交信息中检测开发者的情绪、从程序员问答论坛中识别开发者的观点等.但是,现有的“开箱即用”的情感分析工具无法在软件工程相关的任务中取得可靠的结果.已有研究表明,导致不可靠结果的最主要原因是,这些工具无法理解一些单词和短语在软件工程领域中的特定含义.此后,研究者们开始为软件工程领域定制监督学习和远程监督学习方法.为了验证这些方法的效果,研究者们使用软件工程相关的标注数据集来对它们进行数据集内验证,即,将同一数据集划分为训练集和测试集,分别用于方法的训练和测试.但是,对软件工程领域的某些情感分析任务来说,尚无标注数据集,且人工标注数据集耗时耗力.在此情况下,一种可选的方法就是使用为了相似任务从同一目标平台上提取的数据集或者使用从其他软件工程平台上提取的数据集.为了验证这两种做法的可行性,需要进一步以平台内设置和跨平台设置来验证现有情感分析方法.平台内设置指的是使用提取自同一平台的不同数据集作为训练集和测试集;跨平台设置指的是使用提取自不同平台的数据集作为训练集和测试集.目标旨在数据集内设置、平台内设置、跨平台设置这3种设置下,综合验证现有的为软件工程定制的情感分析方法.最终,实验结果为相关的研究者和从业者提供了具有现实指导意义的启示.
-
关键词
情感分析
软件工程
数据集内设置
平台内设置
跨平台设置
-
Keywords
sentiment analysis
software engineering
within-dataset setting
within-platform setting
cross-platform setting
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-