-
题名基于数据挖掘的上市公司高送转预测研究
被引量:1
- 1
-
-
作者
江琛
夏晓玲
吴伟
崔海波
马传香
-
机构
湖北大学计算机与信息工程学院
湖北省教育信息化工程研究中心
-
出处
《湖北大学学报(自然科学版)》
CAS
2021年第6期698-705,共8页
-
基金
国家自然科学基金(61977021)资助。
-
文摘
选择逻辑回归(logistic regression)模型、支持向量机(support vector machine)模型以及XGBoost(extreme gradient boosting)三种模型,通过各公司前七年的数据对下一年是否会发生高送转进行预测.首先,求出日数据中每年的最后一个月即12月的日平均值,并将日数据、年数据和基础数据合并为总数据.通过观察法删除其中的无用特征,随后删除缺失比例达到0.7以上的数据行和特征,并使用平均值填充剩余特征的方法填充缺失值.对来自‘基础数据’的‘所属行业’特征进行独热编码.随后使用Lasso回归处理共线性,并使用PCA(principal components analysis)对数据进行降维处理;使用标准差标准化的方法对数据进行标准化处理.数据清洗和预处理完成之后,使用逻辑回归、支持向量机、XGBoost三种模型,对股票下一年是否发生高送转进行预测,使用交叉验证指标分别对三种模型的预测结果进行评估.最后得出结论:对于大型投资商而言,使用XGBoost算法为股票投资进行决策支持是综合更优的选择;而对于中小型投资者来说,使用逻辑回归模型的预测结果是一种更保险的方式.
-
关键词
高送转
独热编码
Lasso回归
PCA
逻辑回归
支持向量机
XGBoost算法
-
Keywords
high bonus
One-hot encoding
Lasso regression
PCA
logistic regression
support vector machine
XGBoost algorithm
-
分类号
TP393.1
[自动化与计算机技术—计算机应用技术]
-
-
题名面向软件缺陷个数预测的混合式特征选择方法
被引量:2
- 2
-
-
作者
马子逸
马传香
刘瑞奇
余啸
-
机构
湖北大学计算机与信息工程学院
湖北省教育信息化工程研究中心
武汉大学国际软件学院
武汉大学计算机学院软件工程国家重点实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2018年第2期487-492,502,共7页
-
基金
湖北大学精品课程(013665
150145)
-
文摘
针对软件缺陷数据集中不相关特征和冗余特征会降低软件缺陷个数预测模型的性能的问题,提出了一种面向软件缺陷个数预测的混合式特征选择方法——HFSNFP。首先,利用Relief F算法计算每个特征与缺陷个数之间的相关性,选出相关性最高的m个特征;然后,基于特征之间的关联性利用谱聚类对这m个特征进行聚类;最后,利用基于包裹式特征选择思想从每个簇中依次挑选最相关的特征形成最终的特征子集。实验结果表明,相比于已有的五种过滤式特征选择方法,HFSNFP方法在提高预测率的同时降低了误报率,且G-measure与RMSE度量值更佳;相比于已有的两种包裹式特征选择方法,HFSNFP方法在保证缺陷个数预测性能的同时可以显著降低特征选择的时间。
-
关键词
软件缺陷个数预测
特征选择
谱聚类
包裹式特征选择
-
Keywords
number of software faults prediction
feature selection
spectral clustering
wrapper-based feature selection
-
分类号
TP311.53
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于卷积神经网络的煤炭运载车辆识别
被引量:5
- 3
-
-
作者
马传香
汪炀杰
王旭
-
机构
湖北大学计算机与信息工程学院
湖北省教育信息化工程研究中心
-
出处
《计算机科学》
CSCD
北大核心
2020年第S02期219-223,共5页
-
基金
湖北省自然科学基金(2019CFB757)。
-
文摘
为了杜绝或避免矿产品资源如煤炭、砂石矿等行业因不开票而导致偷税漏税现象的发生,利用深度卷积神经网络自动识别空车重车是一种有效途径。本文在AlexNet模型基础上,针对空车重车图像的差异性,提出5种改进思路,最终得到一种基于maxout+dropout的6层卷积神经网络的结构。对34220张空车重车图片的测试结果表明,模型在准确度、敏感度、特异性、精度等方面都取得了良好的效果。此外,模型还具有高度的鲁棒性,可以成功识别大量不同角度和不同场景的空车重车图像。
-
关键词
空车重车识别
深度学习
卷积神经网络
AlexNet
maxout
-
Keywords
Empty car and loaded car identification
Deep learning
CNN
AlexNet
maxout
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于SSDBSCAN的跨项目缺陷预测数据筛选方法
- 4
-
-
作者
伍蔓
张建升
马传香
安格格
余啸
-
机构
湖北大学计算机与信息工程学院
湖北省教育信息化工程研究中心
武汉大学软件工程国家重点实验室
-
出处
《湖北大学学报(自然科学版)》
CAS
2017年第5期550-557,共8页
-
基金
湖北省自然科学基金(2011CDB072)
湖北大学《数据挖掘》精品课程经费资助
-
文摘
针对跨项目软件缺陷预测中大量不相关的跨项目数据损害了缺陷预测模型性能的问题,提出了一种基于SSDBSCAN(semi-suppervised density-based clustering)的跨项目缺陷预测数据筛选方法——SSDBSCAN filter.首先,SSDBSCAN filter结合少量带类标号的本项目历史数据、跨项目历史数据和大量不带类标号的本项目数据;然后,利用SSDBSCAN算法对这些数据进行聚类发现子簇;最后,收集子簇中的跨项目数据,不属于任何簇的跨项目数据被作为噪声数据而丢弃.实验使用15个公开的PROMISE数据集,3种分类器和4种性能度量指标.实验结果表明,相比于目前已有的Burak filter和DBSCAN filter方法,SSDBSCAN filter在提高了预测率的同时降低了误报率,且G-measure与AUC度量值更佳.
-
关键词
跨项目缺陷预测
数据筛选
SSDBSCAN
-
Keywords
academic cross-project defect prediction
data filter
SSDBSCAN
-
分类号
TB324.1
[一般工业技术—材料科学与工程]
-