期刊文献+
共找到432篇文章
< 1 2 22 >
每页显示 20 50 100
财务舞弊大数据识别:反思与重构 被引量:1
1
作者 潘修中 《财会月刊》 北大核心 2024年第10期26-31,共6页
当前的财务舞弊大数据识别,实际上是先用显著指标对舞弊公司样本“画像”,再依据画像结果寻找与舞弊样本相似的有舞弊嫌疑的公司。这种通过舞弊样本“画像”识别财务舞弊的做法,存在着刻舟求剑、按图索骥、盲人摸象、准确率幻觉等问题... 当前的财务舞弊大数据识别,实际上是先用显著指标对舞弊公司样本“画像”,再依据画像结果寻找与舞弊样本相似的有舞弊嫌疑的公司。这种通过舞弊样本“画像”识别财务舞弊的做法,存在着刻舟求剑、按图索骥、盲人摸象、准确率幻觉等问题。造成这些问题的根本原因在于,当前的财务舞弊大数据识别忽视了财务舞弊“人的行动”本质。因此,有必要回到财务舞弊“人的行动”本质,重构财务舞弊大数据识别模式。重构财务舞弊大数据识别,应以演绎推理的方式获得真实舞弊行动的知识,并以真实舞弊行动作为识别重点。具体的思路是:首先通过假构法领悟真实的财务舞弊行动,再以指标组合的形式刻画财务舞弊行动,最后参照金税系统筛选出存在舞弊行动的公司。 展开更多
关键词 财务舞弊 数据识别 准确率 人的行动
下载PDF
基于固定检测器的动态交通故障数据识别与修复
2
作者 宋永朝 王翠 《重庆交通大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期88-96,共9页
针对固定检测器在采集动态交通数据过程中易发生交通数据异常、数据缺失等问题,为实现故障数据有效识别及修复,提出了基于离群距离检测的故障数据识别算法及改进的DE-LSTM数据修复模型。利用时序数据的自身连续性,采用直接离群点定位和... 针对固定检测器在采集动态交通数据过程中易发生交通数据异常、数据缺失等问题,为实现故障数据有效识别及修复,提出了基于离群距离检测的故障数据识别算法及改进的DE-LSTM数据修复模型。利用时序数据的自身连续性,采用直接离群点定位和离群距离检测对故障数据进行有效识别。采用差分进化算法优化长短期记忆神经网络的隐含层神经元个数和初始学习率,并引入自适应控制策略改进传统DE算法中的变异因子、交叉因子,建立了基于改进差分进化算法优化长短期记忆神经网络的修复模型,并与固定阈值结合交通流机理、LSTM神经网络模型及DE-LSTM修复模型进行对比。实例验证结果表明:与固定阈值结合交通流机理法相比,离群距离检测算法识别率更为高效,改进的DE-LSTM模型具有良好的计算效率及修复性能。 展开更多
关键词 交通工程 固定检测器 动态交通数据 故障数据识别 数据修复 优化算法
下载PDF
基于多维特征的通信网络异常数据识别算法
3
作者 姜宁 《吉林大学学报(信息科学版)》 CAS 2024年第5期889-893,共5页
为解决现有方法存在的异常数据识别精度较低的问题,提出一种基于多维特征的通信网络异常数据识别算法。调整粒子群优化算法中粒子的当前速度和位置,获取通信网络多维数据样本;通过数据挖掘中的聚类分析法提取数据特征,确定密度指标,获... 为解决现有方法存在的异常数据识别精度较低的问题,提出一种基于多维特征的通信网络异常数据识别算法。调整粒子群优化算法中粒子的当前速度和位置,获取通信网络多维数据样本;通过数据挖掘中的聚类分析法提取数据特征,确定密度指标,获取数据多维特征;将提取的多维特征引入深度信念网络中进行识别,根据特征频谱幅值变化,实现对通信网络数据异常识别。实验结果表明,该算法能有效识别通信网络异常数据特征,具有较高的识别准确性。 展开更多
关键词 多维特征 数据识别 粒子群优化算法 聚类分析 深度信念网络
下载PDF
风电机组数据采集与监控系统异常数据识别方法 被引量:2
4
作者 李特 王荣喜 高建民 《西安交通大学学报》 EI CAS CSCD 北大核心 2024年第3期106-116,共11页
为了解决原始的风电机组数据采集与监控系统(SCADA)中包含大量异常记录的数据、难以准确反映机组运行状态的问题,提出了一种带噪声基于密度的空间聚类(DBSCAN)模型的风电机组SCADA异常数据识别方法。该方法从分析风速-功率曲线的特点出... 为了解决原始的风电机组数据采集与监控系统(SCADA)中包含大量异常记录的数据、难以准确反映机组运行状态的问题,提出了一种带噪声基于密度的空间聚类(DBSCAN)模型的风电机组SCADA异常数据识别方法。该方法从分析风速-功率曲线的特点出发,采用预测误差和分类准确度来选取关键聚类参数邻域半径和邻域最小样本点数,避免了人工确定聚类参数的主观性,且参数选择过程可以完全自动化,实现了风电机组SCADA异常数据的有效识别。通过某风场中风电机组的监测数据进行实例验证,结果表明:所提方法能够在保证异常数据被剔除的前提下,保留尽可能多的正常数据,异常识别效果好于现有的k-dist图法和基于k-平均最近邻算法的改进算法(KANN-DBSCAN)。该研究可为开展风电机组状态分析提供参考。 展开更多
关键词 风电机组 异常数据识别 空间聚类 风速-功率曲线
下载PDF
基于模糊聚类与改进遗传算法的异常电力工程数据识别技术 被引量:2
5
作者 张彤 沈倩 王琼 《电子设计工程》 2024年第6期100-103,108,共5页
针对传统人工核查电力工程异常数据存在耗时费力及准确度较低的问题,文中提出了一种基于模糊聚类与改进遗传算法的数据识别技术。该技术采用模糊聚类算法对数据进行自动归类,并对异常数据加以识别。同时还设计了一种改进遗传算法增强了... 针对传统人工核查电力工程异常数据存在耗时费力及准确度较低的问题,文中提出了一种基于模糊聚类与改进遗传算法的数据识别技术。该技术采用模糊聚类算法对数据进行自动归类,并对异常数据加以识别。同时还设计了一种改进遗传算法增强了数据的全局搜索能力,进而提升整体算法的识别效率。基于Matlab进行的仿真验证结果表明,所提技术方案可有效地自动识别出电力工程中的异常数据。而在结合改进遗传算法后,该算法的识别准确率得到了显著提升,且识别时间也缩短了60%以上,实现了数据搜索能力与效率的平衡。 展开更多
关键词 电力工程数据 异常数据识别技术 模糊聚类算法 改进遗传算法
下载PDF
基于TCN-自适应的地下洞室围岩变形异常数据识别
6
作者 吴忠明 李天述 +3 位作者 张波 周明 张瀚 周靖人 《人民长江》 北大核心 2024年第8期216-221,共6页
水电站地下洞室围岩变形数据具有变化不确定、序列样本短等特点,传统的异常识别方法漏识率、误判率较高。随着智能技术的发展,通过神经网络建立更加可靠的异常识别方法是目前研究的热点,而传统的神经网络存在时序关联性不强和计算模型... 水电站地下洞室围岩变形数据具有变化不确定、序列样本短等特点,传统的异常识别方法漏识率、误判率较高。随着智能技术的发展,通过神经网络建立更加可靠的异常识别方法是目前研究的热点,而传统的神经网络存在时序关联性不强和计算模型庞杂等问题。为此,提出了基于时域卷积神经网络(TCN)及标准自适应的地下洞室异常数据识别算法,该算法利用TCN技术,考虑序列的前后关系,建立了更为可靠的序列模型;同时针对地下洞室监测数据特征,通过考虑误差中位数、数据波动和仪器精度3个方面,突现自适应匹配最优识别准则。将该算法应用在叶巴滩水电站地下洞室围岩变形的异常数据识别中,证明了其可有效避免梯度爆炸、消失,模型耗时较长等问题,极大地提高了异常值分析效率和识别率。相关经验可供类似工程异常监测数据识别时借鉴。 展开更多
关键词 异常数据识别 地下洞室 深度学习 时域卷积神经网络 标准自适应
下载PDF
医疗信息文本中的个人隐私数据识别与计量研究
7
作者 张凯亮 臧国全 肖洋 《情报学报》 CSSCI CSCD 北大核心 2024年第8期936-945,共10页
基于现行医疗数据行业标准中的数据分级结果模糊,且缺乏对分级要素定量测度的现状。本研究通过挖掘医疗信息文本,从客观认知视角进行医疗数据隐私计量,为验证与改进现行医疗数据分级结果提供参考。医疗数据行业标准、法律法规、学术论... 基于现行医疗数据行业标准中的数据分级结果模糊,且缺乏对分级要素定量测度的现状。本研究通过挖掘医疗信息文本,从客观认知视角进行医疗数据隐私计量,为验证与改进现行医疗数据分级结果提供参考。医疗数据行业标准、法律法规、学术论文和泄露案例构成医疗敏感数据识别来源,敏感名词(数据项)、敏感动词和敏感程度词等敏感词汇组成的敏感数据单元构成隐私数据识别模型,敏感词汇的敏感性、语义强度和文本力度等指标构成隐私计量模型。研究结果表明,医疗应用数据(医疗检验数据、治疗过程数据、医疗记录数据)和健康状况数据(主诉与既往病史、现病史与生活方式、体格检查数据)的隐私性最强,医疗支付数据(医疗费用数据、支付方式数据、医疗保险数据)的隐私性其次,个人属性数据(个人身份数据、个人统计数据、个人联系方式数据)的隐私性最低。 展开更多
关键词 医疗信息文本 个人隐私 隐私数据识别 隐私计量
下载PDF
一种改进LSOF的风电异常数据识别与清洗方法
8
作者 陈长青 卢钱杭 +2 位作者 徐韵怡 甘周旺 雷兵 《湖南城市学院学报(自然科学版)》 CAS 2024年第3期57-62,共6页
针对风速-功率历史运行数据的识别和处理存在识别准确度低、分析过程复杂和异常数据清洗效率低的问题,提出了一种改进无监督学习的聚类局部结构离群因子识别方法(LSOF)。首先,通过最近邻域树法对邻域进行测量,旨在解决传统局部离群因子... 针对风速-功率历史运行数据的识别和处理存在识别准确度低、分析过程复杂和异常数据清洗效率低的问题,提出了一种改进无监督学习的聚类局部结构离群因子识别方法(LSOF)。首先,通过最近邻域树法对邻域进行测量,旨在解决传统局部离群因子识别性能低,且对邻域大小敏感的问题;其次,利用改进无监督学习的聚类局部结构离群因子识别方法分别对每个局部结构进行计算评分,并将评分最高的局部结构报告为异常局部结构,在此基础上,利用最近邻域树特征区分异常值和异常值组;最后,通过某实际风电场数据进行验证。研究结果表明,该方法在邻域范围内对异常值识别具有较高的精度和鲁棒性。 展开更多
关键词 异常数据识别 局部离群因子 无监督学习 邻域树
下载PDF
基于智能算法的主变异常数据识别应用
9
作者 薛文祺 汤美琪 《南方农机》 2024年第5期157-162,共6页
【目的】准确评估电力变压器的状态,提前判断是否存在故障,并安排工作人员进行维修,以防止进一步威胁电网的安全运行。【方法】以通过相关数据对电力变压器状态进行评估为目标,以人工智能和数据挖掘技术为工具,深入研究了包括数据扩充... 【目的】准确评估电力变压器的状态,提前判断是否存在故障,并安排工作人员进行维修,以防止进一步威胁电网的安全运行。【方法】以通过相关数据对电力变压器状态进行评估为目标,以人工智能和数据挖掘技术为工具,深入研究了包括数据扩充、趋势预测、故障诊断、健康评估在内的电力变压器评估方法。首先,对数据进行了清洗和整理。接着,采用了Apriori算法进行数据挖掘,以便更好地理解数据之间的关联性。在完成数据挖掘工作后,利用LSTM模型进行异常数据识别。这包括模型诊断过程和模型建立。通过对模型进行反复测试和优化,以确保其能够准确识别出电力变压器中的异常情况。然后,通过仿真实验验证了所提出方法的有效性。在这个过程中,考虑了变压器油色谱气体之间的关联性,对数据进行了预处理,并将多变量时间序列状态参量纳入回归预测模型,以提高预测精度。【结果】分析了状态参量变化对预测结果的影响,确定了输入预测模型的状态参量维度。通过算例分析,成功准确地测出了H_(2)、CH_(4)、C_(2)H_(6)、C_(2)H_(4)、C_(2)H_(2)这5种典型的故障特征量。【结论】本研究能够及时发现变压器的潜在故障,提升评估的准确性。根据评估结果,可以提前安排维护人员进行检修,预防变压器事故的发生。 展开更多
关键词 异常数据识别 APRIORI算法 LSTM模型 数据挖掘
下载PDF
间接接入式直流电能表异常计量数据识别算法
10
作者 崔胜胜 李汐 +1 位作者 牟颖莹 李振 《微型电脑应用》 2024年第7期130-133,共4页
在电能表异常识别中能够区分的异常数据种类少,异常数据识别时误差较大,因此,设计一种新的间接接入式直流电能表异常计量数据识别算法。对电能表计量数据进行归一化处理,引入k-means聚类,计算欧氏距离完成间接接入式直流电能表全部计量... 在电能表异常识别中能够区分的异常数据种类少,异常数据识别时误差较大,因此,设计一种新的间接接入式直流电能表异常计量数据识别算法。对电能表计量数据进行归一化处理,引入k-means聚类,计算欧氏距离完成间接接入式直流电能表全部计量数据的聚类,优化小波变换得到离散小波,处理计量数据残差序列,提取异常计量数据特征进行异常计量数据识别。实例测试结果表明,该算法的最大误差为0.103,且波动较小,输出正常计量数据与异常计量数据,能够达到优化间接接入式直流电能表异常计量数据识别效果的目的。 展开更多
关键词 间接接入 直流电能表 异常数据识别 K-MEANS聚类 小波变换 参数求解
下载PDF
基于随机森林算法的僵尸企业大数据识别方法研究
11
作者 贺元启 江乾坤 《浙江水利水电学院学报》 2024年第1期79-85,共7页
僵尸企业严重浪费社会资源,应及时进行处置。但目前对僵尸企业的识别标准不够明晰是阻碍我国僵尸企业处置工作的重要因素。为解决这一问题,通过随机森林算法的大数据识别方法,发现净利润及其变动、纳税总额及其变动、最低利息保障倍数... 僵尸企业严重浪费社会资源,应及时进行处置。但目前对僵尸企业的识别标准不够明晰是阻碍我国僵尸企业处置工作的重要因素。为解决这一问题,通过随机森林算法的大数据识别方法,发现净利润及其变动、纳税总额及其变动、最低利息保障倍数、政府补贴依赖程度等指标能更好地起到预警僵尸企业的作用。因此,随机森林算法等大数据识别方法为我国僵尸企业预警提供了新路径,有利于及时处置僵尸企业。 展开更多
关键词 僵尸企业 数据识别方法 银行信贷 政府补贴 随机森林算法
下载PDF
基于数据挖掘的输变电野外勘测数据识别及存储方法
12
作者 苏永亮 周洪伟 +2 位作者 崔厚坤 安增军 韩念遐 《自动化技术与应用》 2024年第11期120-123,204,共5页
可靠存储野外勘测数据是保证输变电合理规划、安全运行的基础,为此提出基于数据挖掘的输变电野外勘测数据识别及存储方法。通过移动端采集野外数据,将勘测相关数据传送至服务器端,并在云端引入边缘计算,形成云边协同模型,通过该模型识... 可靠存储野外勘测数据是保证输变电合理规划、安全运行的基础,为此提出基于数据挖掘的输变电野外勘测数据识别及存储方法。通过移动端采集野外数据,将勘测相关数据传送至服务器端,并在云端引入边缘计算,形成云边协同模型,通过该模型识别以及压缩输变电野外勘测数据,通过动态局部敏感哈希算法和加权k近邻算法选择缓存数据,实现野外勘测数据复用。测试结果显示:输变电野外勘测数据传输时延结果稳,时延时间短,存储后野外勘测数据可用性高,可以为输变电规划提供可靠数据依据。 展开更多
关键词 移动计算技术 输变电 野外勘测 数据识别 云边协同模型 数据复用
下载PDF
基于信息交叉熵的脏数据识别与修正技术研究
13
作者 王心妍 朱莹 +2 位作者 仪彬 周梦雪 宁永杰 《自动化技术与应用》 2024年第11期103-106,119,共5页
网络中存在异常数据是不可避免的,为避免脏数据影响网络正常运行,提出一种基于信息交叉熵的脏数据识别与修正技术研究方法。采用基于小波的方法对网络数据进行预处理,并结合信息熵与相对熵构建交叉熵,实现对网络数据的约简;采用熵目标函... 网络中存在异常数据是不可避免的,为避免脏数据影响网络正常运行,提出一种基于信息交叉熵的脏数据识别与修正技术研究方法。采用基于小波的方法对网络数据进行预处理,并结合信息熵与相对熵构建交叉熵,实现对网络数据的约简;采用熵目标函数,设置一个阈值,实现对系统中的脏物进行检测,并采用RBF神经网络模型进行重建,实现对脏物的校正。实验结果表明,针对不同类型脏数据,所提技术脏数据识别能力好、识别精度高以及信息熵丢失少。 展开更多
关键词 信息交叉熵 数据识别 数据修正
下载PDF
基于物联网技术的电力工程数据识别技术
14
作者 刘琦 郭胜月 《电气时代》 2024年第10期39-42,共4页
随着电力系统的复杂性和规模不断增加,对于数据的高效识别和利用成为当务之急。系统地介绍物联网技术在电力工程领域的应用,并重点探讨电力工程数据的识别技术。通过对数据采集与传输、数据处理与分析、数据识别与应用等方面的讨论,阐... 随着电力系统的复杂性和规模不断增加,对于数据的高效识别和利用成为当务之急。系统地介绍物联网技术在电力工程领域的应用,并重点探讨电力工程数据的识别技术。通过对数据采集与传输、数据处理与分析、数据识别与应用等方面的讨论,阐述如何利用物联网技术实现对电力工程数据的有效管理和应用。 展开更多
关键词 电力系统 管理和应用 物联网技术 电力工程 数据采集与传输 数据处理与分析 数据识别 识别技术
下载PDF
计及风向信息的风电功率异常数据识别研究 被引量:19
15
作者 杨茂 杨春霖 +1 位作者 杨琼琼 苏欣 《太阳能学报》 EI CAS CSCD 北大核心 2019年第11期3265-3272,共8页
针对目前风电功率异常数据识别的算法复杂繁琐且识别效果不理想,算法通用性差,对复杂多变的风电功率数据难以有效甄别等问题,依据实测风速功率数据中异常数据来源的特征提出一种不同风向上的不同风速区间内异常数据的识别方法。该算法... 针对目前风电功率异常数据识别的算法复杂繁琐且识别效果不理想,算法通用性差,对复杂多变的风电功率数据难以有效甄别等问题,依据实测风速功率数据中异常数据来源的特征提出一种不同风向上的不同风速区间内异常数据的识别方法。该算法基于不同风向上不同风速区间的组内最优方差来识别其相应的异常数据,最后经归类整理后识别出机组全部的异常数据。研究结果表明该算法可有效识别风电异常数据。 展开更多
关键词 异常数据 风向 数据识别 组内最优方差
下载PDF
基于S-G滤波的交通流故障数据识别与修复算法 被引量:16
16
作者 陆化普 屈闻聪 孙智源 《土木工程学报》 EI CSCD 北大核心 2015年第5期123-128,共6页
为了提高检测器采集到的交通流数据的有效性,基于S-G滤波法和数据驱动方法,提出一套交通流故障数据识别与修复的算法。以北京市某路段上单个交通流检测器所收集的数据为基础,结合实时数据与历史数据,完成故障数据识别与修复过程。与传... 为了提高检测器采集到的交通流数据的有效性,基于S-G滤波法和数据驱动方法,提出一套交通流故障数据识别与修复的算法。以北京市某路段上单个交通流检测器所收集的数据为基础,结合实时数据与历史数据,完成故障数据识别与修复过程。与传统方法相比,该方法整合了交通流故障数据识别与故障数据修复两部分功能,运算更加高效而可靠。通过对北京市某路段实测数据的处理实例对算法进行验证。结果表明该方法实用性较高、运算速度快,为异常数据处理提出了新的思路。 展开更多
关键词 交通流 故障数据识别 数据修复 滤波算法
下载PDF
基于综合加权法的主数据识别技术研究 被引量:4
17
作者 刘涛 李少波 唐向红 《组合机床与自动化加工技术》 北大核心 2013年第3期56-59,共4页
为了提高主数据识别技术的高效性与精确性,论文通过对主数据识别方案及其关键技术的研究与比较分析,基于企业需求,设计出了一种规范化的企业主数据识别流程,并提出了一种基于综合加权法的主数据识别评分模版。基于综合加权法的主数据识... 为了提高主数据识别技术的高效性与精确性,论文通过对主数据识别方案及其关键技术的研究与比较分析,基于企业需求,设计出了一种规范化的企业主数据识别流程,并提出了一种基于综合加权法的主数据识别评分模版。基于综合加权法的主数据识别技术可快速准确地确定企业主数据,有效提高大型企业主数据管理效率,具有一定的理论和实际意义。 展开更多
关键词 数据 数据识别 综合加权法 评分模板
下载PDF
基于队列计数的固态存储器热数据识别方法 被引量:1
18
作者 张玉芳 阳佶宏 +1 位作者 熊忠阳 王志远 《计算机应用研究》 CSCD 北大核心 2011年第8期2886-2888,2892,共4页
目前较常用的热数据识别方法主要关注于数据的访问频繁度,却没有有效地体现出访问次数随时间的变化关系,从而造成了较高的错误识别率。针对这种不足,设计了基于队列计数的热数据识别方法,通过使用先进先出规则淘汰过时的数据,并赋予队... 目前较常用的热数据识别方法主要关注于数据的访问频繁度,却没有有效地体现出访问次数随时间的变化关系,从而造成了较高的错误识别率。针对这种不足,设计了基于队列计数的热数据识别方法,通过使用先进先出规则淘汰过时的数据,并赋予队列中每个位置所存放元素不同的权值来表示不同时刻各数据的热状态;同时结合Flash读写等特性,引入了热区域概念,使其所需存储空间大大降低。通过理论分析以及实验证明,此方法在热数据识别和均衡效果方面达到了较好的性能,从而提高了垃圾回收的效率以及延长了存储器的使用寿命。 展开更多
关键词 数据识别 FLASH存储器 垃圾回收 磨损均衡 热区域
下载PDF
局域网公用信道差异化入侵数据识别仿真研究 被引量:4
19
作者 徐伟 黄学鹏 《计算机仿真》 北大核心 2018年第10期424-427,共4页
对局域网公用信道差异化入侵数据进行高效识别,可提升局域网安全性能,提高使用者的满意度。当前利用稀疏向量距离法,对入侵数据进行识别时,不可利用数据和重复数据清除效果差,入侵数据识别水平低。提出利用云模型与半监督聚类法相结合... 对局域网公用信道差异化入侵数据进行高效识别,可提升局域网安全性能,提高使用者的满意度。当前利用稀疏向量距离法,对入侵数据进行识别时,不可利用数据和重复数据清除效果差,入侵数据识别水平低。提出利用云模型与半监督聚类法相结合的方式,对入侵数据进行识别,通过可忍受的代价寻找出最能够描述数据集类型的数据特征子集。凭借选出的数据特征集中各个特征对于所属特征集而言,均为相关且非冗余,来构建有效数据特征集。将有效特征集输入至半监督聚类法和云模型相结合的入侵数据识别体系中,依据半监督聚类法对有效特征集中的数据进行分类,将分类结果簇的大小进行排序,并选出正常数据簇,和异常数据簇。采用云模型其将剩余数据分类,将分类结果加入至对应簇中,更新云模型,对各数据属性权重重新进行计算,对其它数据聚类进行指导,以提升入侵数据识别质量。仿真表明,上述方法在不可利用数据和重复数据清除方面,及入侵数据识别方面,均优于当前方法,具有较高可靠性。 展开更多
关键词 公用信道 差异化 入侵数据识别
下载PDF
面向不平衡数据集的煤矿监测系统异常数据识别方法 被引量:22
20
作者 冀汶莉 郗刘涛 王斌 《工矿自动化》 北大核心 2020年第1期18-25,共8页
异常数据识别对于煤矿安全监测系统具有重要作用,但安全监测系统中异常数据一般只占数据总量的1%左右,不平衡性是此类数据的固有特点。目前多数机器学习算法在不平衡数据集上的分类预测准确率和灵敏度都相对较差。为了能准确识别异常数... 异常数据识别对于煤矿安全监测系统具有重要作用,但安全监测系统中异常数据一般只占数据总量的1%左右,不平衡性是此类数据的固有特点。目前多数机器学习算法在不平衡数据集上的分类预测准确率和灵敏度都相对较差。为了能准确识别异常数据,以煤矿分布式光纤竖井变形监测系统采集的数据为研究对象,提出了一种面向不平衡数据集、基于去重复下采样(RDU)、合成少数类过采样技术(SMOTE)和随机森林(RF)分类算法的煤矿监测系统异常数据识别方法。该方法利用RDU算法对多数类数据进行下采样,去除重复样本;利用SMOTE算法对少数类异常数据进行过采样,通过合成新的异常数据来改善数据集的不平衡性;并利用优化后的数据集训练RF分类算法,得到异常数据识别模型。在6个真实数据集上的对比实验结果表明,该方法的异常数据识别准确率平均值达到99.3%,具有较好的泛化性和较强的鲁棒性。 展开更多
关键词 煤矿安全监测 异常数据识别 不平衡数据 机器学习 数据 下采样 过采样 随机森林
下载PDF
上一页 1 2 22 下一页 到第
使用帮助 返回顶部