期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
自动发音错误检测中基于最大化F1值准则的区分性特征补偿训练算法 被引量:8
1
作者 黄浩 徐海华 +1 位作者 王羡慧 吾守尔.斯拉木 《电子学报》 EI CAS CSCD 北大核心 2015年第7期1294-1299,共6页
为提高自动发音错误检测性能,提出一种区分性特征补偿训练算法.该方法将高斯后验概率矢量经过线性变换后作为偏移量补偿至传统的谱特征.将经过正确度标注的语音数据库上的发音错误检测F1值的最大化作为变换参数的训练准则.推导了目标函... 为提高自动发音错误检测性能,提出一种区分性特征补偿训练算法.该方法将高斯后验概率矢量经过线性变换后作为偏移量补偿至传统的谱特征.将经过正确度标注的语音数据库上的发音错误检测F1值的最大化作为变换参数的训练准则.推导了目标函数对变换参数的偏导数公式,并利用无约束参数优化例程L-BFGS更新变换参数.发音错误检测实验表明该方法能够有效增大训练和测试集的F1值.并且训练和测试集的精确度、召回率也都有明显提高.在特征优化的基础上进行模型参数训练,检错性能较单独的区分性特征训练、单独的区分性模型训练都有进一步改进. 展开更多
关键词 自动发音错误检测 f1 区分性训练 特征 计算机辅助语言学习
下载PDF
基于RF-LightGBM算法在风机叶片开裂故障预测中的应用 被引量:13
2
作者 陈维刚 张会林 《电子测量技术》 2020年第1期162-168,共7页
针对SCADA系统采集的数据繁杂,难以从原始数据判别工作中风机叶片开裂状态的问题,提出了一种对风机叶片状态进行分类预测的随机森林(RF)算法与LightGBM算法结合的模型。首先对SCADA数据进行预处理,特征变换,采用RF算法对特征进行重要性... 针对SCADA系统采集的数据繁杂,难以从原始数据判别工作中风机叶片开裂状态的问题,提出了一种对风机叶片状态进行分类预测的随机森林(RF)算法与LightGBM算法结合的模型。首先对SCADA数据进行预处理,特征变换,采用RF算法对特征进行重要性排序;然后利用清洗后的数据训练该分类预测模型,利用K折交叉验证法对模型进行验证调优;最后用测试数据集对叶片状态进行预测,依靠F1-score指标对模型性能进行评价。实验结果表明,数据处理后,模型性能明显提高,较XGBoost与GBDT算法分别提高了11%、16%,与传统的叶片状态识别方法相比,该算法能够更加快速精准的在线预测出风机叶片开裂状态,为风电场对风机叶片状态监测检修提供更可靠的参考依据。 展开更多
关键词 LightGBM SCADA f1-score 随机森林 风机叶片 故障预测
下载PDF
基于LightGBM的滚动轴承故障诊断研究
3
作者 程翔 蔡俊 《兰州文理学院学报(自然科学版)》 2024年第1期59-65,共7页
针对滚动轴承信号故障诊断过程中样本数据多且分布不均衡的问题,提出一种基于轻量级梯度提升机(Light Gradient Boosting Machine,LGBM)算法的故障辨识方法.该方法结合了信号的时域和频域统计指标,通过小波包分解获取各频段能量信息,构... 针对滚动轴承信号故障诊断过程中样本数据多且分布不均衡的问题,提出一种基于轻量级梯度提升机(Light Gradient Boosting Machine,LGBM)算法的故障辨识方法.该方法结合了信号的时域和频域统计指标,通过小波包分解获取各频段能量信息,构建特征空间.同时采用斯皮尔曼相关系数法对特征进行筛选.在算法选取阶段,研究人员将构建好的特征样本输入到3种不同的算法模型中,并通过绘制学习曲线确定选取的训练集样本数量和最优算法.针对训练集样本不均衡问题,以分层随机划分交叉验证法为基础构建“N折平均分类器”和网格搜索法对模型进行调参.最终,将测试集输入到“N折平均分类器”中,得到LGBM模型在测试集上的F1分数.在美国凯斯西储大学的轴承数据集进行的检验结果表明该方法在滚动轴承故障诊断方面表现良好,测试集诊断F1分数高达99.65%,为滚动轴承故障诊断提供了一种新方法. 展开更多
关键词 滚动轴承 N折平均分类器 LGBM 分层随机划分交叉验证 f1分数
下载PDF
Comparison of Several Data Mining Methods in Credit Card Default Prediction
4
作者 Shenghui Yang Haomin Zhang 《Intelligent Information Management》 2018年第5期115-122,共8页
LightGBM is an open-source, distributed and high-performance GB framework built by Microsoft company. LightGBM has some advantages such as fast learning speed, high parallelism efficiency and high-volume data, and so ... LightGBM is an open-source, distributed and high-performance GB framework built by Microsoft company. LightGBM has some advantages such as fast learning speed, high parallelism efficiency and high-volume data, and so on. Based on the open data set of credit card in Taiwan, five data mining methods, Logistic regression, SVM, neural network, Xgboost and LightGBM, are compared in this paper. The results show that the AUC, F1-Score and the predictive correct ratio of LightGBM are the best, and that of Xgboost is second. It indicates that LightGBM or Xgboost has a good performance in the prediction of categorical response variables and has a good application value in the big data era. 展开更多
关键词 LightGBM Xgboost AUC f1-score Data MINING
下载PDF
Performance Evaluation of Multiple Classifiers for Predicting Fake News
5
作者 Arzina Tasnim Md. Saiduzzaman +2 位作者 Mohammad Arafat Rahman Jesmin Akhter Abu Sayed Md. Mostafizur Rahaman 《Journal of Computer and Communications》 2022年第9期1-21,共21页
The rise of fake news on social media has had a detrimental effect on society. Numerous performance evaluations on classifiers that can detect fake news have previously been undertaken by researchers in this area. To ... The rise of fake news on social media has had a detrimental effect on society. Numerous performance evaluations on classifiers that can detect fake news have previously been undertaken by researchers in this area. To assess their performance, we used 14 different classifiers in this study. Secondly, we looked at how soft voting and hard voting classifiers performed in a mixture of distinct individual classifiers. Finally, heuristics are used to create 9 models of stacking classifiers. The F1 score, prediction, recall, and accuracy have all been used to assess performance. Models 6 and 7 achieved the best accuracy of 96.13 while having a larger computational complexity. For benchmarking purposes, other individual classifiers are also tested. 展开更多
关键词 fake News Machine Learning Tf-IDf CLASSIfIER Estimator f1 Score RECALL Precision Voting Classifiers Stacking Classifier Soft Voting Hard Voting
下载PDF
基于数据仓库的化工企业财务数据集成方法 被引量:2
6
作者 安世俊 《中国新技术新产品》 2023年第5期142-144,共3页
常规的财务数据集成方法主要以数据查询、实时数据发布为基本需求,难以消除相似重复记录的数据,导致最终的数据集成效果不佳。因此,笔者设计了基于数据仓库的化工企业财务数据集成方法。生成企业财务数据集成本体,获取数据仓库的元数据... 常规的财务数据集成方法主要以数据查询、实时数据发布为基本需求,难以消除相似重复记录的数据,导致最终的数据集成效果不佳。因此,笔者设计了基于数据仓库的化工企业财务数据集成方法。生成企业财务数据集成本体,获取数据仓库的元数据信息。基于数据仓库清洗化工企业财务数据,消除数据仓库中相似重复记录的数据。构建化工企业财务数据本体集成模型,匹配化工企业财务数据集成属性,进而实现化工企业财务数据的高效集成。采用对比试验的方式,验证了该数据集成方法的集成效果更佳,能够应用于实际生活中。 展开更多
关键词 数据仓库 化工企业 财务数据 集成方法 f1-score 本体
下载PDF
基于数据挖掘的连续喷墨式喷码机常见故障诊断方法
7
作者 陈燕清 《机械工业标准化与质量》 2023年第12期41-44,共4页
由于对连续喷墨式喷码机常见故障特征的分析存在精确度差异的角度问题,导致对于故障诊断的鲁棒性难以得到保障。为此,提出基于数据挖掘的连续喷墨式喷码机常见故障诊断方法研究。对原始连续喷墨式喷码机故障数据的预处理采用了归一化的... 由于对连续喷墨式喷码机常见故障特征的分析存在精确度差异的角度问题,导致对于故障诊断的鲁棒性难以得到保障。为此,提出基于数据挖掘的连续喷墨式喷码机常见故障诊断方法研究。对原始连续喷墨式喷码机故障数据的预处理采用了归一化的方法进行处理后,利用数据挖掘中的聚类算法将设备的运行状态进行分类,将正常运行状态下的数据归为一类,将出现故障的数据归为另一类。并根据不同的聚类结果分析出设备的故障类型和相应的故障特征,最后根据连续喷墨式喷码机的实际故障状态参数与对应故障特征的拟合情况,确定具体的故障类型。在测试结果中,设计方法的测试结果中,F1-score始终稳定在0.92以上,与对照组相比,在各种故障类型的诊断准确性和鲁棒性上都表现出了显著的优势。 展开更多
关键词 连续喷墨式喷码机 故障特征提取 数据挖掘 聚类算法 特征拟合 f1-score
下载PDF
基于生成对抗网络的联邦学习中投毒攻击检测方案
8
作者 陈谦 柴政 +1 位作者 王子龙 陈嘉伟 《计算机应用》 CSCD 北大核心 2023年第12期3790-3798,共9页
联邦学习(FL)是一种新兴的隐私保护机器学习(ML)范式,然而它的分布式的训练结构更易受到投毒攻击的威胁:攻击者通过向中央服务器上传投毒模型以污染全局模型,减缓全局模型收敛并降低全局模型精确度。针对上述问题,提出一种基于生成对抗... 联邦学习(FL)是一种新兴的隐私保护机器学习(ML)范式,然而它的分布式的训练结构更易受到投毒攻击的威胁:攻击者通过向中央服务器上传投毒模型以污染全局模型,减缓全局模型收敛并降低全局模型精确度。针对上述问题,提出一种基于生成对抗网络(GAN)的投毒攻击检测方案。首先,将良性本地模型输入GAN产生检测样本;其次,使用生成的检测样本检测客户端上传的本地模型;最后,根据检测指标剔除投毒模型。同时,所提方案定义了F1值损失和精确度损失这两项检测指标检测投毒模型,将检测范围从单一类型的投毒攻击扩展至全部两种类型的投毒攻击;设计阈值判定方法处理误判问题,确保误判鲁棒性。实验结果表明,在MNIST和Fashion-MNIST数据集上,所提方案能够生成高质量检测样本,并有效检测与剔除投毒模型;与使用收集测试数据和使用生成测试数据但仅使用精确度作为检测指标的两种检测方案相比,所提方案的全局模型精确度提升了2.7~12.2个百分点。 展开更多
关键词 联邦学习 投毒攻击 生成对抗网络 f1值损失 精确度损失 阈值判定方法
下载PDF
基于Bagging算法构造强分类器的one class SVM导线舞动预测应用 被引量:6
9
作者 程永锋 汉京善 +2 位作者 刘彬 李鹏 姬昆鹏 《振动与冲击》 EI CSCD 北大核心 2020年第9期152-158,共7页
考虑到传统物理分析方法无法解决导线舞动的预测问题,综合运用机器学习算法,对已有的舞动历史数据进行筛选和预处理,并挖掘有效信息,利用one class SVM算法解决舞动数据中负样本缺失问题,采用集成学习算法中Bagging算法建立分类器学习方... 考虑到传统物理分析方法无法解决导线舞动的预测问题,综合运用机器学习算法,对已有的舞动历史数据进行筛选和预处理,并挖掘有效信息,利用one class SVM算法解决舞动数据中负样本缺失问题,采用集成学习算法中Bagging算法建立分类器学习方法,实现了数据的随机抽样,分成不同组数据集进行相互独立的训练,避免对舞动数据过拟合,提升机器学习算法的抗噪声能力以及泛化能力,采用k折交叉验证算法进行模型的验证,并利用F1-score描述导线舞动预警模型的性能,验证了该方法在舞动预测方面的有效性。 展开更多
关键词 导线舞动 机器学习 ONE CLASS SVM 集成学习 BAGGING算法 f1-score
下载PDF
基于聚类和奖惩用户模型的协同过滤算法 被引量:3
10
作者 吴青洋 程旭 +3 位作者 邓程鹏 丁浩轩 张宏 林胜海 《计算机系统应用》 2020年第8期135-143,共9页
根据用户体验为其推荐感兴趣的项目是推荐系统中最重要的问题.本文提出了一种新的易于实现的CBCF(Clustering-Based CF)算法,该算法基于激励/惩罚用户(IPU)模型进行推荐.本文旨在通过IPU模型深入研究用户间偏好的差异来提高准确率、召... 根据用户体验为其推荐感兴趣的项目是推荐系统中最重要的问题.本文提出了一种新的易于实现的CBCF(Clustering-Based CF)算法,该算法基于激励/惩罚用户(IPU)模型进行推荐.本文旨在通过IPU模型深入研究用户间偏好的差异来提高准确率、召回率和F1-score方面的性能.本文提出了一个约束优化问题,目标是在给定的精度下最大限度地提高召回率(或F1-score).为此,根据实际评分数据和皮尔逊相关系数,将用户分为若干用户簇,然后根据同一用户簇的偏好倾向,对每个项目进行奖励/处罚.实验结果表明,本文提出的算法在给定准确率的条件下,召回率可以显著提高50%左右. 展开更多
关键词 聚类 协同过滤推荐 f1-score 激励/惩罚用户模型 皮尔逊相关系数 推荐系统
下载PDF
基于随机森林算法的吸毒人员甄别模型研究 被引量:1
11
作者 顾海艳 王权 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2019年第2期44-49,共6页
基于数据挖掘技术,利用脉搏波数据构建模型进行吸毒人员的甄别技术,是一项新技术研究.对采集的脉搏波数据,在数据预处理的基础上,运用随机森林算法构建吸毒人员甄别模型,该模型准确率虽然较高,但查全率、F1值均较低.为此提出了改进的随... 基于数据挖掘技术,利用脉搏波数据构建模型进行吸毒人员的甄别技术,是一项新技术研究.对采集的脉搏波数据,在数据预处理的基础上,运用随机森林算法构建吸毒人员甄别模型,该模型准确率虽然较高,但查全率、F1值均较低.为此提出了改进的随机森林算法,主要包括3种改进策略:采用划分多组训练集和测试集进行交叉验证,运用下采样方案来平衡样本分布,选用多评判指标选定模型构建参数.通过测试,根据准确率、查准率、查全率、F1值等多项指标的比较,发现改进的随机森林判别模型性能得到明显提升. 展开更多
关键词 数据预处理 随机森林 判别模型 查全率 f1
下载PDF
基于DT和SVM分类器的中文文本情感极性分析
12
作者 宋尚文 卢超 阎红灿 《新一代信息技术》 2021年第8期17-23,共7页
随着各种新闻媒体平台的兴起,中文文本情感极性分析成为研究热点。利用Python提供的自然语言处理工具word2vec进行词向量化,通过线性均值加权法实现句向量化,应用数据加强技术解决了数据不均衡问题。分别就决策树和支持向量机分类器对... 随着各种新闻媒体平台的兴起,中文文本情感极性分析成为研究热点。利用Python提供的自然语言处理工具word2vec进行词向量化,通过线性均值加权法实现句向量化,应用数据加强技术解决了数据不均衡问题。分别就决策树和支持向量机分类器对数据集训练和测试,通过模型评价指标对比分析,实验结果表明,对未知情感极性的新闻文本预测相对最优的是过采样与线性核函数的支持向量机模型。 展开更多
关键词 Word2vec CART SVM 情感极性 f1-score
下载PDF
DT和SVM分类器在情感极性分析中的应用
13
作者 宋尚文 卢超 阎红灿 《新一代信息技术》 2020年第8期17-23,共7页
随着各种新闻媒体平台的兴起,中文文本情感极性分析成为研究热点。利用Python提供的自然语言处理工具word2vec进行词向量化,通过线性均值加权法实现句向量化,应用数据加强技术解决了数据不均衡问题。分别就决策树和支持向量机分类器对... 随着各种新闻媒体平台的兴起,中文文本情感极性分析成为研究热点。利用Python提供的自然语言处理工具word2vec进行词向量化,通过线性均值加权法实现句向量化,应用数据加强技术解决了数据不均衡问题。分别就决策树和支持向量机分类器对数据集训练和测试,通过模型评价指标对比分析,实验结果表明,对未知情感极性的新闻文本预测相对最优的是过采样与线性核函数的支持向量机模型。 展开更多
关键词 Word2vec CART SVM 情感极性 f1-score
下载PDF
基于改进KNN算法的飞行员工作负荷评估 被引量:4
14
作者 吴浩然 吴红兰 +1 位作者 孙有朝 晏传奇 《航空计算技术》 2022年第5期77-81,共5页
针对使用主观量表评估飞行员工作负荷易受主观因素干扰的问题,将飞行员工作负荷评估试验划分成连续的15 s时间窗口,基于时间窗口内的客观绩效和生理数据,建立飞行员工作负荷评估模型。使用插值、去均值、归一化等方法预处理数据后,再将... 针对使用主观量表评估飞行员工作负荷易受主观因素干扰的问题,将飞行员工作负荷评估试验划分成连续的15 s时间窗口,基于时间窗口内的客观绩效和生理数据,建立飞行员工作负荷评估模型。使用插值、去均值、归一化等方法预处理数据后,再将生理数据变化量作为工作负荷的特征维度,并基于生理数据变化量改进KNN算法,对工作负荷进行分类。通过引入生理数据变化量作为工作负荷的特征维度,优化分类模型的数据结构后,各传统分类算法的测试集F1分数均得到提高;使用生理数据变化量改进KNN算法后,高负荷数据分类准确率达到71%,总体准确率能达到88.5%;相比于传统KNN算法,高负荷数据分类准确率提升36.5%,总体准确率提升6.3%。 展开更多
关键词 工作负荷 f1分数 KNN 生理数据
下载PDF
我国农业上市公司财务危机预警模式的实证分析 被引量:2
15
作者 张黎 贾宪威 刘钰辰 《河北农业科学》 2007年第4期108-111,共4页
以我国农业上市公司为研究对象,以其2004-2006年的财务数据为样本,对F分数模式和F1分数模式进行了实证分析。结果表明:F分数模式和F1分数模式对预测农业上市公司财务危机具有较好的准确性,但F1分数模式更好,具有较高的实用价值。
关键词 农业上市公司 财务危机 Z分数模型 f分数模式 f1分数模式
下载PDF
发音错误检错中声学模型训练准则的比较研究
16
作者 王建明 黄浩 王羡慧 《新疆大学学报(自然科学版)》 CAS 2013年第2期211-217,共7页
在发音错误检错系统中,将传统语音识别系统中的最大似然估计准则和最小音素错误准则应用于声学模型训练通常不能获得F1值指标意义下的最佳性能.本文在对最大似然准则以及最小音素错误准则参数更新公式进行分析的基础上,提出了最大化F1... 在发音错误检错系统中,将传统语音识别系统中的最大似然估计准则和最小音素错误准则应用于声学模型训练通常不能获得F1值指标意义下的最佳性能.本文在对最大似然准则以及最小音素错误准则参数更新公式进行分析的基础上,提出了最大化F1值函数的区分性训练准则,并利用构造弱意义辅助函数的方法对声学模型参数进行优化.通过比较,发现最大化F1值函数的区分性训练准则能够有效地增大训练和测试数据检错的F1值,同时训练数据和测试数据上的精确度、召回率都有明显改进. 展开更多
关键词 最大似然估计 最小音素错误 最大化f1 辅助函数
下载PDF
基于K近邻-随机森林集成算法的肝病预测研究 被引量:2
17
作者 蔡莉莉 侯珂珂 《电脑知识与技术》 2020年第13期204-205,207,共3页
为了提高肝病预测准确率,提出一种基于K近邻-随机森林算法的肝病预测集成模型。首先对UCI数据集中的印度肝病数据集进行数据预处理;然后分别采用K近邻和随机森林算法构建出肝病预测的弱分类器;最后将两个弱分类器利用voting策略进行集... 为了提高肝病预测准确率,提出一种基于K近邻-随机森林算法的肝病预测集成模型。首先对UCI数据集中的印度肝病数据集进行数据预处理;然后分别采用K近邻和随机森林算法构建出肝病预测的弱分类器;最后将两个弱分类器利用voting策略进行集成以获得集成肝病预测模型。同时分析了特征对模型的贡献程度。实验结果表明模型的性能指标F1-分数取得了84%的良好表现。因此利用该集成模型可为医生的临床诊断提供支持。 展开更多
关键词 肝病预测 K近邻 随机森林 集成模型 f1-分数
下载PDF
一种识别说话者的新方法
18
作者 刘琪 《智能计算机与应用》 2013年第6期85-87,共3页
在能够自动识别视频中的说话者的系统中,大部分采用的是声音和唇部运动相结合的方法。文中则采用了另一种方法有效地达到了目的,即通过检测人体头部和手部的运动来鉴别说话者。基于演讲者在说话时通常会伴有头部运动或是手部运动,该方... 在能够自动识别视频中的说话者的系统中,大部分采用的是声音和唇部运动相结合的方法。文中则采用了另一种方法有效地达到了目的,即通过检测人体头部和手部的运动来鉴别说话者。基于演讲者在说话时通常会伴有头部运动或是手部运动,该方法既能实现说话者的检测,又能避免由于观测点过远而导致无法判断人唇部运动的局限性。在系统的实施过程中,运用了多种图像处理方法,并且对三帧差运动法做出了改善,使其能更高效、更准确地检测到头部和手部的运动。经过多个不同的视频测试后,本系统的F1score高达91.91%,从而验证了该系统的可行性。 展开更多
关键词 图像处理 脸部检测 手部检测 运动检测 f1 SCORE
下载PDF
基于多视图卷积神经网络的船体分段性能研究
19
作者 王健 卢载奎 《中阿科技论坛(中英文)》 2021年第9期76-80,共5页
在船舶调度过程中,用准确的船体分段识别号来识别船体分段的位置非常重要。为解决由于某些船体分段的位置和识别号的错误信息导致确切的船体分段所在位置查找困难的问题,需要配备系统来跟踪分段的位置,并自动识别分段的识别号。本文比较... 在船舶调度过程中,用准确的船体分段识别号来识别船体分段的位置非常重要。为解决由于某些船体分段的位置和识别号的错误信息导致确切的船体分段所在位置查找困难的问题,需要配备系统来跟踪分段的位置,并自动识别分段的识别号。本文比较了5种卷积神经网络(CNN)模型与船体分段分类上的多视图图像集的性能,采用四个分段模型对船体分段进行图像采集并利用原始训练数据和其增强数据对CNN模型进行了迁移学习。 展开更多
关键词 卷积神经网络 船舶分段 全局池化层 f1分数 迁移学习
下载PDF
基于K-means聚类的TE过程故障诊断与识别 被引量:11
20
作者 刘丽云 吕玉海 +3 位作者 牛鲁娜 国蓉 栗月姣 胡海军 《自动化与仪器仪表》 2020年第7期5-11,共7页
准确地诊断与识别化工系统的故障对保障系统的长期安全运行和高质量生产具有重要的意义。利用K-means聚类方法对标准田纳西-伊斯曼(TE)过程故障进行诊断,并通过主元分析(PCA)方法识别了故障发生的原因。首先,选择正常工况数据与某一故... 准确地诊断与识别化工系统的故障对保障系统的长期安全运行和高质量生产具有重要的意义。利用K-means聚类方法对标准田纳西-伊斯曼(TE)过程故障进行诊断,并通过主元分析(PCA)方法识别了故障发生的原因。首先,选择正常工况数据与某一故障工况数据组成新数据集,并用z-score标准化方法预处理新数据集,初始聚类中心数量为新数据集包含的工况数,通过分类性能指标F1-score(精确率和召回率的加权平均值)评价K-means聚类方法的故障诊断能力。其次,针对每种故障工况的数据集,采用PCA方法计算数据集中每个变量的统计量(T^2和SPE),统计量越大的变量越有可能引起故障。研究结果表明,K-means方法对TE过程的故障1、2、6和18能够100%诊断,主元分析对故障原因的识别结果与TE过程知识完全符合。与使用PCA方法和支持向量机方法故障诊断的结果相比,K-means方法对二者难以诊断的故障3、9和15有更好的诊断能力。 展开更多
关键词 K-MEANS聚类 故障诊断与识别 田纳西-伊斯曼过程 f1-score 主元分析
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部