重采样是解决非平衡数据分类问题的重要方法。但在数据集很小的情况下,欠采样会丢失数据集的重要信息,因此过采样是非平衡数据分类问题的研究重点。现有的过采样方法虽然部分解决了类间不平衡问题,但是本质上并未给少数类引入额外的信息...重采样是解决非平衡数据分类问题的重要方法。但在数据集很小的情况下,欠采样会丢失数据集的重要信息,因此过采样是非平衡数据分类问题的研究重点。现有的过采样方法虽然部分解决了类间不平衡问题,但是本质上并未给少数类引入额外的信息,且仍然存在着过拟合的风险。针对这些问题,提出了一种基于多数类方差迁移的少数类合成方法(Variance Transfer Oversampling,VTO),从足够多样化的多数类中提取样本偏移向量,综合少数类和多数类的特征权重矩阵以调整,最终将经过置信条件筛选的偏移向量叠加至少数类样本中心,从而在少数类样本生成中引入多数类方差,进而丰富少数类特征空间。为了验证所提算法的有效性,使用决策树为分类模型在6个KEEL数据集上训练,对比SMOTEENN等其他过采样方法,以F-score和PR-AUC值为评价指标进行了实验。结果显示,该算法在处理非平衡数据分类问题时具有更大优势。展开更多
文摘重采样是解决非平衡数据分类问题的重要方法。但在数据集很小的情况下,欠采样会丢失数据集的重要信息,因此过采样是非平衡数据分类问题的研究重点。现有的过采样方法虽然部分解决了类间不平衡问题,但是本质上并未给少数类引入额外的信息,且仍然存在着过拟合的风险。针对这些问题,提出了一种基于多数类方差迁移的少数类合成方法(Variance Transfer Oversampling,VTO),从足够多样化的多数类中提取样本偏移向量,综合少数类和多数类的特征权重矩阵以调整,最终将经过置信条件筛选的偏移向量叠加至少数类样本中心,从而在少数类样本生成中引入多数类方差,进而丰富少数类特征空间。为了验证所提算法的有效性,使用决策树为分类模型在6个KEEL数据集上训练,对比SMOTEENN等其他过采样方法,以F-score和PR-AUC值为评价指标进行了实验。结果显示,该算法在处理非平衡数据分类问题时具有更大优势。
文摘目的以革兰阴性菌外膜蛋白折叠辅助因子关键蛋白BamA为靶蛋白,基于生物膜干涉(Biolayer interferometry,BLI)技术建立化合物与BamA蛋白β折叠结构域(BamA_(β-barrel))结合活性的评价方法,为建立靶向BamA蛋白的抗革兰阴性菌先导物奠定基础。方法应用BLI方法检测BamA_(β-barrel)与已知的阳性化合物darobactin的结合活性。原核表达并纯化带有His标签的大肠埃希菌BamA_(β-barrel)蛋白,使用表面活性剂LDAO对其进行复性和折叠;使用生物素标记折叠和未折叠蛋白,并结合到超级链霉亲和素(super streptavidin,SSA)生物传感器,然后检测蛋白与不同浓度的darobactin结合信号的变化,同时做无蛋白或darobactin稀释液对照;空白对照采用未结合生物素化的BamA_(β-barrel)蛋白的传感器,检测上述系列稀释样品。相应信号采用Steady state analysis方式拟合分析,计算平衡常数(KD)值。结果成功获得高纯度的折叠状态BamA_(β-barrel)蛋白,通过BLI技术检测到折叠状态的BamA_(β-barrel)与阳性化合物darobactin具有良好结合活性且呈现浓度依赖性,R^(2)为0.9998,KD值为(2.2E-06±8.0E-08)M。结论基于BLI技术成功建立了折叠状态的BamA_(β-barrel)-化合物结合活性的评价方法,为后续BamA蛋白靶向性抗革兰阴性菌抗生素的发现建立基础。