Tri-training利用无标签数据进行分类可有效提高分类器的泛化能力,但其易将无标签数据误标,从而形成训练噪声。提出一种基于密度峰值聚类的Tri-training(Tri-training with density peaks clustering,DPC-TT)算法。密度峰值聚类通过类...Tri-training利用无标签数据进行分类可有效提高分类器的泛化能力,但其易将无标签数据误标,从而形成训练噪声。提出一种基于密度峰值聚类的Tri-training(Tri-training with density peaks clustering,DPC-TT)算法。密度峰值聚类通过类簇中心和局部密度可选出数据空间结构表现较好的样本。DPC-TT算法采用密度峰值聚类算法获取训练数据的类簇中心和样本的局部密度,对类簇中心的截断距离范围内的样本认定为空间结构表现较好,标记为核心数据,使用核心数据更新分类器,可降低迭代过程中的训练噪声,进而提高分类器的性能。实验结果表明:相比于标准Tritraining算法及其改进算法,DPC-TT算法具有更好的分类性能。展开更多
背景结直肠癌已成为上海市嘉定区发病率排名第三的恶性肿瘤,其疾病负担仍在加重。目的分析2003—2019年上海市嘉定区结直肠癌流行趋势,为结直肠癌防治提供科学依据。方法基于2003—2019年上海市嘉定区肿瘤登记资料,计算粗发病率、粗死...背景结直肠癌已成为上海市嘉定区发病率排名第三的恶性肿瘤,其疾病负担仍在加重。目的分析2003—2019年上海市嘉定区结直肠癌流行趋势,为结直肠癌防治提供科学依据。方法基于2003—2019年上海市嘉定区肿瘤登记资料,计算粗发病率、粗死亡率、标化发病率、标化死亡率等统计指标(以2010年中国标准人口构成进行标化调整),利用Joinpoint Regression Program 4.9.1.0软件分析发病率和死亡率的变化趋势。结果2003—2019年上海市嘉定区结直肠癌新发病例5020例,粗发病率52.12/10万,标化发病率26.27/10万,死亡病例2419例,粗死亡率25.12/10万,标化死亡率11.16/10万,男性的粗发病率和粗死亡率均高于女性(P<0.05);总人群标化发病率总体呈现上升趋势(APC=2.63%,P<0.05),其中男性标化发病率呈上升趋势(APC=3.48%,P<0.05),女性标化发病率无明显变化趋势(APC=1.39%,P=0.119),均未发现转折点;总人群标化死亡率无明显变化趋势(APC=-0.49%,P=0.250),其中男性标化死亡率无明显变化趋势(APC=0.34%,P=0.545),女性标化死亡率呈现下降趋势(APC=-1.94%,P<0.05)。结论2003—2019年上海市嘉定区结直肠癌总体发病率总体仍有上升,其中男性呈上升趋势,女性无明显变化趋势;总体死亡率无明显变化趋势,其中男性无明显变化,女性呈下降趋势,应继续加强结直肠癌的防控工作,重点关注男性人群。展开更多
为了解决传统方法因数据不平衡及特征冗余而导致检测准确率不高的问题,提出了一种结合SMOTE(synthetic minority over-sampling technique)算法采样的SDAE-LSTM(stacked deep auto-encoder-long short term memory)入侵检测模型。首先,...为了解决传统方法因数据不平衡及特征冗余而导致检测准确率不高的问题,提出了一种结合SMOTE(synthetic minority over-sampling technique)算法采样的SDAE-LSTM(stacked deep auto-encoder-long short term memory)入侵检测模型。首先,针对数据不平衡问题,采用SMOTE算法在少数类样本点之间随机插入样本增加其数量,达到类间平衡的目的。其次,针对特征冗余问题,利用堆叠式深度自编码器(stacked deep auto-encoder,SDAE)进行降维,实现数据的深度特征提取。最后,基于长短期记忆(long short term memory,LSTM)神经网络,精准捕获网络入侵特征,准确地实现入侵检测。通过在UNSW-NB15数据集上的大量实验,有效证明了本文模型与其他模型相比有着更好的入侵检测效果。展开更多
文摘Tri-training利用无标签数据进行分类可有效提高分类器的泛化能力,但其易将无标签数据误标,从而形成训练噪声。提出一种基于密度峰值聚类的Tri-training(Tri-training with density peaks clustering,DPC-TT)算法。密度峰值聚类通过类簇中心和局部密度可选出数据空间结构表现较好的样本。DPC-TT算法采用密度峰值聚类算法获取训练数据的类簇中心和样本的局部密度,对类簇中心的截断距离范围内的样本认定为空间结构表现较好,标记为核心数据,使用核心数据更新分类器,可降低迭代过程中的训练噪声,进而提高分类器的性能。实验结果表明:相比于标准Tritraining算法及其改进算法,DPC-TT算法具有更好的分类性能。
文摘背景结直肠癌已成为上海市嘉定区发病率排名第三的恶性肿瘤,其疾病负担仍在加重。目的分析2003—2019年上海市嘉定区结直肠癌流行趋势,为结直肠癌防治提供科学依据。方法基于2003—2019年上海市嘉定区肿瘤登记资料,计算粗发病率、粗死亡率、标化发病率、标化死亡率等统计指标(以2010年中国标准人口构成进行标化调整),利用Joinpoint Regression Program 4.9.1.0软件分析发病率和死亡率的变化趋势。结果2003—2019年上海市嘉定区结直肠癌新发病例5020例,粗发病率52.12/10万,标化发病率26.27/10万,死亡病例2419例,粗死亡率25.12/10万,标化死亡率11.16/10万,男性的粗发病率和粗死亡率均高于女性(P<0.05);总人群标化发病率总体呈现上升趋势(APC=2.63%,P<0.05),其中男性标化发病率呈上升趋势(APC=3.48%,P<0.05),女性标化发病率无明显变化趋势(APC=1.39%,P=0.119),均未发现转折点;总人群标化死亡率无明显变化趋势(APC=-0.49%,P=0.250),其中男性标化死亡率无明显变化趋势(APC=0.34%,P=0.545),女性标化死亡率呈现下降趋势(APC=-1.94%,P<0.05)。结论2003—2019年上海市嘉定区结直肠癌总体发病率总体仍有上升,其中男性呈上升趋势,女性无明显变化趋势;总体死亡率无明显变化趋势,其中男性无明显变化,女性呈下降趋势,应继续加强结直肠癌的防控工作,重点关注男性人群。
文摘为了解决传统方法因数据不平衡及特征冗余而导致检测准确率不高的问题,提出了一种结合SMOTE(synthetic minority over-sampling technique)算法采样的SDAE-LSTM(stacked deep auto-encoder-long short term memory)入侵检测模型。首先,针对数据不平衡问题,采用SMOTE算法在少数类样本点之间随机插入样本增加其数量,达到类间平衡的目的。其次,针对特征冗余问题,利用堆叠式深度自编码器(stacked deep auto-encoder,SDAE)进行降维,实现数据的深度特征提取。最后,基于长短期记忆(long short term memory,LSTM)神经网络,精准捕获网络入侵特征,准确地实现入侵检测。通过在UNSW-NB15数据集上的大量实验,有效证明了本文模型与其他模型相比有着更好的入侵检测效果。