期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于置信度与级联结构的未知网络流量检测
1
作者 吴志远 董育宁 李涛 《智能计算机与应用》 2024年第3期181-186,共6页
为了提升开集流识别性能,本文在对已知类和新类的置信度分布分析基础上,提出一种基于置信度信息与级联结构的未知网络流量检测方法。该方法通过级联结构,先将具有高置信度的新类样本检测出来;利用最大置信度差对新类和已知类进行分类;... 为了提升开集流识别性能,本文在对已知类和新类的置信度分布分析基础上,提出一种基于置信度信息与级联结构的未知网络流量检测方法。该方法通过级联结构,先将具有高置信度的新类样本检测出来;利用最大置信度差对新类和已知类进行分类;利用最大置信度对已知类进行细分类。为了更好地检测高置信度新类,还设计了从未标记数据筛选伪负样本的算法。实验表明,与现有代表性方法相比,本文方法的已知类F1提高约13%,新类F1提高约3%,总体准确率提高约5%,训练和分类耗时也明显少于现有方法。 展开更多
关键词 开集流识别 置信度 知网络流量检测 未标记数据
下载PDF
一种基于Tri-training的数据流集成分类算法 被引量:5
2
作者 胡学钢 马利伟 李培培 《数据采集与处理》 CSCD 北大核心 2017年第5期853-860,共8页
数据流分类是数据挖掘领域的重要研究任务之一,已有的数据流分类算法大多是在有标记数据集上进行训练,而实际应用领域数据流中有标记的数据数量极少。为解决这一问题,可通过人工标注的方式获取标记数据,但人工标注昂贵且耗时。考虑到未... 数据流分类是数据挖掘领域的重要研究任务之一,已有的数据流分类算法大多是在有标记数据集上进行训练,而实际应用领域数据流中有标记的数据数量极少。为解决这一问题,可通过人工标注的方式获取标记数据,但人工标注昂贵且耗时。考虑到未标记数据的数量极大且隐含大量信息,因此在保证精度的前提下,为利用这些未标记数据的信息,本文提出了一种基于Tri-training的数据流集成分类算法。该算法采用滑动窗口机制将数据流分块,在前k块含有未标记数据和标记数据的数据集上使用Tri-training训练基分类器,通过迭代的加权投票方式不断更新分类器直到所有未标记数据都被打上标记,并利用k个Tri-training集成模型对第k+1块数据进行预测,丢弃分类错误率高的分类器并在当前数据块上重建新分类器从而更新当前模型。在10个UCI数据集上的实验结果表明:与经典算法相比,本文提出的算法在含80%未标记数据的数据流上的分类精度有显著提高。 展开更多
关键词 数据流分类 TRI-TRAINING 未标记数据 集成 加权投票
下载PDF
基于PBLC算法的滑坡空间易发性分析
3
作者 黄伟钧 李佳豪 +3 位作者 刘子越 胡晓梅 黄华兵 李文楷 《中山大学学报(自然科学版)(中英文)》 CAS CSCD 北大核心 2023年第4期54-64,共11页
滑坡空间易发性统计模型的构建需要正样本(滑坡点)和负样本(非滑坡点)两类数据,但历史观测数据仅记录了正样本,而负样本的选取容易受到正样本污染,因为没有滑坡记录的地方也可能在过去或未来发生滑坡,从而导致模型的预测精度与稳定性受... 滑坡空间易发性统计模型的构建需要正样本(滑坡点)和负样本(非滑坡点)两类数据,但历史观测数据仅记录了正样本,而负样本的选取容易受到正样本污染,因为没有滑坡记录的地方也可能在过去或未来发生滑坡,从而导致模型的预测精度与稳定性受到影响。针对此问题,将前期提出的半监督学习算法PBLC(positive and background learning with constraints)应用于滑坡空间易发性分析,探讨其解决负样本污染问题的有效性。本文以粤东地区为研究区,选择高程、坡度、坡向、剖面曲率、距离道路最短距离、距离断层线最短距离、距水系最短距离、年平均降雨量、归一化植被指数和地理坐标共11个影响因子作为环境变量。结果表明,与传统的人工神经网络模型相比,基于PBLC算法的预测概率取值范围更为合理,预测结果更加稳定,且预测精度随背景样本数量增加而提高;粤东地区的滑坡灾害高易发区集中于北部和西南区域,坡度和高程是影响该地区滑坡易发性的主要因子。结果表明,半监督学习算法PBLC可以有效解决滑坡统计建模过程负样本污染的问题,提高模型预测精度。 展开更多
关键词 滑坡易发性 带约束的正样本-背景学习 人工神经网络 未标记数据 粤东地区
下载PDF
基于小样本学习的垃圾邮件过滤方法 被引量:2
4
作者 潘洁珠 周晓 +1 位作者 吴共庆 胡学钢 《计算机工程》 CAS CSCD 北大核心 2010年第21期245-247,共3页
针对客户端垃圾邮件过滤器难以获取足够训练样本的问题,提出一种基于小样本学习的垃圾邮件过滤方法,利用容易获取的未标记样本提高垃圾邮件过滤的性能。该方法使用已标记的小样本邮件实例集训练一个初始Na?veBayes分类器,以此标注未标... 针对客户端垃圾邮件过滤器难以获取足够训练样本的问题,提出一种基于小样本学习的垃圾邮件过滤方法,利用容易获取的未标记样本提高垃圾邮件过滤的性能。该方法使用已标记的小样本邮件实例集训练一个初始Na?veBayes分类器,以此标注未标记邮件,再使用所有数据训练新的分类器,利用EM算法进行迭代直至收敛。实验结果证明,当给定5个~20个已标记小样本训练邮件时,该方法可有效提高垃圾邮件过滤性能。 展开更多
关键词 小样本学习 EM算法 未标记数据 垃圾邮件过滤
下载PDF
基于分歧的半监督学习 被引量:83
5
作者 周志华 《自动化学报》 EI CSCD 北大核心 2013年第11期1871-1878,共8页
传统监督学习通常需使用大量有标记的数据样本作为训练例,而在很多现实问题中,人们虽能容易地获得大批数据样本,但为数据提供标记却需耗费很多人力物力.那么,在仅有少量有标记数据时,可否通过对大量未标记数据进行利用来提升学习性能呢... 传统监督学习通常需使用大量有标记的数据样本作为训练例,而在很多现实问题中,人们虽能容易地获得大批数据样本,但为数据提供标记却需耗费很多人力物力.那么,在仅有少量有标记数据时,可否通过对大量未标记数据进行利用来提升学习性能呢?为此,半监督学习成为近十多年来机器学习的一大研究热点.基于分歧的半监督学习是该领域的主流范型之一,它通过使用多个学习器来对未标记数据进行利用,而学习器间的"分歧"对学习成效至关重要.本文将综述简介这方面的一些研究进展. 展开更多
关键词 机器学习 半监督学习 基于分歧的半监督学习 未标记数据
下载PDF
一种应用于入侵检测的并行聚类算法 被引量:1
6
作者 李庆华 苏珊 《计算机工程》 EI CAS CSCD 北大核心 2005年第5期151-152,161,共3页
由于入侵检测使用的数据集十分庞大,现有的串行聚类算法很难在合理的时间内得到结果。文章提出了一种应用于入侵检测的并行K-均值算法,给出了其加速比估算公式,实验证明了算法的正确性和有效性。
关键词 入侵检测 聚类 未标记数据 K-均值
下载PDF
基于LSTM网络的中文地址分词法的设计与实现 被引量:6
7
作者 张文豪 卢山 程光 《计算机应用研究》 CSCD 北大核心 2018年第12期3652-3654,共3页
当前中文地址的分词法主要采用基于规则和传统机器学习的方法。这些方法需要人工长期维护词典和提取特征。为避免特征工程和减少人工维护,提出了将长短时记忆(long short-term memory,LSTM)网络和双向长短时记忆(bi-directional long sh... 当前中文地址的分词法主要采用基于规则和传统机器学习的方法。这些方法需要人工长期维护词典和提取特征。为避免特征工程和减少人工维护,提出了将长短时记忆(long short-term memory,LSTM)网络和双向长短时记忆(bi-directional long short-term memory,Bi-LSTM)网络分别应用在中文地址分词任务中,并采用四词位标注法以及增加未标记数据集的方法提升分词性能。在自建数据集上的实验结果表明,中文地址分词任务应用Bi-LSTM网络结构能得到较好的性能,在增加未标记数据集的情况下,可以有效提升模型的性能。 展开更多
关键词 中文地址 分词 卡短时记忆 未标记数据
下载PDF
基于PU学习和自主训练的时间序列分类模型 被引量:1
8
作者 郭芷榕 王会青 白莹莹 《计算机工程与设计》 北大核心 2018年第9期2780-2786,共7页
通过分析PU学习(positive unlabeled learning)的数据分布情况和自主训练算法的迭代过程,针对时间序列监督学习中自主训练算法的过早停止问题,提出基于PU学习和改进的自主训练的时间序列分类模型。针对不同的数据分布,进行不同轮次的迭... 通过分析PU学习(positive unlabeled learning)的数据分布情况和自主训练算法的迭代过程,针对时间序列监督学习中自主训练算法的过早停止问题,提出基于PU学习和改进的自主训练的时间序列分类模型。针对不同的数据分布,进行不同轮次的迭代标记,将所有未标记数据进行标记,有效避免过早停止,增强模型的泛化能力。实验结果表明,该模型在PU学习时间序列分类中,具有较高的分类准确度、分类查全率和分类F1度量值。 展开更多
关键词 时间序列 半监督学习 正例和未标记数据学习 自主训练 停止标准
下载PDF
“无师自通”机器学习方法的核心算法分析
9
作者 周欣 《电脑知识与技术》 2011年第4期2335-2338,共4页
机器学习的发展趋势,就是不断地使用易获得的、廉价的数据作为样本数据,来辅助训练数据进行学习。“无师自通”学习是迁移学习的一种改进,它使用未标记的数据集作为样本数据集,且并不假设未标记数据集和标记数据集有着同样的数据分... 机器学习的发展趋势,就是不断地使用易获得的、廉价的数据作为样本数据,来辅助训练数据进行学习。“无师自通”学习是迁移学习的一种改进,它使用未标记的数据集作为样本数据集,且并不假设未标记数据集和标记数据集有着同样的数据分布,它运用稀疏编码方法来对未标记数据集得到一个更高层次的表示。然后,再使用经典的监督学习方法如SVM方法来对得到的新的数据集进行机器学习。该文将介绍“无师自通”学习法的主要原理,并对其核心算法一稀疏编码算法进行深入分析并通过实验给出具体的实例。 展开更多
关键词 机器学习 无师自通 未标记数据 稀疏编码 监督学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部