期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
一种基于聚类的PU主动文本分类方法 被引量:24
1
作者 刘露 彭涛 +1 位作者 左万利 戴耀康 《软件学报》 EI CSCD 北大核心 2013年第11期2571-2583,共13页
文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别... 文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM主动学习和改进的Rocchio构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度. 展开更多
关键词 pu(FIositive and unlabeled)文本分类 聚类 TFIPNDF(term FREQUENCY inverse positive negative document frequency) 主动学习 可信反例 改进的Rocchio
下载PDF
基于PU学习算法的虚假评论识别研究 被引量:30
2
作者 任亚峰 姬东鸿 +1 位作者 张红斌 尹兰 《计算机研究与发展》 EI CSCD 北大核心 2015年第3期639-648,共10页
识别虚假评论有着重要的理论意义与现实价值.先前工作集中于启发式策略和传统的全监督学习算法.最近研究表明:人类无法通过先验知识有效识别虚假评论,手工标注的数据集必定存在一定数量的误例,因此简单使用传统的全监督学习算法识别虚... 识别虚假评论有着重要的理论意义与现实价值.先前工作集中于启发式策略和传统的全监督学习算法.最近研究表明:人类无法通过先验知识有效识别虚假评论,手工标注的数据集必定存在一定数量的误例,因此简单使用传统的全监督学习算法识别虚假评论并不合理.容易被错误标注的样例称为间谍样例,如何确定这些样例的类别标签将直接影响分类器的性能.基于少量的真实评论和大量的未标注评论,提出一种创新的PU(positive and unlabeled)学习框架来识别虚假评论.首先,从无标注数据集中识别出少量可信度较高的负例.其次,通过整合LDA(latent Dirichlet allocation)和K-means,分别计算出多个代表性的正例和负例.接着,基于狄利克雷过程混合模型(Dirichlet process mixture model,DPMM),对所有间谍样例进行聚类,混合种群性和个体性策略来确定间谍样例的类别标签.最后,多核学习算法被用来训练最终的分类器.数值实验证实了所提算法的有效性,超过当前的基准. 展开更多
关键词 虚假评论 全监督学习 pu学习 狄利克雷过程混合模型 多核学习
下载PDF
基于PU学习的建议语句分类方法 被引量:2
3
作者 张璞 刘畅 李逍 《计算机应用》 CSCD 北大核心 2019年第3期639-643,共5页
建议挖掘作为一项新兴研究任务,具有重要的应用价值。针对传统建议语句分类方法所存在的规则复杂、标注工作量大、特征维度高、数据稀疏等问题,提出一种基于PU学习的建议语句分类方法。首先,使用简单规则从无标注评论集合中选择建议语... 建议挖掘作为一项新兴研究任务,具有重要的应用价值。针对传统建议语句分类方法所存在的规则复杂、标注工作量大、特征维度高、数据稀疏等问题,提出一种基于PU学习的建议语句分类方法。首先,使用简单规则从无标注评论集合中选择建议语句的正例集合;然后,为了降低特征维度,缓解数据稀疏性,在自编码神经网络(Autoencoder)特征空间中使用Spy技术划分可靠反例集合;最后,利用正例集合和可靠反例集合来训练多层感知机(MLP)对剩余的无标注样例进行分类。该方法在中文数据集上的F1值和准确率值分别达到81.98%和82.67%,实验结果表明,该方法能够有效地对建议语句进行分类,且不需要对数据进行人工标注。 展开更多
关键词 建议挖掘 建议语句分类 pu学习 自编码器 多层感知机
下载PDF
基于集成PU学习数据流分类的入侵检测方法
4
作者 宋群 张骏 智永锋 《微电子学与计算机》 CSCD 北大核心 2013年第7期173-176,共4页
入侵检测问题可以模型化为数据流分类问题,传统的数据流分类算法需要标注大量的训练样本,代价昂贵,降低了相关算法的实用性.在PU学习算法中,仅需标注部分正例样本就可以构造分类器.对此本文提出一种动态的集成PU学习数据流分类的入侵检... 入侵检测问题可以模型化为数据流分类问题,传统的数据流分类算法需要标注大量的训练样本,代价昂贵,降低了相关算法的实用性.在PU学习算法中,仅需标注部分正例样本就可以构造分类器.对此本文提出一种动态的集成PU学习数据流分类的入侵检测方法,只需要人工标注少量的正例样本,就可以构造数据流分类器.在人工数据集和真实数据集上的实验表明,该方法具有较好的分类性能,在处理偏斜数据流上优于三种PU学习分类方法,并具有较高的入侵检测率. 展开更多
关键词 入侵检测 集成分类 数据流 pu学习
下载PDF
基于PUL算法及高分辨率WorldView影像的城市不透水面提取 被引量:6
5
作者 刘冉 李文楷 +2 位作者 刘小平 陈逸敏 刘珍环 《地理与地理信息科学》 CSCD 北大核心 2018年第1期40-46,130,共8页
准确提取城市不透水面对生态环境、水热循环及热岛效应等研究具有重要意义。该文利用WorldView高分辨遥感影像,提出基于PUL(Positive and Unlabeled Learning)算法的高分辨率影像城市不透水面提取方法,该方法不需要负样本数据,只需少量... 准确提取城市不透水面对生态环境、水热循环及热岛效应等研究具有重要意义。该文利用WorldView高分辨遥感影像,提出基于PUL(Positive and Unlabeled Learning)算法的高分辨率影像城市不透水面提取方法,该方法不需要负样本数据,只需少量的正样本和未标记样本即可训练分类模型。结果显示,PUL算法的提取结果优于一类支持向量机(OCSVM)以及最大熵(MAXENT)模型。使用不同正样本量时,PUL的提取结果总体精度和kappa系数均优于OCSVM和MAXENT,最高总体精度为91.27%,最高kappa系数可达0.8255,可快速、有效地从高分辨率遥感影像中提取不透水面。 展开更多
关键词 城市不透水面 positive and unlabeled learning(puL) 一类支持向量机(OCSVM) 最大熵(MAXENT)模型
下载PDF
DTU-PU:针对不确定数据PU学习的决策树 被引量:2
6
作者 张星 张阳 +1 位作者 刘明建 王勇 《计算机工程与应用》 CSCD 2013年第9期127-133,共7页
不确定数据的PU学习在现实世界的许多应用中,如在传感器网络、市场分析和医学诊断等领域普遍存在,提出了针对不确定数据PU学习的决策树算法。基于POSC45中信息增益的计算方法,引入UDT中处理连续属性的不确定数据时用到的不确定数据区间... 不确定数据的PU学习在现实世界的许多应用中,如在传感器网络、市场分析和医学诊断等领域普遍存在,提出了针对不确定数据PU学习的决策树算法。基于POSC45中信息增益的计算方法,引入UDT中处理连续属性的不确定数据时用到的不确定数据区间及概率分布函数的概念,提出了一种能处理连续属性的不确定数据PU学习的决策树算法DTU-PU(Decision Tree for Uncertain data with PU-learning)。在UCI数据集上的实验表明,DTU-PU具有较好的分类准确率和健壮性。 展开更多
关键词 只有正例样本和未标注样本(pu)学习 不确定 决策树
下载PDF
基于静态集成PU学习数据流分类的入侵检测方法 被引量:1
7
作者 郑科鹏 冯筠 +2 位作者 孙霞 冯宏伟 曹国震 《西北大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第4期568-572,共5页
从数据流角度提出一种静态的集成PU学习数据流分类的入侵检测方法,在实验验证中通过对不同数据集指标比较,证明了算法的有效性,可在减少人工标注量的同时取得较好的检测效果。
关键词 入侵检测 pu学习 静态集成 分类分析
下载PDF
一种面向工控系统的PU学习入侵检测方法 被引量:4
8
作者 吕思才 张格 +3 位作者 张耀方 刘红日 王子博 王佰玲 《信息安全学报》 CSCD 2021年第4期72-89,共18页
工业控制系统与物理环境联系紧密,受到攻击会直接造成经济损失,人员伤亡等后果,工业控制系统入侵检测可以提供有效的安全防护。工业控制系统中将入侵检测作为一个异常检测问题,本文围绕PU learning(Positive-unlabeled learning, PU学习... 工业控制系统与物理环境联系紧密,受到攻击会直接造成经济损失,人员伤亡等后果,工业控制系统入侵检测可以提供有效的安全防护。工业控制系统中将入侵检测作为一个异常检测问题,本文围绕PU learning(Positive-unlabeled learning, PU学习)进行工业控制系统入侵检测进行研究。首先针对工业控制系统中数据维度高的特点,提出了一种特征重要度计算方法,通过正例数据集和无标签数据集的分布差异度量特征重要度,用于PU学习的特征选择;其次提出了一种基于OCSVM(One-Class SVM)的类先验估计算法,该算法可以稳定且准确的估计出类先验概率,为PU学习提供必要的先验知识;最后采用了三个公开数据集进行实验,在仅有一类标签数据的条件下,通过PU学习发现待检测数据中的异常样本,并与一些现有的模型进行对比,验证了PU学习的有效性。 展开更多
关键词 工业控制系统 入侵检测 pu学习 类先验概率估计
下载PDF
迭代式的深度PU学习与类别先验估计框架 被引量:2
9
作者 赵昀睿 许倩倩 +1 位作者 姜阳邦彦 黄庆明 《计算机学报》 EI CAS CSCD 北大核心 2022年第12期2667-2686,共20页
近年来,深度学习在诸多任务上展现了优异的性能,其一般基于海量数据并采用有监督的学习方式,依赖于完整的数据标签信息.然而在现实应用场景中,收集大量标签往往成本高昂.因此,如何利用未经充分标注的数据进行学习成为了当下的主要挑战.... 近年来,深度学习在诸多任务上展现了优异的性能,其一般基于海量数据并采用有监督的学习方式,依赖于完整的数据标签信息.然而在现实应用场景中,收集大量标签往往成本高昂.因此,如何利用未经充分标注的数据进行学习成为了当下的主要挑战.二分类问题中的从正例和无标签(Positive-Unlabeled,PU)样本数据进行学习,简称PU学习,即为其一.当前主流的PU学习算法需要准确无误的类别先验知识,但实际上类别先验通常难以获得,需要估计.已有的类别先验估计算法则主要面向传统的机器学习分类器进行设计,无法直接运用在大规模数据集上,因而不利于发挥深度学习在大规模数据集上的优势.为克服以上问题,本文提出了一个基于无监督混合模型的迭代式深度PU学习与类别先验估计框架.它利用了深度神经网络对正例和负例给出的预测分数具有不同的分布这一特性,使用双高斯成分的混合模型近似拟合预测分数的混合分布.其中,各个高斯分量分别代表了正类和负类的条件概率分布,混合权重系数代表了类别先验.结合半监督学习中的平均教师和温度锐化技术,所提框架在类别先验未知以及数据缺失负例监督的条件下,估计类别先验的同时进行PU数据上的深度学习,二者相互促进.在基准数据集MNIST、Fashion-MNIST、CIFAR-10和实际应用数据集Alzheimer上的实验结果验证了所提框架的有效性,准确率分别为94.66%、95.16%、89.98%和73.20%,该结果不仅超越了现有基于类别先验估计的PU学习算法,更可与基于真实类别先验的最前沿算法相媲美. 展开更多
关键词 pu学习 类别先验估计 半监督学习 弱监督学习 深度学习
下载PDF
基于PU学习和自主训练的时间序列分类模型 被引量:1
10
作者 郭芷榕 王会青 白莹莹 《计算机工程与设计》 北大核心 2018年第9期2780-2786,共7页
通过分析PU学习(positive unlabeled learning)的数据分布情况和自主训练算法的迭代过程,针对时间序列监督学习中自主训练算法的过早停止问题,提出基于PU学习和改进的自主训练的时间序列分类模型。针对不同的数据分布,进行不同轮次的迭... 通过分析PU学习(positive unlabeled learning)的数据分布情况和自主训练算法的迭代过程,针对时间序列监督学习中自主训练算法的过早停止问题,提出基于PU学习和改进的自主训练的时间序列分类模型。针对不同的数据分布,进行不同轮次的迭代标记,将所有未标记数据进行标记,有效避免过早停止,增强模型的泛化能力。实验结果表明,该模型在PU学习时间序列分类中,具有较高的分类准确度、分类查全率和分类F1度量值。 展开更多
关键词 时间序列 半监督学习 正例和未标记数据学习 自主训练 停止标准
下载PDF
结合PU学习的遥感影像建筑物自动提取方法 被引量:1
11
作者 王理根 张永忠 《遥感信息》 CSCD 北大核心 2023年第3期93-99,共7页
针对目前基于机器学习的高分辨率遥感影像的地物提取方法往往需要大量标记样本训练模型的问题,提出了一种利用正样本和未标记样本学习的遥感影像建筑物自动提取方法。首先,利用面向对象的图像分析方法对遥感影像进行分割从而产生地理对... 针对目前基于机器学习的高分辨率遥感影像的地物提取方法往往需要大量标记样本训练模型的问题,提出了一种利用正样本和未标记样本学习的遥感影像建筑物自动提取方法。首先,利用面向对象的图像分析方法对遥感影像进行分割从而产生地理对象;其次,基于影像建筑物阴影特征和边缘特征提取建筑物像素,结合分割结果自动获取正样本;再次,利用已提取的正样本和剩余的未标记样本训练Bagging-PU分类器对建筑物进行提取;最后,通过基于邻域统计的二值化处理得到建筑物检测最终结果。该方法实现了训练样本标签的自动获取,不需要外部标签样本输入,就能够自动从遥感影像中提取建筑物。在ISPRS(Vaihingen)数据集上的实验表明,该方法提取结果总体精度达到0.928,F1分数为0.864。 展开更多
关键词 建筑物提取 阴影特征 面向地理对象图像分析 正例未标注学习 二值化
下载PDF
结合半监督与主动学习的时间序列PU问题分类
12
作者 陈娟 朱福喜 《计算机工程与应用》 CSCD 北大核心 2018年第11期116-121,共6页
目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集U中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标... 目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集U中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标注数据集U中数据进行人工标注从而构建分类器的方法 OAL(Only Active Learning),基于投票委员会(QBC)对标注数据集构建多个分类器进行投票,以计算未标注数据样本的类别不一致性,并综合考虑数据样本的分布密度,计算数据样本的信息量,作为主动学习的数据选择策略。鉴于人工标注数据量有限,在上述OAL方法的基础上,将主动学习与半监督学习相结合,即在主动学习迭代过程中,将类别一致性高的部分数据样本自动标注,以增加训练数据中标注数据量,保证构建分类器的训练数据量。实验表明了该方法通过部分人工标注,相比半监督学习,能够为PU数据集构建更高准确率的分类器。 展开更多
关键词 时间序列 正例和无标记样本(pu)问题 分类 主动学习 半监督学习
下载PDF
Shapelet Based Two-Step Time Series Positive and Unlabeled Learning
13
作者 张翰博 王鹏 +1 位作者 张明明 汪卫 《Journal of Computer Science & Technology》 SCIE EI CSCD 2023年第6期1387-1402,共16页
In the last decade,there has been significant progress in time series classification.However,in real-world in-dustrial settings,it is expensive and difficult to obtain high-quality labeled data.Therefore,the positive ... In the last decade,there has been significant progress in time series classification.However,in real-world in-dustrial settings,it is expensive and difficult to obtain high-quality labeled data.Therefore,the positive and unlabeled learning(PU-learning)problem has become more and more popular recently.The current PU-learning approaches of the time series data suffer from low accuracy due to the lack of negative labeled time series.In this paper,we propose a novel shapelet based two-step(2STEP)PU-learning approach.In the first step,we generate shapelet features based on the posi-tive time series,which are used to select a set of negative examples.In the second step,based on both positive and nega-tive time series,we select the final features and build the classification model.The experimental results show that our 2STEP approach can improve the average F1 score on 15 datasets by 9.1%compared with the baselines,and achieves the highest F1 score on 10 out of 15 time series datasets. 展开更多
关键词 positive unlabeled learning time series shapelet
原文传递
基于PU学习的链接预测方法
14
作者 李琦 王智强 梁吉业 《模式识别与人工智能》 EI CSCD 北大核心 2019年第9期793-799,共7页
基于分类的链接预测方法中,由于链接未知节点对的大规模性与不确定性,选择可靠负例成为构造链接预测分类器的难点问题.为此,文中提出基于正例和无标识样本(PU)学习的链接预测方法.首先,提取节点对的拓扑信息以构造样本集.再利用社区结... 基于分类的链接预测方法中,由于链接未知节点对的大规模性与不确定性,选择可靠负例成为构造链接预测分类器的难点问题.为此,文中提出基于正例和无标识样本(PU)学习的链接预测方法.首先,提取节点对的拓扑信息以构造样本集.再利用社区结构确定候选负例的分布,基于分布进行多次欠采样,获得多个候选负例子集,集成多个负例集与正例集中构建的分类器选择可靠负例.最后基于正例与可靠负例构造链接预测分类器.在4个网络数据集上的实验表明文中方法预测结果较优. 展开更多
关键词 链接预测 正例和无标识样本(pu)学习 社区结构 集成学习
下载PDF
基于PU学习的磷酸激酶抑制剂筛选算法
15
作者 王艺琪 《信息通信》 2016年第7期53-55,共3页
一个算法的二元分类器构建通常包含两个集合样例,其中一组为正例样本,另一组为负例样本。实际上,我们使用的很多生物数据库,如磷酸激酶抑制剂数据库并非标准数据,磷酸激酶抑制剂数据库只含有不完整的正例样本和未标注样本数据集。这些... 一个算法的二元分类器构建通常包含两个集合样例,其中一组为正例样本,另一组为负例样本。实际上,我们使用的很多生物数据库,如磷酸激酶抑制剂数据库并非标准数据,磷酸激酶抑制剂数据库只含有不完整的正例样本和未标注样本数据集。这些未标注样本中,既包含正例样本也有负例样本。文章旨在解决的问题是对于非标准数据构建标准二元分类器从而实现未知磷酸激酶抑制剂筛选。通过未标注样本概率输出,对未知磷酸激酶抑制剂进行预测。文章对该PU学习算法进行性能估计,结果显示该算法具有较高的预测性能。 展开更多
关键词 pu学习 磷酸激酶抑制剂 未标注样本 二元分类
下载PDF
基于改进两步法采样策略和卷积神经网络的崩塌易发性评价 被引量:1
16
作者 邓日朗 张庆华 +4 位作者 刘伟 陈凌伟 谭建辉 高泽茂 郑先昌 《地质科技通报》 CAS CSCD 北大核心 2024年第2期186-200,共15页
机器学习在崩塌滑坡泥石流地质灾害易发性分析评价领域已得到广泛的研究性应用,非灾害样本的选取是易发性建模过程中的关键问题,传统随机抽样和手工标注方法可能存在随机性和主观性。将土质崩塌易发性评价视为正例无标记(positive and u... 机器学习在崩塌滑坡泥石流地质灾害易发性分析评价领域已得到广泛的研究性应用,非灾害样本的选取是易发性建模过程中的关键问题,传统随机抽样和手工标注方法可能存在随机性和主观性。将土质崩塌易发性评价视为正例无标记(positive and unlabeled,简称PU)学习,提出了一种结合信息量(information value,简称IV)和间谍技术(Spy)的两步卷积神经网络(convolutional neural networks,简称CNN)框架(ISpy-CNN)。以广州市黄埔区崩塌编录和15类基础环境因子,通过信息量模型筛选出部分低信息量样本;采用间谍技术训练CNN模型,从低信息量样本中识别出具有高置信度的可靠负例划分为非崩塌样本;分别基于该学习框架、传统间谍技术和随机抽样,使用支持向量机(support vector machine,简称SVM)和随机森林(random forest,简称RF)对比验证。结果表明,ISpy-CNN框架在验证集上的准确率、F1值、敏感度和特异度较随机采样分别提升了6.82%,6.82%,6.82%,8.23%,较传统Spy技术分别提升了2.86%,2.89%,2.86%,2.31%;PU学习中第2步采用CNN模型的预测精度高于RF和SVM模型;与传统Spy技术相比,增加相同数量训练样本,ISpy-CNN框架筛选的样本集表现出较高的稳定性、预测精度和增长率。本研究提出的ISpy-CNN框架能更好地辅助选取高质量非灾害样本,且崩塌易发性分区结果更符合实际的崩塌空间分布。 展开更多
关键词 崩塌 易发性评价 pu学习 间谍技术 信息量 卷积神经网络 随机森林 支持向量机
下载PDF
基于生成式对抗网络和正类无标签学习的知识图谱补全算法
17
作者 胡斌皓 张建朋 陈鸿昶 《计算机科学》 CSCD 北大核心 2024年第1期310-315,共6页
随着知识图谱的应用越来越广泛,绝大多数真实世界的知识图谱通常具有不完备性,限制了知识图谱的实际应用效果。因此,知识图谱补全成为了知识图谱领域的热点。然而,现有方法大多集中在评分函数的设计上,少部分研究关注了负样本抽样策略... 随着知识图谱的应用越来越广泛,绝大多数真实世界的知识图谱通常具有不完备性,限制了知识图谱的实际应用效果。因此,知识图谱补全成为了知识图谱领域的热点。然而,现有方法大多集中在评分函数的设计上,少部分研究关注了负样本抽样策略。在改善负样本抽样的知识图谱补全算法的研究中,基于生成式对抗网络的方法取得了不错的进展。然而,现有研究并没有关注到负样本存在假阴性标签的问题,即生成的负样本中可能包含真实的事实。为了缓解假阴性标签问题,提出了一种基于生成式对抗网络和正类无标签学习的知识图谱补全算法。该方法利用生成式对抗网络生成无标签样本,并使用正类无标签学习缓解假阴性标签问题。在基准数据集上进行的大量实验证明了所提算法的有效性与准确性。 展开更多
关键词 知识图谱补全 生成式对抗网络 正类无标签学习 负样本抽样
下载PDF
面向食品安全事件新闻文本的实体关系抽取研究 被引量:16
18
作者 郑丽敏 齐珊珊 +1 位作者 田立军 杨璐 《农业机械学报》 EI CAS CSCD 北大核心 2020年第7期244-253,共10页
为解决从大规模网络文本中快速、准确识别食品安全事件并进行实体关系抽取受中文复杂语法特性限制的问题,提出一种基于依存分析的面向食品安全事件新闻文本的实体关系抽取方法FSE_ERE(Entity relation extraction of food safety events... 为解决从大规模网络文本中快速、准确识别食品安全事件并进行实体关系抽取受中文复杂语法特性限制的问题,提出一种基于依存分析的面向食品安全事件新闻文本的实体关系抽取方法FSE_ERE(Entity relation extraction of food safety events,FSE_ERE)。该方法结合句子的依存分析结果和实体关系抽取模型,对非结构化中文文本进行无监督的实体关系抽取,并引入一种将文本相似度结合到PU学习(Positive and unlabeled learning)的半监督分类方法,利用改进的特征加权处理方法提高分类精度,使得FSE_ERE方法能够在高质量的食品安全事件新闻文本中完成实体关系抽取工作。实验结果表明,FSE_ERE方法在食品安全事件新闻文本数据集和多类型混合新闻文本数据集上的实体关系抽取均达到了先进的性能,F值分别达到了71.21%和67.42%,证明了FSE_ERE方法的有效性和可移植性。 展开更多
关键词 食品安全事件 实体关系抽取 依存分析 pu学习 文本相似度
下载PDF
基于WEB信息的特定类型物联网终端识别方法 被引量:12
19
作者 任春林 谷雨 +3 位作者 崔杰 刘松 朱红松 孙利民 《通信技术》 2017年第5期1003-1009,共7页
通过协议特征对联网终端进行远程的类型推断、厂商与型号的有效识别,是实现网络安全测评的重要基础。以识别和推断联网设备的类型为目标,基于物联网终端WEB管理页面,利用信息增益模型提取特定类型终端的特征,提出正样本反馈增强的PU学... 通过协议特征对联网终端进行远程的类型推断、厂商与型号的有效识别,是实现网络安全测评的重要基础。以识别和推断联网设备的类型为目标,基于物联网终端WEB管理页面,利用信息增益模型提取特定类型终端的特征,提出正样本反馈增强的PU学习方法(FE-PU),进而形成从网络空间的海量设备中过滤特定类型物联网终端的一般方法。通过对100万网络空间联网终端的WEB管理页面中抽取视频监控设备的实验,表明该方法较直接采用PU学习方法的准确率和召回率都有大幅提升,较人工方法召回率也提升超过10%,且能够有效发现小品牌终端设备。 展开更多
关键词 设备类型识别 机器学习 pu学习 反馈增强
下载PDF
结合原型网络的远程监督命名实体识别方法
20
作者 罗森林 林朝坤 +1 位作者 潘丽敏 吴舟婷 《北京理工大学学报》 EI CAS CSCD 北大核心 2023年第4期410-416,共7页
针对利用远程监督标注文本实体过程中存在实体类别标注错误问题导致模型难以有效区分各实体的类别特征,影响模型精准度的问题,本文提出一种利用原型网络过滤训练语料中标注错误样本的远程监督命名实体识别方法,利用预训练的原型网络编... 针对利用远程监督标注文本实体过程中存在实体类别标注错误问题导致模型难以有效区分各实体的类别特征,影响模型精准度的问题,本文提出一种利用原型网络过滤训练语料中标注错误样本的远程监督命名实体识别方法,利用预训练的原型网络编码正确标注实体生成类别原型表示,过滤语料中距类别原型较远的样本.实验表明,使用原型网络有效地提高了语料的标注质量,提升了模型性能. 展开更多
关键词 命名实体识别 远程监督 语料自动标注 原型网络 正例-无标注学习
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部