期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于高置信度伪标签数据选择算法的临床事件抽取方法
1
作者 罗媛媛 杨春明 +2 位作者 李波 张晖 赵旭剑 《太原理工大学学报》 北大核心 2024年第1期204-213,共10页
【目的】事件抽取是构建高质量事件知识图谱的前提。临床事件抽取过程中事件元素存在依赖关系,现有方法无法准确识别事件元素并组合为事件,且现有临床事件标记数据较少,给事件抽取任务带来了极大的挑战。【方法】将临床事件抽取建模为... 【目的】事件抽取是构建高质量事件知识图谱的前提。临床事件抽取过程中事件元素存在依赖关系,现有方法无法准确识别事件元素并组合为事件,且现有临床事件标记数据较少,给事件抽取任务带来了极大的挑战。【方法】将临床事件抽取建模为实体识别模型,提出一种融合多特征的中文医学事件抽取方法:BERT-MCRF.该方法使用BERT构建模型的嵌入和特征提取部分,在CRF层加入多个字的滑动窗口特征,然后将BERT-MCRF作为半监督实验的基实验,提出一种高置信度伪标签数据选择算法作为筛选数据的条件,得到较高质量的300条数据与原始数据合并,最终构建了1700条语料,并重新训练模型。【结果】BERT-MCRF模型在3种属性实体上的整体F1值达到80.21%,比经典的BiLSTM-CRF模型提升15.11%;通过半监督思路重新训练的模型最终F1值达到81.56%,较原始BERT-MCRF提升了1.35%. 展开更多
关键词 临床医学事件抽取 实体识别 多特征 半监督学习 置信标签选择算法
下载PDF
基于动态概率抽样的标签噪声过滤方法 被引量:8
2
作者 张增辉 姜高霞 王文剑 《计算机应用》 CSCD 北大核心 2021年第12期3485-3491,共7页
在机器学习问题中,数据质量对系统预测的准确性产生了深远的影响。由于信息获取的难度大,人类的认知主观且有限,导致了专家无法准确标记所有样本。而近年来出现的一些概率抽样方法无法避免样本人为划分不合理且主观性较强的问题。针对... 在机器学习问题中,数据质量对系统预测的准确性产生了深远的影响。由于信息获取的难度大,人类的认知主观且有限,导致了专家无法准确标记所有样本。而近年来出现的一些概率抽样方法无法避免样本人为划分不合理且主观性较强的问题。针对这一问题,提出一种基于动态概率抽样(DPS)的标签噪声过滤方法,充分考虑各个数据集样本间的差异性,通过统计各个区间内置信度分布频率,分析各个区间内置信度分布信息熵的走势,确定合理阈值。在UCI经典数据集中选取了14个数据集,将所提方法与随机森林(RF)、HARF、MVF、局部概率抽样(LPS)等方法进行了对比实验。实验结果表明,所提出的方法在标签噪声识别和分类泛化上均展示出了较高的能力。 展开更多
关键词 标签噪声 动态概率抽样 噪声过滤 标签置信度 置信
下载PDF
Handling Label Noise in Air Traffic Complexity Evaluation Based on Confident Learning and XGBoost 被引量:1
3
作者 ZHANG Minghua XIE Hua +2 位作者 ZHANG Dongfang GE Jiaming CHEN Haiyan 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI CSCD 2020年第6期936-946,共11页
Air traffic complexity is a critical indicator for air traffic operation,and plays an important role in air traffic management(ATM),such as airspace reconfiguration,air traffic flow management and allocation of air tr... Air traffic complexity is a critical indicator for air traffic operation,and plays an important role in air traffic management(ATM),such as airspace reconfiguration,air traffic flow management and allocation of air traffic controllers(ATCos).Recently,many machine learning techniques have been used to evaluate air traffic complexity by constructing a mapping from complexity related factors to air traffic complexity labels.However,the low quality of complexity labels,which is named as label noise,has often been neglected and caused unsatisfactory performance in air traffic complexity evaluation.This paper aims at label noise in air traffic complexity samples,and proposes a confident learning and XGBoost-based approach to evaluate air traffic complexity under label noise.The confident learning process is applied to filter out noisy samples with various label probability distributions,and XGBoost is used to train a robust and high-performance air traffic complexity evaluation model on the different label noise filtered ratio datasets.Experiments are carried out on a real dataset from the Guangzhou airspace sector in China,and the results prove that the appropriate label noise removal strategy and XGBoost algorithm can effectively mitigate the label noise problem and achieve better performance in air traffic complexity evaluation. 展开更多
关键词 air traffic complexity evaluation label noise confident learning XGBoost
下载PDF
共识图学习驱动的自监督集成聚类 被引量:1
4
作者 耿伟峰 王翔 +1 位作者 景丽萍 于剑 《中国图象图形学报》 CSCD 北大核心 2023年第4期1069-1078,共10页
目的随着实际应用场景中海量数据采集技术的发展和数据标注成本的不断增加,自监督学习成为海量数据分析的一个重要策略。然而,如何从海量数据中抽取有用的监督信息,并该监督信息下开展有效的学习仍然是制约该方向发展的研究难点。为此,... 目的随着实际应用场景中海量数据采集技术的发展和数据标注成本的不断增加,自监督学习成为海量数据分析的一个重要策略。然而,如何从海量数据中抽取有用的监督信息,并该监督信息下开展有效的学习仍然是制约该方向发展的研究难点。为此,提出了一个基于共识图学习的自监督集成聚类框架。方法框架主要包括3个功能模块。首先,利用集成学习中多个基学习器构建共识图;其次,利用图神经网络分析共识图,捕获节点优化表示和节点的聚类结构,并从聚类中挑选高置信度的节点子集及对应的类标签生成监督信息;再次,在此标签监督下,联合其他无标注样本更新集成成员基学习器。交替迭代上述功能块,最终提高无监督聚类的性能。结果为验证该框架的有效性,在标准数据集(包括图像和文本数据)上设计了一系列实验。实验结果表明,所提方法在性能上一致优于现有聚类方法。尤其是在MNIST-Test(modified national institute of standards and technology database)上,本文方法实现了97.78%的准确率,比已有最佳方法高出3.85%。结论该方法旨在利用图表示学习提升自监督学习中监督信息捕获的能力,监督信息的有效获取进一步强化了集成学习中成员构建的能力,最终提升了无监督海量数据本质结构的挖掘性能。 展开更多
关键词 集成聚类 自监督聚类 图表示学习 共识图 标签置信度
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部