期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
Performance evaluation of seven multi-label classification methods on real-world patent and publication datasets
1
作者 Shuo Xu Yuefu Zhang +1 位作者 Xin An Sainan Pi 《Journal of Data and Information Science》 CSCD 2024年第2期81-103,共23页
Purpose:Many science,technology and innovation(STI)resources are attached with several different labels.To assign automatically the resulting labels to an interested instance,many approaches with good performance on t... Purpose:Many science,technology and innovation(STI)resources are attached with several different labels.To assign automatically the resulting labels to an interested instance,many approaches with good performance on the benchmark datasets have been proposed for multi-label classification task in the literature.Furthermore,several open-source tools implementing these approaches have also been developed.However,the characteristics of real-world multi-label patent and publication datasets are not completely in line with those of benchmark ones.Therefore,the main purpose of this paper is to evaluate comprehensively seven multi-label classification methods on real-world datasets.Research limitations:Three real-world datasets differ in the following aspects:statement,data quality,and purposes.Additionally,open-source tools designed for multi-label classification also have intrinsic differences in their approaches for data processing and feature selection,which in turn impacts the performance of a multi-label classification approach.In the near future,we will enhance experimental precision and reinforce the validity of conclusions by employing more rigorous control over variables through introducing expanded parameter settings.Practical implications:The observed Macro F1 and Micro F1 scores on real-world datasets typically fall short of those achieved on benchmark datasets,underscoring the complexity of real-world multi-label classification tasks.Approaches leveraging deep learning techniques offer promising solutions by accommodating the hierarchical relationships and interdependencies among labels.With ongoing enhancements in deep learning algorithms and large-scale models,it is expected that the efficacy of multi-label classification tasks will be significantly improved,reaching a level of practical utility in the foreseeable future.Originality/value:(1)Seven multi-label classification methods are comprehensively compared on three real-world datasets.(2)The TextCNN and TextRCNN models perform better on small-scale datasets with more complex hierarchical structure of labels and more balanced document-label distribution.(3)The MLkNN method works better on the larger-scale dataset with more unbalanced document-label distribution. 展开更多
关键词 Multi-label classification Real-World datasets Hierarchical structure Classification system label correlation Machine learning
下载PDF
Active Learning Strategies for Textual Dataset-Automatic Labelling
2
作者 Sher Muhammad Daudpota Saif Hassan +2 位作者 Yazeed Alkhurayyif Abdullah Saleh Alqahtani Muhammad Haris Aziz 《Computers, Materials & Continua》 SCIE EI 2023年第8期1409-1422,共14页
The Internet revolution has resulted in abundant data from various sources,including social media,traditional media,etcetera.Although the availability of data is no longer an issue,data labelling for exploiting it in ... The Internet revolution has resulted in abundant data from various sources,including social media,traditional media,etcetera.Although the availability of data is no longer an issue,data labelling for exploiting it in supervised machine learning is still an expensive process and involves tedious human efforts.The overall purpose of this study is to propose a strategy to automatically label the unlabeled textual data with the support of active learning in combination with deep learning.More specifically,this study assesses the performance of different active learning strategies in automatic labelling of the textual dataset at sentence and document levels.To achieve this objective,different experiments have been performed on the publicly available dataset.In first set of experiments,we randomly choose a subset of instances from training dataset and train a deep neural network to assess performance on test set.In the second set of experiments,we replace the random selection with different active learning strategies to choose a subset of the training dataset to train the same model and reassess its performance on test set.The experimental results suggest that different active learning strategies yield performance improvement of 7% on document level datasets and 3%on sentence level datasets for auto labelling. 展开更多
关键词 Active learning automatic labelling textual datasets
下载PDF
A robust optimization method for label noisy datasets based on adaptive threshold: Adaptive-k
3
作者 Enes DEDEOGLU Himmet Toprak KESGIN Mehmet Fatih AMASYALI 《Frontiers of Computer Science》 SCIE EI CSCD 2024年第4期49-60,共12页
The use of all samples in the optimization process does not produce robust results in datasets with label noise.Because the gradients calculated according to the losses of the noisy samples cause the optimization proc... The use of all samples in the optimization process does not produce robust results in datasets with label noise.Because the gradients calculated according to the losses of the noisy samples cause the optimization process to go in the wrong direction.In this paper,we recommend using samples with loss less than a threshold determined during the optimization,instead of using all samples in the mini-batch.Our proposed method,Adaptive-k,aims to exclude label noise samples from the optimization process and make the process robust.On noisy datasets,we found that using a threshold-based approach,such as Adaptive-k,produces better results than using all samples or a fixed number of low-loss samples in the mini-batch.On the basis of our theoretical analysis and experimental results,we show that the Adaptive-k method is closest to the performance of the Oracle,in which noisy samples are entirely removed from the dataset.Adaptive-k is a simple but effective method.It does not require prior knowledge of the noise ratio of the dataset,does not require additional model training,and does not increase training time significantly.In the experiments,we also show that Adaptive-k is compatible with different optimizers such as SGD,SGDM,and Adam.The code for Adaptive-k is available at GitHub. 展开更多
关键词 robust optimization label noise noisy label deep learning noisy datasets noise ratio estimation robust training
原文传递
智能物探技术的过去、现在与未来
4
作者 杨午阳 魏新建 李海山 《岩性油气藏》 CAS CSCD 北大核心 2024年第2期170-188,共19页
通过梳理国内外人工智能技术在地球物理勘探(物探)领域中的发展历程、主要研究进展以及发展方向,总结了智能物探的优势和面临的难题,并提出了解决方案。研究结果表明:(1)物探技术在人工智能发展的第2次浪潮中开始与人工智能技术相结合,... 通过梳理国内外人工智能技术在地球物理勘探(物探)领域中的发展历程、主要研究进展以及发展方向,总结了智能物探的优势和面临的难题,并提出了解决方案。研究结果表明:(1)物探技术在人工智能发展的第2次浪潮中开始与人工智能技术相结合,得益于物探领域数据量的指数级增长、硬件算力的高速发展以及不断出现的新深度学习框架,智能物探技术从早期的机器学习发展为目前的深度学习,在地震资料处理、解释等方面的应用中取得了大量研究成果。(2)目前智能物探技术被广泛应用于标签集的构建、去噪、断裂检测、层位与层序解释、地震相分类和异常体检测、岩性识别与油气藏开发、地震反演成像等方面,大幅提高了工作效率,降低了工作成本,克服了人工交互操作和人工经验的主观性和不可靠性,助力打破传统物探技术瓶颈。(3)智能物探技术的发展面临着缺少公开的标签数据集、缺少解决地球物理领域问题的智能化框架及尚未形成适用于地球物理领域共享的智能化开发平台等难题,可以从解决数据基础、构建智能平台、开展网络架构基础性研究及与应用场景结合等方面着手解决;此外,智能物探技术的发展方向还包含智能地震成像方法研究,储层成像方法研究,油气大数据挖掘、智能风险评估与智能决策以及超算软件装备研发等方面。 展开更多
关键词 智能物探 大数据 人工智能 机器学习 深度学习 标签数据集 深度学习框架 智能处理与解释 地震资料
下载PDF
面向目标检测的数据集标签遗漏的协同修正技术
5
作者 周定威 扈静 +1 位作者 张良锐 段飞亚 《计算机工程与应用》 CSCD 北大核心 2024年第8期267-273,共7页
针对图像标注中疲劳、粗心等因素引起的标签遗漏现象,使得模型训练时难以正确区分正负样本,进而影响模型性能。设计了一种协同修正技术,通过多次迭代更新训练集,将潜在无标签的目标进行对象擦除,降低训练集的错误监督信息,避免人工的重... 针对图像标注中疲劳、粗心等因素引起的标签遗漏现象,使得模型训练时难以正确区分正负样本,进而影响模型性能。设计了一种协同修正技术,通过多次迭代更新训练集,将潜在无标签的目标进行对象擦除,降低训练集的错误监督信息,避免人工的重复检查和重复标注。该方法无需进行算法参数调整、不依赖具体网络结构,低成本地减少数据集错误从而提升模型训练精度。在YOLOv5算法的实验基础上表明协同修正操作仅迭代1次即有明显的改善效果,并在多个公共数据集上能够提升0.4%~1.4%的检测精度,当数据集中的标签遗漏率达到40%时依然能够生效。该方法对数据集中样本的数据量和类别数没有限制,可应用于电商、遥感、通用等多种目标检测场景,保持着较好的鲁棒性和泛化性。 展开更多
关键词 协同修正 标签遗漏 数据集优化 目标检测 深度学习
下载PDF
混合图像集对排水管缺陷AI检测的影响研究 被引量:1
6
作者 徐增辉 陈星 +3 位作者 洪念成 李前正 许加豪 赵云华 《节能技术》 CAS 2024年第4期306-310,共5页
为提高排水管道缺陷的AI检测模型效果,研究一种基于小样本Faster R-CNN算法的半监督学习方法。该方法利用无缺陷正常管道图像,随机为其生成伪标签,并将其混入具有缺陷标签的图像集中,实现半监督式训练。对管道CCTV视频进行了检测实验,... 为提高排水管道缺陷的AI检测模型效果,研究一种基于小样本Faster R-CNN算法的半监督学习方法。该方法利用无缺陷正常管道图像,随机为其生成伪标签,并将其混入具有缺陷标签的图像集中,实现半监督式训练。对管道CCTV视频进行了检测实验,对比只采用有缺陷图像集训练,混合图像集训练的AI模型对各种管道缺陷的检出率都有较高水准,且缺陷误检率从34.85%下降至6.12%。研究结果表明,采用混合图像集能够影响AI检测模型的缺陷识别效果;在小样本管道缺陷图像训练集和验证集中额外混入十分之一的伪标签图像,训练出的检测模型具有最佳的平均精度均值。 展开更多
关键词 混合图像集 排水管道 半监督学习 伪标签 Faster R-CNN算法 AI检测模型
下载PDF
监控场景下基于单帧与视频数据的行人属性识别方法综述及展望
7
作者 曹雨然 逯伟卿 +2 位作者 于金佐 周亦博 胡海苗 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第3期336-356,共21页
行人属性识别旨在判断目标行人的预定义属性标签,从而生成关于该行人的结构化描述,包括年龄、性别、衣着、配饰等多种层次的语义信息.由于行人属性识别在视频监控领域具有极大的应用潜力,该任务广受研究者关注.随着深度学习的快速发展,... 行人属性识别旨在判断目标行人的预定义属性标签,从而生成关于该行人的结构化描述,包括年龄、性别、衣着、配饰等多种层次的语义信息.由于行人属性识别在视频监控领域具有极大的应用潜力,该任务广受研究者关注.随着深度学习的快速发展,研究者提出众多识别行人属性的方法,以获得更为精准的识别结果.针对当前复杂场景下,该任务面临的监控画面不清晰、行人状态变化、遮挡等问题,对监控场景下基于单帧与视频数据的行人属性识别方法进行综述,首先围绕行人属性识别这一任务,介绍其研究背景及任务概念,指出当前研究所面临的问题与挑战;其次根据“单帧图像”和基于视频数据的“序列图像”2种不同的样本类型,对行人属性识别方法进行分类,并依据属性识别过程中所采用的技巧和思路,归纳总结最新提出的行人属性识别方法,概述研究现状;再对当前主流使用的数据集进行分析比较,总结其特点;最后,从状态引导行人属性识别、立体属性、多任务融合、新数据集构建4个方面,思考该领域的未来发展方向并作出展望. 展开更多
关键词 深度学习 智能视频监控 多标签分类 行人属性识别 数据集分析
下载PDF
基于改进标记分布学习的人脸年龄估计
8
作者 杜希婷 张德 《计算机应用与软件》 北大核心 2024年第8期168-174,共7页
人脸年龄特征的变化是有序且缓慢的,同一个体相近年龄的脸部年龄特征是相似的。基于标记分布学习的年龄估计就是利用这个特点而设计的一种方法,实现了从年龄单目标预测到年龄标记分布向量预测的学习任务的转变,这一定程度上解决了人脸... 人脸年龄特征的变化是有序且缓慢的,同一个体相近年龄的脸部年龄特征是相似的。基于标记分布学习的年龄估计就是利用这个特点而设计的一种方法,实现了从年龄单目标预测到年龄标记分布向量预测的学习任务的转变,这一定程度上解决了人脸年龄估计中数据不全面的问题。但现有的基于最大熵回归模型的标记分布学习存在不能构建统一的标记分布预测模型和计算复杂时间长等问题,另一种基于神经网络的算法容易发生过拟合且神经网络的结构不容易被理解。为解决这些问题,提出基于核偏最小二乘回归模型的标记分布学习来解决人脸年龄估计问题。核偏最小二乘回归模型对数据分布没有前提假定,并且可以解决非线性问题。在FG-NET和MORPHⅡ数据集的实验结果表明,相较于其他对比方法,此法有更小的年龄估计误差同时提高了计算效率。 展开更多
关键词 人脸识别 年龄估计 标记分布学习 核偏最小二乘回归 人脸年龄数据集
下载PDF
一种采用LLE降维和贝叶斯分类的多类标学习算法 被引量:4
9
作者 李宏 谢政 +1 位作者 向遥 吴敏 《系统工程与电子技术》 EI CSCD 北大核心 2009年第6期1467-1472,共6页
多类标数据中的样本可能属于一个或多个类标,因此其分类问题较单类标分类更为复杂。提出一种新的多类标学习算法,首先针对多类标数据的特征属性维数高的特点,采用LLE算法对多类标数据的特征属性进行降维,提取能较完整描述数据的一组低... 多类标数据中的样本可能属于一个或多个类标,因此其分类问题较单类标分类更为复杂。提出一种新的多类标学习算法,首先针对多类标数据的特征属性维数高的特点,采用LLE算法对多类标数据的特征属性进行降维,提取能较完整描述数据的一组低维特征属性集;然后将多类标样本集按所属的类标进行划分,并采用贝叶斯分类模型来学习各组样本集的分类特性;根据各个分类模型的判定类标,综合得到多类标样本的最终类标集。将该算法分别应用到自然场景图像和基因数据的多类标分类学习中,实验结果表明,该算法针对不同的多类标数据集均能取得很好的分类效果,且相比于其他多类标算法有更高的性能。 展开更多
关键词 多类标学习 朴素贝叶斯分类 自然场景图像分类 基因数据集分类
下载PDF
一种多标记学习入侵检测算法 被引量:3
10
作者 钱燕燕 李永忠 +1 位作者 章雷 余西亚 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第7期929-933,共5页
针对现有入侵检测技术的不足,文章研究了基于机器学习的异常入侵检测系统,将多标记和半监督学习应用于入侵检测,提出了一种基于多标记学习的入侵检测算法。该算法采用"k近邻"分类准则,统计近邻样本的类别标记信息,通过最大化... 针对现有入侵检测技术的不足,文章研究了基于机器学习的异常入侵检测系统,将多标记和半监督学习应用于入侵检测,提出了一种基于多标记学习的入侵检测算法。该算法采用"k近邻"分类准则,统计近邻样本的类别标记信息,通过最大化后验概率(maximum a posteriori,MAP)的方式推理未标记数据的所属集合。在KDD CUP99数据集上的仿真结果表明,该算法能有效地改善入侵检测系统的性能。 展开更多
关键词 多标记学习 ML-KNN算法 半监督学习 入侵检测 KDD CUP99数据集
下载PDF
一种适合弱标签数据集的图像语义标注方法 被引量:3
11
作者 田枫 沈旭昆 《软件学报》 EI CSCD 北大核心 2013年第10期2405-2418,共14页
真实环境下数据集中广泛存在着标签噪声问题,数据集的弱标签性已严重阻碍了图像语义标注的实用化进程.针对弱标签数据集中的标签不准确、不完整和语义分布失衡现象,提出了一种适用于弱标签数据集的图像语义标注方法.首先,在视觉内容与... 真实环境下数据集中广泛存在着标签噪声问题,数据集的弱标签性已严重阻碍了图像语义标注的实用化进程.针对弱标签数据集中的标签不准确、不完整和语义分布失衡现象,提出了一种适用于弱标签数据集的图像语义标注方法.首先,在视觉内容与标签语义的一致性约束、标签相关性约束和语义稀疏性约束下,通过直推式学习填充样本标签,构建样本的近似语义平衡邻域.鉴于邻域中存在噪声干扰,通过多标签语义嵌入的邻域最大边际学习获得距离测度和图像语义的一致性,使得近邻处于同一语义子空间.然后,以近邻为局部坐标基,通过邻域非负稀疏编码获得目标图像和近邻的部分相关性,并构建局部语义一致邻域.以邻域内的语义近邻为指导并结合语境相关信息,进行迭代式降噪与标签预测.实验结果表明了方法的有效性. 展开更多
关键词 图像语义标注 弱标签数据集 测度学习 非负稀疏编码 语义近邻
下载PDF
一种新的快速挖掘频繁子树算法 被引量:1
12
作者 唐德权 刘绪崇 《湘潭大学学报(自然科学版)》 CAS 2022年第2期96-106,共11页
挖掘隐藏在大型标签数据集中丰富的语义信息是数据挖掘的重要任务之一.基于成千上万标签的半结构化数据集,提出了从给定包含一棵或多棵标签树的数据集中,找出所有满足用户最小支持度阈值频繁子树方法.首先采用树和森林的规范表示,使用... 挖掘隐藏在大型标签数据集中丰富的语义信息是数据挖掘的重要任务之一.基于成千上万标签的半结构化数据集,提出了从给定包含一棵或多棵标签树的数据集中,找出所有满足用户最小支持度阈值频繁子树方法.首先采用树和森林的规范表示,使用扩展操作生成候选子树集,进一步提出有根有序标签树的挖掘算法.通过确定自由树中心,将自由树转换成有根有序标签树.该方法不仅解决了一般自由树规范化问题,而且能直接应用到半结构化数据集中.实验结果表明,该方法能够快速有效地从大型标签数据集中挖掘所有频繁子树. 展开更多
关键词 数据挖掘 标签数据集 频繁子树 有根有序树 自由树
下载PDF
基于双标签集的标签匹配集成学习算法
13
作者 张丹普 王莉莉 +1 位作者 付忠良 李昕 《计算机应用》 CSCD 北大核心 2014年第9期2577-2580,共4页
当标识示例的两个标签分别来源于两个标签集时,这种多标签分类问题称之为标签匹配问题,目前还没有针对标签匹配问题的学习算法。尽管可以用传统的多标签分类学习算法来解决标签匹配问题,但显然标签匹配问题有其自身特殊性。通过对标签... 当标识示例的两个标签分别来源于两个标签集时,这种多标签分类问题称之为标签匹配问题,目前还没有针对标签匹配问题的学习算法。尽管可以用传统的多标签分类学习算法来解决标签匹配问题,但显然标签匹配问题有其自身特殊性。通过对标签匹配问题进行深入的研究,在连续AdaBoost(real Adaptive Boosting)算法的基础上,基于整体优化的思想,采用算法适应的方法,提出了基于双标签集的标签匹配集成学习算法,该算法能够较好地学习到标签匹配规律从而完成标签匹配。实验结果表明,与传统的多标签学习算法用于解决标签匹配问题相比,提出的新算法不仅缩小了搜索的标签空间的范围,而且最小化学习误差可以随着分类器个数的增加而降低,进而使得标签匹配分类更加快速、准确。 展开更多
关键词 连续ADABOOST 多标签学习 多标签集 标签匹配 集成学习
下载PDF
一种基于软调和函数的有条件异常检测方案研究
14
作者 黎华 《计算机应用与软件》 CSCD 2015年第5期65-69,79,共6页
对有条件异常检测问题展开研究,以检测出响应异常或类别异常的数据实例。基于软调和函数,提出一种新的无参数有条件异常检测算法。该算法基于软调和解,可估计类别置信度,进而检测出异常类别划分。同时对调和解进行正规化,以避免检测孤... 对有条件异常检测问题展开研究,以检测出响应异常或类别异常的数据实例。基于软调和函数,提出一种新的无参数有条件异常检测算法。该算法基于软调和解,可估计类别置信度,进而检测出异常类别划分。同时对调和解进行正规化,以避免检测孤立样本和分布支持边界样本。基于数种合成数据和UCI ML数据进行实验,通过与其他基准算法进行比较,验证了该算法在检测异常分类方面的有效性。最后基于真实电子医疗记录数据(检测病人管理异常决策)对所提算法的性能进行了评估。 展开更多
关键词 有条件异常检测 类别置信度 正规化 软调和解 合成数据 UCI ML 数据
下载PDF
融合数据分布特征的保序学习机
15
作者 刘忠宝 张志剑 党建飞 《数据采集与处理》 CSCD 北大核心 2020年第3期431-440,共10页
支持向量机(Support vector machine,SVM)作为一种经典的分类方法,已经广泛应用于各种领域中。然而,标准支持向量机在分类决策中面临以下问题:(1)未考虑分类数据的分布特征;(2)忽略了样本类别间的相对关系;(3)无法解决大规模分类问题。... 支持向量机(Support vector machine,SVM)作为一种经典的分类方法,已经广泛应用于各种领域中。然而,标准支持向量机在分类决策中面临以下问题:(1)未考虑分类数据的分布特征;(2)忽略了样本类别间的相对关系;(3)无法解决大规模分类问题。鉴于此,提出融合数据分布特征的保序学习机(Rank preservation learning machine based on data distribution fusion,RPLM-DDF)。该方法通过引入类内离散度表征数据的分布特征;通过各类样本数据中心位置相对不变保证全局样本顺序不变;通过建立所提方法和核心向量机对偶形式的等价性解决了大规模分类问题。在人工数据集、中小规模数据集和大规模数据集上的比较实验验证所提方法的有效性。 展开更多
关键词 类内离散度 支持向量机 大规模数据集 全局保序 核心向量机
下载PDF
基于机器学习的PVDF基复合介质储能特性数据分析与预测 被引量:3
16
作者 冯宇 唐文昕 +2 位作者 张天栋 迟庆国 陈庆国 《高电压技术》 EI CAS CSCD 北大核心 2022年第5期1997-2004,共8页
近年来,机器学习作为一种新型数据分析方式,在电气、材料、化学等领域都取得了优异的成果。对储能介质材料而言,以聚偏氟乙烯(polyvinylidenefluoride,PVDF)材料作为基体,向其中加入纳米填料能够极大地增加复合介质最大储能密度。该研... 近年来,机器学习作为一种新型数据分析方式,在电气、材料、化学等领域都取得了优异的成果。对储能介质材料而言,以聚偏氟乙烯(polyvinylidenefluoride,PVDF)材料作为基体,向其中加入纳米填料能够极大地增加复合介质最大储能密度。该研究利用机器学习探索并建立复合介质所含填料(微观信息)-复合介质储能性能(宏观性能)的对应关系。首先,收集165组复合介质储能特性参数建立数据库,以填充相材料的特征作为输入描述符(包括固有描述符和选择描述符);其次,对原始数据进行处理,根据复合介质的最大储能密度提升倍数划分数据集标签。为达到兼顾预测精度和准确率的目的,分别设置二分类、三分类和四分类数据集,使用3种机器学习算法对数据集进行训练;最后,将11组全新的数据输入训练模型进行验证,其中7组数据可以正确预测分类,证明机器学习方法应用在高储能密度复合介质研究中的可靠性。该研究将交叉学科的前沿成果运用在复合介质的研究领域,所建数据库与训练模型将加速高性能复合介质的发现。 展开更多
关键词 复合介质 最大储能密度 纳米填料 机器学习 数据集标签
下载PDF
基于改进的YOLOv4高速公路车辆目标检测研究 被引量:26
17
作者 王滢暄 宋焕生 +2 位作者 梁浩翔 余宵雨 云旭 《计算机工程与应用》 CSCD 北大核心 2021年第13期218-226,共9页
针对高速公路场景下的车辆目标检测问题,提出了一种改进的YOLOv4网络对交通场景下车辆目标进行检测的方法;制作了一个多天候、多时段、多场景的车辆目标数据集,并依据数据集得到检测模型;提出多标签检测方法,并在多标签之间建立约束关系... 针对高速公路场景下的车辆目标检测问题,提出了一种改进的YOLOv4网络对交通场景下车辆目标进行检测的方法;制作了一个多天候、多时段、多场景的车辆目标数据集,并依据数据集得到检测模型;提出多标签检测方法,并在多标签之间建立约束关系,得到更完善的车辆信息;提出了一个图像拼接检测方法,将多幅图像通过拼接层连接后进行车辆检测,以此提升网络的运行效率。实验结果表明,多样化数据集提高了车辆检测精度,减少了车辆目标的误检、漏检,同时改进的网络结构较大提升了检测速度,上述方法可以为高速公路场景下的车辆目标检测与实际应用提供参考。 展开更多
关键词 目标检测 深度学习 目标数据集 图像处理 多标签
下载PDF
新冠文本实体关系抽取及数据集构建方法研究 被引量:1
18
作者 杨崇洛 生龙 +1 位作者 魏忠诚 王巍 《计算机工程与应用》 CSCD 北大核心 2023年第8期97-104,共8页
实体关系抽取可有效地获取文本中的关键信息,利用新冠文本中的关键信息有助于切断疫情传播途径,发掘疫情传播源头。但该领域没有适合的公开有标注的数据集,针对该问题,通过分析新冠文本的语义表示和结构特点,提出一种针对新冠文本的实... 实体关系抽取可有效地获取文本中的关键信息,利用新冠文本中的关键信息有助于切断疫情传播途径,发掘疫情传播源头。但该领域没有适合的公开有标注的数据集,针对该问题,通过分析新冠文本的语义表示和结构特点,提出一种针对新冠文本的实体关系定义,并根据实体关系定义对收集的数据进行实体标注和关系标注,在标注完成后,通过数据预处理等操作生成新冠文本实体关系抽取数据集。与公开数据集相比,该领域的数据集本文实体和关系分布较为密集,单一神经网络模型特征抽取能力较差,因此采用多种神经网络模型拼接的方法构建命名实体识别模型和关系抽取模型。通过模型的结果对数据集进行实验验证,实验结果证明该数据集可以应用于该领域的实体关系抽取任务。 展开更多
关键词 数据集 实体关系定义 数据标注 双向循环神经网络 卷积神经网络
下载PDF
融合深度主动学习的医学图像半自动标注系统 被引量:2
19
作者 王海林 冯瑞 张晓波 《计算机系统应用》 2023年第2期75-82,共8页
目前深度学习在医学图像分析领域取得的良好表现大多取决于高质量带标注的数据集,但是医学图像由于其专业性和复杂性,数据集的标注工作往往需要耗费巨大的成本.本文针对这一问题设计了一种基于深度主动学习的半自动标注系统,该系统通过... 目前深度学习在医学图像分析领域取得的良好表现大多取决于高质量带标注的数据集,但是医学图像由于其专业性和复杂性,数据集的标注工作往往需要耗费巨大的成本.本文针对这一问题设计了一种基于深度主动学习的半自动标注系统,该系统通过主动学习算法减少训练深度学习标注模型所需的标注样本数量,训练完成后的标注模型可以用于剩余数据集的标注工作.系统基于Web应用构建,无需安装且能跨平台访问,便于用户完成标注工作. 展开更多
关键词 医学图像 数据集 深度学习 主动学习 半自动标注 WEB应用
下载PDF
中国农村地区建筑物样本及标注无人机影像数据集 被引量:1
20
作者 刘耀辉 杨新月 +14 位作者 李嘉禾 程昊 周洁 范熙伟 张昊宇 李晓丽 齐文华 李志强 聂高众 徐南 付博 姚国标 于明洋 孟飞 靳奉祥 《中国科学数据(中英文网络版)》 CSCD 2022年第2期179-191,共13页
农村建筑物是观察农村土地变化和经济发展的基础资料。中国作为农业大国,从高空间分辨率遥感影像上及时、准确提取农村建筑物,对于农村发展至关重要。近年来,随着计算机视觉和运算能力的迅速发展,深度学习以其自动学习特征、适用性强等... 农村建筑物是观察农村土地变化和经济发展的基础资料。中国作为农业大国,从高空间分辨率遥感影像上及时、准确提取农村建筑物,对于农村发展至关重要。近年来,随着计算机视觉和运算能力的迅速发展,深度学习以其自动学习特征、适用性强等优点,已在建筑物自动提取等领域取得较好效果。深度学习通常需要大量的训练数据。目前,深度学习提取建筑物常用的数据集以国际上开源建筑物数据集为主,包括Massachusetts、INRIA、WHU等。这些数据集大多基于国外建筑物,缺乏开源、高精度、覆盖范围广、贴切我国农村地区建筑主体结构的建筑物样本数据。为此,本研究基于2017-2020年在陕西渭南、江苏淮安、四川康定、广东汕尾、广东惠州、新疆阿图什、吉林松原等多个中国农村地区采集的无人机航拍图像,制作并开放共享本数据集。本数据集空间分辨率高,基本涵盖我国农村地区房屋建筑的主体结构类型,可应用深度学习方法进行建筑物提取,并可进一步结合具体研究目标进行空间分析和研究,对于国土部门统筹城乡发展和美丽乡村建设具有重要意义和应用价值。 展开更多
关键词 遥感 无人机 中国农村 建筑物 样本及标注 数据集 深度学习
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部