期刊文献+
共找到53篇文章
< 1 2 3 >
每页显示 20 50 100
GPR图像的数据集构建及其DRDU-Net去噪算法
1
作者 王惠琴 高大庆 +3 位作者 何永强 刘宾灿 王莹 曹明华 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第6期20-28,共9页
为了解决生成对抗网络(Generative Adversarial Network,GAN)在生成探地雷达(Ground Penetrating Radar,GPR)图像时存在训练不稳定的问题,提出利用带有梯度惩罚的Wasserstein距离生成对抗网络(WGAN-GP)生成GPR图像,并结合时域有限差分... 为了解决生成对抗网络(Generative Adversarial Network,GAN)在生成探地雷达(Ground Penetrating Radar,GPR)图像时存在训练不稳定的问题,提出利用带有梯度惩罚的Wasserstein距离生成对抗网络(WGAN-GP)生成GPR图像,并结合时域有限差分法和实地采集图像提出了一种构建GPR图像数据集的方法.相较于原始GAN与Wasserstein GAN等方法,WGAN-GP具有更好的稳定性,而且生成的GPR图像更接近真实图像.在此基础之上,将密集残差块和U-Net相结合提出了一种适合于GPR图像的密集残差去噪U-Net方法.该方法利用U-Net中编码-解码结构提高了GPR图像的去噪性能;同时,密集残差块的引入加强了GPR图像的特征复用,且使U-Net训练更加稳定.最后,利用仿真实验验证了所提去噪方法的性能,并与三维块匹配(BM3D)和U-Net方法进行了对比.结果表明:所提方法与BM3D以及U-Net去噪方法相比,具有更好的去噪效果.当σ等于20时,在模拟和实测数据上取平均值,其峰值信噪比分别提升了约6.5 dB和2.4 dB;结构相似性分别提升了约0.09和0.04. 展开更多
关键词 GPR数据构建 GPR图像去噪 WGAN-GP 残差块
下载PDF
人工智能囊胚形态评估数据集构建与质控专家共识
2
作者 王浩 张孝东 +25 位作者 孙莹璞 孙海翔 邓成艳 黄学锋 刘平 周灿权 冯云 郝桂敏 卢文红 沈浣 师娟子 张松英 滕晓明 王晓红 王秀霞 伍琼芳 全松 曾勇 钟影 邵小光 柯林楠 毛歆 韩倩倩 黄国宁 中华医学会生殖医学分会第五届委员会 中国食品药品检定研究院 《生殖医学杂志》 CAS 2024年第7期843-851,共9页
囊胚形态人工智能(AI)评估是AI医疗器械发展的新兴方向,也是AI在辅助生殖领域的重要应用。AI在新领域应用的起步阶段,数据集的构建与质控对产品质量有重要影响。目前,囊胚形态学AI评估在数据采集、标注、质控等方面尚未形成统一的规范... 囊胚形态人工智能(AI)评估是AI医疗器械发展的新兴方向,也是AI在辅助生殖领域的重要应用。AI在新领域应用的起步阶段,数据集的构建与质控对产品质量有重要影响。目前,囊胚形态学AI评估在数据采集、标注、质控等方面尚未形成统一的规范。在参考AI医疗器械、辅助生殖医疗器械现有国家行业标准的基础上,本文以囊胚形态AI评估数据集为主题,对数据集构建与质控要求进行了探讨,对数据集质量特性进行了解析,旨在指导数据集制造责任方加强数据集全生命周期管理,更好地为产品研发、测试、临床试验等环节提供质量保障,助力产业发展。 展开更多
关键词 人工智能(AI) 囊胚形态评估 数据构建 数据标注 数据质量控制
下载PDF
多模态语言舆情数据集构建与识别方法
3
作者 吕学强 董良 +1 位作者 滕尚志 张乐 《北京信息科技大学学报(自然科学版)》 2023年第5期1-9,共9页
针对现有语言舆情领域缺乏研究数据集的问题,通过构建语言舆情信息源库,确立了语言舆情的信息来源和范围,并对其中包含的微博数据进行采集,以构建多模态语言舆情数据集。进一步提出了一种基于多模态融合的语言舆情识别方法,通过注意力... 针对现有语言舆情领域缺乏研究数据集的问题,通过构建语言舆情信息源库,确立了语言舆情的信息来源和范围,并对其中包含的微博数据进行采集,以构建多模态语言舆情数据集。进一步提出了一种基于多模态融合的语言舆情识别方法,通过注意力机制增强单模态特征,并学习不同模态特征之间的依赖关系,以生成细粒度的多模态表示。实验结果表明,本文方法在准确率上优于现有的多模态分类方法,可有效识别出语言舆情信息。 展开更多
关键词 语言舆情 数据构建 注意力机制 多模态融合 舆情识别
下载PDF
基于胶质瘤图像的原始数据集构建及应用 被引量:1
4
作者 于永成 姜雨萌 方玲玲 《计算机系统应用》 2023年第1期368-375,共8页
胶质瘤是在世界范围内致死率排行比较靠前的几种肿瘤之一,是一种死亡率高、容易复发,对身体危害极大的恶性疾病.目前,核磁共振成像(magnetic resonance imaging,MRI)技术因其成像效果清晰,不同软组织之间对比鲜明等特点,现已成为诊断患... 胶质瘤是在世界范围内致死率排行比较靠前的几种肿瘤之一,是一种死亡率高、容易复发,对身体危害极大的恶性疾病.目前,核磁共振成像(magnetic resonance imaging,MRI)技术因其成像效果清晰,不同软组织之间对比鲜明等特点,现已成为诊断患者胶质瘤较为常用的一种医学手段.基于胶质瘤原始数据集缺少这一情况,与辽宁省肿瘤医院合作,对该医院300名胶质瘤患者MRI图像进行分析,通过病变判定、病变定位和病变定性3个步骤对原始数据进行分类并进一步分级,建立胶质瘤原始数据集.为了证明其后续应用性,通过分析和实验,证明原始数据集可被用于图像分类及分割,并为肿瘤的生长与重建提供图像数据,对胶质瘤的临床研究和应用给予充分的帮助. 展开更多
关键词 原始数据 胶质瘤 病变判定 病变定位 病变定性 数据构建
下载PDF
高校学业文本命名实体识别及数据集构建研究
5
作者 何晨 苑迎春 +1 位作者 王克俭 陶佳 《计算机工程与应用》 CSCD 北大核心 2023年第22期322-328,共7页
近年来,我国高校因学业问题无法顺利毕业的学生数量逐年上升,给高校教学管理工作带来极大压力。利用知识图谱技术快速自动解答学业困惑成为亟待解决的重要问题。实体精准识别可有效提取学业管理文本中的关键信息,但该领域尚未存在公开... 近年来,我国高校因学业问题无法顺利毕业的学生数量逐年上升,给高校教学管理工作带来极大压力。利用知识图谱技术快速自动解答学业困惑成为亟待解决的重要问题。实体精准识别可有效提取学业管理文本中的关键信息,但该领域尚未存在公开适用的标注数据集,因此开展面向具有普遍性和通识性的高校学业命名实体识别数据集变得极为迫切。依据学业管理专家的领域知识,对某高校13万余字学业文本制定了8类学业数据构建标准,并根据构建标准以及文本特性完成了标注工作。将BiLSTM-CRF等4种识别模型在公开数据集和构建数据集上进行实验测试,结果表明构建的数据集可以应用于高校学业领域的命名实体识别任务,构建方法具有普适性,而且分类标注后的数据集识别效果相较未分类数据集有明显提升,进一步验证了该分类标准的有效性。 展开更多
关键词 高校学业 命名实体识别 数据构建 实体标注 BiLSTM-CRF
下载PDF
糖尿病健康管理对话数据集构建
6
作者 汪正康 刘阳 +2 位作者 杨锦锋 梁先桂 郭熙铜 《中文信息学报》 CSCD 北大核心 2023年第9期23-37,共15页
我国是全球糖尿病患病人数最多的国家,患病人数仍在持续快速增长,糖尿病已成为我国重大公共卫生问题。该文关注的糖尿病健康管理对话系统服务于糖尿病患者,为患者解答日常生活中糖尿病相关问题,而目前缺乏用于训练对话系统模型的糖尿病... 我国是全球糖尿病患病人数最多的国家,患病人数仍在持续快速增长,糖尿病已成为我国重大公共卫生问题。该文关注的糖尿病健康管理对话系统服务于糖尿病患者,为患者解答日常生活中糖尿病相关问题,而目前缺乏用于训练对话系统模型的糖尿病相关数据。基于此,该文构建了首个标注体系完整的糖尿病健康管理中文对话数据集“Diachat”,以支持健康管理对话系统研究。Diachat收集了来自线上聊天平台糖尿病患者与医生的693段对话(Dialogue),共4686句语料(Sentence),完成了6594条对话动作(Dialogue act)标注。Diachat数据集采用基于对话动作的表示方式进行意图表示并定义了15个对话动作标签(Act label)。同时,Diachat定义了6个领域(Domain)涵盖语料涉及的领域,分别为:问题(Problem)、饮食(Diet)、行为(Behavior)、运动(Sport)、治疗(Treatment)、基本信息(Profile)。为了支持构建完整的对话系统,Diachat为用户端和系统端分别构造了对话状态,并为每段对话构造了对话目标。基于Diachat数据集,该课题进行了管道(Pipeline)体系的对话系统四个模块的基本实现。实验结果显示,Diachat数据集能够支持糖尿病健康管理对话系统构建,各模块仍有较大提升空间。 展开更多
关键词 对话系统 数据构建 语料标注 糖尿病健康管理
下载PDF
用于辅助中医辨证的居家健康软硬件集成系统的家电数据集构建
7
作者 杨启城 石文鹏 +1 位作者 周一博 温川飙 《家电科技》 2023年第6期16-21,共6页
为中医居家健康场景下中医理论和家电的融合提供数据采集标准,通过在广东省新黄埔中医药联合创新研究院居家健康中心搭建居家健康套房,基于套房采集的数据进行中医居家健康家电数据元、数据集的定义,建立编码规则并对两者进行编码。搭... 为中医居家健康场景下中医理论和家电的融合提供数据采集标准,通过在广东省新黄埔中医药联合创新研究院居家健康中心搭建居家健康套房,基于套房采集的数据进行中医居家健康家电数据元、数据集的定义,建立编码规则并对两者进行编码。搭建居家健康家电数据集可以将家电厂商物联网生态与中医理论相结合,为中医和家电领域的交叉融合提供合作基础。居家健康家电数据集的构建可以给健康数据提供更好的一致性、可靠性和持续性,同时也能为家电数据与医学理论的结合提供保障。 展开更多
关键词 居家健康 智能家电 数据 数据构建
下载PDF
高分辨率、多时相SAR图像数据集的构建 被引量:6
8
作者 郁文贤 柳彬 +3 位作者 丁拥科 胡昊 李元祥 张增辉 《测绘通报》 CSCD 北大核心 2014年第S1期119-122,158,共5页
近20年来,SAR图像理解与信息反演是一个得到广泛、深入研究的世界性难题。即使在高分辨率条件下,由于相干斑噪声、结构极度敏感性、几何畸变、成像系统干扰等原因,SAR图像的高可信解译依然非常困难。SAR测试样本数据集是发展SAR图像解... 近20年来,SAR图像理解与信息反演是一个得到广泛、深入研究的世界性难题。即使在高分辨率条件下,由于相干斑噪声、结构极度敏感性、几何畸变、成像系统干扰等原因,SAR图像的高可信解译依然非常困难。SAR测试样本数据集是发展SAR图像解译与目标认知技术的基础与支撑。但SAR数据集并不是各种SAR数据的简单收集,而是要根据研究内容的需要,制定试验方案,科学地选择样本并进行样本真值标注,并且尽可能收集各种多源辅助数据以相互验证。笔者以上海交通大学闵行校区为场景,构建了一个以高分辨率、多时相SAR图像为主的试验数据集,其由高分辨率SAR数据、地表真值标注、多源辅助数据3个主要的部分组成。笔者认为,该数据集的构建能够为高分辨率SAR图像解译、信息反演和目标识别提供高可信的、实时的、丰富的地表和目标真值信息,能够促进这些研究和相关测试工作的进展。 展开更多
关键词 高分辨率 多时相 SAR图像 数据构建
下载PDF
交叉学科文献数据集构建探讨——以海洋学科为例 被引量:1
9
作者 苏菊 冯劭华 彭顺苓 《情报探索》 2018年第2期123-129,共7页
[目的/意义]以海洋学科为例,提出一种通过主题、学科结合权威研究机构发文量来选定期刊再构建数据集的方法。[方法/过程]方法先从"全"角度出发,通过主题筛选海洋研究的相关文献,结果显示除传统认为的"海洋"类学科外... [目的/意义]以海洋学科为例,提出一种通过主题、学科结合权威研究机构发文量来选定期刊再构建数据集的方法。[方法/过程]方法先从"全"角度出发,通过主题筛选海洋研究的相关文献,结果显示除传统认为的"海洋"类学科外,有大量的相关文献交叉涵盖在地质、环境等学科分类中,但也存在部分杂质;其次从"准"角度精选,以主题检索文献所在的期刊为基础,利用权威机构在这些期刊中的发文量筛选出132种"涉海"期刊,其结果既包含了海洋类期刊,也包含了综合性及交叉学科期刊;最后以学科分类中的海洋类期刊、主题、机构精选的"涉海"期刊,检索并收录其中的海洋类文献,并作为最终的数据集,经验证数据集中的海洋相关文献率达到93.5%。[结果/结论]本文采用的这种从"涉海"期刊入手的方法既保留了数据库已有的"海洋类"期刊,也合理考虑到海洋分类以外的大量重要"涉海"综合性期刊,在一定程度上解决了交叉学科文献数据集构建中难以"全"而"准"的问题。 展开更多
关键词 文献计量 数据构建 海洋学科 交叉学科
下载PDF
基于角度内插仿真的飞机目标多角度SAR数据集构建方法研究 被引量:2
10
作者 王汝意 张汉卿 +5 位作者 韩冰 张月婷 郭嘉逸 洪文 孙巍 胡文龙 《雷达学报(中英文)》 EI CSCD 北大核心 2022年第4期637-651,共15页
随着SAR技术应用领域的扩大以及SAR数据获取技术的发展,构建各种典型目标的多角度SAR数据集的需求日益迫切。针对飞机目标,目前尚未有比较完备的多角度SAR图像数据集。该文探索了一种基于实测数据和智能仿真相结合的数据集构建方法,通... 随着SAR技术应用领域的扩大以及SAR数据获取技术的发展,构建各种典型目标的多角度SAR数据集的需求日益迫切。针对飞机目标,目前尚未有比较完备的多角度SAR图像数据集。该文探索了一种基于实测数据和智能仿真相结合的数据集构建方法,通过飞行试验采集飞机目标SAR多角度数据,并基于散射分析和自注意力生成对抗网络实现特定角度的SAR图像内插仿真,从而为数据集构建和扩容提供新的解决方案。最后,在假定部分数据缺失的情况下,通过6种评价指标对仿真图像和实际采集图像的相似度进行了评价,验证了所提方法的有效性。 展开更多
关键词 数据构建 飞机目标 图像仿真 生成对抗网络 自注意力
下载PDF
人工智能医疗器械标准数据集构建现状 被引量:9
11
作者 张丽鑫 钱庆 +2 位作者 唐明坤 周佳茵 吴思竹 《中华医学图书情报杂志》 CAS 2021年第8期1-8,共8页
采用文献调查法和内容分析法对标准数据集的构建现状进行了总结,明确了标准数据集的概念和特点,分析了目前国内外标准数据集构建的相关政策规范,从标准数据集构建流程与管理要素2方面梳理了构建工作的重点,提出了解决标准数据集构建存... 采用文献调查法和内容分析法对标准数据集的构建现状进行了总结,明确了标准数据集的概念和特点,分析了目前国内外标准数据集构建的相关政策规范,从标准数据集构建流程与管理要素2方面梳理了构建工作的重点,提出了解决标准数据集构建存在问题的措施,为人工智能医疗器械标准数据集构建工作的进一步发展提供有益借鉴。 展开更多
关键词 人工智能医疗器械 标准数据构建 管理要素 构建流程
下载PDF
三维模板跟踪的基准合成数据集构建及算法评估 被引量:3
12
作者 何弦 李佳宸 +3 位作者 金立 刘力 钟凡 秦学英 《计算机学报》 EI CAS CSCD 北大核心 2022年第3期585-600,共16页
三维模板跟踪旨在将预先构建的三维CAD模型与输入图像中的相应目标进行精确配准,在增强现实、机器人等领域具有重要的应用,也是计算机视觉领域的关键问题之一.近年来,三维模板跟踪的准确率和稳定性都得到了持续提升,但仅有少量的工作关... 三维模板跟踪旨在将预先构建的三维CAD模型与输入图像中的相应目标进行精确配准,在增强现实、机器人等领域具有重要的应用,也是计算机视觉领域的关键问题之一.近年来,三维模板跟踪的准确率和稳定性都得到了持续提升,但仅有少量的工作关注三维模板跟踪数据集的构建.随着深度学习的普及,各领域中大规模数据集的构建越来越被重视,为算法的训练、测试和评估奠定了基础,极大地推动了相关领域的发展.以往的三维模板跟踪数据集大多存在规模有限,画面不够自然、真实,多样性不足等问题.基于此,本文创建了一个大规模的基于真实感渲染的三维模板跟踪数据集(Render Dataset for Object Tracking,简称RDOT),其包含多种不同结构和材质的物体、复杂的运动模式,并且在场景、光照、噪声、运动模糊和遮挡等方面有丰富细致的设置,是目前三维模板跟踪领域最大的数据集,满足三维模板跟踪算法评估的各种需求.针对现有三维模板跟踪算法测评时使用的数据集不统一,测评结果难以客观全面地反映算法性能的问题,本文基于所构建的数据集,利用平均边缘距离、平均表面距离和重初始化率三种度量标准全面评估了目前主流的三维模板跟踪算法,并对评测结果进行了深入的分析讨论,给出了全面的分析报告和技术展望.此外,基于所构建的数据集,本文提出了对跟踪结果建立误差分析模型,并对结果进行校正的方法,有效改善了三维模版跟踪算法的准确率. 展开更多
关键词 三维模板跟踪 数据构建 算法测评 增强现实 真实感渲染
下载PDF
产品制造过程质量数据集构建流程与方法 被引量:2
13
作者 栗仕强 臧阳阳 +1 位作者 梁昭磊 汪启华 《制造业自动化》 CSCD 北大核心 2022年第7期46-49,共4页
制造质量数据是产品缺陷及薄弱环节识别、质量管控和评价、质量改进的基础,随着质量管理向模型化、定量化方向发展,构建完善、合理的产品制造过程质量数据集成为人们关注的重点。针对目前质量数据收集不完整、存储分散以及可利用性低的... 制造质量数据是产品缺陷及薄弱环节识别、质量管控和评价、质量改进的基础,随着质量管理向模型化、定量化方向发展,构建完善、合理的产品制造过程质量数据集成为人们关注的重点。针对目前质量数据收集不完整、存储分散以及可利用性低的问题,提出了一套制造过程产品质量数据集构建流程方法,结合“5M1E”分析质量数据来源,从过程维度、质量影响因素维度、数据存储维度形成质量数据集的组成要素;通过分析质量数据的采集方法,提出了质量数据异常值处理和可信度检验方法;继而开展了制造过程因素间的关联关系和制造过程因素与产品质量特性的映射关系;最后提出了质量数据集管理平台的搭建方案,并在某高精度航空产品装配过程中进行应用。 展开更多
关键词 制造质量 数据构建 数据 数据管理平台
下载PDF
异常行为检测数据集快速构建方法 被引量:1
14
作者 杜潘飞 王志辉 +1 位作者 李雄伟 朱永旺 《计算机技术与发展》 2021年第9期155-160,共6页
文中提出一种快速构建异常行为检测数据集方法,该方法以一种半自动的方式完成数据集的构建,有助于减少构建过程中人工操作的工作量。首先以网络爬虫的方式自动地从互联网上搜索并下载包含指定动作的视频,之后以当前SOTA(state-of-the-a... 文中提出一种快速构建异常行为检测数据集方法,该方法以一种半自动的方式完成数据集的构建,有助于减少构建过程中人工操作的工作量。首先以网络爬虫的方式自动地从互联网上搜索并下载包含指定动作的视频,之后以当前SOTA(state-of-the-art)的目标检测模型作为人物空间位置检测器,最后以人工标注和行为检测模型相结合的迭代方式完成人物行为的标注,其中需要手工完成的主要包括对下载的视频的挑选、人物边框核对以及一部分的行为标注,手工部分的工作量仅占整个任务的工作量的15%左右。实验表明,由该方法所构建的数据集可以作为异常行为检测模型的训练集使用,验证了该方法的有效性。通过该方法可以快速地构建一个大尺度、高质量的行为检测数据集,将有助于推动异常行为检测研究的深入开展。 展开更多
关键词 数据构建 行为识别 目标检测 半自动构建方法 异常行为
下载PDF
基于前后端分离技术的图像数据集标注系统构建 被引量:1
15
作者 李梦园 肖超恩 +1 位作者 孙楠 金鑫 《北京电子科技学院学报》 2018年第3期55-60,共6页
图像数据集及其标注信息是计算机视系统进行模型训练时的关键,传统的数据标注系统多基于B/S架构,前后端系统耦合度高,不适于众包模式的应用。因此本文利用微服务架构设计技术,采用前后端分离的方式,提出了一种适合众包的图像数据集标注... 图像数据集及其标注信息是计算机视系统进行模型训练时的关键,传统的数据标注系统多基于B/S架构,前后端系统耦合度高,不适于众包模式的应用。因此本文利用微服务架构设计技术,采用前后端分离的方式,提出了一种适合众包的图像数据集标注系统。并详细阐述了系统设计中的前端MVC模式、后端微服务架构、以及前后端数据交互约束等关键技术。 展开更多
关键词 图像数据构建平台 前后端分离 微服务 JSON
下载PDF
大规模亚洲人脸数据集的构建 被引量:2
16
作者 王鸿严 胡伟 +1 位作者 袁国栋 黄杨昱 《信息技术》 2018年第1期155-158,共4页
随着深度学习方法的使用,人脸识别准确率得到突破性进步。基于深度学习的人脸识别方法准确率提升依赖于网络模型优化和训练数据集增强两个方面。然而,亚洲人脸的公开数据集非常稀缺,因此,文中通过利用半自动化处理流程创建了包含5k个亚... 随着深度学习方法的使用,人脸识别准确率得到突破性进步。基于深度学习的人脸识别方法准确率提升依赖于网络模型优化和训练数据集增强两个方面。然而,亚洲人脸的公开数据集非常稀缺,因此,文中通过利用半自动化处理流程创建了包含5k个亚洲明星(共计50w张图片)的人脸数据集,并比较了基于WebFace公开数据集与基于以上流程所建数据集训练的深度网络测试效果。相比之下,本文所建数据集在亚洲人脸的测试准确率具有明显优势。 展开更多
关键词 亚洲人脸 数据构建 半自动化处理
下载PDF
面向财务审计的数据异常侦测算法研究
17
作者 张学凯 张仰森 +2 位作者 刘帅康 朱思文 孙圆明 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第7期158-165,共8页
为更好地推进审计数字化,实现财务审计的数据异常侦测任务,设计了采用独立研究的改进注意力机制CMA(channel mixed attention mechanism)的CMA-Resnet18模型,提出一种基于数图转换思想的财务审计侦测数据集构建方法。使用CMA网络对样本... 为更好地推进审计数字化,实现财务审计的数据异常侦测任务,设计了采用独立研究的改进注意力机制CMA(channel mixed attention mechanism)的CMA-Resnet18模型,提出一种基于数图转换思想的财务审计侦测数据集构建方法。使用CMA网络对样本各通道进行全局加权,对样本不同通道进行融合特征加权,实现对样本数据的全局“注意力”数据增强。通过Resnet18模型(residual network18)提取样本数据的局部特征。结果表明,在财务审计异常侦测数据集上,经典分类网络的评估结果都高于90%,验证了数据集构建方法的有效性;CMA-Resnet18模型的F1值为94.31%,相比Resnet18提高了1.49%,证明了CMA-Resnet18模型能够更好的实现侦测任务;通过经典分类网络及其CMA变种网络在Cifar10公开数据集上进行实验,表明CMA变种网络的准确率普遍高于其原始网络,证明CMA模块的有效性和泛化性。 展开更多
关键词 审计数字化 数图转换 数据构建 改进注意力机制 残差网络
下载PDF
SAR图像舰船目标检测数据集构建研究综述 被引量:3
18
作者 黄琼男 朱卫纲 李永刚 《电讯技术》 北大核心 2021年第11期1451-1458,共8页
算法和数据是影响深度学习技术发展的两大关键因素,大多数学者专注于算法的改进和开拓,仅有少部分学者致力于数据的研究。构建合成孔径雷达(Synthetic Aperture Radar,SAR)图像舰船数据集是SAR舰船目标检测项目的第一步,也是星载SAR图... 算法和数据是影响深度学习技术发展的两大关键因素,大多数学者专注于算法的改进和开拓,仅有少部分学者致力于数据的研究。构建合成孔径雷达(Synthetic Aperture Radar,SAR)图像舰船数据集是SAR舰船目标检测项目的第一步,也是星载SAR图像实际工程应用的基础。分析了影响SAR舰船目标检测性能的关键因素,阐述了SAR舰船数据集的构建方法,概述了TerraSAR-X、“哨兵”1号(Sentinel-1)和高分三号(GF-3)三种SAR图像数据源,并对几种公开的SAR舰船数据集进行梳理与分析,总结了各数据集的发展历程,最后指出构建SAR图像舰船数据集仍需考虑的几个方面。 展开更多
关键词 合成孔径雷达 目标检测 舰船图像 深度学习 数据构建 数据
下载PDF
NKCorpus:利用海量网络数据构建大型高质量中文数据集 被引量:2
19
作者 李东闻 钟震宇 +3 位作者 申峻宇 王昊天 孙羽菲 张玉志 《数据与计算发展前沿》 CSCD 2022年第3期30-45,共16页
【目的】大规模、高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架。【方法】利用语言提取、文本清洗、数据去重等多种方法对原始数据进行... 【目的】大规模、高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架。【方法】利用语言提取、文本清洗、数据去重等多种方法对原始数据进行处理获取数据集,并利用并行技术对数据处理框架的效率进行优化。【结果】提出了一个流程完善且高效的可以利用海量网络数据构建大型高质量中文数据集的框架NKCorpus,并且利用NKCorpus构建了约700GB的可直接用于中文预训练语言模型的训练工作的高质量中文数据集。【结论】NKCorpus已能够基本满足当前对于大规模、高质量中文数据集的高效构建需求。 展开更多
关键词 自然语言处理 中文数据 数据构建
下载PDF
基于网络爬虫的青花瓷文物图像数据集设计与构建
20
作者 郭丽 胡志恒 +4 位作者 赵恒谦 张瑞彬 吴瑞翔 高振 肖珂珂 《科技资讯》 2021年第22期15-18,共4页
深度学习模型结构复杂,利用其进行图像分类需要庞大的数据量,图像数据集的规模和质量直接影响模型的效果,同时人工获取文物图像时,存在诸多不便。该文利用网络爬虫技术在故宫博物院官网批量获取不同年代的青花瓷文物图像,大大提高工作效... 深度学习模型结构复杂,利用其进行图像分类需要庞大的数据量,图像数据集的规模和质量直接影响模型的效果,同时人工获取文物图像时,存在诸多不便。该文利用网络爬虫技术在故宫博物院官网批量获取不同年代的青花瓷文物图像,大大提高工作效率,然后对获取的文物图像进行全方位的分析和处理,为用户之后进行不同年代的青花瓷图像分类提供数据源。 展开更多
关键词 网络爬虫 青花瓷文物 数据裁剪 数据增强 数据构建
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部