期刊文献+
共找到9,287篇文章
< 1 2 250 >
每页显示 20 50 100
人工智能囊胚形态评估数据集构建与质控专家共识
1
作者 王浩 张孝东 +25 位作者 孙莹璞 孙海翔 邓成艳 黄学锋 刘平 周灿权 冯云 郝桂敏 卢文红 沈浣 师娟子 张松英 滕晓明 王晓红 王秀霞 伍琼芳 全松 曾勇 钟影 邵小光 柯林楠 毛歆 韩倩倩 黄国宁 中华医学会生殖医学分会第五届委员会 中国食品药品检定研究院 《生殖医学杂志》 CAS 2024年第7期843-851,共9页
囊胚形态人工智能(AI)评估是AI医疗器械发展的新兴方向,也是AI在辅助生殖领域的重要应用。AI在新领域应用的起步阶段,数据集的构建与质控对产品质量有重要影响。目前,囊胚形态学AI评估在数据采集、标注、质控等方面尚未形成统一的规范... 囊胚形态人工智能(AI)评估是AI医疗器械发展的新兴方向,也是AI在辅助生殖领域的重要应用。AI在新领域应用的起步阶段,数据集的构建与质控对产品质量有重要影响。目前,囊胚形态学AI评估在数据采集、标注、质控等方面尚未形成统一的规范。在参考AI医疗器械、辅助生殖医疗器械现有国家行业标准的基础上,本文以囊胚形态AI评估数据集为主题,对数据集构建与质控要求进行了探讨,对数据集质量特性进行了解析,旨在指导数据集制造责任方加强数据集全生命周期管理,更好地为产品研发、测试、临床试验等环节提供质量保障,助力产业发展。 展开更多
关键词 人工智能(AI) 囊胚形态评估 数据构建 数据标注 数据质量控制
下载PDF
积极心理学更智能:机器学习与自发生成数据集的新途径 被引量:1
2
作者 彭凯平 童松 吴晟 《西北师大学报(社会科学版)》 北大核心 2024年第2期91-99,共9页
本文探讨了积极心理学在计算智能快速发展时所面临的具体挑战,分析了机器学习和自发生成数据集在应对这些挑战时的巨大潜力。机器学习可从高维数据中提取与人类认知相关的非线性关系,成为研究人类认知和情感的新途径。自发生成数据集能... 本文探讨了积极心理学在计算智能快速发展时所面临的具体挑战,分析了机器学习和自发生成数据集在应对这些挑战时的巨大潜力。机器学习可从高维数据中提取与人类认知相关的非线性关系,成为研究人类认知和情感的新途径。自发生成数据集能更真实地反映人类行为和心理过程,为研究者提供高效的研究素材。这些新兴技术为积极心理学提供了全新视角,能更全面地认识人类行为和心理并推动文化差异性研究、理论更新和干预策略评估。未来研究需探索机器学习、自发生成数据集与积极心理学理论的结合,以深入理解人类行为和情感的多样性和复杂性。 展开更多
关键词 积极心理学 机器学习 自发生成数据(NODS) 计算智能
下载PDF
GPR图像的数据集构建及其DRDU-Net去噪算法
3
作者 王惠琴 高大庆 +3 位作者 何永强 刘宾灿 王莹 曹明华 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第6期20-28,共9页
为了解决生成对抗网络(Generative Adversarial Network,GAN)在生成探地雷达(Ground Penetrating Radar,GPR)图像时存在训练不稳定的问题,提出利用带有梯度惩罚的Wasserstein距离生成对抗网络(WGAN-GP)生成GPR图像,并结合时域有限差分... 为了解决生成对抗网络(Generative Adversarial Network,GAN)在生成探地雷达(Ground Penetrating Radar,GPR)图像时存在训练不稳定的问题,提出利用带有梯度惩罚的Wasserstein距离生成对抗网络(WGAN-GP)生成GPR图像,并结合时域有限差分法和实地采集图像提出了一种构建GPR图像数据集的方法.相较于原始GAN与Wasserstein GAN等方法,WGAN-GP具有更好的稳定性,而且生成的GPR图像更接近真实图像.在此基础之上,将密集残差块和U-Net相结合提出了一种适合于GPR图像的密集残差去噪U-Net方法.该方法利用U-Net中编码-解码结构提高了GPR图像的去噪性能;同时,密集残差块的引入加强了GPR图像的特征复用,且使U-Net训练更加稳定.最后,利用仿真实验验证了所提去噪方法的性能,并与三维块匹配(BM3D)和U-Net方法进行了对比.结果表明:所提方法与BM3D以及U-Net去噪方法相比,具有更好的去噪效果.当σ等于20时,在模拟和实测数据上取平均值,其峰值信噪比分别提升了约6.5 dB和2.4 dB;结构相似性分别提升了约0.09和0.04. 展开更多
关键词 GPR数据构建 GPR图像去噪 WGAN-GP 残差块
下载PDF
多源地理产品数据的元数据统一设计与采集管理技术
4
作者 刘阳成 廖宁 +3 位作者 左大伟 谢玉波 苏旭明 张鹏 《北京测绘》 2024年第3期332-336,共5页
面向多源地理产品数据管理应用的需求,明确了本文讨论的地理产品数据的范畴,分析了地理产品数据的存储组织及应用特点。基于存储组织需求,统一设计了数据大类小类两级分类目录及类别编码,设计了地理数据产品的元数据采集规范。提出了数... 面向多源地理产品数据管理应用的需求,明确了本文讨论的地理产品数据的范畴,分析了地理产品数据的存储组织及应用特点。基于存储组织需求,统一设计了数据大类小类两级分类目录及类别编码,设计了地理数据产品的元数据采集规范。提出了数据集-数据单元两级元数据的设计理念以便满足不同数据粒度的管理需求,分别设计了数据集元数据和数据单元元数据的详细组成,统一设计了空间地理产品数据与非空间地理产品数据的元数据,明确了数据集目录和数据单元的命名原则。设计并实现了能够自动采集多源地理产品元数据的软件,实现了基于统一元数据设计的数据管理软件。结果表明,这种方法能够满足用户对多源地理产品数据的统一存储组织、多粒度管理、高效便捷检索等需求。 展开更多
关键词 地理产品数据数据 数据 数据单元 数据 数据管理
下载PDF
2D-3D医学图像配准临床数据集标定结果的分析与评价
5
作者 魏萍 王顺顺 +1 位作者 王珠 舒丽霞 《北京生物医学工程》 2024年第1期51-57,共7页
目的构建采自临床的2D-3D医学图像配准数据集,是实现各种学习算法应用于实际医疗的重要环节。然而临床数据的获取过程中存在多种不确定因素,致使数据集的标定结果需要分析和评价。本文对采自胸主动脉腔内修复术的一组X线和CT图像的几组... 目的构建采自临床的2D-3D医学图像配准数据集,是实现各种学习算法应用于实际医疗的重要环节。然而临床数据的获取过程中存在多种不确定因素,致使数据集的标定结果需要分析和评价。本文对采自胸主动脉腔内修复术的一组X线和CT图像的几组标定数据进行分析和评价,并确定正确标定结果。方法分别采用相似性度量法和投影距离误差法对标定结果进行分析和评价。选用相似性准则,计算CT图像生成的二维数字放射重建图像和X线图像的相似性,相似程度越高,对应的标定值越接近真实值。读取X线图像中的标记物影像位置作为参考位置;将计算得到的CT图像中标记物位置在X线图像上投影,得到投影位置;计算参考位置和投影位置的距离,距离值越小,对应的标定值越接近真实值。结果提供的几组标定数据,在比较数字放射重建图像和X线图像相似性方面,相似度接近,没有明显指向性;而投影距离误差法的分析结果指向性明显,能够定量描述标定结果的优劣。主要原因在于各组标定值之间差别不突出;生成的数字放射重建图像和X线图像之间模态差异较大等。结论投影距离误差法是评价2D-3D医学图像配准数据集标定结果的有效手段。另外,若提供的标定结果计算数据差异明显,或者可以提供高质量的数字放射重建图像时,相似性度量法也是评价标定结果的可选途径。 展开更多
关键词 数据标定 临床数据 评价 相似性度量 投影距离误差
下载PDF
面向机器阅读理解的高质量藏语数据集构建
6
作者 孙媛 刘思思 +2 位作者 陈超凡 旦正错 赵小兵 《中文信息学报》 CSCD 北大核心 2024年第3期56-64,共9页
机器阅读理解是通过算法让机器根据给定的上下文回答问题,从而测试机器理解自然语言的程度。其中,数据集的构建是机器阅读理解的主要任务之一。目前,相关算法模型在大多数流行的英语数据集上都取得了显著的成绩,甚至超过了人类表现。但... 机器阅读理解是通过算法让机器根据给定的上下文回答问题,从而测试机器理解自然语言的程度。其中,数据集的构建是机器阅读理解的主要任务之一。目前,相关算法模型在大多数流行的英语数据集上都取得了显著的成绩,甚至超过了人类表现。但对于低资源语言,由于缺乏相应的数据集,机器阅读理解研究尚处于起步阶段。该文以藏语为例,人工构建了藏语机器阅读理解数据集(TibetanQA),其中包含20000个问题答案对和1513篇文章。该数据集的文章均来自云藏网,涵盖了自然、文化和教育等12个领域,问题形式多样且具有一定的难度。另外,该数据集在文章收集、问题构建、答案验证、回答多样性和推理能力等方面,均采用严格的流程以确保数据的质量,同时采用基于语言特征消融输入的验证方法说明了数据集的质量。最后,该文初步探索了三种经典的英语阅读理解模型在TibetanQA数据集上的表现,其结果难以媲美人类,这表明藏语机器阅读理解任务还需要更进一步的探索。 展开更多
关键词 机器阅读理解 低资源语言 藏语 数据
下载PDF
面向对海监视的舰船目标跟踪与航迹融合数据集
7
作者 刘丽华 陈志豪 +4 位作者 杨皓宇 肖开明 吴继冰 陈海文 黄宏斌 《中国科学数据(中英文网络版)》 CSCD 2024年第1期255-267,共13页
对海监视中航迹实时关联与轨迹融合任务是安全防控、区域态势监视、远程精确打击等军民应用领域的热点和难点问题,高质量的数据集对推动目标跟踪与融合技术在该领域的研究有重要作用。本研究针对目标跟踪与融合领域技术研究的数据需求... 对海监视中航迹实时关联与轨迹融合任务是安全防控、区域态势监视、远程精确打击等军民应用领域的热点和难点问题,高质量的数据集对推动目标跟踪与融合技术在该领域的研究有重要作用。本研究针对目标跟踪与融合领域技术研究的数据需求以及目前公开数据集所存在的数据缺乏、场景设计针对性差、数据格式单一、数据描述不全等问题,通过仿真软件对复杂场景中多传感器多目标探测数据进行仿真,提供了一套面向典型对海监视场景(以舰船为探测对象的2D雷达与侦察传感器﹝ESM﹞)的目标跟踪与航迹融合数据集。其中仿真软件包括剧情发生器和传感器模拟器两部分,是一套成熟的目标跟踪场景仿真环境,提供逼真的探测数据模拟能力。本数据集涵盖的传感器对象包括2D雷达与侦察传感器,目标包括典型的海上舰船类别,并支持携带辐射源配置,设计了高速运动、密集交通、多传感器数据融合、特定舰船侦测和交叉定位等多种典型场景。本数据集中共包含368155条目标点迹,舰船数量为101条,时间范围15000秒,数据格式符合实际设备上报情景、探测误差模型符合实际。本数据集通过对数据误差进行正态性检验、对检测率、虚警率的场景检验以及实地调研,完成了对数据的准确性评估与数据完备性控制,可为舰船目标跟踪、轨迹融合等算法研究与验证提供基础数据。 展开更多
关键词 目标跟踪 轨迹融合 目标点迹 雷达 侦察 数据
下载PDF
浙江一体化培育数据要素产业集群的路径研究
8
作者 蒋建平 宋丽红 袁李璟一 《中国标准化》 2024年第3期98-101,共4页
在数字经济快速发展的时代背景下,数据要素流通市场的巨大蓝海已然呈现。浙江省深入实施数字经济“一号工程”,浙江制造、平台经济使得浙江数据资源丰富、产业基础雄厚、数据融合价值驱动的应用场景广泛,数据要素产业已具先发优势。但... 在数字经济快速发展的时代背景下,数据要素流通市场的巨大蓝海已然呈现。浙江省深入实施数字经济“一号工程”,浙江制造、平台经济使得浙江数据资源丰富、产业基础雄厚、数据融合价值驱动的应用场景广泛,数据要素产业已具先发优势。但打造数据要素产业集群仍然面临数据壁垒、数据要素制度体系尚不健全和数据要素安全保障等制约因素。本文提出了通过“全过程+全链条+全要素+全域”一体化培育数据要素产业集群,构筑全球数字产业高地、赋能经济高质量发展的路径。 展开更多
关键词 一体化培育 数据要素 产业
下载PDF
基于AIXM数据集和改进A^(*)算法的直升机路径规划
9
作者 赖欣 梁昌盛 +1 位作者 张恒嫣 冯嘉宇 《科学技术与工程》 北大核心 2024年第14期6099-6107,共9页
针对AIXM数据集(aeronautical information exchange model dataset)在通航应用研究缺乏,以及经典A^(*)算法在直升机路径规划问题中转弯节点多等问题,提出了一种基于AIXM数据集的改进A^(*)算法直升机路径规划方法。首先,分析了AIXM数据... 针对AIXM数据集(aeronautical information exchange model dataset)在通航应用研究缺乏,以及经典A^(*)算法在直升机路径规划问题中转弯节点多等问题,提出了一种基于AIXM数据集的改进A^(*)算法直升机路径规划方法。首先,分析了AIXM数据集的时空属性,设计了基于时空属性搜索的AIXM障碍物数据查询方法,为进行直升机路径规划奠定了数据环境基础;然后结合直升机性能限制构建了碰撞判断包围盒,基于碰撞包围盒改进经典A^(*)算法,利用AIXM数据障碍物数据与航线数据,提出了一种直升机路径规划方法;通过python与Luaid AIXM 5 Viewer对该方法进行了仿真实验表明,所提方法规划的直升机路径转弯节点少,降低了直升机转弯的频率,规划路径短且符合路径与障碍物之间的安全距离要求。本文研究是将AIXM数据集利用于通航航空情报服务的创新尝试。 展开更多
关键词 通用航空 AIXM数据 直升机路径规划 时空数据 A^(*)算法
下载PDF
基于模型驱动和自动演进理论的矿集区找矿预测数据模型应用软件开发
10
作者 张志辉 左群超 《矿产勘查》 2024年第8期1478-1490,共13页
本文旨在构建一个系统而全面支持矿集区找矿预测数据模型应用的软件体系架构。采用模型驱动和自动演进的软件研发理论,服务和支持矿集区找矿预测数据模型应用。研发工作主要集中在3类核心应用软件的研发:数据模型管理类软件、数据模型... 本文旨在构建一个系统而全面支持矿集区找矿预测数据模型应用的软件体系架构。采用模型驱动和自动演进的软件研发理论,服务和支持矿集区找矿预测数据模型应用。研发工作主要集中在3类核心应用软件的研发:数据模型管理类软件、数据模型使用类软件和数据质量控制类软件,推出这些软件将有效地管理数据模型,提高矿集区找矿效率,并确保数据质量可靠性和准确性。提出了一个包含9个层次且完备的支持软件体系架构,全面覆盖数据模型从需求、设计到实际应用和用户层面各个环节。通过构建和研发支持矿集区找矿预测数据模型应用的软件体系架构及一套核心应用软件,成功为矿集区找矿预测提供了有效信息技术支持。这项工作不仅提高了找矿预测理论方法研究层次,还显著提升了软件技术应用水平,并可推广使用,具有重要的找矿指导意义。 展开更多
关键词 区找矿预测 数据模型 软件体系 理论找矿模式
下载PDF
配电网监测数据索引集群的分布缓存方法
11
作者 屈志坚 吴广龙 +1 位作者 帅诚鹏 梁家敏 《电力系统及其自动化学报》 CSCD 北大核心 2024年第1期53-60,共8页
针对配电网监测数据急剧增加导致配电网监控系统响应时间过长的问题,本文提出一种热点数据部分链表分布缓存方法。首先,引入缓存技术并分析原有热点数据链表缓存方法的局限性,提出一种新的缓存方法以提高缓存管理效率;然后,设计预热查... 针对配电网监测数据急剧增加导致配电网监控系统响应时间过长的问题,本文提出一种热点数据部分链表分布缓存方法。首先,引入缓存技术并分析原有热点数据链表缓存方法的局限性,提出一种新的缓存方法以提高缓存管理效率;然后,设计预热查询实现索引系统的热启动从而提高索引系统的缓存命中率;最后,以配电网监测数据为算例,验证所提方法的效果。测试结果表明,所提出的缓存方法及设计的预热查询能在不同查询条件下大幅减少索引集群的查询时间,有效提高配电网监测数据索引集群的查询效率。 展开更多
关键词 数据 配电网监测数据 分布式缓存 索引
下载PDF
基于改进级联算法的不平衡数据集分类检测算法
12
作者 吕文官 薛峰 《保定学院学报》 2024年第2期98-103,共6页
以提升不平衡数据集分类检测为研究目标,提出基于改进级联算法的不平衡数据集分类检测算法.首先,采用卡尔曼滤波法进行数据去噪预处理,利用小波阈值去噪算法二次消除噪声数据,并对去噪结果进行归一化预处理;利用DPC算法提取数据的局部... 以提升不平衡数据集分类检测为研究目标,提出基于改进级联算法的不平衡数据集分类检测算法.首先,采用卡尔曼滤波法进行数据去噪预处理,利用小波阈值去噪算法二次消除噪声数据,并对去噪结果进行归一化预处理;利用DPC算法提取数据的局部密度特征,利用时间编码挖掘数据的时序性特征,采用Apriori算法的强关联规则提取数据集特征;利用模糊层次聚类算法对支持向量机进行优化,实现数据类型的划分;利用改进的级联算法联合布谷鸟算法实现不平衡数据集分类检测.实验结果表明本方法的分类协方差低于0.15,检测准确率高于95%,检测时间低于2.2 ms,有效提升了不平衡数据集分类检测效果. 展开更多
关键词 卡尔曼滤波 改进级联算法 不平衡数据 分类检测
下载PDF
不平衡数据集的DC-SMOTE过采样方法
13
作者 冀常鹏 尚佳奇 代巍 《智能系统学报》 CSCD 北大核心 2024年第3期525-533,共9页
针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决... 针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决类内不平衡问题。根据集中度的不同,区分出少数类样本的边界,有针对性地合成第二类新样本,达到强化边界的作用;同时,通过自适应生成新样本,有效解决大部分过采样算法没有明确过采样量或者盲目追求样本平衡度相等的问题。最后,在公开的12个不平衡数据集上进行了实验,实验结果表明,本算法在低不平衡数据集与高不平衡数据集上的应用均拥有良好的表现。 展开更多
关键词 不平衡数据 过采样 高斯核函数 局部引力 高不平衡数据 合成少数类过采样 不平衡度 分类
下载PDF
2016—2022学年广东外语外贸大学图书馆用户行为记录数据集
14
作者 周剑峰 王伟杰 杨卫明 《图书馆杂志》 北大核心 2024年第9期106-112,共7页
本数据集采集了2016—2022学年广东外语外贸大学图书馆用户管理平台、门禁管理系统、学习空间管理系统、Aleph500图书集成管理系统中的用户信息、进馆记录、学习空间使用记录和借阅记录,经清洗、脱敏、加工后,共获得4个数据文件,合计142... 本数据集采集了2016—2022学年广东外语外贸大学图书馆用户管理平台、门禁管理系统、学习空间管理系统、Aleph500图书集成管理系统中的用户信息、进馆记录、学习空间使用记录和借阅记录,经清洗、脱敏、加工后,共获得4个数据文件,合计14208746条记录。该数据集有助于分析“十三五”规划、“十四五”规划以来图书馆空间资源、图书资源的利用情况,探究用户在图书馆场馆内的行为规律及变化趋势,为图书馆的空间布局调整、资源建设与利用方面的服务提供决策支持,为同类院校图书馆的横向分析研究提供支持。 展开更多
关键词 高校图书馆 数据 借阅行为 学习空间使用行为 进馆记录
下载PDF
数据集市云平台赋能商业银行数字化转型
15
作者 吴永飞 易永丰 +2 位作者 王彦博 魏文术 李娜 《中国金融电脑》 2024年第1期16-21,共6页
党的二十大报告强调,加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。数字经济是以数据资源为关键要素,以现代信息网络为主要载体,以数字技术融合应用、全要素数字化转型为重要推动力,促进公平与... 党的二十大报告强调,加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。数字经济是以数据资源为关键要素,以现代信息网络为主要载体,以数字技术融合应用、全要素数字化转型为重要推动力,促进公平与效率更加统一的新经济形态。 展开更多
关键词 新经济形态 产业 数字化转型 商业银行 数据 现代信息网络 数据资源 云平台
下载PDF
基于邻域粗集神经网络的大数据特征分类系统
16
作者 朱磊 凌嘉敏 《电子设计工程》 2024年第7期97-100,105,共5页
为提升主机元件对大数据的分类准确性,尽可能地避免数据误传,提出基于邻域粗集神经网络的大数据特征分类系统。在邻域粗集神经网络中,完成对邻域系数的粒化处理,通过逼近运算的方式,使神经网络模型快速趋于稳定。选取大数据特征调制信息... 为提升主机元件对大数据的分类准确性,尽可能地避免数据误传,提出基于邻域粗集神经网络的大数据特征分类系统。在邻域粗集神经网络中,完成对邻域系数的粒化处理,通过逼近运算的方式,使神经网络模型快速趋于稳定。选取大数据特征调制信息,借助调制识别器元件控制大数据特征的导出方向,结合关联信道组织完成数据特征的多标合并处理。实验表明,利用该系统可将大数据的单位召回率提升至65%,能够促进主机元件对大数据的准确分类。 展开更多
关键词 邻域粗 神经网络 数据特征 粒化处理 调制识别器 多标合并
下载PDF
一种多模态隐喻数据集的构建和验证方法
17
作者 夏冰 杨瑞楠 +4 位作者 董玉 楚世豪 唐崇俊 葛云翔 尹家斌 《集成技术》 2024年第5期64-73,共10页
隐喻的目的是启发理解、说服他人。目前,隐喻呈现文本、图像、视频等多模态融合的趋势,因此,识别多模态信息中蕴含的隐喻语义对互联网内容安全具有研究价值。由于缺乏多模态隐喻数据集,难以建立研究模型,因此,当前学者更关注基于文本的... 隐喻的目的是启发理解、说服他人。目前,隐喻呈现文本、图像、视频等多模态融合的趋势,因此,识别多模态信息中蕴含的隐喻语义对互联网内容安全具有研究价值。由于缺乏多模态隐喻数据集,难以建立研究模型,因此,当前学者更关注基于文本的隐喻检测。针对这一不足,作者首先从图像-文本、隐喻出现、情感表达和作者意图等角度构建新型多模态隐喻数据集;其次,对数据集的标注者进行Kappa分数计算;最后,借助预训练模型和注意力机制融合图像属性特征、图像实体对象特征和文本特征,构建多模态隐喻检测模型,验证多模态数据集的质量和价值。实验结果表明:具有情感和意图表达的隐喻数据集可提升隐喻模型检测效果,多模态信息间相互关系有助于隐喻的理解。 展开更多
关键词 内容安全 多模态隐喻检测 外部知识 多模态数据 注意力机制
下载PDF
多视角网页分类数据集构建及性能评估
18
作者 孙辰星 刘伟 +3 位作者 卢彬 梁诗宇 诸云强 甘小莺 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期406-415,共10页
网页分类是互联网数据挖掘中的一项重要任务,在信息搜索、推荐系统和知识发现等领域发挥着关键作用.然而,现有的公开网页数据集缺乏多视角信息,难以适用于蕴含复杂特征的网页分类任务.针对上述问题,基于“收集-处理-标注”构建流程,提... 网页分类是互联网数据挖掘中的一项重要任务,在信息搜索、推荐系统和知识发现等领域发挥着关键作用.然而,现有的公开网页数据集缺乏多视角信息,难以适用于蕴含复杂特征的网页分类任务.针对上述问题,基于“收集-处理-标注”构建流程,提出一个涵盖文本语义、网页结构等多视角特征的网页数据集Web-Minds,该数据集包含600余个门户网站下的21828条网页.首先,在开放互联网中通过关键词检索采集得到相关网页数据;其次,使用网页解析工具对收集的数据中的文本、DOM结构树、关键词等多视角信息进行提取与清洗;最后,采用大语言模型与“人在回路”的联合标注策略,形成网页类型与网页主题两种标签.在此基础上,针对Web-Minds数据集,测试评估了机器学习、文本分类和网页分类多种算法,结果表明,综合利用多视角特征能有效提升算法的准确率,和仅应用单视角特征相比,在网页类型和主题分类任务上,准确率分别提升了5.49%和5.61%. 展开更多
关键词 网页数据 网页分类 文本分类 数据挖掘 深度学习
下载PDF
中国土地利用/覆被重建数据集历史文献数据源的应用现状与前景
19
作者 薛樵风 金晓斌 +2 位作者 成一农 杨绪红 周寅康 《地理科学》 CSCD 北大核心 2024年第9期1555-1564,共10页
历史时期土地利用/覆被变化(LUCC)是全球变化研究的重要组成部分。中国丰富的历史文献资料是开展长时段LUCC数据集重建的关键数据源。从百年以上历史文献数据源应用的角度分析现有中国LUCC重建数据集,将历史文献中蕴含的土地利用数据源... 历史时期土地利用/覆被变化(LUCC)是全球变化研究的重要组成部分。中国丰富的历史文献资料是开展长时段LUCC数据集重建的关键数据源。从百年以上历史文献数据源应用的角度分析现有中国LUCC重建数据集,将历史文献中蕴含的土地利用数据源归纳为统计、列举、描述和图像4种主要类型,从各类数据源应用现状、制备方法等方面对现有重建数据集进行了重点回顾,归纳重建数据集应用历史文献的主要特点和存在问题,并从多重历史数据源综合利用、重建思路调整、利用现代信息技术提高数据源制备效率等方面展望了LUCC重建数据集改进历史文献应用方式、方法的未来发展趋势。 展开更多
关键词 历史土地利用/覆被数据 历史文献 数据 空间重建 中国
下载PDF
CMADS数据集在呼兰河流域的适用性评价 被引量:1
20
作者 陈楷 王立权 +1 位作者 刘岩 刘家溪 《灌溉排水学报》 CAS CSCD 2024年第1期60-68,共9页
【目的】探究中国大气同化数据集(CMADS)在呼兰河流域水文模拟的适用性。【方法】对CMADS与传统水文站降水、气温数据的精度及时空分布特征进行分析,构建CMADS与传统水文站2种气象数据驱动流域有、无水库控制水系情景下的SWAT模型,同时... 【目的】探究中国大气同化数据集(CMADS)在呼兰河流域水文模拟的适用性。【方法】对CMADS与传统水文站降水、气温数据的精度及时空分布特征进行分析,构建CMADS与传统水文站2种气象数据驱动流域有、无水库控制水系情景下的SWAT模型,同时使用SUFI-2算法以月值实测断面径流数据为准进行模型参数的率定和验证,评价该数据集作为气象驱动数据的适用性及对传统水文站数据的可替代性。【结果】(1)2种气象数据具有较强的线性相关性和对应关系,且时空分布特征相似,年内变化趋势一致。(2)在无水库呼兰河干流水系,CMADS数据驱动的模型率定期R^(2)=0.92、NSE=0.91、PBIAS=18.53%,验证期R^(2)=0.94、NSE=0.96、PBIAS=10.51%;在有水库通肯河水系,模型在率定期R^(2)=0.89、NSE=0.82、PBIAS=12.79%,验证期模型R^(2)=0.93、NSE=0.86、PBIAS=12.03%,模拟结果均达到径流模拟评价标准。【结论】CMADS+SWAT模型比传统水文站在呼兰河流域径流模拟整体效果更佳、模拟精度和适用性更好,与实测值更为接近,可为缺少气象数据的研究区建立SWAT模型提供数据支撑。 展开更多
关键词 SWAT分布式水文模型 CMADS数据 水文模拟 时空分布特征 适用性评价
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部