期刊文献+
共找到9,270篇文章
< 1 2 250 >
每页显示 20 50 100
人工智能囊胚形态评估数据集构建与质控专家共识
1
作者 王浩 张孝东 +25 位作者 孙莹璞 孙海翔 邓成艳 黄学锋 刘平 周灿权 冯云 郝桂敏 卢文红 沈浣 师娟子 张松英 滕晓明 王晓红 王秀霞 伍琼芳 全松 曾勇 钟影 邵小光 柯林楠 毛歆 韩倩倩 黄国宁 中华医学会生殖医学分会第五届委员会 中国食品药品检定研究院 《生殖医学杂志》 CAS 2024年第7期843-851,共9页
囊胚形态人工智能(AI)评估是AI医疗器械发展的新兴方向,也是AI在辅助生殖领域的重要应用。AI在新领域应用的起步阶段,数据集的构建与质控对产品质量有重要影响。目前,囊胚形态学AI评估在数据采集、标注、质控等方面尚未形成统一的规范... 囊胚形态人工智能(AI)评估是AI医疗器械发展的新兴方向,也是AI在辅助生殖领域的重要应用。AI在新领域应用的起步阶段,数据集的构建与质控对产品质量有重要影响。目前,囊胚形态学AI评估在数据采集、标注、质控等方面尚未形成统一的规范。在参考AI医疗器械、辅助生殖医疗器械现有国家行业标准的基础上,本文以囊胚形态AI评估数据集为主题,对数据集构建与质控要求进行了探讨,对数据集质量特性进行了解析,旨在指导数据集制造责任方加强数据集全生命周期管理,更好地为产品研发、测试、临床试验等环节提供质量保障,助力产业发展。 展开更多
关键词 人工智能(AI) 囊胚形态评估 数据构建 数据标注 数据质量控制
下载PDF
积极心理学更智能:机器学习与自发生成数据集的新途径 被引量:1
2
作者 彭凯平 童松 吴晟 《西北师大学报(社会科学版)》 北大核心 2024年第2期91-99,共9页
本文探讨了积极心理学在计算智能快速发展时所面临的具体挑战,分析了机器学习和自发生成数据集在应对这些挑战时的巨大潜力。机器学习可从高维数据中提取与人类认知相关的非线性关系,成为研究人类认知和情感的新途径。自发生成数据集能... 本文探讨了积极心理学在计算智能快速发展时所面临的具体挑战,分析了机器学习和自发生成数据集在应对这些挑战时的巨大潜力。机器学习可从高维数据中提取与人类认知相关的非线性关系,成为研究人类认知和情感的新途径。自发生成数据集能更真实地反映人类行为和心理过程,为研究者提供高效的研究素材。这些新兴技术为积极心理学提供了全新视角,能更全面地认识人类行为和心理并推动文化差异性研究、理论更新和干预策略评估。未来研究需探索机器学习、自发生成数据集与积极心理学理论的结合,以深入理解人类行为和情感的多样性和复杂性。 展开更多
关键词 积极心理学 机器学习 自发生成数据(NODS) 计算智能
下载PDF
GPR图像的数据集构建及其DRDU-Net去噪算法
3
作者 王惠琴 高大庆 +3 位作者 何永强 刘宾灿 王莹 曹明华 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第6期20-28,共9页
为了解决生成对抗网络(Generative Adversarial Network,GAN)在生成探地雷达(Ground Penetrating Radar,GPR)图像时存在训练不稳定的问题,提出利用带有梯度惩罚的Wasserstein距离生成对抗网络(WGAN-GP)生成GPR图像,并结合时域有限差分... 为了解决生成对抗网络(Generative Adversarial Network,GAN)在生成探地雷达(Ground Penetrating Radar,GPR)图像时存在训练不稳定的问题,提出利用带有梯度惩罚的Wasserstein距离生成对抗网络(WGAN-GP)生成GPR图像,并结合时域有限差分法和实地采集图像提出了一种构建GPR图像数据集的方法.相较于原始GAN与Wasserstein GAN等方法,WGAN-GP具有更好的稳定性,而且生成的GPR图像更接近真实图像.在此基础之上,将密集残差块和U-Net相结合提出了一种适合于GPR图像的密集残差去噪U-Net方法.该方法利用U-Net中编码-解码结构提高了GPR图像的去噪性能;同时,密集残差块的引入加强了GPR图像的特征复用,且使U-Net训练更加稳定.最后,利用仿真实验验证了所提去噪方法的性能,并与三维块匹配(BM3D)和U-Net方法进行了对比.结果表明:所提方法与BM3D以及U-Net去噪方法相比,具有更好的去噪效果.当σ等于20时,在模拟和实测数据上取平均值,其峰值信噪比分别提升了约6.5 dB和2.4 dB;结构相似性分别提升了约0.09和0.04. 展开更多
关键词 GPR数据构建 GPR图像去噪 WGAN-GP 残差块
下载PDF
多源地理产品数据的元数据统一设计与采集管理技术
4
作者 刘阳成 廖宁 +3 位作者 左大伟 谢玉波 苏旭明 张鹏 《北京测绘》 2024年第3期332-336,共5页
面向多源地理产品数据管理应用的需求,明确了本文讨论的地理产品数据的范畴,分析了地理产品数据的存储组织及应用特点。基于存储组织需求,统一设计了数据大类小类两级分类目录及类别编码,设计了地理数据产品的元数据采集规范。提出了数... 面向多源地理产品数据管理应用的需求,明确了本文讨论的地理产品数据的范畴,分析了地理产品数据的存储组织及应用特点。基于存储组织需求,统一设计了数据大类小类两级分类目录及类别编码,设计了地理数据产品的元数据采集规范。提出了数据集-数据单元两级元数据的设计理念以便满足不同数据粒度的管理需求,分别设计了数据集元数据和数据单元元数据的详细组成,统一设计了空间地理产品数据与非空间地理产品数据的元数据,明确了数据集目录和数据单元的命名原则。设计并实现了能够自动采集多源地理产品元数据的软件,实现了基于统一元数据设计的数据管理软件。结果表明,这种方法能够满足用户对多源地理产品数据的统一存储组织、多粒度管理、高效便捷检索等需求。 展开更多
关键词 地理产品数据数据 数据 数据单元 数据 数据管理
下载PDF
2D-3D医学图像配准临床数据集标定结果的分析与评价
5
作者 魏萍 王顺顺 +1 位作者 王珠 舒丽霞 《北京生物医学工程》 2024年第1期51-57,共7页
目的构建采自临床的2D-3D医学图像配准数据集,是实现各种学习算法应用于实际医疗的重要环节。然而临床数据的获取过程中存在多种不确定因素,致使数据集的标定结果需要分析和评价。本文对采自胸主动脉腔内修复术的一组X线和CT图像的几组... 目的构建采自临床的2D-3D医学图像配准数据集,是实现各种学习算法应用于实际医疗的重要环节。然而临床数据的获取过程中存在多种不确定因素,致使数据集的标定结果需要分析和评价。本文对采自胸主动脉腔内修复术的一组X线和CT图像的几组标定数据进行分析和评价,并确定正确标定结果。方法分别采用相似性度量法和投影距离误差法对标定结果进行分析和评价。选用相似性准则,计算CT图像生成的二维数字放射重建图像和X线图像的相似性,相似程度越高,对应的标定值越接近真实值。读取X线图像中的标记物影像位置作为参考位置;将计算得到的CT图像中标记物位置在X线图像上投影,得到投影位置;计算参考位置和投影位置的距离,距离值越小,对应的标定值越接近真实值。结果提供的几组标定数据,在比较数字放射重建图像和X线图像相似性方面,相似度接近,没有明显指向性;而投影距离误差法的分析结果指向性明显,能够定量描述标定结果的优劣。主要原因在于各组标定值之间差别不突出;生成的数字放射重建图像和X线图像之间模态差异较大等。结论投影距离误差法是评价2D-3D医学图像配准数据集标定结果的有效手段。另外,若提供的标定结果计算数据差异明显,或者可以提供高质量的数字放射重建图像时,相似性度量法也是评价标定结果的可选途径。 展开更多
关键词 数据标定 临床数据 评价 相似性度量 投影距离误差
下载PDF
面向机器阅读理解的高质量藏语数据集构建
6
作者 孙媛 刘思思 +2 位作者 陈超凡 旦正错 赵小兵 《中文信息学报》 CSCD 北大核心 2024年第3期56-64,共9页
机器阅读理解是通过算法让机器根据给定的上下文回答问题,从而测试机器理解自然语言的程度。其中,数据集的构建是机器阅读理解的主要任务之一。目前,相关算法模型在大多数流行的英语数据集上都取得了显著的成绩,甚至超过了人类表现。但... 机器阅读理解是通过算法让机器根据给定的上下文回答问题,从而测试机器理解自然语言的程度。其中,数据集的构建是机器阅读理解的主要任务之一。目前,相关算法模型在大多数流行的英语数据集上都取得了显著的成绩,甚至超过了人类表现。但对于低资源语言,由于缺乏相应的数据集,机器阅读理解研究尚处于起步阶段。该文以藏语为例,人工构建了藏语机器阅读理解数据集(TibetanQA),其中包含20000个问题答案对和1513篇文章。该数据集的文章均来自云藏网,涵盖了自然、文化和教育等12个领域,问题形式多样且具有一定的难度。另外,该数据集在文章收集、问题构建、答案验证、回答多样性和推理能力等方面,均采用严格的流程以确保数据的质量,同时采用基于语言特征消融输入的验证方法说明了数据集的质量。最后,该文初步探索了三种经典的英语阅读理解模型在TibetanQA数据集上的表现,其结果难以媲美人类,这表明藏语机器阅读理解任务还需要更进一步的探索。 展开更多
关键词 机器阅读理解 低资源语言 藏语 数据
下载PDF
面向对海监视的舰船目标跟踪与航迹融合数据集
7
作者 刘丽华 陈志豪 +4 位作者 杨皓宇 肖开明 吴继冰 陈海文 黄宏斌 《中国科学数据(中英文网络版)》 CSCD 2024年第1期255-267,共13页
对海监视中航迹实时关联与轨迹融合任务是安全防控、区域态势监视、远程精确打击等军民应用领域的热点和难点问题,高质量的数据集对推动目标跟踪与融合技术在该领域的研究有重要作用。本研究针对目标跟踪与融合领域技术研究的数据需求... 对海监视中航迹实时关联与轨迹融合任务是安全防控、区域态势监视、远程精确打击等军民应用领域的热点和难点问题,高质量的数据集对推动目标跟踪与融合技术在该领域的研究有重要作用。本研究针对目标跟踪与融合领域技术研究的数据需求以及目前公开数据集所存在的数据缺乏、场景设计针对性差、数据格式单一、数据描述不全等问题,通过仿真软件对复杂场景中多传感器多目标探测数据进行仿真,提供了一套面向典型对海监视场景(以舰船为探测对象的2D雷达与侦察传感器﹝ESM﹞)的目标跟踪与航迹融合数据集。其中仿真软件包括剧情发生器和传感器模拟器两部分,是一套成熟的目标跟踪场景仿真环境,提供逼真的探测数据模拟能力。本数据集涵盖的传感器对象包括2D雷达与侦察传感器,目标包括典型的海上舰船类别,并支持携带辐射源配置,设计了高速运动、密集交通、多传感器数据融合、特定舰船侦测和交叉定位等多种典型场景。本数据集中共包含368155条目标点迹,舰船数量为101条,时间范围15000秒,数据格式符合实际设备上报情景、探测误差模型符合实际。本数据集通过对数据误差进行正态性检验、对检测率、虚警率的场景检验以及实地调研,完成了对数据的准确性评估与数据完备性控制,可为舰船目标跟踪、轨迹融合等算法研究与验证提供基础数据。 展开更多
关键词 目标跟踪 轨迹融合 目标点迹 雷达 侦察 数据
下载PDF
浙江一体化培育数据要素产业集群的路径研究
8
作者 蒋建平 宋丽红 袁李璟一 《中国标准化》 2024年第3期98-101,共4页
在数字经济快速发展的时代背景下,数据要素流通市场的巨大蓝海已然呈现。浙江省深入实施数字经济“一号工程”,浙江制造、平台经济使得浙江数据资源丰富、产业基础雄厚、数据融合价值驱动的应用场景广泛,数据要素产业已具先发优势。但... 在数字经济快速发展的时代背景下,数据要素流通市场的巨大蓝海已然呈现。浙江省深入实施数字经济“一号工程”,浙江制造、平台经济使得浙江数据资源丰富、产业基础雄厚、数据融合价值驱动的应用场景广泛,数据要素产业已具先发优势。但打造数据要素产业集群仍然面临数据壁垒、数据要素制度体系尚不健全和数据要素安全保障等制约因素。本文提出了通过“全过程+全链条+全要素+全域”一体化培育数据要素产业集群,构筑全球数字产业高地、赋能经济高质量发展的路径。 展开更多
关键词 一体化培育 数据要素 产业
下载PDF
基于AIXM数据集和改进A^(*)算法的直升机路径规划
9
作者 赖欣 梁昌盛 +1 位作者 张恒嫣 冯嘉宇 《科学技术与工程》 北大核心 2024年第14期6099-6107,共9页
针对AIXM数据集(aeronautical information exchange model dataset)在通航应用研究缺乏,以及经典A^(*)算法在直升机路径规划问题中转弯节点多等问题,提出了一种基于AIXM数据集的改进A^(*)算法直升机路径规划方法。首先,分析了AIXM数据... 针对AIXM数据集(aeronautical information exchange model dataset)在通航应用研究缺乏,以及经典A^(*)算法在直升机路径规划问题中转弯节点多等问题,提出了一种基于AIXM数据集的改进A^(*)算法直升机路径规划方法。首先,分析了AIXM数据集的时空属性,设计了基于时空属性搜索的AIXM障碍物数据查询方法,为进行直升机路径规划奠定了数据环境基础;然后结合直升机性能限制构建了碰撞判断包围盒,基于碰撞包围盒改进经典A^(*)算法,利用AIXM数据障碍物数据与航线数据,提出了一种直升机路径规划方法;通过python与Luaid AIXM 5 Viewer对该方法进行了仿真实验表明,所提方法规划的直升机路径转弯节点少,降低了直升机转弯的频率,规划路径短且符合路径与障碍物之间的安全距离要求。本文研究是将AIXM数据集利用于通航航空情报服务的创新尝试。 展开更多
关键词 通用航空 AIXM数据 直升机路径规划 时空数据 A^(*)算法
下载PDF
配电网监测数据索引集群的分布缓存方法
10
作者 屈志坚 吴广龙 +1 位作者 帅诚鹏 梁家敏 《电力系统及其自动化学报》 CSCD 北大核心 2024年第1期53-60,共8页
针对配电网监测数据急剧增加导致配电网监控系统响应时间过长的问题,本文提出一种热点数据部分链表分布缓存方法。首先,引入缓存技术并分析原有热点数据链表缓存方法的局限性,提出一种新的缓存方法以提高缓存管理效率;然后,设计预热查... 针对配电网监测数据急剧增加导致配电网监控系统响应时间过长的问题,本文提出一种热点数据部分链表分布缓存方法。首先,引入缓存技术并分析原有热点数据链表缓存方法的局限性,提出一种新的缓存方法以提高缓存管理效率;然后,设计预热查询实现索引系统的热启动从而提高索引系统的缓存命中率;最后,以配电网监测数据为算例,验证所提方法的效果。测试结果表明,所提出的缓存方法及设计的预热查询能在不同查询条件下大幅减少索引集群的查询时间,有效提高配电网监测数据索引集群的查询效率。 展开更多
关键词 数据 配电网监测数据 分布式缓存 索引
下载PDF
基于改进级联算法的不平衡数据集分类检测算法
11
作者 吕文官 薛峰 《保定学院学报》 2024年第2期98-103,共6页
以提升不平衡数据集分类检测为研究目标,提出基于改进级联算法的不平衡数据集分类检测算法.首先,采用卡尔曼滤波法进行数据去噪预处理,利用小波阈值去噪算法二次消除噪声数据,并对去噪结果进行归一化预处理;利用DPC算法提取数据的局部... 以提升不平衡数据集分类检测为研究目标,提出基于改进级联算法的不平衡数据集分类检测算法.首先,采用卡尔曼滤波法进行数据去噪预处理,利用小波阈值去噪算法二次消除噪声数据,并对去噪结果进行归一化预处理;利用DPC算法提取数据的局部密度特征,利用时间编码挖掘数据的时序性特征,采用Apriori算法的强关联规则提取数据集特征;利用模糊层次聚类算法对支持向量机进行优化,实现数据类型的划分;利用改进的级联算法联合布谷鸟算法实现不平衡数据集分类检测.实验结果表明本方法的分类协方差低于0.15,检测准确率高于95%,检测时间低于2.2 ms,有效提升了不平衡数据集分类检测效果. 展开更多
关键词 卡尔曼滤波 改进级联算法 不平衡数据 分类检测
下载PDF
不平衡数据集的DC-SMOTE过采样方法
12
作者 冀常鹏 尚佳奇 代巍 《智能系统学报》 CSCD 北大核心 2024年第3期525-533,共9页
针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决... 针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决类内不平衡问题。根据集中度的不同,区分出少数类样本的边界,有针对性地合成第二类新样本,达到强化边界的作用;同时,通过自适应生成新样本,有效解决大部分过采样算法没有明确过采样量或者盲目追求样本平衡度相等的问题。最后,在公开的12个不平衡数据集上进行了实验,实验结果表明,本算法在低不平衡数据集与高不平衡数据集上的应用均拥有良好的表现。 展开更多
关键词 不平衡数据 过采样 高斯核函数 局部引力 高不平衡数据 合成少数类过采样 不平衡度 分类
下载PDF
数据集市云平台赋能商业银行数字化转型
13
作者 吴永飞 易永丰 +2 位作者 王彦博 魏文术 李娜 《中国金融电脑》 2024年第1期16-21,共6页
党的二十大报告强调,加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。数字经济是以数据资源为关键要素,以现代信息网络为主要载体,以数字技术融合应用、全要素数字化转型为重要推动力,促进公平与... 党的二十大报告强调,加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。数字经济是以数据资源为关键要素,以现代信息网络为主要载体,以数字技术融合应用、全要素数字化转型为重要推动力,促进公平与效率更加统一的新经济形态。 展开更多
关键词 新经济形态 产业 数字化转型 商业银行 数据 现代信息网络 数据资源 云平台
下载PDF
基于邻域粗集神经网络的大数据特征分类系统
14
作者 朱磊 凌嘉敏 《电子设计工程》 2024年第7期97-100,105,共5页
为提升主机元件对大数据的分类准确性,尽可能地避免数据误传,提出基于邻域粗集神经网络的大数据特征分类系统。在邻域粗集神经网络中,完成对邻域系数的粒化处理,通过逼近运算的方式,使神经网络模型快速趋于稳定。选取大数据特征调制信息... 为提升主机元件对大数据的分类准确性,尽可能地避免数据误传,提出基于邻域粗集神经网络的大数据特征分类系统。在邻域粗集神经网络中,完成对邻域系数的粒化处理,通过逼近运算的方式,使神经网络模型快速趋于稳定。选取大数据特征调制信息,借助调制识别器元件控制大数据特征的导出方向,结合关联信道组织完成数据特征的多标合并处理。实验表明,利用该系统可将大数据的单位召回率提升至65%,能够促进主机元件对大数据的准确分类。 展开更多
关键词 邻域粗 神经网络 数据特征 粒化处理 调制识别器 多标合并
下载PDF
CMADS数据集在呼兰河流域的适用性评价 被引量:1
15
作者 陈楷 王立权 +1 位作者 刘岩 刘家溪 《灌溉排水学报》 CAS CSCD 2024年第1期60-68,共9页
【目的】探究中国大气同化数据集(CMADS)在呼兰河流域水文模拟的适用性。【方法】对CMADS与传统水文站降水、气温数据的精度及时空分布特征进行分析,构建CMADS与传统水文站2种气象数据驱动流域有、无水库控制水系情景下的SWAT模型,同时... 【目的】探究中国大气同化数据集(CMADS)在呼兰河流域水文模拟的适用性。【方法】对CMADS与传统水文站降水、气温数据的精度及时空分布特征进行分析,构建CMADS与传统水文站2种气象数据驱动流域有、无水库控制水系情景下的SWAT模型,同时使用SUFI-2算法以月值实测断面径流数据为准进行模型参数的率定和验证,评价该数据集作为气象驱动数据的适用性及对传统水文站数据的可替代性。【结果】(1)2种气象数据具有较强的线性相关性和对应关系,且时空分布特征相似,年内变化趋势一致。(2)在无水库呼兰河干流水系,CMADS数据驱动的模型率定期R^(2)=0.92、NSE=0.91、PBIAS=18.53%,验证期R^(2)=0.94、NSE=0.96、PBIAS=10.51%;在有水库通肯河水系,模型在率定期R^(2)=0.89、NSE=0.82、PBIAS=12.79%,验证期模型R^(2)=0.93、NSE=0.86、PBIAS=12.03%,模拟结果均达到径流模拟评价标准。【结论】CMADS+SWAT模型比传统水文站在呼兰河流域径流模拟整体效果更佳、模拟精度和适用性更好,与实测值更为接近,可为缺少气象数据的研究区建立SWAT模型提供数据支撑。 展开更多
关键词 SWAT分布式水文模型 CMADS数据 水文模拟 时空分布特征 适用性评价
下载PDF
中文医学知识大模型问答语料数据集构建研究
16
作者 吕婷钰 李晓瑛 +8 位作者 张颖 刘宇炀 杜晋华 李心怡 罗妍 唐小利 任慧玲 刘辉 尹浩 《医学信息学杂志》 CAS 2024年第5期20-25,共6页
目的/意义构建中文医学知识问答语料数据集,为医学垂域大模型提供标准化的评测基准,进而提升大模型处理中文医学问答任务的准确率和效率。方法/过程构建中文医学论文知识问答数据集、医学名词解释问答数据集和以中国执业医师资格考试真... 目的/意义构建中文医学知识问答语料数据集,为医学垂域大模型提供标准化的评测基准,进而提升大模型处理中文医学问答任务的准确率和效率。方法/过程构建中文医学论文知识问答数据集、医学名词解释问答数据集和以中国执业医师资格考试真题为基础的问答数据集,整理相关开源数据集。结果/结论自主构建的中文医学知识问答语料数据集丰富了中文医学问答语料来源,能够作为一项标准化的评测基准,推动医学领域大模型实现客观全面的定量评估,今后将利用电子病历、在线健康社区等数据,为健康中国战略的实施提供更坚实的人工智能支持。 展开更多
关键词 大语言模型 语料数据 模型评测 医学
下载PDF
面向兵棋推演复盘分析的机器学习数据集构建
17
作者 张大永 杨镜宇 +1 位作者 马骏 宋晨烨 《系统仿真学报》 CAS CSCD 北大核心 2024年第3期608-624,共17页
运用机器学习进行兵棋推演复盘分析,首先要解决的是数据集构建问题。由于机器学习对数据结构的规范化要求,以及算力和存储限制,通过兵棋推演数据构建机器学习数据集,在如何描述兵棋推演状态,如何描述推演过程,如何处理高维数据,如何数... 运用机器学习进行兵棋推演复盘分析,首先要解决的是数据集构建问题。由于机器学习对数据结构的规范化要求,以及算力和存储限制,通过兵棋推演数据构建机器学习数据集,在如何描述兵棋推演状态,如何描述推演过程,如何处理高维数据,如何数据保真等方面,还面临不少问题。针对此类问题,构建了兵棋推演过程数据向机器学习数据集映射模型,在总体框架上对数据集构建的映射流程、态势描述数据范围和数据统计计算规则进行规范,并从时间关联数据、地理空间关联数据和高维数据降维3个视角设计针对性处理方法,以保证构建数据集的数据结构统一、高维数据降维需求和数据集保真要求。通过数据集构建实验进行了验证,结果表明:在时间分辨率和地理空间分辨率适中情况下,所构建数据集映射模型,既能较好对兵棋推演高维数据进行降维,又能较好防止构建的数据集失真。 展开更多
关键词 兵棋推演 复盘分析 机器学习 数据 构建方法
下载PDF
面向多样化数据清洗任务的证据集智能选择方法
18
作者 钱泽凯 丁小欧 +2 位作者 孙哲 王宏志 张岩 《计算机科学》 CSCD 北大核心 2024年第8期124-132,共9页
由于针对单一特定数据质量问题而设计的数据清洗算法并不总能有效地适用于多种清洗需求共存的数据质量提升技术,因此可采用多种清洗方法互相配合的方式来解决各种数据清洗需求。将数据清洗问题转换为证据集的生成和选择问题,基于聚合查... 由于针对单一特定数据质量问题而设计的数据清洗算法并不总能有效地适用于多种清洗需求共存的数据质量提升技术,因此可采用多种清洗方法互相配合的方式来解决各种数据清洗需求。将数据清洗问题转换为证据集的生成和选择问题,基于聚合查询的增量式质量评估方案和基于中间算子证据集的算子结果选择方案,在多种清洗任务下实现了多种清洗方法配合的高效数据清洗。在所提清洗模型中,算子库提供数据清洗结果并将其转换为中间算子;中游的采样器将中间算子集分流和剪枝,给搜索器提供优质的候选证据集;下游的搜索器在质量评估器的指导下进行证据集的选择,搜索完毕后向上游算子库更新数据和必要的参数,使算子库重新迭代生成中间算子。最后,基于3个不同规模的真实数据集进行了大量实验,通过不同数据清洗任务下的性能验证在任意种类的数据清洗需求下算子编排的可行性,并将所提方法和现有的智能数据清洗系统进行性能对比。结果表明,在多种清洗任务中,所提方法在多种数据质量约束、动态和大规模的数据清洗方面具有稳定的准确率和召回率,且同一清洗时间下异常值、规则违反和混合错误的清洗任务性能优于其他智能数据清洗系统15%以上。 展开更多
关键词 数据清洗 数据质量评估 流水线系统设计 算子选择 证据
下载PDF
基于最小数据集的集约化葡萄园土壤健康评价
19
作者 王斌 李云 +3 位作者 李瑞鹏 方菲 张江周 张俊伶 《农业工程学报》 EI CAS CSCD 北大核心 2024年第8期71-79,共9页
健康土壤是生产高产优质葡萄的基础,目前葡萄园不合理管理导致果园土壤生产力下降和生态失衡。为摸清集约化葡萄园土壤健康状况,该研究以河北省曲周县典型葡萄园为研究对象,通过测定20项土壤物理、化学和生物学指标,利用主成分分析法构... 健康土壤是生产高产优质葡萄的基础,目前葡萄园不合理管理导致果园土壤生产力下降和生态失衡。为摸清集约化葡萄园土壤健康状况,该研究以河北省曲周县典型葡萄园为研究对象,通过测定20项土壤物理、化学和生物学指标,利用主成分分析法构建最小数据集,开展土壤健康评价并揭示葡萄园存在的主要障碍因子。结果表明,集约化葡萄园土壤健康评价最小数据集由有机碳、亚表层土壤硬度、交换性钠、容重、含水率和水稳性团聚体6个指标构成。利用线性和非线性评分函数,基于全数据集和最小数据集计算的土壤健康指数间呈显著正相关(P<0.01),这说明最小数据集可以代替全数据集用于葡萄园土壤健康评价。基于最小数据集,利用线性和非线性评分函数获得的葡萄园土壤健康指数范围分别为0.39~0.59和0.36~0.66,平均值分别为0.52和0.51,处于中等水平。不同树龄葡萄土壤健康指数差异不显著(P>0.05)。集约化葡萄园土壤障碍因子主要有土壤压实、养分不平衡和有机碳含量低等问题。通过适当减少田间管理频率,结合增施(生物)有机肥、种植覆盖作物和养分综合管理能有效消减土壤障碍因子,提升葡萄园土壤健康水平,促进当地葡萄产业可持续发展。 展开更多
关键词 土壤 葡萄园 主成分分析 最小数据 土壤健康指数
下载PDF
基于数据挖掘的心力衰竭临床医案集外关联解析
20
作者 杨扬 孙文豪 +3 位作者 陈天源 朱垚 陆明 蒋文波 《西部中医药》 2024年第6期74-78,共5页
目的:通过数据挖掘对中医治疗心力衰竭医案进行集外关联解析,对心力衰竭的症状、病机与药物之间的核心关联规则进行挖掘,从中分析中医辨证治疗心力衰竭的经验。方法:在中国知识资源总库、维普中文科技期刊全文数据库、万方数据学术论文... 目的:通过数据挖掘对中医治疗心力衰竭医案进行集外关联解析,对心力衰竭的症状、病机与药物之间的核心关联规则进行挖掘,从中分析中医辨证治疗心力衰竭的经验。方法:在中国知识资源总库、维普中文科技期刊全文数据库、万方数据学术论文总库中,检索中医治疗心力衰竭医案类论文,采用Medcase Ver 5.2诊籍数据处理平台,基于频繁模式增长加强关联分析算法,对心力衰竭临床医案进行集外关联解析。结果:共纳入医案406则,患者406人次,971诊次,涉及病机56条,症状123种,药物348种。经集外关联挖掘,产生临床症状与药物集外关联规则31条,病机与药物集外关联规则30条,临床症状与病机集外关联规则31条。结论:中医临床辨治心力衰竭的核心症状为水肿、胸闷、乏力、心悸、纳差、气短、尿少;核心病机中脏腑病位重点为心阳虚、肾阳虚;高关联选药为茯苓、黄芪、丹参、白术、附子等,可采用温心阳、壮肾阳、利水消肿的方法,治疗心阳虚、肾阳虚等较为常见的心力衰竭。 展开更多
关键词 心力衰竭 临床医案 数据挖掘 外关联 中医
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部