期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于代表性数据的决策树集成 被引量:3
1
作者 李海芳 丁周芳 王立群 《计算机应用研究》 CSCD 北大核心 2009年第4期1241-1243,1265,共4页
为了获得更好的决策树集成效果,在理论分析的基础上从数据的角度提出了一种基于代表性数据的决策树集成方法。该方法使用围绕中心点的划分(PAM)算法从原始训练集中提取出代表性训练集,由该代表性训练集来训练出多个决策树分类器,并由此... 为了获得更好的决策树集成效果,在理论分析的基础上从数据的角度提出了一种基于代表性数据的决策树集成方法。该方法使用围绕中心点的划分(PAM)算法从原始训练集中提取出代表性训练集,由该代表性训练集来训练出多个决策树分类器,并由此建立决策树集成模型。该方法能选取尽可能少的代表性数据来训练出尽可能好的决策树集成模型。实验结果表明,该方法使用更少的代表性数据能获得比Bagging和Boosting还要高的决策树集成精度。 展开更多
关键词 代表性数据 决策树 聚类 围绕中心点的划分 集成学习 BAGGING BOOSTING
下载PDF
数据密集型知识发现的边界与陷阱——以美国大选预测为例 被引量:15
2
作者 罗俊 罗教讲 《学术论坛》 CSSCI 北大核心 2017年第3期1-7,共7页
信息时代数据快速增长,数据密集型知识发现成为科学研究的新途径。它在取得一系列成就的同时,也出现了走向"唯数据论"的极端倾向。数据生成、采集的方式和特点,数据分析处理技术的水平,决定了数据密集型知识发现存在能力边界... 信息时代数据快速增长,数据密集型知识发现成为科学研究的新途径。它在取得一系列成就的同时,也出现了走向"唯数据论"的极端倾向。数据生成、采集的方式和特点,数据分析处理技术的水平,决定了数据密集型知识发现存在能力边界。对于科学研究尤其是社会科学研究而言,数据的代表性、数据的质量、算法的模糊性等是必须认真考量的问题。数据密集型知识发现的产生,并不意味着"理论的终结"和传统科学方法都已过时,而是在新的基础上使实验、理论、模拟与数据统一起来成为可能,这一发展方向具有更为广阔的前景。 展开更多
关键词 数据密集型知识 数据驱动 数据代表性 数据质量 数据 计算社会科学
下载PDF
认知偏差与突破路径:炒作高峰期后的大数据与社会研究 被引量:4
3
作者 刘存地 《信息资源管理学报》 CSSCI 2020年第2期37-47,共11页
新一轮信息技术革命为社会研究带来了新的数据资源和数据分析处理工具,基于网络大数据的社会研究由此成为计算社会科学的核心内容。但几年来,相关研究成果的质量与价值尚不尽人意,其发展正面临很大的困难。本文对产生这一现象的原因进... 新一轮信息技术革命为社会研究带来了新的数据资源和数据分析处理工具,基于网络大数据的社会研究由此成为计算社会科学的核心内容。但几年来,相关研究成果的质量与价值尚不尽人意,其发展正面临很大的困难。本文对产生这一现象的原因进行分析发现,新兴技术炒作所造成的复杂信息环境,导致不少社科学者对大数据时代的数据获取能力、数据代表性、数据质量、数据处理能力等产生认知偏差;要矫正这些偏差,并突破当前的发展瓶颈,可行的路径是对各种网络大数据进行有针对性的研究,准确而透彻地认识其特征;在研究中注重整合网络大数据与传统数据两种资源,使之互补长短;运用新兴信息处理技术,探索创新适合大数据的分析方法,致力于在研究方法和具体技术层面发展出一套完善的规范。 展开更多
关键词 数据 炒作周期 社会研究 计算社会科学 数据质量 数据代表性
下载PDF
全数据模式的幻象与网络大数据的代表性 被引量:1
4
作者 陈峥 《天津师范大学学报(社会科学版)》 CSSCI 北大核心 2019年第4期74-80,共7页
大数据时代为计算社会科学的发展提供了契机。有一种观点认为,由于大数据是"样本=总体",因此它不存在采样偏差和数据代表性问题。虽然大数据驱动下的社会科学研究取得诸多成果,但也有不少失败的案例,对这些案例进行分析可见,&... 大数据时代为计算社会科学的发展提供了契机。有一种观点认为,由于大数据是"样本=总体",因此它不存在采样偏差和数据代表性问题。虽然大数据驱动下的社会科学研究取得诸多成果,但也有不少失败的案例,对这些案例进行分析可见,"总体数据"是相对于具体的研究对象和研究问题而言的,大数据时代并不能保证社会科学开展全数据模式研究。数字鸿沟、用户偏好等客观存在的问题,使网络大数据往往是用户自我选择样本。在很多情况下,"全数据模式"只是缺乏深思明辨而勾勒出的一幅幻象,社会科学研究者应对此具备清醒的认识,方能作出高质量的研究。 展开更多
关键词 数据 数据代表性 数字鸿沟 用户偏好
原文传递
论城市空气环境质量评估模式的完善 被引量:9
5
作者 宋国君 宋书灵 《环境污染与防治》 CAS CSCD 北大核心 2008年第2期87-89,96,共4页
城市空气环境质量评估应包含科学监测数据的代表性核查、基本要素尺度的确定和环境质量报告书基本内容的规范。社会学评估及人群健康核查可作为科学监测的有效验证手段;而基本要素的尺度确定包括合适的时间尺度、空间尺度和受体的暴露... 城市空气环境质量评估应包含科学监测数据的代表性核查、基本要素尺度的确定和环境质量报告书基本内容的规范。社会学评估及人群健康核查可作为科学监测的有效验证手段;而基本要素的尺度确定包括合适的时间尺度、空间尺度和受体的暴露程度。当污染比较严重时,适合采用较大的时间尺度,污染较轻时采用较小的时间尺度。建议按照采用空气环境质量区的概念考虑空间尺度,并采用与时间尺度对应的概率来表示监测点的代表性。受体的暴露程度可采用特定时间尺度的二级空气环境质量覆盖率表示。城市空气环境质量报告书的类型应当多样化,基本内容应当包括监测点位和监测频率描述、数据处理方法描述、数据代表性评价、环境质量评估结果和环境质量改善建议。 展开更多
关键词 监测布点 监测频率 数据代表性 环境质量报告书
下载PDF
水文资料一致性分析方法探讨 被引量:3
6
作者 王东新 田长涛 《科技创新与应用》 2019年第6期119-120,共2页
水文资料一致性分析属于资料合理性检查的重要内容,各类涉水工程在设计施工阶段进行水文分析计算时必须首先对流域系列资料进行一致性分析。文章以实例数据为基础,采用年际间数据系列对比的方法对整体资料系列进行了一致性分析,得出结... 水文资料一致性分析属于资料合理性检查的重要内容,各类涉水工程在设计施工阶段进行水文分析计算时必须首先对流域系列资料进行一致性分析。文章以实例数据为基础,采用年际间数据系列对比的方法对整体资料系列进行了一致性分析,得出结论客观可靠,可为流域水文资料合理使用提供科学依据和成果精度保证。 展开更多
关键词 汤旺河 资料系列 数据代表性 一致性分析 年际系列对比分析
下载PDF
神经网络在煤质预测中的应用 被引量:1
7
作者 邵徇 张凝凝 《煤质技术》 2017年第1期1-4,共4页
介绍了回归分析在煤质预测中的应用与瓶颈,结合神经网络的发展历程,阐述了神经网络在煤质预测中的应用,并从数据代表性及预处理等方面探讨了神经网络在煤质预测应用中应注意的问题,指出BP神经网络、Elman神经网络或二者变形后的神经网... 介绍了回归分析在煤质预测中的应用与瓶颈,结合神经网络的发展历程,阐述了神经网络在煤质预测中的应用,并从数据代表性及预处理等方面探讨了神经网络在煤质预测应用中应注意的问题,指出BP神经网络、Elman神经网络或二者变形后的神经网络在煤质预测方面已获得部分应用,其中神经网络的特性将使其在煤质指标分类、煤质预测等领域中获得更为广泛的应用。 展开更多
关键词 神经网络 煤质预测 数据代表性 预处理 煤质指标分类
下载PDF
室内环境污染物现场采样的分析与探讨 被引量:1
8
作者 邓朝晖 池军 《工程质量》 2008年第1期19-20,共2页
现场采样是室内环境污染物检测中的一个重要环节。本文从现场条件、选点、流量校准和采样记录等方面对此进行分析探讨,结合目前检测人员经常出现的一些不规范行为,就如何取得具有代表性的检测数据提出了建议。
关键词 室内环境 污染物检测 现场采样 代表性检测数据
下载PDF
“空巢青年”的成因及趋势分析
9
作者 戴美云 周秋宇 +2 位作者 李泳怡 谭惠惠 王丛麟 《品位·经典》 2022年第16期94-96,共3页
在大城市打拼的单身青年规模剧增衍生的“空巢青年”问题日益严重。本文对此进行了问卷调查,利用收集的数据分析了“空巢青年”的特点、发展趋势及成因。结果表明,适当的引导会对“空巢青年”群体的壮大速度起到放缓作用。其次,年龄、... 在大城市打拼的单身青年规模剧增衍生的“空巢青年”问题日益严重。本文对此进行了问卷调查,利用收集的数据分析了“空巢青年”的特点、发展趋势及成因。结果表明,适当的引导会对“空巢青年”群体的壮大速度起到放缓作用。其次,年龄、月收入水平和职业类型对“空巢青年”现象的影响最显著,具体表现随着年龄增长和收入的增加,空巢的主动选择性会降低。 展开更多
关键词 空巢青年 发展趋势 因子分析 代表性数据分析
下载PDF
对规则自动形成系统的评价
10
作者 杨英 《管理观察》 1997年第7期47-47,共1页
关键词 形成系统 归纳法 代表性数据 统计分布 状态分类 生态状态 生态学 形成方法 规则形成 物理指标
下载PDF
我国寒冷地区住宅生命周期能耗和CO_2排放影响因素研究 被引量:7
11
作者 张春晖 林波荣 彭渤 《建筑科学》 北大核心 2014年第10期76-83,共8页
生命周期评价(LCA)是一种研究建筑能耗和碳排放的重要方法。本文从数据的角度出发,以我国寒冷地区某住宅建筑为例,分别讨论了数据时效性、代表性和技术差异对建筑生命周期能耗(LCE)和碳排放(LCCO2)的影响。其中,使用不同年份的电力能耗... 生命周期评价(LCA)是一种研究建筑能耗和碳排放的重要方法。本文从数据的角度出发,以我国寒冷地区某住宅建筑为例,分别讨论了数据时效性、代表性和技术差异对建筑生命周期能耗(LCE)和碳排放(LCCO2)的影响。其中,使用不同年份的电力能耗因子对LCE结果造成的差异可达6.36%,使用当地电力能耗及排放因子和使用全国均值的LCE和LCCO2结果相差12.52%和10.42%。此外,考虑墙体保温性能随时间变化时的LCE结果比忽略这一影响因素时大2.90%,LCCO2大2.28%。外窗传热系数从2.3 W/(m2·K)减小到1.7 W/(m2·K)时,LCE和LCCO2分别减小4.19%和3.23%;相同传热系数时不同的外窗配置对LCE和LCCO2的影响仅为1%左右。 展开更多
关键词 生命周期评价 数据时效性 数据代表性 能耗 碳排放
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部