大规模数据集已经超过TB和PB级,现有的技术可以收集和存储大量的信息。虽然数据库管理系统一直在不断提高提供复杂的多种数据管理的能力,但是管理查询工具并不能满足大数据的需求,如何精准理解和探索这些大规模数据集仍然是一个巨大的...大规模数据集已经超过TB和PB级,现有的技术可以收集和存储大量的信息。虽然数据库管理系统一直在不断提高提供复杂的多种数据管理的能力,但是管理查询工具并不能满足大数据的需求,如何精准理解和探索这些大规模数据集仍然是一个巨大的挑战。交互式数据探索(interactive data exploration,IDE)的关注点是强调交互、探索和发现,能让用户从海量的数据中用最小的代价更精确地找到他们需要的信息。首先对交互式数据探索及其应用背景进行了介绍,总结了通用的探索模型和IDE的特点,分析了交互式数据探索中的查询推荐技术和查询结果优化技术的现状;随后分别对IDE原型系统进行了分析和比较;最后给出了关于交互式数据探索技术的总结和展望。展开更多
Natalia Levshina 2015. How to Do Linguistics with R:Data Exploration and Statistical Analysis.Amsterdam:John Benjamins. xii+443pp.1.引言R是一款免费开源的编程语言,支持描述性和推断性统计及数据可视化,研究者可根据需求自...Natalia Levshina 2015. How to Do Linguistics with R:Data Exploration and Statistical Analysis.Amsterdam:John Benjamins. xii+443pp.1.引言R是一款免费开源的编程语言,支持描述性和推断性统计及数据可视化,研究者可根据需求自行编写和运行脚本程序,具有较大的灵活性。展开更多
交互式数据探索是一组多样的发现式应用程序的关键技术,着重于交互、探索和发现;在许多场景和领域中广泛应用.以海量的学术文献数据探索为背景,对交互式数据探索的特征自适应技术进行研究.首先,提出一种适用于面向学术文献数据探索的特...交互式数据探索是一组多样的发现式应用程序的关键技术,着重于交互、探索和发现;在许多场景和领域中广泛应用.以海量的学术文献数据探索为背景,对交互式数据探索的特征自适应技术进行研究.首先,提出一种适用于面向学术文献数据探索的特征自适应交互式数据探索框架FA-IDE(feature-adaptive interactive data exploration),在每次迭代过程中动态地调整特征子集,以满足用户兴趣多样性的需求.其次,针对该框架,提出特征子集的均匀度BFS(balance of feature subsets)评价准则,并给出了基于BFS的序列前向特征选择算法.再次,针对相关样本发现问题,提出划分等级建立方法,根据决策树模型对用户兴趣区域划分后,提出基于相似度的结果集排序策略.实验结果表明,所提出方法可有效提高用户探索效率和最终结果的准确性.展开更多
桥梁健康监测数据的挖掘和分析工作只有在整体数据质量符合基本要求的有效数据基础上进行,才能保障如模态参数识别、损伤识别和状态评估等后续工作的准确性。因此,基于量化改进的探索性分析方法(Exploratory Data Analysis,EDA)和相关...桥梁健康监测数据的挖掘和分析工作只有在整体数据质量符合基本要求的有效数据基础上进行,才能保障如模态参数识别、损伤识别和状态评估等后续工作的准确性。因此,基于量化改进的探索性分析方法(Exploratory Data Analysis,EDA)和相关性分析从数据完整性、准确性和一致性的角度建立了桥梁健康监测静、动态数据的质量评估方法。对某大跨度斜拉桥健康监测系统的静、动态数据进行质量评估,通过对比分析了不同评估质量的温度数据、静挠度数据和不同评估质量的主梁竖向加速度动力信号的模态参数识别的稳定图,验证了所提方法的正确性。结果表明,所提评估方法能够快速有效地判断数据质量的好坏,进而确保桥梁结构的服役性能评估和预测的准确性,有利于提高健康监测数据的可用性和效能。展开更多
文摘大规模数据集已经超过TB和PB级,现有的技术可以收集和存储大量的信息。虽然数据库管理系统一直在不断提高提供复杂的多种数据管理的能力,但是管理查询工具并不能满足大数据的需求,如何精准理解和探索这些大规模数据集仍然是一个巨大的挑战。交互式数据探索(interactive data exploration,IDE)的关注点是强调交互、探索和发现,能让用户从海量的数据中用最小的代价更精确地找到他们需要的信息。首先对交互式数据探索及其应用背景进行了介绍,总结了通用的探索模型和IDE的特点,分析了交互式数据探索中的查询推荐技术和查询结果优化技术的现状;随后分别对IDE原型系统进行了分析和比较;最后给出了关于交互式数据探索技术的总结和展望。
文摘Natalia Levshina 2015. How to Do Linguistics with R:Data Exploration and Statistical Analysis.Amsterdam:John Benjamins. xii+443pp.1.引言R是一款免费开源的编程语言,支持描述性和推断性统计及数据可视化,研究者可根据需求自行编写和运行脚本程序,具有较大的灵活性。
文摘交互式数据探索是一组多样的发现式应用程序的关键技术,着重于交互、探索和发现;在许多场景和领域中广泛应用.以海量的学术文献数据探索为背景,对交互式数据探索的特征自适应技术进行研究.首先,提出一种适用于面向学术文献数据探索的特征自适应交互式数据探索框架FA-IDE(feature-adaptive interactive data exploration),在每次迭代过程中动态地调整特征子集,以满足用户兴趣多样性的需求.其次,针对该框架,提出特征子集的均匀度BFS(balance of feature subsets)评价准则,并给出了基于BFS的序列前向特征选择算法.再次,针对相关样本发现问题,提出划分等级建立方法,根据决策树模型对用户兴趣区域划分后,提出基于相似度的结果集排序策略.实验结果表明,所提出方法可有效提高用户探索效率和最终结果的准确性.
文摘桥梁健康监测数据的挖掘和分析工作只有在整体数据质量符合基本要求的有效数据基础上进行,才能保障如模态参数识别、损伤识别和状态评估等后续工作的准确性。因此,基于量化改进的探索性分析方法(Exploratory Data Analysis,EDA)和相关性分析从数据完整性、准确性和一致性的角度建立了桥梁健康监测静、动态数据的质量评估方法。对某大跨度斜拉桥健康监测系统的静、动态数据进行质量评估,通过对比分析了不同评估质量的温度数据、静挠度数据和不同评估质量的主梁竖向加速度动力信号的模态参数识别的稳定图,验证了所提方法的正确性。结果表明,所提评估方法能够快速有效地判断数据质量的好坏,进而确保桥梁结构的服役性能评估和预测的准确性,有利于提高健康监测数据的可用性和效能。