Graph analysis can be done at scale by using Spark GraphX which loading data into memory and running graph analysis in parallel.In this way,we should take data out of graph databases and put it into memory.Considering...Graph analysis can be done at scale by using Spark GraphX which loading data into memory and running graph analysis in parallel.In this way,we should take data out of graph databases and put it into memory.Considering the limitation of memory size,the premise of accelerating graph analytical process reduces the graph data to a suitable size without too much loss of similarity to the original graph.This paper presents our method of data cleaning on the software graph.We use SEQUITUR data compression algorithm to find out hot code path and store it as a whole paths directed acyclic graph.Hot code path is inherent regularity of a program.About 10 to 200 hot code path account for 40%-99%of a program’s execution cost.These hot paths are acyclic contribute more than 0.1%-1.0%of some execution metric.We expand hot code path to a suitable size which is good for runtime and keeps similarity to the original graph.展开更多
数字人文是计算机学科和人文学科交叉研究的一个新领域,由计算人文和人文计算领域发展而来。本文以Web of Science核心数据集为来源,运用文献计量方法,结合可视化分析工具,对数字人文研究文献进行统计分析和内容挖掘,分析数字人文研究...数字人文是计算机学科和人文学科交叉研究的一个新领域,由计算人文和人文计算领域发展而来。本文以Web of Science核心数据集为来源,运用文献计量方法,结合可视化分析工具,对数字人文研究文献进行统计分析和内容挖掘,分析数字人文研究的前沿和热点领域,明确演化路径和发展趋势。(1)数字人文研究的热点领域有:数字人文的基本理论,技术驱动下的人文学术实践转向,新合作模式引发的人文学术文化变革,以及面向数字人文研究的基础设施建设;(2)数字人文研究的内涵更具兼容性,应强调计算转向,考虑重构人文知识的脉络与内容,构建当代知识系统及认知方式;(3)图书馆学的理论、方法及实践与数字人文研究形成协同发展趋势;(4)从技术应用和数据基础的角度看,图书馆学是数字人文产生的基础学科,也将是数字人文成果的主要应用学科之一。我国图书馆界应以融合的视角审视数字人文与图书馆发展的关系,进行数字人文的理论研究与实践探索。展开更多
以Web of Science数据库收录的1999—2015年创业失败研究文献为研究对象,运用可视化软件CiteSpace V,分别绘制了创业失败研究的时空分布、文献共引与关键词共现知识图谱,据此探析了创业失败研究的时空分布、演化路径和热点领域。研究结...以Web of Science数据库收录的1999—2015年创业失败研究文献为研究对象,运用可视化软件CiteSpace V,分别绘制了创业失败研究的时空分布、文献共引与关键词共现知识图谱,据此探析了创业失败研究的时空分布、演化路径和热点领域。研究结果表明:美国学者引领创业失败研究,我国在此领域的研究文献数量总体稳步增加,相关研究紧跟国际前沿;创业失败研究的演化路径是,研究层面日趋多样化、研究方法以质化研究为主且实证研究日趋加强,创业失败管理与后续创业活动正取代创业失败的归因和影响而成为研究主流;创业失败研究的三大热点是创业失败与再创业活动的关系、创业失败学习以及创业失败管理。展开更多
n-gram能有效识别字符串的序列特征,基于n-gram技术计算的软件胎记可信性普遍较高。但n-gram更适用于文本程序,对两个软件的动态特征区分不理想,很难不被保持语义变换操作所干扰,胎记可靠性难以保证。文章利用影响分析技术,找出频繁执...n-gram能有效识别字符串的序列特征,基于n-gram技术计算的软件胎记可信性普遍较高。但n-gram更适用于文本程序,对两个软件的动态特征区分不理想,很难不被保持语义变换操作所干扰,胎记可靠性难以保证。文章利用影响分析技术,找出频繁执行路径上的关联代码,形成扩展执行路径,在扩展频繁执行路径上计算n-gram后构造动态胎记。该胎记抗保持语义变换能力不低于WPP(Whole Program Path)胎记,用于指令流时胎记的可信性更好。展开更多
BIM因其强大的信息集成与共享功能,颠覆建筑业传统生产范式,有助于解决传统建筑业常面临行业结构割裂、信息流失、生产效率低等难题,已成为实践界与学术界极为关注的研究主题。为系统全面把握国际上BIM研究发展脉络,以Web of Science核...BIM因其强大的信息集成与共享功能,颠覆建筑业传统生产范式,有助于解决传统建筑业常面临行业结构割裂、信息流失、生产效率低等难题,已成为实践界与学术界极为关注的研究主题。为系统全面把握国际上BIM研究发展脉络,以Web of Science核心集合中2005—2017年发表的493篇文献为数据来源,科学运用SATI、CiteSpace等可视化软件综合分析文献数据。研究结果表明:BIM研究演进路径由BIM研究探索期、初步成长期、深入发展期3个阶段构成;BIM研究热点分为BIM技术基础与框架、BIM技术应用及相关技术支撑三大方向;BIM研究前沿包括相互协作能力、激光扫描、方案优化、项目绩效、4维cad等方面。研究成果以期为BIM的未来研究和发展提供有益参考,也为学科领域计量可视化分析带来借鉴价值。展开更多
基金This research work is supported by Hunan Provincial Education Science 13th Five-Year Plan(Grant No.XJK016BXX001)Social Science Foundation of Hunan Province(Grant No.17YBA049)+2 种基金Hunan Provincial Natural Science Foundation of China(Grant No.2017JJ2016)The work is also supported by Open foundation for University Innovation Platform from Hunan Province,China(Grand No.16K013)the 2011 Collaborative Innovation Center of Big Data for Financial and Economical Asset Development and Utility in Universities of Hunan Province.National Students Platform for Innovation and Entrepreneurship Training(Grand No.201811532010).
文摘Graph analysis can be done at scale by using Spark GraphX which loading data into memory and running graph analysis in parallel.In this way,we should take data out of graph databases and put it into memory.Considering the limitation of memory size,the premise of accelerating graph analytical process reduces the graph data to a suitable size without too much loss of similarity to the original graph.This paper presents our method of data cleaning on the software graph.We use SEQUITUR data compression algorithm to find out hot code path and store it as a whole paths directed acyclic graph.Hot code path is inherent regularity of a program.About 10 to 200 hot code path account for 40%-99%of a program’s execution cost.These hot paths are acyclic contribute more than 0.1%-1.0%of some execution metric.We expand hot code path to a suitable size which is good for runtime and keeps similarity to the original graph.
文摘数字人文是计算机学科和人文学科交叉研究的一个新领域,由计算人文和人文计算领域发展而来。本文以Web of Science核心数据集为来源,运用文献计量方法,结合可视化分析工具,对数字人文研究文献进行统计分析和内容挖掘,分析数字人文研究的前沿和热点领域,明确演化路径和发展趋势。(1)数字人文研究的热点领域有:数字人文的基本理论,技术驱动下的人文学术实践转向,新合作模式引发的人文学术文化变革,以及面向数字人文研究的基础设施建设;(2)数字人文研究的内涵更具兼容性,应强调计算转向,考虑重构人文知识的脉络与内容,构建当代知识系统及认知方式;(3)图书馆学的理论、方法及实践与数字人文研究形成协同发展趋势;(4)从技术应用和数据基础的角度看,图书馆学是数字人文产生的基础学科,也将是数字人文成果的主要应用学科之一。我国图书馆界应以融合的视角审视数字人文与图书馆发展的关系,进行数字人文的理论研究与实践探索。
文摘以Web of Science数据库收录的1999—2015年创业失败研究文献为研究对象,运用可视化软件CiteSpace V,分别绘制了创业失败研究的时空分布、文献共引与关键词共现知识图谱,据此探析了创业失败研究的时空分布、演化路径和热点领域。研究结果表明:美国学者引领创业失败研究,我国在此领域的研究文献数量总体稳步增加,相关研究紧跟国际前沿;创业失败研究的演化路径是,研究层面日趋多样化、研究方法以质化研究为主且实证研究日趋加强,创业失败管理与后续创业活动正取代创业失败的归因和影响而成为研究主流;创业失败研究的三大热点是创业失败与再创业活动的关系、创业失败学习以及创业失败管理。
文摘n-gram能有效识别字符串的序列特征,基于n-gram技术计算的软件胎记可信性普遍较高。但n-gram更适用于文本程序,对两个软件的动态特征区分不理想,很难不被保持语义变换操作所干扰,胎记可靠性难以保证。文章利用影响分析技术,找出频繁执行路径上的关联代码,形成扩展执行路径,在扩展频繁执行路径上计算n-gram后构造动态胎记。该胎记抗保持语义变换能力不低于WPP(Whole Program Path)胎记,用于指令流时胎记的可信性更好。
文摘BIM因其强大的信息集成与共享功能,颠覆建筑业传统生产范式,有助于解决传统建筑业常面临行业结构割裂、信息流失、生产效率低等难题,已成为实践界与学术界极为关注的研究主题。为系统全面把握国际上BIM研究发展脉络,以Web of Science核心集合中2005—2017年发表的493篇文献为数据来源,科学运用SATI、CiteSpace等可视化软件综合分析文献数据。研究结果表明:BIM研究演进路径由BIM研究探索期、初步成长期、深入发展期3个阶段构成;BIM研究热点分为BIM技术基础与框架、BIM技术应用及相关技术支撑三大方向;BIM研究前沿包括相互协作能力、激光扫描、方案优化、项目绩效、4维cad等方面。研究成果以期为BIM的未来研究和发展提供有益参考,也为学科领域计量可视化分析带来借鉴价值。