-
题名非结构化表格文档数据抽取与组织模型研究
被引量:12
- 1
-
-
作者
张元鸣
陈苗
陆佳炜
徐俊
肖刚
-
机构
浙江工业大学计算机科学与技术学院
浙江工业大学机械工程博士后流动站
-
出处
《浙江工业大学学报》
CAS
北大核心
2016年第5期487-494,共8页
-
基金
浙江省钱江人才计划D类项目(QJD1302009)
浙江省重大科技专项资助项目(2014C01408)
-
文摘
针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括逻辑结构抽取、文档预处理、数据抽取和数据组织等主要步骤,设计实现了单值区域与多值区域数据抽取算法;从文档中抽取的数据被组织成适合于MapReduce分析的结构化数据模型,该模型能够为大数据分析提供模型支持.实验结果表明:该抽取方法具有较高的准确率与召回率,数据组织模型也能够有效地支持大数据分析.
-
关键词
非结构化表格文档
数据抽取
结构化数据模型
数据分析
-
Keywords
unstructured form document
data extraction
structured data model
data analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于全局依赖网的Web服务组合自动演化方法研究
被引量:2
- 2
-
-
作者
张元鸣
倪宽
陆佳炜
徐俊
肖刚
-
机构
浙江工业大学计算机科学与技术学院
浙江工业大学机械工程博士后流动站
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2017年第2期267-277,共11页
-
基金
国家自然科学基金(No.61379017)
浙江省钱江人才计划D类(No.QJD1302009)
浙江省重大科技专项(No.2014C01408)
-
文摘
为适应互联网环境下动态的运行环境以及多变的用户需求,快速构建面向服务架构的软件系统,本文提出一种基于全局依赖网的Web服务组合自动演化方法.该方法能够根据用户演化需求对服务组合执行演化操作,在服务全局依赖网的基础上从各演化点出发执行正向演化推理与反向演化推理,确保执行演化操作之后的正确性和有效性,自动生成服务组合演化结果.应用实例表明本方法能够有效实现服务组合的自动化演化,有助于降低基于服务组合的软件开发成本,缩短软件开发周期.
-
关键词
服务组合
自动演化
演化操作
演化推理
全局依赖网
-
Keywords
service composition
automatic evolution
evolution operations
evolution inference
global dependence network
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名数据服务依赖图模型及自动组合方法研究
被引量:2
- 3
-
-
作者
张元鸣
叶成龙
黄浪游
陆佳炜
徐俊
肖刚
-
机构
浙江工业大学计算机科学与技术学院
浙江工业大学机械工程博士后流动站
-
出处
《小型微型计算机系统》
CSCD
北大核心
2018年第3期450-456,共7页
-
基金
浙江省重大科技专项项目(2014C01048)资助
浙江省公益性技术项目(2017C31014)资助
-
文摘
数据服务是一种提供数据资源访问的软件服务,为跨域数据集成提供了统一的数据模型.一类挑战性问题是,如何快速自动组合数据服务并生成满足用户数据需求的数据视图.为此,根据内在的数据依赖关系,将数据服务构建为能够描述全局逻辑结构的数据服务依赖图,将数据组合问题建模为基于依赖图模型的数据服务搜索问题,根据数据需求自动搜索依赖图得到最优的复合数据服务,并通过执行复合数据服务生成可视化数据视图.实验结果表明,所提出的数据服务组合算法具有较高的组合效率和良好的组合质量,并能够准确生成满足用户需求的数据视图.
-
关键词
数据服务
数据服务依赖
数据服务组合
数据视图
-
Keywords
data service
data service dependency
data service composition
data view
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-