期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
半结构化数据的模式抽取 被引量:5
1
作者 蒙德龙 叶飞跃 李旭华 《计算机工程与应用》 CSCD 北大核心 2006年第27期162-165,共4页
模式抽取在半结构化数据研究领域中具有重要意义。论文结合同类对象集和标签路径的概念,提出了一种从OEM模型中抽取模式的新方法。算法的基本思想是:在用OEM模型表示的半结构化数据中查找同类对象集,并通过构造模式表的方法来实现模式... 模式抽取在半结构化数据研究领域中具有重要意义。论文结合同类对象集和标签路径的概念,提出了一种从OEM模型中抽取模式的新方法。算法的基本思想是:在用OEM模型表示的半结构化数据中查找同类对象集,并通过构造模式表的方法来实现模式抽取。这种方法不但能从层次结构数据中抽取模式,而且还能从包含环路的OEM数据中进行模式抽取,克服了其它一些算法不能从带有环路的数据中进行模式抽取的缺点。 展开更多
关键词 半结构化数据 OEM 同类对象 模式 模式抽取
下载PDF
基于频繁模式半结构化数据的模式抽取 被引量:4
2
作者 李颖 张晓贤 孙佳慧 《吉林大学学报(信息科学版)》 CAS 2012年第5期540-543,共4页
为克服半结构化数据存储复杂的缺点,提出一种基于动态树的半结构化的存储模型。对该模型进行模式抽取,并将其引入到Apriori算法。通过设置最小支持度阀值过滤掉不必要的信息,输出最长频繁路径的集合,以实现半结构化数据的提取。实验结... 为克服半结构化数据存储复杂的缺点,提出一种基于动态树的半结构化的存储模型。对该模型进行模式抽取,并将其引入到Apriori算法。通过设置最小支持度阀值过滤掉不必要的信息,输出最长频繁路径的集合,以实现半结构化数据的提取。实验结果表明,该算法能同时有效地处理分支及环路问题,避免了死循环的出现。 展开更多
关键词 半结构化数据 数据挖掘 频繁模式 模式抽取
下载PDF
半结构化数据到结构化数据的模式抽取 被引量:3
3
作者 潘顺 金远平 《计算机工程》 CAS CSCD 北大核心 2002年第5期57-58,280,共3页
在分析现有的半结构化数据的存储方式及存在的问题基础上,引入了小集合属性、集合属性、聚类集合、模板集合、父属性序列等概念,借助映射表达语言,提出了一种基于数据挖掘的半结构化数据到结构化数据的模式抽取的方法。
关键词 半结构化数据 结构化数据 模式抽取 数据挖掘 数据库
下载PDF
基于节点相对路径的XML模式抽取算法
4
作者 孙霞 程宏斌 《湖州师范学院学报》 2009年第1期76-80,共5页
结合XML文档树结构提出了一种基于节点相对路径的模式抽取算法,通过使用SAX解析器对XML文档进行一遍扫描,提取出XML文档节点及其相对路径来实现XML文档模式的抽取.该算法有效地解决了XML文档中存在的环路及缺边问题,计算结果模式的代价... 结合XML文档树结构提出了一种基于节点相对路径的模式抽取算法,通过使用SAX解析器对XML文档进行一遍扫描,提取出XML文档节点及其相对路径来实现XML文档模式的抽取.该算法有效地解决了XML文档中存在的环路及缺边问题,计算结果模式的代价较低,效率较高. 展开更多
关键词 模式抽取 XML SAX 相对路径
下载PDF
消息序列图模式抽取与组合
5
作者 李青山 《系统工程与电子技术》 EI CSCD 北大核心 2004年第9期1302-1304,1311,共4页
在抽象原子模式的基础上,提出了一种基于图连通性判定的模式抽取方法,并给出了其正确性证明。接着,详尽分析和给出了模式组合定理的一个构造性证明以及模式组合前后的消息序列图的行为等价性证明。基于该模式抽取与组合方法,可以在更高... 在抽象原子模式的基础上,提出了一种基于图连通性判定的模式抽取方法,并给出了其正确性证明。接着,详尽分析和给出了模式组合定理的一个构造性证明以及模式组合前后的消息序列图的行为等价性证明。基于该模式抽取与组合方法,可以在更高层面重新组合模式。通过实验验证了该方法的有效性。 展开更多
关键词 程序理解 模式抽取 模式组合 消息序列图 行为分析
下载PDF
安卓应用用户界面交互模式抽取与检索 被引量:2
6
作者 吴俊伟 沈立炜 +2 位作者 郭武楠 王超 赵文耘 《软件学报》 EI CSCD 北大核心 2018年第8期2198-2209,共12页
安卓开发者需要通过不断地经验积累来提升其设计安卓界面及行为交互的能力.在数据驱动的软件开发中,代码推荐是其中一个关注热点.在此背景下,提出了一种安卓应用用户界面交互模式抽取与检索方法,提供面向安卓应用的界面相关代码查询与... 安卓开发者需要通过不断地经验积累来提升其设计安卓界面及行为交互的能力.在数据驱动的软件开发中,代码推荐是其中一个关注热点.在此背景下,提出了一种安卓应用用户界面交互模式抽取与检索方法,提供面向安卓应用的界面相关代码查询与推荐能力,从而降低开发者在选择、试用、学习安卓应用所带来的人工成本.以安卓活动(activity)为单元的界面交互模式代表了活动的界面构成及交互行为,该方法以此为分析目标,从一组开源的安卓应用项目中抽取出每一个活动的界面交互模式.在此基础上,支持用户通过检索的方式获取与其需求相关的活动设计细节.该方法被实现为一组工具链,为抽取与检索提供自动化支持.最后,通过两个案例对该方法的准确性和有效性进行验证. 展开更多
关键词 安卓 用户界面交互模式 模式抽取
下载PDF
基于OEM模型的半结构化数据的模式抽取 被引量:8
7
作者 鲁明羽 陆玉昌 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第9期1264-1267,共4页
Web数据是典型的半结构化数据 ,缺乏明确的、预知的、与数据分离存储的外在模式 ,导致查询、浏览和集成Web数据的效率极低。该文提出一种基于 OEM (objectexchange model)模型的半结构化数据的模式抽取算法 ,采用自顶向下的剪枝策略 ,... Web数据是典型的半结构化数据 ,缺乏明确的、预知的、与数据分离存储的外在模式 ,导致查询、浏览和集成Web数据的效率极低。该文提出一种基于 OEM (objectexchange model)模型的半结构化数据的模式抽取算法 ,采用自顶向下的剪枝策略 ,可快速发现频繁简单路径集 ,应用于半结构化数据的集成及查询回答与优化。其特点是可降低目标模式的规模 。 展开更多
关键词 半结构化数据 模式抽取 对象交换模型 剪枝
原文传递
基于领域本体的信息抽取模式生成与系统实现 被引量:8
8
作者 马静 吴一占 刘思峰 《情报学报》 CSSCI 北大核心 2008年第2期193-198,共6页
面对情报工作者日益增长的从Internet中及时获取特定信息或知识的需求,本文展开了web信息抽取技术在情报领域的应用研究。目前,信息抽取模式的自动获取成为一个技术难点,本文尝试引入基于领域本体的半自动抽取模式获取算法,该方法... 面对情报工作者日益增长的从Internet中及时获取特定信息或知识的需求,本文展开了web信息抽取技术在情报领域的应用研究。目前,信息抽取模式的自动获取成为一个技术难点,本文尝试引入基于领域本体的半自动抽取模式获取算法,该方法在领域本体的概念层次关系、属性特征和实例的结构本体指导下,选择其主要特征属性为匹配目标,自动学习并获取抽取模式。利用该算法到直升机产品信息抽取,运行结果验证:该算法简单有效,获得了较高的抽取效率和较准确的抽取结果。 展开更多
关键词 信息抽取 抽取模式 产品情报
下载PDF
信息抽取模式自动生成方法的研究 被引量:22
9
作者 郑家恒 王兴义 李飞 《中文信息学报》 CSCD 北大核心 2004年第1期48-54,共7页
模式匹配是信息抽取系统通常使用的方法 ,如何生成信息抽取模式就成为信息抽取的关键问题。由于手工编写模式的代价太大 ,本文尝试采用聚类方法自动生成针对中文文本的信息抽取模式。通过计算模式实例间的相似度 ,采用单链法聚类 ,将模... 模式匹配是信息抽取系统通常使用的方法 ,如何生成信息抽取模式就成为信息抽取的关键问题。由于手工编写模式的代价太大 ,本文尝试采用聚类方法自动生成针对中文文本的信息抽取模式。通过计算模式实例间的相似度 ,采用单链法聚类 ,将模式实例划分为不同的类别 ,每个类别对应一个模式 ,将同一类别中的模式实例进行合并就可以得到最终的信息抽取模式。以农作物信息文本为实验语料 ,进行了聚类测试 ,错分率与漏分率分别为 0 2 1%和 1 0 7% ,合并后的模式覆盖了人工分析提出的 2 5类中的 2 展开更多
关键词 人工智能 自然语言处理 信息抽取 模式匹配 信息抽取模式
下载PDF
基于自扩展的信息抽取模式自动获取 被引量:3
10
作者 于江德 王立新 樊孝忠 《小型微型计算机系统》 CSCD 北大核心 2009年第5期891-894,共4页
提出一种从未标注的中文文本中基于自扩展策略自动获取事件抽取模式的算法,该算法从少数几个种子抽取模式开始,通过一个增量迭代的过程发现新的抽取模式,在每一轮迭代中采用类似于TF/IDF的评估方法对产生的候选模式进行排序,选择最优的... 提出一种从未标注的中文文本中基于自扩展策略自动获取事件抽取模式的算法,该算法从少数几个种子抽取模式开始,通过一个增量迭代的过程发现新的抽取模式,在每一轮迭代中采用类似于TF/IDF的评估方法对产生的候选模式进行排序,选择最优的模式并入当前模式集.应用该方法从人民日报语料中自动获取"职务变动"类事件的抽取模式,实验结果表明,该方法产生的抽取模式在中文文本事件抽取中具有较好的抽取性能,综合指标F值达到66.3%. 展开更多
关键词 信息抽取 抽取模式 自扩展 自动获取
下载PDF
自适应选择抽取模式的运动估计算法 被引量:1
11
作者 王昕 张弘 《航空学报》 EI CAS CSCD 北大核心 2007年第1期177-181,共5页
提出一种去除运动估计中计算冗余的新方法,该方法与搜索算法结合,通过自适应选择抽取模式去除冗余。首先改进传统的一维梯度下降搜索算法,并提出由梯度下降方向自适应选择不同的抽取模式去除计算运动估计准则时的冗余。实验结果表明,该... 提出一种去除运动估计中计算冗余的新方法,该方法与搜索算法结合,通过自适应选择抽取模式去除冗余。首先改进传统的一维梯度下降搜索算法,并提出由梯度下降方向自适应选择不同的抽取模式去除计算运动估计准则时的冗余。实验结果表明,该算法与全搜索以及没有去除计算冗余的梯度下降算法相比,视频质量没有较大影响,但是大大降低了计算量,在视频序列实时处理中有良好的应用前景。 展开更多
关键词 计算机图像处理 运动估计 梯度下降 自适应 抽取模式 计算冗余
下载PDF
基于弱监督学习的产品特征抽取 被引量:10
12
作者 伍星 何中市 黄永文 《计算机工程》 CAS CSCD 北大核心 2009年第13期199-201,共3页
产品评论挖掘是从自然语言描述的用户评论中获取信息的过程,产品特征抽取是产品评论挖掘的第1个阶段,产品特征的好坏决定了产品评论挖掘中后续阶段的质量。采用弱监督的学习方法,只需要提供少量的产品特征作为种子,从这些种子出现的语... 产品评论挖掘是从自然语言描述的用户评论中获取信息的过程,产品特征抽取是产品评论挖掘的第1个阶段,产品特征的好坏决定了产品评论挖掘中后续阶段的质量。采用弱监督的学习方法,只需要提供少量的产品特征作为种子,从这些种子出现的语句中抽取文本模式,利用文本模式来发现新的产品特征。实验结果表明,从英文文本中自动抽取产品特征的实验系统,取得了较好的效果。 展开更多
关键词 BootStrapping算法 文本模式抽取 产品评论挖掘
下载PDF
基于模式学习的文化遗传算法研究 被引量:4
13
作者 高丽丽 刘弘 李同喜 《计算机工程与应用》 CSCD 北大核心 2007年第22期38-40,75,共4页
针对遗传算法的缺陷,提出了一种基于模式学习的文化遗传算法,该算法将遗传算法纳入文化算法框架,组成基于GA的主群体空间和信念空间两大空间,主群体空间在进化过程中定期组织最差个体向信念空间提供的种群最优模式学习,从而充分利用了... 针对遗传算法的缺陷,提出了一种基于模式学习的文化遗传算法,该算法将遗传算法纳入文化算法框架,组成基于GA的主群体空间和信念空间两大空间,主群体空间在进化过程中定期组织最差个体向信念空间提供的种群最优模式学习,从而充分利用了优秀个体所包含的特征信息,在很大程度上提高了收敛速度。实验结果表明,该算法是一种提高遗传算法性能的有效算法。 展开更多
关键词 遗传算法 文化算法 模式抽取 模式学习
下载PDF
半结构化数据的最小化模式发现 被引量:1
14
作者 李久仲 石硕 沈轶 《计算机应用与软件》 CSCD 2009年第4期51-54,共4页
半结构化数据的模式抽取对于半结构化数据查询、优化及异构数据的集成具有重要的意义。结合标签路径及标签路径的目标集概念,提出了基于OEM(Object Exchange Model)模型的半结构化数据最小化模式抽取新方法,并给出了与标签路径目标集、... 半结构化数据的模式抽取对于半结构化数据查询、优化及异构数据的集成具有重要的意义。结合标签路径及标签路径的目标集概念,提出了基于OEM(Object Exchange Model)模型的半结构化数据最小化模式抽取新方法,并给出了与标签路径目标集、支持度计算相关的两个定理。算法的基本思路:依据文中的两个定理,采用宽度优先自顶向下的遍历策略依次求出各标签路径的最后一个标签的目标集及支持度,标签支持度大的目标集优先映射为对应的模式节点。对同一半结构数据实例,算法抽取的模式与其他算法得到的模式相比规模小、算法执行时间短。算法适用于层次型及包含环路的OEM半结构化数据模式抽取。 展开更多
关键词 半结构化数据 模式抽取 OEM模型 标签路径 标签路径的支持度 标签路径的目标集
下载PDF
基于标记二叉树的XML数据模式提取算法 被引量:1
15
作者 雷庆 熊汉琛 《计算机工程与设计》 CSCD 北大核心 2009年第13期3205-3208,共4页
以XML作为研究对象,提出了一种新的基于二叉树结构的XML数据模式信息的提取方法,抽取出XML文档的所有开始和结束标记并生成相应的标记链,对标记链中结点嵌套关系进行分析生成标记二叉树,通过判断和删除标记二叉树中的冗余数据得到XML文... 以XML作为研究对象,提出了一种新的基于二叉树结构的XML数据模式信息的提取方法,抽取出XML文档的所有开始和结束标记并生成相应的标记链,对标记链中结点嵌套关系进行分析生成标记二叉树,通过判断和删除标记二叉树中的冗余数据得到XML文档的最简标记树模式。实验结果表明,即使对于标记的嵌套关系非常复杂的XML文档,该算法也能够准确地抽取出相应的最简标记树模式结构,同时还生成了相应的DTD模式文件。 展开更多
关键词 XML 嵌套关系 标记二叉树 模式抽取 DTD
下载PDF
基于整体模式匹配的深度网集成系统的研究
16
作者 邵秀丽 孙杰 侯乐彩 《计算机工程与设计》 CSCD 北大核心 2011年第8期2679-2683,共5页
为通过一个统一的接口访问所有分布的Web数据源,获得质量优结构好的信息,设计实现了包括Deep Web查询接口模式抽取、应用整体模式匹配算法的Deep Web查询接口模式匹配以及包含包括属性选择,表单元素生成和元素值域生成工作的查询接口集... 为通过一个统一的接口访问所有分布的Web数据源,获得质量优结构好的信息,设计实现了包括Deep Web查询接口模式抽取、应用整体模式匹配算法的Deep Web查询接口模式匹配以及包含包括属性选择,表单元素生成和元素值域生成工作的查询接口集成3部分在内的基于整体模式匹配Deep Web集成系统。将该系统在Deep Web图书搜索系统中实际应用,运行结果表明,该系统设计是可行和有效的。 展开更多
关键词 DEEP WEB 整体模式匹配 模式抽取 匹配发现 匹配构建 查询接口集成
下载PDF
HEVC快速帧内模式和深度决策算法 被引量:4
17
作者 伍冠健 宋立锋 《广东工业大学学报》 CAS 2015年第4期132-137,共6页
针对HEVC帧内预测过程计算复杂度较大的问题,提出基于隔点模式抽取、像素梯度统计和子PU残差相对比的快速帧内预测算法.对应HEVC的33种帧内角度模式,按区间划分33类梯度方向并计算PU各个像素的梯度方向.先对偶数编号的角度模式计算排序... 针对HEVC帧内预测过程计算复杂度较大的问题,提出基于隔点模式抽取、像素梯度统计和子PU残差相对比的快速帧内预测算法.对应HEVC的33种帧内角度模式,按区间划分33类梯度方向并计算PU各个像素的梯度方向.先对偶数编号的角度模式计算排序,再快速比较得到候选模式集.然后根据所属各类梯度方向的像素累计个数,舍弃部分候选模式.在计算当前PU的哈达玛变换预测残差(Sum of Absolute Transformed Difference,SATD)的同时,记录该PU内4个子PU的SATD,并通过对这4个SATD之间的相对比,跳过当前PU之后深度的计算.实验结果表明,与HEVC标准测试模型HM13.0的算法相比,本文所提出的算法可节省约54%的帧内编码时间,而码率只有约1%的增加. 展开更多
关键词 HEVC 帧内预测 隔点模式抽取 像素梯度 子PU残差 快速算法
下载PDF
基于HL7的电子病历关键信息抽取技术研究 被引量:8
18
作者 徐永东 权光日 王亚东 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2011年第11期89-94,共6页
结合HL7(Health Level Seven)标准的数据存储特点对目前电子病历的内容和结构进行了深入分析,提出了医疗信息五元组模式,以及更为细化的二元组和语义类描述,并在此基础上提出了模式泛化、模式获取、医疗信息自动抽取等一系列算法.通过实... 结合HL7(Health Level Seven)标准的数据存储特点对目前电子病历的内容和结构进行了深入分析,提出了医疗信息五元组模式,以及更为细化的二元组和语义类描述,并在此基础上提出了模式泛化、模式获取、医疗信息自动抽取等一系列算法.通过实际312份住院病历数据下的实验表明,系统在查准率与查全率方面,获得了较好的结果,而且由于有自动学习的特性,随着训练语料的增加,系统的整体性能表现将更加优异. 展开更多
关键词 电子病历 信息抽取 HL7 模式自动抽取
下载PDF
Web信息抽取技术研究进展 被引量:19
19
作者 陈少飞 郝亚南 +2 位作者 李天柱 徐林昊 杨文柱 《河北大学学报(自然科学版)》 CAS 2003年第1期106-112,共7页
Web信息抽取技术是当今的一个研究热点。目前出现了基于不同原理的多种信息抽取技术,它们具有不同的性能。本文根据信息抽取的原理,对现有的信息抽取技术进行了分类,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现形式... Web信息抽取技术是当今的一个研究热点。目前出现了基于不同原理的多种信息抽取技术,它们具有不同的性能。本文根据信息抽取的原理,对现有的信息抽取技术进行了分类,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行了分析和比较,在此基础上提出了待研究的问题。 展开更多
关键词 WEB信息抽取技术 研究进展 HTML XML 语义 抽取模式 抽取原理 WEB查询 抽取规则
下载PDF
通用抽取引擎框架:一种新的Web信息抽取方法的研究 被引量:3
20
作者 宫继兵 唐杰 杨文军 《计算机科学》 CSCD 北大核心 2011年第1期198-202,共5页
大规模的网络视频信息既为用户信息分享带来了方便,同时也为国家监管部门带来了新的挑战。考虑到效率问题,在线视频监管则主要考虑视频描述信息。主要研究了网络视频描述信息的抽取问题,提出了一种新的Web信息抽取方法:通用抽取引擎框架... 大规模的网络视频信息既为用户信息分享带来了方便,同时也为国家监管部门带来了新的挑战。考虑到效率问题,在线视频监管则主要考虑视频描述信息。主要研究了网络视频描述信息的抽取问题,提出了一种新的Web信息抽取方法:通用抽取引擎框架,其主要包括对视频描述信息抽取问题的形式化描述和用户感知的视频网站逻辑模型。该方法在国家某部委的视频监管项目中已得到应用,并取得了很好的效果。实验结果表明,该方法的扩展性、通用性和抽取准确率大大优于其他方法。 展开更多
关键词 通用抽取引擎框架 网络视频监管 视频网站逻辑模型 WEB信息抽取 抽取模式产生算法
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部