期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
Extracting Result Schema Based on Query Instances in the Deep Web 被引量:1
1
作者 NIE Tiezheng YU Ge SHEN Derong KOU Yue LIU Wei 《Wuhan University Journal of Natural Sciences》 CAS 2007年第5期835-839,共5页
Deep Web sources contain a large of high-quality and query-related structured date. One of the challenges in the Deep Web is extracting result schemas of Deep Web sources. To address this challenge, this paper describ... Deep Web sources contain a large of high-quality and query-related structured date. One of the challenges in the Deep Web is extracting result schemas of Deep Web sources. To address this challenge, this paper describes a novel approach that extracts both result data and the result schema of a Web database. The approach first models the query interface of a Deep Web source and fills in it with a specifically query instance. Then the result pages of the Deep Web sources are formatted in the tree structure to retrieve subtrees that contain elements of the query instance, Next, result schema of the Deep Web source is extracted by matching the subtree' nodes with the query instance, in which, a two-phase schema extraction method is adopted for obtaining more accurate result schema. Finally, experiments on real Deep Web sources show the utility of our approach, which provides a high precision and recall. 展开更多
关键词 Deep Web schema extraction result schema query instance
下载PDF
基于Schema增强的中文实体关系抽取方法 被引量:2
2
作者 饶东宁 李冉 《软件导刊》 2023年第2期47-52,共6页
针对中文实体关系抽取任务中的实体边界切分错误和实体关系重叠,以及不同数据集的关系种类不能很好地迁移的问题,提出一种基于Schema增强的实体关系抽取方法。首先,采用字词混合嵌入的方式融合字与词的语义信息,避免中文分词时边界切分... 针对中文实体关系抽取任务中的实体边界切分错误和实体关系重叠,以及不同数据集的关系种类不能很好地迁移的问题,提出一种基于Schema增强的实体关系抽取方法。首先,采用字词混合嵌入的方式融合字与词的语义信息,避免中文分词时边界切分出错所造成的歧义问题;其次,利用指针标注的方式解决关系重叠问题;最后,提取出每个数据集的Schema进行合并作为先验特征传入模型中,以解决实体冗余及关系种类迁移问题。在三大中文实体关系抽取数据集DuIE、FinRE、SanWen上进行实验,相较于先前的模型,该方法分别取得10%、18%、11%的F1提升,且表现出更高的稳定性。 展开更多
关键词 命名实体识别 关系抽取 schema增强 字词混合嵌入 指针标注
下载PDF
一种基于内容模型图的XML Schema Definition的提取方法 被引量:3
3
作者 宁静 刘杰 叶丹 《计算机科学》 CSCD 北大核心 2010年第6期179-185,共7页
使用XML Schema能够对XML文档进行有效性验证以及对查询、转换等操作进行优化,但是实际应用中大量XML文档缺失关联的Schema。提出了一种根据XML文档自动提取对应的XML Schema Definition(XSD)的方法XSDInfer,先根据合并规则将XML解析过... 使用XML Schema能够对XML文档进行有效性验证以及对查询、转换等操作进行优化,但是实际应用中大量XML文档缺失关联的Schema。提出了一种根据XML文档自动提取对应的XML Schema Definition(XSD)的方法XSDInfer,先根据合并规则将XML解析过程中分析得到的模式信息记录在内容模型图中,再根据生成规则将其转化为内容模型表达式,进而得到XSD。XSDInfer能够在内存消耗比较少的情况下快速地处理超大规模、深度嵌套的XML文档,同时支持XSD的上下文相关的内容模型,提取出的XSD也具有更好的可读性。实验表明,与同类方法相比,XSDInfer具有更好的可扩展性和表达能力。 展开更多
关键词 XML XML schema DEFINITION 模式提取 内容模型
下载PDF
一种结合关系增强融合模型的舆情关系抽取方法
4
作者 夏益昆 赵春一 《软件导刊》 2024年第6期67-74,共8页
针对舆情信息关系种类繁多、状态空间巨大,以及舆情信息关系抽取任务中出现的关系重叠和单一模型不能完全识别出全部三元组的问题,提出一种结合关系增强的融合模型进行舆情关系抽取的方法。首先,对从中文互联网上获取的舆情信息进行初... 针对舆情信息关系种类繁多、状态空间巨大,以及舆情信息关系抽取任务中出现的关系重叠和单一模型不能完全识别出全部三元组的问题,提出一种结合关系增强的融合模型进行舆情关系抽取的方法。首先,对从中文互联网上获取的舆情信息进行初步处理,得到初步的关系表;其次,对获得的关系表引入实体类型进行关系表增强;最后,将增强关系表作为先验特征输入融合模型,提升关系分类准确性,结合两个模型的识别结果解决单一模型不能完全识别出全部三元组的问题。实验结果表明,该方法相较于单一未使用关系增强的模型,F1值提升了5.4%。 展开更多
关键词 关系抽取 关系表增强 模型融合 全局指针网络 舆情分析
下载PDF
基于样本实例的Web信息抽取 被引量:19
5
作者 张绍华 徐林昊 +2 位作者 杨文柱 薛文玲 李天柱 《河北大学学报(自然科学版)》 CAS 2001年第4期431-437,共7页
主要研究了基于HTML文档的信息抽取 ,提出了一种基于样本实例的Web信息抽取的方法 .用户首先选定样本页面和预先定义模式 (基于O -R模型 ) ,然后对样本页面和其中的样本记录进行标记、学习 ,形成信息抽取规则 ,并存入知识库 ;利用知识... 主要研究了基于HTML文档的信息抽取 ,提出了一种基于样本实例的Web信息抽取的方法 .用户首先选定样本页面和预先定义模式 (基于O -R模型 ) ,然后对样本页面和其中的样本记录进行标记、学习 ,形成信息抽取规则 ,并存入知识库 ;利用知识库对其他同类页面自动抽取所需的信息 ,存入数据库中 .本方法可用于Web查询 ,也可用于信息集成的包装器 . 展开更多
关键词 HTML 模式 抽取器 信息抽取 WEB查询 INTERNET INTRANET
下载PDF
半结构化数据的模式抽取 被引量:5
6
作者 蒙德龙 叶飞跃 李旭华 《计算机工程与应用》 CSCD 北大核心 2006年第27期162-165,共4页
模式抽取在半结构化数据研究领域中具有重要意义。论文结合同类对象集和标签路径的概念,提出了一种从OEM模型中抽取模式的新方法。算法的基本思想是:在用OEM模型表示的半结构化数据中查找同类对象集,并通过构造模式表的方法来实现模式... 模式抽取在半结构化数据研究领域中具有重要意义。论文结合同类对象集和标签路径的概念,提出了一种从OEM模型中抽取模式的新方法。算法的基本思想是:在用OEM模型表示的半结构化数据中查找同类对象集,并通过构造模式表的方法来实现模式抽取。这种方法不但能从层次结构数据中抽取模式,而且还能从包含环路的OEM数据中进行模式抽取,克服了其它一些算法不能从带有环路的数据中进行模式抽取的缺点。 展开更多
关键词 半结构化数据 OEM 同类对象 模式表 模式抽取
下载PDF
关系数据库模式信息的提取 被引量:6
7
作者 许卓明 苏文萍 《河海大学学报(自然科学版)》 CAS CSCD 北大核心 2005年第2期202-206,共5页
鉴于关系数据库是当前Web的主要信息源,关系数据库模式信息的提取是实现当前Web向语义Web迁移的基础技术之一,介绍关系数据库模式信息提取原型工具RDBSExtractor,分析与总结关系数据库的模式信息,给出基于JDBCAPI的RDBSExtractor设计思... 鉴于关系数据库是当前Web的主要信息源,关系数据库模式信息的提取是实现当前Web向语义Web迁移的基础技术之一,介绍关系数据库模式信息提取原型工具RDBSExtractor,分析与总结关系数据库的模式信息,给出基于JDBCAPI的RDBSExtractor设计思想和实现技术.案例研究表明,基于JDBCAPI的模式提取方法是可行的,RDBSExtractor是有效的. 展开更多
关键词 关系数据库 模式提取 语义WEB CASE工具
下载PDF
Web数据管理研究综述 被引量:83
8
作者 孟小峰 《计算机研究与发展》 EI CSCD 北大核心 2001年第4期385-395,共11页
综述了 Web数据管理技术 .对 Web数据管理的研究给出了定义 .就 Web数据管理的几个重要问题给出了阐述 .在此基础上提出了一种基于 XML 的
关键词 Web数据管理 半结构化数据模式 信息集成 数据模型 数据库 计算机
下载PDF
从多个RDFS本体中抽取子本体 被引量:6
9
作者 苗壮 张亚非 陆建江 《情报学报》 CSSCI 北大核心 2007年第1期71-76,共6页
RDFS本体提供了用于表达语义信息的通用框架,是语义网的基础。本体规模的增大使得对于特定领域知识利用的效率降低,从中抽取领域子本体可解决此问题。单个本体中包含的领域知识有限,从多个本体中抽取子本体可获取更多的领域知识。将R... RDFS本体提供了用于表达语义信息的通用框架,是语义网的基础。本体规模的增大使得对于特定领域知识利用的效率降低,从中抽取领域子本体可解决此问题。单个本体中包含的领域知识有限,从多个本体中抽取子本体可获取更多的领域知识。将RDFS本体抽象为图模型,根据RDFS推理规则和本体间映射,生成多个RDFS源本体的联合闭包。应用图理论构建抽取算法,生成以领域概念为节点的子图,得到所需的领域本体。该方法对于RDFS层次的领域本体抽取有一定的适用性,可快速有效地构建领域本体。 展开更多
关键词 RDFS 本体 子本体抽取 图模型 闭包
下载PDF
抽取XML模式到关系模式 被引量:2
10
作者 洪欣 陈维斌 杜吉祥 《华侨大学学报(自然科学版)》 CAS 北大核心 2010年第3期288-291,共4页
提出一种XML建模技术,对多个XML文档构造共享模型.通过该模型构造的XML共享模式到关系模式的映射,实现将同源异构的XML片断抽取到相同的关系表中.试验表明,算法在同源异构XML片断的映射上具有比以往算法更好的映射结果.
关键词 XML模式 XML模型 关系模式 数据抽取
下载PDF
基于图模型的RDF/RDFS本体抽取方法 被引量:5
11
作者 赵天忠 苗壮 +2 位作者 张亚非 陆建江 徐伟光 《解放军理工大学学报(自然科学版)》 EI 2007年第2期123-126,共4页
为了提高RDF/RDFS本体中特定领域知识的利用效率,提出了一种从源本体中抽取出特定领域本体的算法。将RDF/RDFS本体抽象为图模型;根据RDFS推理规则生成RDFS本体图模型的闭包;应用图理论构建抽取算法,生成以特定领域术语词典中概念为节点... 为了提高RDF/RDFS本体中特定领域知识的利用效率,提出了一种从源本体中抽取出特定领域本体的算法。将RDF/RDFS本体抽象为图模型;根据RDFS推理规则生成RDFS本体图模型的闭包;应用图理论构建抽取算法,生成以特定领域术语词典中概念为节点的子图,得到所需的领域本体。抽取结果表明,该方法对于RDF层次的领域本体抽取有良好的适用性,可快速有效地构建特定领域本体。 展开更多
关键词 资源描述框架 资源描述框架模式 本体 本体抽取 图模型 闭包
下载PDF
基于频繁模式半结构化数据的模式抽取 被引量:4
12
作者 李颖 张晓贤 孙佳慧 《吉林大学学报(信息科学版)》 CAS 2012年第5期540-543,共4页
为克服半结构化数据存储复杂的缺点,提出一种基于动态树的半结构化的存储模型。对该模型进行模式抽取,并将其引入到Apriori算法。通过设置最小支持度阀值过滤掉不必要的信息,输出最长频繁路径的集合,以实现半结构化数据的提取。实验结... 为克服半结构化数据存储复杂的缺点,提出一种基于动态树的半结构化的存储模型。对该模型进行模式抽取,并将其引入到Apriori算法。通过设置最小支持度阀值过滤掉不必要的信息,输出最长频繁路径的集合,以实现半结构化数据的提取。实验结果表明,该算法能同时有效地处理分支及环路问题,避免了死循环的出现。 展开更多
关键词 半结构化数据 数据挖掘 频繁模式 模式抽取
下载PDF
半结构化数据的最小化模式发现 被引量:1
13
作者 李久仲 石硕 沈轶 《计算机应用与软件》 CSCD 2009年第4期51-54,共4页
半结构化数据的模式抽取对于半结构化数据查询、优化及异构数据的集成具有重要的意义。结合标签路径及标签路径的目标集概念,提出了基于OEM(Object Exchange Model)模型的半结构化数据最小化模式抽取新方法,并给出了与标签路径目标集、... 半结构化数据的模式抽取对于半结构化数据查询、优化及异构数据的集成具有重要的意义。结合标签路径及标签路径的目标集概念,提出了基于OEM(Object Exchange Model)模型的半结构化数据最小化模式抽取新方法,并给出了与标签路径目标集、支持度计算相关的两个定理。算法的基本思路:依据文中的两个定理,采用宽度优先自顶向下的遍历策略依次求出各标签路径的最后一个标签的目标集及支持度,标签支持度大的目标集优先映射为对应的模式节点。对同一半结构数据实例,算法抽取的模式与其他算法得到的模式相比规模小、算法执行时间短。算法适用于层次型及包含环路的OEM半结构化数据模式抽取。 展开更多
关键词 半结构化数据 模式抽取 OEM模型 标签路径 标签路径的支持度 标签路径的目标集
下载PDF
海洋渔业数据仓库的研究与实现 被引量:1
14
作者 周甦芳 吴健平 崔雪森 《海洋渔业》 CSCD 2006年第3期246-250,共5页
数据仓库技术作为数据库技术应用的新型手段,是海洋渔业数据集成、实现业务化管理的良好的解决方案。根据海洋渔业的特点,本文提出了构建海洋渔业数据仓库的策略、基本框架,探讨了在海洋环境数据仓库建设过程中数据集市模型设计、建立... 数据仓库技术作为数据库技术应用的新型手段,是海洋渔业数据集成、实现业务化管理的良好的解决方案。根据海洋渔业的特点,本文提出了构建海洋渔业数据仓库的策略、基本框架,探讨了在海洋环境数据仓库建设过程中数据集市模型设计、建立数据准备区、数据规划和数据提取等四个关键问题,用SQL Server初步建成了海洋渔业数据仓库。 展开更多
关键词 海洋渔业 数据仓库 数据集市 数据模型 数据提取
下载PDF
基于竞争机制的双目视觉匹配与实时测距 被引量:5
15
作者 熊超 田小芳 陆起涌 《计算机工程与应用》 CSCD 北大核心 2006年第1期83-85,共3页
利用立体视觉系统实现移动机器人避障具有探测范围宽,目标信息完整等优势。从立体视觉中提取距离信息是计算机视觉的热点问题,其困难在于图像匹配问题。文章提出了一种基于竞争机制实现立体视觉匹配的方法。该方法将匹配问题映射为一个... 利用立体视觉系统实现移动机器人避障具有探测范围宽,目标信息完整等优势。从立体视觉中提取距离信息是计算机视觉的热点问题,其困难在于图像匹配问题。文章提出了一种基于竞争机制实现立体视觉匹配的方法。该方法将匹配问题映射为一个矩阵,其元素代表可能匹配的像点。根据匹配约束,匹配矩阵元素之间竞争,最后胜出者即为最优匹配点。获得匹配点后,根据摄像机透射投影模型恢复图像深度信息。实验结果表明,该方法需处理数据少、计算简便、适于实时测量。 展开更多
关键词 计算机视觉 双目测距 匹配矩阵 特征提取 竞争机制
下载PDF
顾及语义差异的基础地理信息客户数据库更新实施模型 被引量:8
16
作者 王育红 牛亚辉 林艳 《地理与地理信息科学》 CSSCI CSCD 北大核心 2011年第1期1-6,共6页
客户数据库更新就是利用新版基础地理数据库中更新变化的要素信息,对客户数据库进行相应的级联更新,以使其具有良好现势性的过程。现有研究大多侧重于基础地理数据库更新信息的分发与提供,而没有充分考虑语义差异环境下如何高效实施客... 客户数据库更新就是利用新版基础地理数据库中更新变化的要素信息,对客户数据库进行相应的级联更新,以使其具有良好现势性的过程。现有研究大多侧重于基础地理数据库更新信息的分发与提供,而没有充分考虑语义差异环境下如何高效实施客户数据库更新的具体问题。针对此,该文概括了基础地理数据库与其客户数据库之间潜在的各种语义差异;从实施效率、数据完备性、一致性、正确性等方面,分析描述了语义差异给更新实施过程带来的不利影响;最后依据语义映射和转换理论,提出了由语义匹配、变化提取、更新集成3种基本操作组成的更新实施模型,并阐述了3种基本操作的执行策略和关键环节。 展开更多
关键词 语义匹配 模式映射 要素映射 变化提取 更新集成
下载PDF
基于XML语言甲骨文语料库元数据抽取的研究 被引量:5
17
作者 吴琴霞 高峰 刘永革 《计算机技术与发展》 2012年第5期216-218,222,共4页
计算机辅助甲骨文考释首先要解决的是以统一的数据形式来管理甲骨文信息,文中提出了一种基于XML语言的元数据抽取方法,提出了将抽取出的元数据存放到元数据库中,使用视图对元数据库进行动态地增加或删除,来弥补元数据抽取不全或错误的... 计算机辅助甲骨文考释首先要解决的是以统一的数据形式来管理甲骨文信息,文中提出了一种基于XML语言的元数据抽取方法,提出了将抽取出的元数据存放到元数据库中,使用视图对元数据库进行动态地增加或删除,来弥补元数据抽取不全或错误的现象。同时通过XML Schema文档检测保存的元数据的语法格式,为以后映射到甲骨文语料库中做了语法的检测。该方法为甲骨文语料库的建设提出了一种新方案,也为后期语料信息语义化和专家系统推理打下了基础。 展开更多
关键词 语料库 元数据 信息抽取 XML XML schema
下载PDF
面向新领域的事件抽取研究综述 被引量:7
18
作者 黄河燕 刘啸 《智能系统学报》 CSCD 北大核心 2022年第1期201-212,共12页
在当前互联网时代,大量新领域下的非结构文本数据中蕴含了海量信息。面向新领域的事件抽取方法研究能快速地构建领域知识库,用于支撑基于知识的下游应用。但现有事件抽取系统的领域限定性强,在新领域中从零构建会极度依赖事件体系和标... 在当前互联网时代,大量新领域下的非结构文本数据中蕴含了海量信息。面向新领域的事件抽取方法研究能快速地构建领域知识库,用于支撑基于知识的下游应用。但现有事件抽取系统的领域限定性强,在新领域中从零构建会极度依赖事件体系和标注数据的质量及规模,需要大量人力和专家知识来定制模板和标注语料。而且数据集中常见在相同的上下文中出现多个相关联的事件实例,对事件抽取和真实性检测产生了极大阻碍。本文针对面向新领域的事件抽取这一新兴研究领域进行综述,从事件模板推导、多实例联合事件抽取、事件真实性检测三个研究方向介绍了相关工作的研究现状,并对目前存在的重点和难点问题进行了讨论,指出了下一步需要开展的研究工作。 展开更多
关键词 事件抽取 新领域 信息抽取 事件模板推导 联合抽取 事件真实性检测 自然语言处理 知识库
下载PDF
基于结果模式的Deep Web数据标注方法 被引量:2
19
作者 李明 李秀兰 《计算机应用》 CSCD 北大核心 2011年第7期1733-1736,共4页
全面准确地标注Deep Web查询结果是Deep Web数据集成的关键问题,但现有的Web数据库标注方法还不能较好地解决该问题,为此提出一种基于结果模式的Deep Web数据标注方法。首先通过结果页面解析和抽取结构化数据来完成数据预处理的工作,并... 全面准确地标注Deep Web查询结果是Deep Web数据集成的关键问题,但现有的Web数据库标注方法还不能较好地解决该问题,为此提出一种基于结果模式的Deep Web数据标注方法。首先通过结果页面解析和抽取结构化数据来完成数据预处理的工作,并在集成结果模式和待标注数据之间建立正确的语义映射,进而确定DeepWeb数据的标注信息。通过对4个领域Web数据库进行实验测试,结果表明所提方法能有效地标注Deep Web查询结果数据。 展开更多
关键词 DEEP WEB 结果模式 数据标注 数据抽取
下载PDF
基于领域模型的Web数据抽取与集成 被引量:4
20
作者 李贵 张淼 +1 位作者 李征宇 孙平 《微电子学与计算机》 CSCD 北大核心 2012年第9期152-156,共5页
Web数据抽取与集成的目的是提供面向领域的增值服务,结合领域数据特征,提出Web数据模式与领域数据模型.给出了基于Web数据模式的数据定位、抽取与基于领域数据模型的集成算法,并结合行业领域的需求,验证了模型和算法的有效性.
关键词 WEB数据模型 Web数据模式 领域数据模型 数据抽取与集成
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部