-
题名开放式信息抽取研究进展
被引量:28
- 1
-
-
作者
杨博
蔡东风
杨华
-
机构
沈阳航空航天大学知识工程研究中心
沈阳航空航天大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2014年第4期1-11,36,共12页
-
基金
国家"十二五"科技支撑计划(2012BAH14F00)
国家自然科学基金(61073123)
-
文摘
从大规模非结构化文本中自动地抽取有用信息是自然语言处理和人工智能的一个重要目标。开放式信息抽取在高效挖掘网络文本信息方面已成为必然趋势,按关系参数可分为二元、多元实体关系抽取,该文按此路线对典型方法的现状和存在问题进行分析与总结。目前多数开放式实体关系抽取仍是浅层语义处理,对隐含关系抽取很少涉及。采用马尔科夫逻辑、本体结构推理等联合推理方法可综合多种特征,有效推断细微完整信息,为深入理解文本打开新局面。
-
关键词
开放式信息抽取
联合推理
文本理解
-
Keywords
open information extraction
joint inference
text understanding
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向开放式信息抽取系统的知识推理验证
被引量:2
- 2
-
-
作者
陈泽东
赵旭剑
张晖
杨春明
李波
-
机构
西南科技大学计算机科学与技术学院
西南科技大学理学院
-
出处
《西南科技大学学报》
CAS
2019年第4期72-80,共9页
-
基金
教育部人文社科基金(17YJCZH260)
-
文摘
开放式信息抽取系统是从Web等非结构化文本中挖掘知识的主要途径,但其抽取结果往往存在大量噪声,对知识发现以及知识库构建产生较大影响。提出一种基于概率软逻辑模型的知识推理验证方法,该方法首先使用一阶逻辑语言对知识抽取结果进行转化和推理,并且在推理过程中引入本体规则进行约束,在此基础上,建立推理规则的自动学习机制,解除传统规则推理对于实体解析规则的依赖,进而实现对知识的自动推理和验证。经实验对比验证,该方法具有更优的算法性能,实现了规则的自动学习,提高了知识推理效率,对验证知识的语义规范性和正确性有积极作用。
-
关键词
开放式信息抽取系统
知识推理验证
规则自动学习
概率软逻辑模型
-
Keywords
Open information extraction system
Knowledge reasoning and verification
Rule learning
Probabilistic soft logic model
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于生成式对抗网络的开放式信息抽取
被引量:2
- 3
-
-
作者
韩家宝
王宏志
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《智能计算机与应用》
2021年第10期155-159,共5页
-
基金
国家自然科学基金(U1866602,71773025)
国家重点研发计划(2020YFB1006104)
-
文摘
开放信息抽取(Open IE)是自然语言处理(NLP)的核心任务。尽管在这方面工作投入很多,但仍有许多问题需要解决。传统的开放式信息抽取方法使用一组手工定制的抽取模式从语料库中提取关系元组。同时,在程序中使用了许多自然语言处理工具;因此,将面临误差传播问题。为了解决这些问题,并受到最近成功的生成式对抗网络(GANs)的启发,文中采用了一种对抗训练架构,将其命名为Adversarial-OIE。在Adversarial-OIE中,开放式信息抽取模型的训练由一个鉴别器辅助,这是一个卷积神经网络(CNN)模型。该鉴别器的目标是将Open IE模型生成的提取结果与训练数据进行区分。开放IE模型的目标是产生高质量的三元组来欺骗鉴别器。利用策略梯度方法对Open IE模型和鉴别器进行联合训练。通过实验证实,本文的方法明显优于许多现有的基准测试。
-
关键词
生成式对抗网络
神经网络
开放式信息抽取
-
Keywords
Generative Adversarial Networks
Neural Networks
open information extraction
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名开放式文本信息抽取
被引量:62
- 4
-
-
作者
赵军
刘康
周光有
蔡黎
-
机构
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2011年第6期98-110,共13页
-
基金
国家自然科学基金资助项目(60875041
61070106)
-
文摘
信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。该文在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、实体消歧和关系抽取的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。
-
关键词
开放式信息抽取
知识工程
文本理解
-
Keywords
open information extraction
knowledge engineering
text understanding
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名中文开放式多元实体关系抽取
被引量:13
- 5
-
-
作者
李颖
郝晓燕
王勇
-
机构
太原理工大学计算机科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2017年第S1期80-83,共4页
-
基金
基于框架语义标注的中文篇章指代消解策略研究(2012011011-2)资助
-
文摘
传统信息抽取针对特定的领域。当转换到新领域时,需要人工编写新的抽取规则和人工标记新的训练样本。开放信息抽取突破了传统信息抽取的局限性。现有的开放式信息抽取系统大多针对英文,然而,目前对于中文的研究相对较少,并主要以抽取三元组为主,没有针对中文抽取多元组的方法。因此提出了一种基于依存分析的中文开放式多元实体关系抽取方法。首先,对文本集进行预处理和依存关系分析;然后将动词视为候选关系词,将与此动词有满足条件的有效依存路径的基本名词短语视为实体词,关联两个及两个以上的实体词的关系词可与实体词组成候选多元实体关系组;最后,使用经过训练的逻辑回归分类器对多元实体关系组进行过滤。对百度百科数据集的抽取结果显示,所提方法在抽取大量实体关系多元组时准确性可达到81%。
-
关键词
中文开放式信息抽取
依存分析
实体关系抽取
机器学习
OIE
word2vec
-
Keywords
Chinese open information extraction
Dependency parsing
Entity-relation extraction
Machine learning
OIE
Word2vec
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于依存分析的开放式中文实体关系抽取方法
被引量:27
- 6
-
-
作者
李明耀
杨静
-
机构
上海市多维度信息处理重点实验室
华东师范大学计算机科学技术系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第6期201-207,共7页
-
基金
上海市科委基金资助项目(14511107000)
-
文摘
实体关系抽取是信息抽取的组成部分,其目标是确定实体之间是否存在某种语义关系。由于中文语法错综复杂、表达方式灵活、语义多样等固有性质的限制,导致在中文中以动词作为关系表述容易引起实体间的关系含糊不清。为此,利用依存分析,提出一种开放式中文实体关系抽取方法。对输入的单句进行依存分析,通过依存分析输出的依存弧判断单句是否为动词谓语句,如果是动词谓语句则结合中文语法启发式规则抽取关系表述。根据距离确定论元位置,对三元组进行评估,输出符合条件的三元组。在Sogou CA和Sogou CS语料库上的实验结果表明,提出的方法适用于大规模语料库,具有较好的性能与可移植性。与基于卷积树核的无监督层次聚类方法相比,F值提高了16.68%。
-
关键词
开放式信息抽取
中文实体关系抽取
依存分析
无监督
启发式规则
-
Keywords
Open Information Extraction(OIE)
Chinese entity relation extraction
dependency parsing
unsupervised
heuristic rule
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于词共现图的属性知识库迭代自增式扩展算法
被引量:2
- 7
-
-
作者
李直旭
沈永新
陈嘉
刘安
赵朋朋
赵雷
-
机构
苏州大学计算机科学与技术学院
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2018年第12期1143-1150,共8页
-
基金
国家自然科学基金项目(No.61632016
61402313
+1 种基金
61472263)
江苏省高校自然科学基金项目(No.17KJA520003)资助~~
-
文摘
属性知识库扩展研究中已有的开放式信息抽取方法都十分依赖深度句法分析或有效的词典规则,在短文本处理上效果较差,召回率较低.文中提出基于词共现图的属性知识库迭代自增式扩展算法,利用属性与属性值的共现关系扩展知识库,并设计基于图的社区发现算法,找出社区的核心节点.最后,设计基于卷积神经网络的模型对抽取结果进行去噪.在两个真实数据集上的实验表明,文中方法在抽取质量上优于现有方法.
-
关键词
开放式信息抽取
属性知识库
词共现图
-
Keywords
Open Information Extraction
Attribute Knowledge Base
Word Co-occurrence Graph
-
分类号
TP182
[自动化与计算机技术—控制理论与控制工程]
-
-
题名融合WordNet的无监督语义分析研究
被引量:2
- 8
-
-
作者
杨博
蔡东风
赵奇猛
杨华
-
机构
沈阳航空航天大学知识工程研究中心
沈阳航空航天大学计算机学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2014年第2期368-373,共6页
-
基金
国家"十二五"科技支撑计划项目(2012BAH14F00)资助
国家自然科学基金项目(61073123)资助
-
文摘
应用机器学习方法处理机器阅读的相关任务是人工智能的长远目标,但通常需要大量的人工监督操作.研究一种无监督学习在机器阅读的一个主要任务-语义分析中的应用,这种无监督方法得益于统计关系学习统一框架-Markov逻辑网.鉴于该方法通过依存句法信息无法解析语义分析中普遍存在的反义词、词形变化等语言现象,该文融合WordNet进行改进,促进概念的抽取及合并,并将机器阅读的主要目标-问答作为评价手段,结果表明这种WordNet词典与无监督机器学习相结合的方法可更好地进行语义分析,并且问答正确率可提高至90.6%.
-
关键词
MARKOV逻辑网
无监督学习
开放式信息抽取
WORDNET
-
Keywords
markov logic network
unsupervised learning
open information extraction
WordNet
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于故事浅层理解与事件框架的语义建模
被引量:1
- 9
-
-
作者
谢秋妹
高春鸣
王小兰
-
机构
湖南大学信息科学与工程学院
湖南大学数字媒体研究所
-
出处
《计算机科学》
CSCD
北大核心
2013年第10期221-225,264,共6页
-
基金
广东省教育部产学研结合项目(2011B090400002)资助
-
文摘
针对故事文本的语义理解需要,采用开放式信息抽取方式对故事文本进行多元事实抽取,并将多元事实框架表示成事件语义模型。本方法提出了基于依存关系分析和正则表达式相结合的多元事实抽取方法,得到故事浅层语义的多元事实框架,然后将多元事实框架通过规则映射到具有定量时空描述的事件本体模型即Story-Oriented Semantic Description Language(SOSDL)本体。实验表明,多元事实抽取方法能抽取出较多的事实,具有较高的准确率,且SOSDL本体能有效地表示多元事实框架的事件、语义要素以及它们之间的关系。
-
关键词
开放式信息抽取
自然语言处理
故事文本
事件本体
-
Keywords
Open information extraction,Natural language processing, Story text, Event ontology
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-