期刊文献+
共找到44篇文章
< 1 2 3 >
每页显示 20 50 100
基于知识图谱技术的电力行业多源异构数据融合研究 被引量:1
1
作者 熊小舟 徐滢 +1 位作者 刘小康 罗坤 《中国高新科技》 2023年第3期111-112,132,共3页
文章针对电力行业内部与外部异构系统中存在的数据独立问题,提出了一种基于知识图谱的行业内外部数据融合解决方案。分析了目前文本信息提取以及知识图谱构建的主流技术路线,提出新的文本提取方案和知识图谱构建方案,实现对多源数据的... 文章针对电力行业内部与外部异构系统中存在的数据独立问题,提出了一种基于知识图谱的行业内外部数据融合解决方案。分析了目前文本信息提取以及知识图谱构建的主流技术路线,提出新的文本提取方案和知识图谱构建方案,实现对多源数据的融合与应用。该技术研究在某电力公司进行管理风险识别试点应用,验证了该研究成果的实用性。 展开更多
关键词 多源异构数据融合 知识图谱技术 文本信息提取 工程管理风险
下载PDF
面向中文网络百科的属性和属性值抽取 被引量:12
2
作者 贾真 杨宇飞 +2 位作者 何大可 刘胜久 尹红风 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第1期41-47,共7页
针对面向中文网络百科条目文章的属性和属性值抽取,提出一种无监督方法。此方法将属性值看做命名实体,利用频繁模式挖掘和关联分析,从文本中抽取类别属性;采用自扩展方法为属性建立触发词表;基于属性触发词和属性值实体标注挖掘属性值... 针对面向中文网络百科条目文章的属性和属性值抽取,提出一种无监督方法。此方法将属性值看做命名实体,利用频繁模式挖掘和关联分析,从文本中抽取类别属性;采用自扩展方法为属性建立触发词表;基于属性触发词和属性值实体标注挖掘属性值抽取模式,利用层次聚类算法获取高质量的模式。在互动百科中采集的数据集上进行实验,结果表明所提方法行之有效。 展开更多
关键词 知识获取 属性抽取 非结构化文本 模式挖掘
下载PDF
一种基于“是一个”模式的下位概念获取方法 被引量:18
3
作者 刘磊 曹存根 +1 位作者 王海涛 陈威 《计算机科学》 CSCD 北大核心 2006年第9期146-151,共6页
在文本知识获取中,上下位关系的获取是一个基本而又关键的问题。针对基于模式上下位关系获取中遇到的下位概念获取问题,本文结合我们的研究工作,给出一种从符合“是一个”模式的句子中获取下位概念的方法,这里主要利用半自动获取的词典... 在文本知识获取中,上下位关系的获取是一个基本而又关键的问题。针对基于模式上下位关系获取中遇到的下位概念获取问题,本文结合我们的研究工作,给出一种从符合“是一个”模式的句子中获取下位概念的方法,这里主要利用半自动获取的词典和句型对“是一个”模式进行分析,然后根据不同的规则,分流获取下位概念。在实验分析中,此方法显示了较好的效果。 展开更多
关键词 上下位关系 概念获取 关系获取 知识获取 信息抽取
下载PDF
开放式文本信息抽取 被引量:61
4
作者 赵军 刘康 +1 位作者 周光有 蔡黎 《中文信息学报》 CSCD 北大核心 2011年第6期98-110,共13页
信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。该文在回顾文本... 信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。该文在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、实体消歧和关系抽取的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。 展开更多
关键词 开放式信息抽取 知识工程 文本理解
下载PDF
自由文本信息抽取技术 被引量:23
5
作者 李向阳 苗壮 《情报科学》 CSSCI 北大核心 2004年第7期815-821,829,共8页
信息抽取是从自由文本语料库构建数据库 ,实现情报自动收集的有效途径之一。近十多年来 ,信息抽取技术逐步走向成熟 ,已成为与信息检索相平行的技术之一。对信息抽取技术进行系统的归类、总结 ,已显得较为迫切。在对当前多种主要的信息... 信息抽取是从自由文本语料库构建数据库 ,实现情报自动收集的有效途径之一。近十多年来 ,信息抽取技术逐步走向成熟 ,已成为与信息检索相平行的技术之一。对信息抽取技术进行系统的归类、总结 ,已显得较为迫切。在对当前多种主要的信息抽取技术进行分析、比较的基础上 ,结合信息抽取所面临的挑战 。 展开更多
关键词 信息抽取 自由文本 知识获取
下载PDF
文本知识发现:基于信息抽取的文本挖掘 被引量:32
6
作者 周雪忠 吴朝晖 《计算机科学》 CSCD 北大核心 2003年第1期63-66,共4页
1.引言大家熟知,所谓“数据丰富但知识缺乏“的现状导致了数据挖掘(Data Mining)技术研究的兴起,数据挖掘又称数据库知识发现(Knowledge Discovery in Databases)是从海量的结构化信息中抽取或挖掘隐含信息和知识的重要方法和途径。数... 1.引言大家熟知,所谓“数据丰富但知识缺乏“的现状导致了数据挖掘(Data Mining)技术研究的兴起,数据挖掘又称数据库知识发现(Knowledge Discovery in Databases)是从海量的结构化信息中抽取或挖掘隐含信息和知识的重要方法和途径。数据挖掘技术已相当成熟。因为除了结构化的数据之外,在数字化信息中更多地存在大量自由、非结构化或半结构化的文本信息如新闻文章、电子书本、电子图书馆藏、Web页面内容、Email、文档数据库等,显然手工处理需要花费大量的人力物力,并且具有不确定性。 展开更多
关键词 文本知识发现 信息抽取 文本挖掘 数据库 数据挖掘
下载PDF
互信息改进方法在术语抽取中的应用 被引量:19
7
作者 杜丽萍 李晓戈 +1 位作者 周元哲 邵春昌 《计算机应用》 CSCD 北大核心 2015年第4期996-1000,1005,共6页
为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系... 为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系统的可移植性,提出了一种结合PMIk和两个基本过滤规则从未经过分词的语料库中进行术语抽取的算法。首先,利用PMIk方法计算两个字之间的结合强度,确定2元待扩展种子;其次,利用PMIk方法计算2元待扩展种子分别和其左边、右边的字的结合强度,确定2元是否能扩展为3元,如此迭代扩展出多元的候选术语;最后,利用两个基本过滤规则过滤候选术语中的垃圾串,得到最终结果。理论分析表明,当k≥3(k∈N+)时,PMIk方法能克服PMI方法的缺点。在1 GB的新浪财经博客语料库和300 MB百度贴吧语料库上的实验验证了理论分析的正确性,且PMIk方法获得了比PMI方法更高的精度,算法有良好的可移植性。 展开更多
关键词 术语抽取 专业术语 知识获取 互信息
下载PDF
文本挖掘技术综述 被引量:29
8
作者 梅馨 邢桂芬 《江苏大学学报(自然科学版)》 EI CAS 2003年第5期72-76,共5页
文本挖掘,是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程 对其进行深入的研究势必将极大地提高人们从海量的文本数据中提取信息的能力,具有很高的商业价值 首先介绍了文本数据挖掘的研究情况,然后给出了文本... 文本挖掘,是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程 对其进行深入的研究势必将极大地提高人们从海量的文本数据中提取信息的能力,具有很高的商业价值 首先介绍了文本数据挖掘的研究情况,然后给出了文本挖掘的框架,对文本挖掘中信息的抽取技术以及文本挖掘中使用的相关技术、评估方法等都作了详细的介绍,最后指出了文本挖掘在知识发现中的重要意义。 展开更多
关键词 文本挖掘 信息提取 信息检索 数据挖掘 知识发现
下载PDF
基于弱监督学习的中文网络百科关系抽取 被引量:7
9
作者 贾真 何大可 +2 位作者 杨燕 杨宇飞 冶忠林 《智能系统学报》 CSCD 北大核心 2015年第1期113-119,共7页
实体关系抽取在信息检索、自动问答、本体学习等领域都具有重要作用。提出了基于弱监督学习的关系抽取框架。首先利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料;针对训练语料数量较少导致特征不足的问题,采用... 实体关系抽取在信息检索、自动问答、本体学习等领域都具有重要作用。提出了基于弱监督学习的关系抽取框架。首先利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料;针对训练语料数量较少导致特征不足的问题,采用基于朴素贝叶斯的句子分类器和基于自扩展的训练方法,从未标注数据中获取更多的训练语料;然后利用条件随机场模型训练关系抽取器。实验结果表明所提方法的有效性,有现有方法相比,文中方法获得较高的准确率。 展开更多
关键词 知识获取 信息抽取 关系抽取 弱监督学习 自扩展 中文网络百科 条件随机场 朴素贝叶斯
下载PDF
网络专题知识组织知识元自动抽取系统的设计与实现 被引量:10
10
作者 谈春梅 颜世伟 刘子牧 《现代图书情报技术》 CSSCI 北大核心 2008年第3期62-67,共6页
采用Visual studio.NET开发平台,使用C#程序设计语言以及XML知识描述和数据存储,对网络专题知识组织和知识元自动抽取系统进行开发设计。对该系统的文本信息预处理、快速汉字结合自增长分词、词频全文精确统计等重要功能的设计与实现进... 采用Visual studio.NET开发平台,使用C#程序设计语言以及XML知识描述和数据存储,对网络专题知识组织和知识元自动抽取系统进行开发设计。对该系统的文本信息预处理、快速汉字结合自增长分词、词频全文精确统计等重要功能的设计与实现进行了深入研究。 展开更多
关键词 知识标引 知识元自动抽取 文本信息处理 自增长分词 快速算法
下载PDF
基于Ontology的信息抽取研究综述 被引量:10
11
作者 陈静 朱巧明 贡正仙 《计算机技术与发展》 2007年第10期84-86,91,共4页
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。Ontology作为领域知识的共同理解,能有效地解决现在信息抽取所面临的主要挑战——知识工程的瓶颈问题。文中详细介绍了本体的定义和建模语言,分析了现... 信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。Ontology作为领域知识的共同理解,能有效地解决现在信息抽取所面临的主要挑战——知识工程的瓶颈问题。文中详细介绍了本体的定义和建模语言,分析了现有基于本体信息抽取的几种典型方法,得出了其所存在的主要问题。 展开更多
关键词 信息抽取 本体 知识获取
下载PDF
文本挖掘在中医药文献分析中的应用 被引量:9
12
作者 杨进 罗漫 张启蕊 《广东药学院学报》 CAS 2010年第2期216-220,共5页
文本挖掘能从海量的中医药文献中发现知识以促进中医临床研究和中药研发。本文总结现有研究指出文本分类和信息抽取是中医药文献知识发现的关键技术,指出中医药文本分类、非关联知识发现和中医药文献信息抽取为三个主要研究方向,并论述... 文本挖掘能从海量的中医药文献中发现知识以促进中医临床研究和中药研发。本文总结现有研究指出文本分类和信息抽取是中医药文献知识发现的关键技术,指出中医药文本分类、非关联知识发现和中医药文献信息抽取为三个主要研究方向,并论述了三个研究领域中需解决的关键问题和研究方向,最后展望文本挖掘在中医药学科的应用前景,指出非关联文献知识将成为中西医结合研究的热点。 展开更多
关键词 文本挖掘 中医药文献 文本分类 信息抽取 非相关文献知识发现
下载PDF
面向中文文本数据库的信息抽取机制 被引量:2
13
作者 胡金化 胡运发 +1 位作者 周益群 许爱华 《小型微型计算机系统》 CSCD 北大核心 2002年第10期1161-1164,共4页
中文文本文件的句子中常包含有一些有价值的结构化数据 .本文提出了一种针对中文文本结构化信息的抽取机制 :抽取文本中的匹配模式 ,并将抽取后的匹配模式作为匹配模板放入知识库中 ,作为知识库中的规则 .并在此基础上提出了一种面向文... 中文文本文件的句子中常包含有一些有价值的结构化数据 .本文提出了一种针对中文文本结构化信息的抽取机制 :抽取文本中的匹配模式 ,并将抽取后的匹配模式作为匹配模板放入知识库中 ,作为知识库中的规则 .并在此基础上提出了一种面向文本数据库的一种新的信息查询机制 :以知识库中的规则作为基础 ,查询文本数据库中的数据时 ,先在知识库中找相应的规则 (即匹配模板 ) ,然后根据匹配模板在相应的文本数据库中查找相应的数据信息 . 展开更多
关键词 中文文本数据库 信息抽取机制 匹配模板 信息检索 知识库
下载PDF
一种智能化的信息采集系统的研究与实现 被引量:3
14
作者 高博 朱东华 韩士雄 《兵工学报》 EI CAS CSCD 北大核心 2009年第S1期130-134,共5页
信息采集系统一般需要用户手动设置采集规则,对采集结果不进行处理并返回大量信息。为了简化用户的操作并直接得到所需结果,提出了一种智能化信息采集系统。面向专家信息的采集,基于搜索引擎,根据专家的姓名、工作单位和领域关键词,利... 信息采集系统一般需要用户手动设置采集规则,对采集结果不进行处理并返回大量信息。为了简化用户的操作并直接得到所需结果,提出了一种智能化信息采集系统。面向专家信息的采集,基于搜索引擎,根据专家的姓名、工作单位和领域关键词,利用搜索引擎搜索与专家信息相关的网页,对网页文档进行规范化处理,并对网页的主体进行提取。经过语义相关度的计算来实现专家信息智能识别。测试结果显示,系统的采准率约为83.87%. 展开更多
关键词 计算机应用技术 信息采集 智能化 主体文本选取 网页识别
下载PDF
药品不良反应自动化监测技术研究进展 被引量:19
15
作者 王远航 刘皈阳 《中国药物警戒》 2010年第1期41-44,共4页
目的对利用计算机网络技术、智能认别技术等自动监测药品不良反应的方法进行综述。方法检索相关文献,对相关研究进行整理、分析、统计和归纳。结果随着计算机和人工智能技术的发展,已经可以实现利用信息化技术自动监测药品不良反应。常... 目的对利用计算机网络技术、智能认别技术等自动监测药品不良反应的方法进行综述。方法检索相关文献,对相关研究进行整理、分析、统计和归纳。结果随着计算机和人工智能技术的发展,已经可以实现利用信息化技术自动监测药品不良反应。常用的方法有"触发器"技术和"文本信息提取"技术,其中"触发器"技术已有多项成功案例,而"文本信息提取"技术仍有一些关键性问题需要解决。结论使用计算机软件可以自动监测药品不良反应发生情况,该技术的应用可以弥补现行自发呈报漏报率高、时效性差的不足,是一种有着广泛应用前景的新兴技术。 展开更多
关键词 药品不良反应 自动化监测 触发器 文本信息提取
下载PDF
基于搜索引擎的知识发现 被引量:3
16
作者 马玉春 宋瀚涛 《计算机工程与应用》 CSCD 北大核心 2004年第30期178-180,220,共4页
数据挖掘一般用于高度结构化的大型数据库,以发现其中所蕴含的知识。随着在线文本的增多,其中所蕴含的知识也越来越丰富,但是,它们却难以被分析利用。因而,研究一套行之有效的方案发现文本中所蕴含的知识是非常重要的,也是当前重要的研... 数据挖掘一般用于高度结构化的大型数据库,以发现其中所蕴含的知识。随着在线文本的增多,其中所蕴含的知识也越来越丰富,但是,它们却难以被分析利用。因而,研究一套行之有效的方案发现文本中所蕴含的知识是非常重要的,也是当前重要的研究课题。该文利用搜索引擎Google获取相关Web页面,进行过滤和清洗后得到相关文本,然后,进行文本聚类,利用Episode进行事件识别和信息抽取,数据集成及数据挖掘,从而实现知识发现。最后给出了原型系统,对知识发现进行实践检验,收到了很好的效果。 展开更多
关键词 搜索引擎 文本聚类 EPISODE 信息抽取 知识发现
下载PDF
基于文本的应急知识模式提取方法研究 被引量:1
17
作者 裘江南 王延章 +1 位作者 曲强 张浩 《情报学报》 CSSCI 北大核心 2011年第11期1129-1135,共7页
应急知识模式是关于突发事件演进规律的知识,因而是应急领域知识库的重要组成部分。应急知识模式提取有助于应急工作者有效了解事态现状和快速做出应急反应,进而降低事件负面影响。本文研究如何从海量应急领域文本中抽取应急工作者关... 应急知识模式是关于突发事件演进规律的知识,因而是应急领域知识库的重要组成部分。应急知识模式提取有助于应急工作者有效了解事态现状和快速做出应急反应,进而降低事件负面影响。本文研究如何从海量应急领域文本中抽取应急工作者关注的知识模式。我们用自然语言处理技术(NLP)从无结构海量应急领域文本中提取描述突发事件的特征事实,并通过提取特征事实之间的因果推理关系和并列作用关系,来构建知识的特征事实依赖图(FEDG)模型。基于FEDG模型,我们提出使用闭合约束搜索算法提取应急知识模式。通过实验及其分析证明本方法对知识模式提取具有较好效果。 展开更多
关键词 应急 文本 信息提取 知识模式
下载PDF
基于组织机构代码信息进行数据挖掘与属性关联分析的方法初探 被引量:5
18
作者 张业 韩雪 朱聪慧 《标准科学》 2012年第2期92-96,共5页
本文以涵盖各类单位动态基本信息的全国组织机构代码数据库为基础,依托当前自然语言自动处理技术的成功经验和研究成果,探究实现大规模机构信息自由文本数据的信息抽取、切分词优化、统计分类推断、属性关联分析等方法。为"全国组... 本文以涵盖各类单位动态基本信息的全国组织机构代码数据库为基础,依托当前自然语言自动处理技术的成功经验和研究成果,探究实现大规模机构信息自由文本数据的信息抽取、切分词优化、统计分类推断、属性关联分析等方法。为"全国组织机构代码共享平台"实现核心字段动态自动翻译、知识发现、数据质量提高,以及信息自动填补等方面提供关键技术支撑,进而为提高数据库信息利用率提供技术参考,为积极推进国家电子政务信息建设做出有益探索。 展开更多
关键词 组织机构代码信息 自由文本 信息抽取 属性关联
下载PDF
基于不完备信息的直升机传动系统故障诊断规则提取方法 被引量:4
19
作者 王珉 胡茑庆 秦国军 《振动与冲击》 EI CSCD 北大核心 2011年第12期185-190,共6页
在直升机传动系统诊断知识获取中,从不完备信息中获取故障诊断决策规则是一个难题,为此提出一种基于最大特征相似集,从不完备诊断决策表中提取传动系统最优广义诊断决策规则的方法,分析了未知属性值的两种类型,以属性-值集的形式表示不... 在直升机传动系统诊断知识获取中,从不完备信息中获取故障诊断决策规则是一个难题,为此提出一种基于最大特征相似集,从不完备诊断决策表中提取传动系统最优广义诊断决策规则的方法,分析了未知属性值的两种类型,以属性-值集的形式表示不完备诊断决策表中实例的关系,引入特征关系,给出最大特征相似集的定义,介绍了广义决策规则,以最大特征相似集为单位构造了不完备决策表的分辨函数矩阵,结合命题逻辑中的基本等价式,实现了不完备诊断决策表中的规则提取与约简,结合直升机尾减轴承振动信号的故障诊断实例对所提出的方法进行工程应用,给出应用步骤,并证明了该方法的有效性。 展开更多
关键词 直升机传动系统 知识获取 不完备信息 属性-值集 特征关系 最大特征相似集 规则提取
下载PDF
知识抽取中的停用词处理技术 被引量:38
20
作者 化柏林 《现代图书情报技术》 CSSCI 北大核心 2007年第8期48-51,共4页
在知识抽取的分词过程中,需要提前把停用词标引出来。停用词处理的关键在于停用词的认定、停用词表的获取与组织技术以及停用词匹配技术。停用词的识别常常需要停用词表,识别过程中需要判断假停用词以降低噪声。实验表明,对停用词进行... 在知识抽取的分词过程中,需要提前把停用词标引出来。停用词处理的关键在于停用词的认定、停用词表的获取与组织技术以及停用词匹配技术。停用词的识别常常需要停用词表,识别过程中需要判断假停用词以降低噪声。实验表明,对停用词进行单独处理可以大大加快词语切分速度以及后续的句法分析归约速度。 展开更多
关键词 知识抽取 停用词 中文分词 自然语言处理 文本信息分析
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部