期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
IESRL:An information extraction system for research level
1
作者 Fuhai LENG Rujiang BAI Qingsong ZHU 《Chinese Journal of Library and Information Science》 2013年第4期16-27,共12页
Purpose:In order to annotate the semantic information and extract the research level information of research papers,we attempt to seek a method to develop an information extraction system.Design/methodology/approach:S... Purpose:In order to annotate the semantic information and extract the research level information of research papers,we attempt to seek a method to develop an information extraction system.Design/methodology/approach:Semantic dictionary and conditional random field model(CRFM)were used to annotate the semantic information of research papers.Based on the annotation results,the research level information was extracted through regular expression.All the functions were implemented on Sybase platform.Findings:According to the result of our experiment in carbon nanotube research,the precision and recall rates reached 65.13%and 57.75%,respectively after the semantic properties of word class have been labeled,and F-measure increased dramatically from less than 50%to60.18%while added with semantic features.Our experiment also showed that the information extraction system for research level(IESRL)can extract performance indicators from research papers rapidly and effectively.Research limitations:Some text information,such as that of format and chart,might have been lost due to the extraction processing of text format from PDF to TXT files.Semantic labeling on sentences could be insufficient due to the rich meaning of lexicons in the semantic dictionary.Research implications:The established system can help researchers rapidly compare the level of different research papers and find out their implicit innovation values.It could also be used as an auxiliary tool for analyzing research levels of various research institutions.Originality/value:In this work,we have successfully established an information extraction system for research papers by a revised semantic annotation method based on CRFM and the semantic dictionary.Our system can analyze the information extraction problem from two levels,i.e.from the sentence level and noun(phrase)level of research papers.Compared with the extraction method based on knowledge engineering and that on machine learning,our system shows advantages of the both. 展开更多
关键词 Research papers information extraction Semantic labeling regular expression Conditional random fields Research level
下载PDF
面向真实世界的知识挖掘与知识图谱补全研究(三):基于正则表达式对膀胱癌真实世界数据的结构化信息抽取
2
作者 马文昊 石涵予 +7 位作者 黄桥 黄兴 王永博 王诗淳 任相颖 施悦 靳英辉 阎思宇 《医学新知》 CAS 2024年第3期312-321,共10页
随着医疗大数据的发展,真实世界研究近些年来越来越受到重视,发展前景良好,但真实世界研究的实施仍存在一些挑战,引起学者们广泛讨论。真实世界数据的非结构化是目前最亟待解决的问题。本研究以正则表达式为基础,通过基于规则的信息抽... 随着医疗大数据的发展,真实世界研究近些年来越来越受到重视,发展前景良好,但真实世界研究的实施仍存在一些挑战,引起学者们广泛讨论。真实世界数据的非结构化是目前最亟待解决的问题。本研究以正则表达式为基础,通过基于规则的信息抽取方法对武汉大学中南医院近几年膀胱癌患者的入院记录、病理报告、手术记录和影像记录等数据进行结构化信息抽取,并以准确率和召回率为指标评价其抽取效果,旨在为后续研究提供参考。 展开更多
关键词 真实世界数据 信息抽取 正则表达式 自然语言处理 电子病历数据 膀胱癌
下载PDF
基于正则表达式的专利信息提取方法研究 被引量:15
3
作者 邱清盈 郑国民 +1 位作者 冯培恩 武建伟 《中国机械工程》 EI CAS CSCD 北大核心 2007年第19期2326-2329,共4页
针对图像格式专利文献难以进行全文检索和深入分析利用的问题,根据专利文献的结构特点,通过集成光学字符识别工具和建立具有容错性的专利信息提取正则表达式,提出了专利文献的数字化和信息提取方法。开发了相应的软件系统,实现了专利信... 针对图像格式专利文献难以进行全文检索和深入分析利用的问题,根据专利文献的结构特点,通过集成光学字符识别工具和建立具有容错性的专利信息提取正则表达式,提出了专利文献的数字化和信息提取方法。开发了相应的软件系统,实现了专利信息的批量提取,为后续高效率地对专利文献进行自动分析和知识挖掘提供了数据基础。 展开更多
关键词 专利分析 信息提取 正则表达式 设计知识
下载PDF
正则表达式在Web信息抽取中的应用 被引量:39
4
作者 胡军伟 秦奕青 张伟 《北京信息科技大学学报(自然科学版)》 2011年第6期86-89,共4页
针对基于HTML结构的信息抽取方法,提出了正则表达式的处理方法。利用正则表达式的匹配、替换和提取等功能,重点讨论了正则表达式在Web信息抽取过程中的应用。正则表达式已成功的应用在数据搜集、页面优化、规则学习和信息抽取等整个Web... 针对基于HTML结构的信息抽取方法,提出了正则表达式的处理方法。利用正则表达式的匹配、替换和提取等功能,重点讨论了正则表达式在Web信息抽取过程中的应用。正则表达式已成功的应用在数据搜集、页面优化、规则学习和信息抽取等整个Web信息抽取的过程中。 展开更多
关键词 WEB信息抽取 正则表达式 匹配 替换 提取
下载PDF
ReDE:一个基于正则表达式的生物数据抽取方法 被引量:8
5
作者 邓绪斌 朱扬勇 《计算机研究与发展》 EI CSCD 北大核心 2005年第12期2184-2191,共8页
从异构生物数据源抽取数据,建立查询分析平台是目前研究的热点,而抽取过程会涉及大量相互依赖的元数据,充分利用这种依赖关系可降低维护工作量·基于正则表达式(RE)提出了ReDE抽取方法:通过围绕RE组建立分析树,设计了基于RE的关系... 从异构生物数据源抽取数据,建立查询分析平台是目前研究的热点,而抽取过程会涉及大量相互依赖的元数据,充分利用这种依赖关系可降低维护工作量·基于正则表达式(RE)提出了ReDE抽取方法:通过围绕RE组建立分析树,设计了基于RE的关系数据库模式生成算法和通用抽取与组装算法,其特点是:RE是惟一的元数据,易于管理和维护·该方法奠定了生物数据库辅助设计工具和高自动化抽取工具的基础,已用于构建国内第1个整合的生物信息在线数据仓库· 展开更多
关键词 生物数据源 数据抽取 元数据 正则表达式 抽取算法
下载PDF
基于页面分类的Web信息抽取方法研究 被引量:5
6
作者 成卫青 于静 +1 位作者 杨晶 杨龙 《计算机技术与发展》 2013年第1期54-58,共5页
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通... 通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。 展开更多
关键词 WEB信息抽取 正则表达式 页面分类 HTMLPARSER 结点树
下载PDF
正则表达式在旅游突发事件信息抽取中的应用 被引量:6
7
作者 熊志斌 朱剑锋 尹成国 《软件》 2015年第11期15-17,22,共4页
针对HTML语言的标记符号的语义特点,提出了正则表达式抽取网页信息的方法,并将该方法应用于抽取网页中的旅游突发事件信息。该方法不需要构建DOM树,利用正则表达式的匹配替换功能去掉网页源码中与正文无关的内容生成原始文档,根据原始... 针对HTML语言的标记符号的语义特点,提出了正则表达式抽取网页信息的方法,并将该方法应用于抽取网页中的旅游突发事件信息。该方法不需要构建DOM树,利用正则表达式的匹配替换功能去掉网页源码中与正文无关的内容生成原始文档,根据原始文档中的正文内容密集出现的特点,寻找正文的起点和终点,从而提取正文。抽取旅游突发事件信息的试验结果表明,正则表达式能高效地抽取目标信息。 展开更多
关键词 中文信息处理 信息抽取 正则表达式 旅游突发事件
下载PDF
中文文本中时间信息抽取及规范化方法 被引量:9
8
作者 宋国民 张三强 +1 位作者 贾奋励 姜松言 《测绘科学技术学报》 北大核心 2019年第5期538-544,共7页
时间信息抽取和规范化表达在时空泛在信息处理、关联、聚合和内容服务中具有重要作用。设计并实现了一种基于规则的时间信息抽取和规范化表达的方法。首先,结合中文文本中时间信息描述的特点,定义了基本时间单元和派生时间单元,并由时... 时间信息抽取和规范化表达在时空泛在信息处理、关联、聚合和内容服务中具有重要作用。设计并实现了一种基于规则的时间信息抽取和规范化表达的方法。首先,结合中文文本中时间信息描述的特点,定义了基本时间单元和派生时间单元,并由时间单元组合形成不同的时间表达式;然后,构建了时间词汇词典和时间表达式抽取的正则表达式模板;最后,设计了时间推理和计算的方法,实现了时间信息的规范化表达。基于中文文本语料进行了时间信息抽取测试。实验结果表明,本文方法具有较好的时间信息抽取效果。 展开更多
关键词 中文文本 时间 信息抽取 规范化 时间表达式 正则表达式 时间推理
下载PDF
基于正则表达式的企业主页信息抽取 被引量:2
9
作者 靳小川 刘万军 赵雷 《计算机系统应用》 2010年第8期70-73,共4页
主要分析了企业主页上描述企业基本信息表达语句的结构特点,提出了基于正则表达式的企业主页信息抽取的方法和技术,并设计开发了一个相应的原型系统对一些企业信息项进行抽取。实验结果表明,该系统可以有效地从企业主页上抽取企业相关信... 主要分析了企业主页上描述企业基本信息表达语句的结构特点,提出了基于正则表达式的企业主页信息抽取的方法和技术,并设计开发了一个相应的原型系统对一些企业信息项进行抽取。实验结果表明,该系统可以有效地从企业主页上抽取企业相关信息,并得到较高的抽全率和抽准率。 展开更多
关键词 企业主页 正则表达式 信息抽取
下载PDF
基于单元识别的网页信息抽取方法 被引量:1
10
作者 柳永念 钟诚 焦小焦 《广西大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第5期787-791,共5页
建立基于链的父亲结构树描述和存储网页信息,采用Htmlparse和基于正则表达式的描述方法,设计、实现了一种高效的基于单元识别的网页信息抽取算法。分析与实验结果表明,文中给出的网页信息抽取方法能提高检索的查准率和查全率。
关键词 单元识别 信息抽取 父亲结构树 HTMLPARSER 正则表达式
下载PDF
基于C#正则表达式的农业文献管理系统的研究与应用 被引量:1
11
作者 杨波 张立娜 《安徽农业科学》 CAS 2012年第5期2988-2990,共3页
利用PDFBOX和正则表达式批量提取已下载到本地的PDF格式农业文献的元数据,建立农业文献信息关系型数据库,根据需要建立农业文献管理系统,提高农业文献利用效率和科研效率。在C#环境下,对PDFBOX进行封装,利用数据流的写入功能将PDF格式... 利用PDFBOX和正则表达式批量提取已下载到本地的PDF格式农业文献的元数据,建立农业文献信息关系型数据库,根据需要建立农业文献管理系统,提高农业文献利用效率和科研效率。在C#环境下,对PDFBOX进行封装,利用数据流的写入功能将PDF格式的农业文献的二进制内容以简体中文输出,再利用正则表达式设计规则模型批量提取相关元数据。 展开更多
关键词 PDF PDFBOX 正则表达式 元数据 提取
下载PDF
基于正则表达式的HTML信息提取 被引量:4
12
作者 李文华 杨亚仿 吴昊 《电脑开发与应用》 2012年第4期44-46,共3页
在实际应用中经常需要分析Web页面的源代码,对HTML标记进行分析提取有用的数据。研究了如何利用正则表达式获取常见的HTML标记内容,实现了对HTML信息的定制提取,并以如何抓取一个学生成绩表的数据信息为例介绍了其实现过程。
关键词 正则表达式 HTML 信息提取
下载PDF
正则表达式及其在信息抽取中的应用 被引量:14
13
作者 张静 张妍 《电脑知识与技术》 2009年第5X期3867-3868,共2页
正则表达式是对一类字符串共性描述的规则,提供了一种从字符集合中搜寻特定字符串的机制。信息抽取的主要功能是从文本中抽取出特定的事实信息(factual information)。该文利用正则表示式快速匹配文本的特点,以抽取电子文档的主要信息为... 正则表达式是对一类字符串共性描述的规则,提供了一种从字符集合中搜寻特定字符串的机制。信息抽取的主要功能是从文本中抽取出特定的事实信息(factual information)。该文利用正则表示式快速匹配文本的特点,以抽取电子文档的主要信息为例,介绍了正则表达式理论以及在信息抽取中的应用。 展开更多
关键词 正则表达式 信息抽取
下载PDF
基于特征及规则模式的学位论文元数据信息自动抽取研究 被引量:1
14
作者 陈淑平 《农业图书情报学刊》 2015年第2期57-59,共3页
目前,在中国高校数字图书馆,学位论文数据库是重要的数字资源,然而,其元数据录入一直依赖手工完成,效率低,耗费大量的人力。针对这一问题,采用基于文档特征与规则模式匹配的方法,利用正则表达式研究学位论文元数据的自动抽取,该算法包... 目前,在中国高校数字图书馆,学位论文数据库是重要的数字资源,然而,其元数据录入一直依赖手工完成,效率低,耗费大量的人力。针对这一问题,采用基于文档特征与规则模式匹配的方法,利用正则表达式研究学位论文元数据的自动抽取,该算法包括信息定位和元数据抽取两个模块。实验数据表明,该算法具有较高的准确率和召回率以及综合性能指数F。 展开更多
关键词 学位论文 元数据 信息抽取 正则表达式 模式匹配
下载PDF
基于Web的新闻采集系统 被引量:2
15
作者 胡静芳 沈亚斌 《电脑知识与技术》 2009年第7期5111-5113,共3页
随着Intemet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础... 随着Intemet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础上实现了一个基于Web的新闻采集系统.该系统可根据用户使用正则袁达式编写的采集规则快速而精确的采集目标网页中的信息,保存在本地数据库中,用于内部使用或外网发布。 展开更多
关键词 WEB信息采集 正则表达式 采集规则
下载PDF
基于正则表达式的Web页面信息抽取技术研究 被引量:2
16
作者 罗粮 朱儒明 《现代计算机》 2017年第10期17-19,38,共4页
通过分析网页信息抽取技术和正则表达式相关理论,提出基于正则表达式的Web信息抽取方法,并设计相应的网页信息抽取算法。通过对此算法实现的信息抽取系统进行测试实验表明,所提出的Web页面信息抽取方法能达到较高的召回率和准确率。
关键词 信息抽取 正则表达式 网页信息
下载PDF
基于HTML解析器的Web信息提取技术 被引量:1
17
作者 王琳琳 《郑州轻工业学院学报(自然科学版)》 CAS 2008年第6期100-102,106,共4页
提出一种使用开源的HTML解析器包和正则表达式来提取W eb网页信息的方法.该方法能够解析HTML文件的组成结构,并从中提取主体文本以供处理.实验表明,该方法的抽取准确率可达到95%以上,具有简单、准确的特点.
关键词 WEB信息提取 正则表达式 HTML解析器 主题信息
下载PDF
基于多种规则的课程元数据自动抽取 被引量:7
18
作者 杨宇 张铭 周宝曜 《计算机科学》 CSCD 北大核心 2008年第3期94-96,共3页
在线课程组织和管理系统就是为了使学习更加便利而提供的一个教育资源的集成平台。作为系统中重要环节的元数据抽取模块,需要对半结构化网页能够达到较好的抽取精确性,并具有处理结构松散文档的能力。本文设计并实现了一种按照指定规则... 在线课程组织和管理系统就是为了使学习更加便利而提供的一个教育资源的集成平台。作为系统中重要环节的元数据抽取模块,需要对半结构化网页能够达到较好的抽取精确性,并具有处理结构松散文档的能力。本文设计并实现了一种按照指定规则自动抽取的元数据方法。该方法能够按照多优先级规则匹配网页元数据,并按照两步抽取的方法进行精细化处理。针对不同的问题域使用不同规则抽取,不需对程序进行特定修改。实验证明,这种方法能够很好地处理半结构化网页,F测度达到85%以上,具有较好的实用价值。 展开更多
关键词 元数据抽取 正则表达式 信息精化
下载PDF
基于HTMLParser的Web信息抽取系统的设计与实现 被引量:8
19
作者 李彦刚 魏海平 侯兴华 《辽宁石油化工大学学报》 CAS 2006年第2期83-86,共4页
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTM... 互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTMLParser的原理和java正则表达式相关知识,基于HTMLParser包和正则表达式。以提取网站内部email信息为例,提出了Web信息抽取系统设计方案,阐述了email信息抽取的工作原理和关键技术,给出了email抽取算法,并详细介绍了系统的抽取URL、email和存储模块,抽取结果保存于数据库中,供机器检索利用。 展开更多
关键词 信息抽取 正则表达式 HTMLParser包 JAVA
下载PDF
基于GRETA正则表达式的机器人解释器的研究 被引量:7
20
作者 何嘉健 李伟光 《组合机床与自动化加工技术》 北大核心 2012年第1期17-19,24,共4页
为了解决传统解释器编译过程复杂,效率低的问题,提出了一种基于GRETA正则表达式的工业机器人解释器的实现方法。利用GRETA正则表达式建立字符匹配表和语法规则后,该解释器即可方便地对指令代码进行解释处理,包括:词法分析、语法分析、... 为了解决传统解释器编译过程复杂,效率低的问题,提出了一种基于GRETA正则表达式的工业机器人解释器的实现方法。利用GRETA正则表达式建立字符匹配表和语法规则后,该解释器即可方便地对指令代码进行解释处理,包括:词法分析、语法分析、语义分析和信息提取。实验表明,该解释器可实现对机器人指令集的正确解释和信息提取,并为机器人控制的开放性和高效性奠定基础。 展开更多
关键词 解释器 GRETA正则表达式 词法分析 语法分析 语义分析 信息提取
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部