期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
信息管理系统动态表单技术的研究与实现 被引量:16
1
作者 张佳强 王士同 《计算机应用与软件》 CSCD 2010年第8期29-32,共4页
针对企业信息管理系统的固定表单技术不能满足企业因服务变化引起的需求变化问题,提出了基于SSH(Struts、Spring、Hibernate)架构,结合改进的Ewebeditor编辑器定义表单属性信息及结构样式信息并运用HtmlParser超文本分析技术提取相关信... 针对企业信息管理系统的固定表单技术不能满足企业因服务变化引起的需求变化问题,提出了基于SSH(Struts、Spring、Hibernate)架构,结合改进的Ewebeditor编辑器定义表单属性信息及结构样式信息并运用HtmlParser超文本分析技术提取相关信息来实现信息系统中表单动态定制的技术,同时阐述了自定义表单数据的动态呈现、动态传输和动态访问技术,并给出了该设计关键技术的细节和实现方法。 展开更多
关键词 动态表单 SSH 域模型 HTMLPARSER E-webeditor
下载PDF
基于页面分类的Web信息抽取方法研究 被引量:5
2
作者 成卫青 于静 +1 位作者 杨晶 杨龙 《计算机技术与发展》 2013年第1期54-58,共5页
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通... 通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。 展开更多
关键词 WEB信息抽取 正则表达式 页面分类 HTMLPARSER 结点树
下载PDF
面向结构的Web表格数据抽取系统 被引量:3
3
作者 徐飞 张素芹 姚红革 《西安工业大学学报》 CAS 2009年第6期574-578,共5页
针对Web数据挖掘预处理中,Web表格无结构化描述及缺乏清晰语义信息的问题,构建了面向结构的Web表格数据提取系统.利用HTMLParser库的解析原理,设计启发式规则对Web表格结构进行定位、识别、提取并剔除非数据型结构;以Xml规范化模型对提... 针对Web数据挖掘预处理中,Web表格无结构化描述及缺乏清晰语义信息的问题,构建了面向结构的Web表格数据提取系统.利用HTMLParser库的解析原理,设计启发式规则对Web表格结构进行定位、识别、提取并剔除非数据型结构;以Xml规范化模型对提取表格数据进行存储.最后抽取9个中文网站171个数据表格进行验证试验,结果表明对于结构化完整的表格具有较高的识别率并有一定的容错能力. 展开更多
关键词 HTMLPARSER WEB表格 表格识别 数据提取 XML
下载PDF
企业专利采集与服务系统的设计与实现 被引量:2
4
作者 胡杰 何小菁 仝亮 《情报杂志》 CSSCI 北大核心 2012年第10期136-140,共5页
针对企业创新对专利检索与利用的需求设计了面向企业的专利采集与服务系统。系统采用Web挖掘技术从Internet上采集专利数据,构建面向企业、面向主题的专利数据库;同时为企业建立从内部专利申请到办理,从专利检索到统计分析,到竞争对手... 针对企业创新对专利检索与利用的需求设计了面向企业的专利采集与服务系统。系统采用Web挖掘技术从Internet上采集专利数据,构建面向企业、面向主题的专利数据库;同时为企业建立从内部专利申请到办理,从专利检索到统计分析,到竞争对手专利信息分析等全方位、一体化的管理与服务平台。工程应用效果表明该系统满足企业的需求,推动了企业科技创新发展。 展开更多
关键词 专利Web挖掘信息系统Ext JS HTMLPARSER J2EE
下载PDF
全自动网页信息采集系统 被引量:5
5
作者 徐春凤 王艳春 翟宏宇 《长春理工大学学报(自然科学版)》 2015年第2期151-154,共4页
随着网络时代的快速发展,用户对搜索引擎、网页的内容和大数据处理等有了更多的要求。从海量的互联网信息中选取最符合要求的信息成为了新的热点。基于一个开源的、Java开发的、可扩展的Web爬虫项目—Heritrix,进行扩展抓取用户需要的网... 随着网络时代的快速发展,用户对搜索引擎、网页的内容和大数据处理等有了更多的要求。从海量的互联网信息中选取最符合要求的信息成为了新的热点。基于一个开源的、Java开发的、可扩展的Web爬虫项目—Heritrix,进行扩展抓取用户需要的网页,深入研究了信息采集技术。利用Heritrix的可扩展性,来实现用户的抓取。通过分析Heritrix的工作流程,模块划分以及源码设计,基于Heritrix扩展抽取面向商品信息的网页,配合Html Parser对网页内容进行解析,有效的提取商品关键信息后存入数据库以供检索。 展开更多
关键词 HERITRIX HTMLPARSER 网络爬虫 信息提取
下载PDF
HtmIParser提取网页信息的设计与实现 被引量:6
6
作者 黄颖 黄治平 《江西理工大学学报》 CAS 2007年第6期26-28,35,共4页
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理,文中详细... 互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理,文中详细介绍了如何使用HtmlParser来提取网页当中的超链接信息,将其清洗后存入SQL数据库当中,以备后续工作使用。 展开更多
关键词 HTMLPARSER 信息提取 网页解析
下载PDF
基于HtmlParser的网页信息提取 被引量:4
7
作者 李伟 黄颖 《兵工自动化》 2007年第7期41-41,56,共2页
基于HTMLParser对HTML进行网页解析,可抽取标签间的Link、image、meta和title等信息。即使用HtmlParser来提取网页当中的超链接信息,提取首页URL信息,分析所有URL对应的页面并提取Link信息,信息清洗后存入SQL数据库当中,以备后续工作使用。
关键词 HTMLPARSER 信息抽取 网页解析
下载PDF
基于单元识别的网页信息抽取方法 被引量:1
8
作者 柳永念 钟诚 焦小焦 《广西大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第5期787-791,共5页
建立基于链的父亲结构树描述和存储网页信息,采用Htmlparse和基于正则表达式的描述方法,设计、实现了一种高效的基于单元识别的网页信息抽取算法。分析与实验结果表明,文中给出的网页信息抽取方法能提高检索的查准率和查全率。
关键词 单元识别 信息抽取 父亲结构树 HTMLPARSER 正则表达式
下载PDF
基于HTMLParser信息提取的网络爬虫设计 被引量:7
9
作者 郑力明 易平 《微计算机信息》 2009年第15期123-124,69,共3页
无论是通用搜索还是垂直搜索,其关键的核心技术之一就是网络爬虫的设计。本文结合HTMLParser信息提取方法,对生活类垂直搜索引擎中网络爬虫进行了详细研究。通过深入分析生活类网站网址的树形结构的构架,开发了收集种子页面URL的模拟搜... 无论是通用搜索还是垂直搜索,其关键的核心技术之一就是网络爬虫的设计。本文结合HTMLParser信息提取方法,对生活类垂直搜索引擎中网络爬虫进行了详细研究。通过深入分析生活类网站网址的树形结构的构架,开发了收集种子页面URL的模拟搜索器,并基于HTMLParser的信息提取方法,从种子页面中提取出与生活类主题相关的目标URL。经实验测试证明该爬虫的爬准率达93.552%,爬全率达96.720%,表明该网络爬虫是有效的,达到中等规模的垂直搜索企业级应用的要求。 展开更多
关键词 网络爬虫 垂直搜索 HTMLPARSER
下载PDF
基于Lucene的文档管理系统的设计与实现 被引量:2
10
作者 李雪利 黄理灿 范晨熙 《工业控制计算机》 2012年第10期87-88,94,共3页
目前各种类型的文档被广泛地使用,但是如何快速地从众多的文档中查找到我们所需要的信息成为当前研究的热点。基于现有的开源搜索框架Lucene而设计并实现的一款文档管理系统,不仅可以实现对Word、Excel、PowerPoint等文档的检索,而且还... 目前各种类型的文档被广泛地使用,但是如何快速地从众多的文档中查找到我们所需要的信息成为当前研究的热点。基于现有的开源搜索框架Lucene而设计并实现的一款文档管理系统,不仅可以实现对Word、Excel、PowerPoint等文档的检索,而且还能够实现对PDF、HTML、RTF、TXT等文档进行检索。从而能够方便的查找各类文档,进而更好地实现对各类文档的管理。 展开更多
关键词 LUCENE POI HTMLPARSER 文档管理 全文检索
下载PDF
基于Heritrix+Lucene的高校图书馆网站全文搜索引擎构建 被引量:1
11
作者 华京生 李萍 《情报探索》 2013年第9期101-105,共5页
调查分析高校图书馆网站的发展现状,发现高校图书馆网站普遍存在信息不易搜索和利用的问题,指出应该使用全文搜索技术对高校图书馆网站的信息资源进行联合检索。以开源软件Heritrix、Lucene和Htmlparser等为基础,构建一个简单的具有基... 调查分析高校图书馆网站的发展现状,发现高校图书馆网站普遍存在信息不易搜索和利用的问题,指出应该使用全文搜索技术对高校图书馆网站的信息资源进行联合检索。以开源软件Heritrix、Lucene和Htmlparser等为基础,构建一个简单的具有基本功能的高校图书馆搜索引擎,以期为后续的研究打下基础。 展开更多
关键词 搜索引擎 数字图书馆 HERITRIX LUCENE HTMLPARSER
下载PDF
基于HtmlParser抽取动态异构Web信息的研究与实现 被引量:4
12
作者 桂林斌 《计算机与数字工程》 2009年第7期161-164,206,共5页
抽取动态异构Web信息以建立索引数据库供用户统一检索使用,是高校图书馆资源整合中的技术难点。通过对目标WEB站点表单提交方式和查询参数的研究和分析,使用Http模拟Post提交查询参数获得检索结果页面,基于开源项目HTMLParser包,以抽取C... 抽取动态异构Web信息以建立索引数据库供用户统一检索使用,是高校图书馆资源整合中的技术难点。通过对目标WEB站点表单提交方式和查询参数的研究和分析,使用Http模拟Post提交查询参数获得检索结果页面,基于开源项目HTMLParser包,以抽取CNKI文章检索结果入库为例,给出了算法及其实现的详细过程。 展开更多
关键词 动态异构 网页抽取 HTMLPARSER
下载PDF
基于HTMLParser和HttpClient的网络爬虫原理与实现 被引量:8
13
作者 张亮 《电脑编程技巧与维护》 2011年第20期94-94,103,共2页
介绍了网络爬虫的技术原理,给出了使用HTMLParser、HttpClient和Java实现简单网络爬虫的程序框架,对同类研究有一定的参考作用。
关键词 网络爬虫 HTMLPARSER HttpClinet
下载PDF
面向网络评论的文本信息抽取方法研究 被引量:1
14
作者 段建勇 高会娟 张梅 《北方工业大学学报》 2015年第1期7-12,50,共7页
为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验... 为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性. 展开更多
关键词 网页提取 信息抽取 URL采集 模式匹配
下载PDF
专用Web信息收集系统的设计和实现
15
作者 朱雪莲 《煤炭技术》 CAS 北大核心 2011年第8期190-191,共2页
Heritrix是由Java开发的开源Web网络爬虫,HTMLParser技术对抓取后网页内容进行高效率解析,对信息进行再一次整合,很好的解决了专业搜索引擎所需数据来源问题。文章探讨了基于Heritrix和HTMLParser构建Web信息收集系统的设计和实现。
关键词 HERITRIX HTMLPARSER WEB
下载PDF
网页文件元数据的自动提取
16
作者 张启宇 朱玲 车忠志 《电脑与电信》 2008年第4期8-9,共2页
针对烟台研究院网站新闻网页文件的特点,以Java语言和开源项目HTMLParser对网页文件进行解析,实现了元数据的自动提取,并给出了关键程序代码。
关键词 JAVA HTMLPARSER 网页 元数据
下载PDF
IBATIS框架下文本抽取系统的研究
17
作者 段建勇 高会娟 《电子科学技术》 2015年第2期214-218,共5页
由于网络的快速发展,网络信息骤然增加,增大了文本的抽取难度。针对这种情况,提出IBATIS框架下基于HtmlParser技术的文本抽取模式,将HtmlParser高效的过滤器和访问者模式与实现业务逻辑、数据访问、页面展示相分离的IBATIS框架相融合,... 由于网络的快速发展,网络信息骤然增加,增大了文本的抽取难度。针对这种情况,提出IBATIS框架下基于HtmlParser技术的文本抽取模式,将HtmlParser高效的过滤器和访问者模式与实现业务逻辑、数据访问、页面展示相分离的IBATIS框架相融合,充分利用优势互补,用以对网络中的海量数据进行高效率的分析与提取。 展开更多
关键词 在线评论 HTMLPARSER 信息抽取 IBATIS 抽取模式
下载PDF
基于HTMLParser的Web信息抽取系统的设计与实现 被引量:8
18
作者 李彦刚 魏海平 侯兴华 《辽宁石油化工大学学报》 CAS 2006年第2期83-86,共4页
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTM... 互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTMLParser的原理和java正则表达式相关知识,基于HTMLParser包和正则表达式。以提取网站内部email信息为例,提出了Web信息抽取系统设计方案,阐述了email信息抽取的工作原理和关键技术,给出了email抽取算法,并详细介绍了系统的抽取URL、email和存储模块,抽取结果保存于数据库中,供机器检索利用。 展开更多
关键词 信息抽取 正则表达式 HTMLParser包 JAVA
下载PDF
网络爬虫用于电力广域网信息收集的探讨 被引量:4
19
作者 黄初指 《福建电力与电工》 2008年第3期38-41,共4页
搜索引擎是互联网的信息检索工具,而信息的收集是搜索引擎的主要工作。随着国家电网公司广域网的发展以及内外网隔离规定的实施,企业内部用户很难检索到所需的信息。针对电力广域网的特点,笔者设计了网络爬虫数据收集框架,并给出了适用... 搜索引擎是互联网的信息检索工具,而信息的收集是搜索引擎的主要工作。随着国家电网公司广域网的发展以及内外网隔离规定的实施,企业内部用户很难检索到所需的信息。针对电力广域网的特点,笔者设计了网络爬虫数据收集框架,并给出了适用于该框架的深度-广度相结合的启发式算法,用Java语言来实现主体框架,快速地为搜索引擎提供了完整的数据源。 展开更多
关键词 网络爬虫 深度-广度搜索算法 启发式搜索算法 JAVA HTML PARSER
下载PDF
电力设备检修辅助分析系统 被引量:1
20
作者 杜亚平 崔杜武 +1 位作者 王竹荣 卢军 《计算机工程》 CAS CSCD 北大核心 2007年第17期246-248,共3页
针对现行电力设备检修辅助分析系统用户不能设计试验报告格式、不能兼容异构数据库等缺陷,提出了一种具有数据抽象和面向对象风格与层次系统风格相结合的软件体系结构。在此基础上,给出了一种以FrontPage设计试验报告格式,利用Hibernate... 针对现行电力设备检修辅助分析系统用户不能设计试验报告格式、不能兼容异构数据库等缺陷,提出了一种具有数据抽象和面向对象风格与层次系统风格相结合的软件体系结构。在此基础上,给出了一种以FrontPage设计试验报告格式,利用Hibernate、HtmlParser、XML等技术动态生成试验报告、建立库表、增加实体域对象,并兼容异构数据库的电力设备检修辅助分析系统的设计方案,给出了关键实现代码。 展开更多
关键词 动态配置 状态检修 HIBERNATE HTMLPARSER XML
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部