期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
基于HTML Parser的网页信息提取技术研究 被引量:3
1
作者 珠杰 罗潘 《西藏大学学报(社会科学版)》 CSSCI 2010年第3期41-44,共4页
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和... 在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。 展开更多
关键词 搜索引擎 网页信息提取 html parser
下载PDF
基于HTML Parser的BBS信息抽取系统的设计与实现 被引量:4
2
作者 蒋琴琴 宫哲 辛阳 《自动化技术与应用》 2012年第1期32-37,共6页
针对目前BBS信息爬取时网页噪声严重的特点,研究BBS信息抽取的实现。应用HTML Parser平台以及正则匹配技术,实现BBS信息的抽取、存储。设计建立了包含网页抽取模块、网页解析模块、数据库存储模块组成的信息抽取系统。实验结果表明,此... 针对目前BBS信息爬取时网页噪声严重的特点,研究BBS信息抽取的实现。应用HTML Parser平台以及正则匹配技术,实现BBS信息的抽取、存储。设计建立了包含网页抽取模块、网页解析模块、数据库存储模块组成的信息抽取系统。实验结果表明,此方法能有效抽取BBS信息,减少网页噪声的干扰。 展开更多
关键词 html parser 正则匹配 爬虫 BBS 信息抽取
下载PDF
一种提高中文搜索引擎检索质量的HTML解析方法 被引量:20
3
作者 宋睿华 马少平 +1 位作者 陈刚 李景阳 《中文信息学报》 CSCD 北大核心 2003年第4期19-26,共8页
中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大... 中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大多数情况下是不可能的。在这篇论文中 ,我们提出了网页噪声的概念 ,并针对中文网页的特点 ,实现了一种对网页自动分块并去噪的HTML解析方法 ,从而达到在预处理阶段消除潜在无关项和间接项的目的。实验结果表明 ,该方法能够在不占用查询时间的前提下 10 0 %地消除中文搜索引擎隐藏的间接项 ,以及大约 11%的无法过滤或隐藏的无关项或间接项 ,从而大幅度提高检索结果的查准率。 展开更多
关键词 中文搜索引擎 检索质量 html解析方法 网页噪声 分块模型 网页去噪 中文信息处理
下载PDF
Web文档清洗系统中HTML解析器的开发 被引量:7
4
作者 王强 王继成 +1 位作者 武港山 张福炎 《计算机应用研究》 CSCD 北大核心 2002年第2期54-57,共4页
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无... 对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典。 展开更多
关键词 html解析器 词法器 递归下降 文档清洗系统 WEB INTERNET
下载PDF
嵌入式HTML文档解析器的设计与实现 被引量:4
5
作者 李庆诚 彭洁 +1 位作者 宫晓利 刘嘉欣 《计算机工程》 CAS CSCD 北大核心 2009年第9期258-260,共3页
针对HTML文档在手持移动阅读设备上的阅读有效性问题,设计实现一种面向嵌入式应用的、平台无关的HTML文档解析器,对其关键技术进行阐述和分析。提出一种屏幕适配探测机制,实现对当前屏幕阅读无效内容的过滤。实验结果表明,该解析器降低... 针对HTML文档在手持移动阅读设备上的阅读有效性问题,设计实现一种面向嵌入式应用的、平台无关的HTML文档解析器,对其关键技术进行阐述和分析。提出一种屏幕适配探测机制,实现对当前屏幕阅读无效内容的过滤。实验结果表明,该解析器降低了对嵌入式系统处理能力与内存配置的要求,能满足手持阅读设备的需要。 展开更多
关键词 嵌入式 html文档 解析器 屏幕适配探测 手持阅读设备
下载PDF
HTML文件解析器设计:原理、算法与应用 被引量:8
6
作者 许骏 柳泉波 《小型微型计算机系统》 CSCD 北大核心 2001年第11期1378-1381,共4页
网页设计制作已成为当前计算机基础教育的重要内容 ,但与此相关的自动阅卷系统研究尚未见报导 .本文介绍了作者在这方面所做的工作 ,内容包括 HTML文件解析器的设计原理、主要算法和典型应用等 .HTML文件解析器作为网上远程考试与评价... 网页设计制作已成为当前计算机基础教育的重要内容 ,但与此相关的自动阅卷系统研究尚未见报导 .本文介绍了作者在这方面所做的工作 ,内容包括 HTML文件解析器的设计原理、主要算法和典型应用等 .HTML文件解析器作为网上远程考试与评价系统的组成部分之一 。 展开更多
关键词 html 文件解析器 算法 网页设计 远程教育
下载PDF
HTML到XML转换研究 被引量:2
7
作者 钱程 阳小兰 《计算机与现代化》 2011年第8期39-41,共3页
网络上的许多信息都是由HTML编写的,但HTML语言本身具有不足,使得其不能处理网络上的许多需求,而XML可以弥补很多HTML的不足,因此网络应用的传统数据和XML标记数据的转换变得日趋重要。本文对从HTML到XML的转换技术进行研究,并用Java语... 网络上的许多信息都是由HTML编写的,但HTML语言本身具有不足,使得其不能处理网络上的许多需求,而XML可以弥补很多HTML的不足,因此网络应用的传统数据和XML标记数据的转换变得日趋重要。本文对从HTML到XML的转换技术进行研究,并用Java语言实现该转换系统。 展开更多
关键词 html XML 解析器 信息抽取 JAXB
下载PDF
基于JFC/Swing文本组件开发HTML语法分析器 被引量:1
8
作者 王美琴 《计算机应用研究》 CSCD 北大核心 2001年第5期77-78,共2页
分析了Java Swing的特点和组成,提出了用Swing文本组件包功能开发HTML语法分析器的构想,并详细讨论了它的实现步骤,最后给出程序代码。
关键词 计算机网络 文本组件 html 语法分析器 JFC/Swing
下载PDF
基于HTML解析器的Web信息提取技术 被引量:1
9
作者 王琳琳 《郑州轻工业学院学报(自然科学版)》 CAS 2008年第6期100-102,106,共4页
提出一种使用开源的HTML解析器包和正则表达式来提取W eb网页信息的方法.该方法能够解析HTML文件的组成结构,并从中提取主体文本以供处理.实验表明,该方法的抽取准确率可达到95%以上,具有简单、准确的特点.
关键词 WEB信息提取 正则表达式 html解析器 主题信息
下载PDF
一种嵌入式浏览器中的HTML解析器的设计 被引量:2
10
作者 唐云 《湖南科技学院学报》 2008年第8期92-94,103,共4页
本文主要介绍了一种HTML解析器的设计,以及其在数字电视机顶盒中的实现;另外还简述了CSS层叠样式表技术在嵌入式浏览器中的实现。
关键词 html 嵌入式浏览器 解析器 CSS
下载PDF
一种提高中文搜索引擎检索质量的HTML解折方法
11
作者 刘中华 刘先红 王红艺 《西安邮电学院学报》 2007年第5期76-78,共3页
简要分析了目前的搜索引擎,随后提出了一种搜索引擎模型,最后介绍了HTML的解析方法,给出了一种快速解析HTML的方法。
关键词 标准搜索 目录搜索 html解析
下载PDF
网络化制造资源垂直搜索引擎的研究与应用 被引量:6
12
作者 张建 程锦 《计算机应用》 CSCD 北大核心 2007年第5期1116-1118,共3页
着重研究了网络化制造资源垂直搜索系统的主题爬虫和中文分词技术。通过在主题爬虫中增加评价网页模块,优先爬行与主题相似度高的网页中的链接,提高了爬虫的工作效率。在对中文分词词典进行分层存储的基础上,通过一种改进的简洁的中文... 着重研究了网络化制造资源垂直搜索系统的主题爬虫和中文分词技术。通过在主题爬虫中增加评价网页模块,优先爬行与主题相似度高的网页中的链接,提高了爬虫的工作效率。在对中文分词词典进行分层存储的基础上,通过一种改进的简洁的中文分词词典匹配算法,有效地改善了分词的速度与精度,并缩减了索引库,增强了用户的响应。 展开更多
关键词 网络化制造 制造资源 垂直搜索引擎 页面解析
下载PDF
基于Swing的HTML解析器的实现与应用
13
作者 宋宇 《科技资讯》 2024年第14期43-45,49,共4页
HTML页面解析是一切工作的基础。首先,通过分析HTML解析器感兴趣的标签与超链接的分类,在Java的Swing包的基础上实现了一个HTML解析器,用来提取HTML文档的超链接和锚文本;其次,把HTML解析器应用到多媒体信息检索系统的搜索器Spider的开... HTML页面解析是一切工作的基础。首先,通过分析HTML解析器感兴趣的标签与超链接的分类,在Java的Swing包的基础上实现了一个HTML解析器,用来提取HTML文档的超链接和锚文本;其次,把HTML解析器应用到多媒体信息检索系统的搜索器Spider的开发中,通过设定若干个种子网站,选择合适的搜索算法,从中筛选出包含音频、视频和Flash动画的Web页面,并将其存放在数据库中。 展开更多
关键词 解析器 html Swing 超文本链接 链接文本
下载PDF
基于Android的校园通应用程序的设计与实现 被引量:3
14
作者 黄震 吴程龙 《现代计算机》 2014年第21期62-67,共6页
目前Android手机的普及率在高校里已经相当高,所以研究设计一款基于Android手机的校园服务应用对于广大高校生来说具有深远的现实意义。实现一个基于Android的校园通应用程序,主要功能包括有学院概况、校园通讯、新生专题、校图书馆、... 目前Android手机的普及率在高校里已经相当高,所以研究设计一款基于Android手机的校园服务应用对于广大高校生来说具有深远的现实意义。实现一个基于Android的校园通应用程序,主要功能包括有学院概况、校园通讯、新生专题、校图书馆、成绩课表、课室查询、校园信息、在线问吧、出行指南等模块,基本上满足学生所需要的校园服务,可以在一定程度上提高学生的学习和生活效率。 展开更多
关键词 ANDROID 校园助手 校园应用 html解析器
下载PDF
基于LINUX的嵌入式浏览器的设计与实现
15
作者 林楠 李翠霞 《微计算机信息》 2009年第17期36-37,26,共3页
嵌入式浏览器可以广泛应用于各种信息电器和便携式网络终端中,在工业控制领域也有着非常广阔的应用前景。本文提出了一种基于LINUX的嵌入式浏览器,介绍了实现方法和主要功能特点。该浏览器基于现有的嵌入式GUI,利用系统的HTEP函数库实... 嵌入式浏览器可以广泛应用于各种信息电器和便携式网络终端中,在工业控制领域也有着非常广阔的应用前景。本文提出了一种基于LINUX的嵌入式浏览器,介绍了实现方法和主要功能特点。该浏览器基于现有的嵌入式GUI,利用系统的HTEP函数库实现网络访问,根据文档类型定义和层叠式样式表规范,解析HTML文件和排版显示。此系统在MiniGUI下已成功实现。 展开更多
关键词 嵌入式浏览器 超文本传输协议 html解析器
下载PDF
基于LINUX的嵌入式浏览器的特点和实现 被引量:5
16
作者 孙先虎 张曦煌 《计算机应用与软件》 CSCD 北大核心 2004年第7期112-113,共2页
提出了一种基于LINUX的嵌入式浏览器 ,介绍了实现方法和主要功能特点。该浏览器基于现有的嵌入式GUI ,利用系统的HTTP函数库实现网络访问 ,根据文档类型定义和层叠式样式表规范 ,解析HTML文件和排版显示。此系统在MiniGUI下已成功实现。
关键词 嵌入式浏览器 LINUX 函数库 超文本传输协议 网络访问 计算机网络
下载PDF
Web逆向工程中交互设计模式的抽取方法改进 被引量:2
17
作者 刘继红 吴军华 《计算机工程与设计》 CSCD 北大核心 2010年第5期932-935,共4页
为了提高Web交互设计模式抽取的准确性,增加现有方法对中文站点的分析能力,提出了一种基于HTML词法分析的改进方法。利用设计的HTML词法分析器将Web页面表示成语法树,抽取Web交互设计模式的特征,并对特征的词条内容进行语义扩展,细化了... 为了提高Web交互设计模式抽取的准确性,增加现有方法对中文站点的分析能力,提出了一种基于HTML词法分析的改进方法。利用设计的HTML词法分析器将Web页面表示成语法树,抽取Web交互设计模式的特征,并对特征的词条内容进行语义扩展,细化了特征抽取的粒度。实验结果表明,改进的方法在召回率和准确率等方面明显优于现有的方法,并在中文站点交互模式抽取方面取得了很好的效果。 展开更多
关键词 Web逆向工程 Web理解 交互设计模式 html分析器 特征抽取
下载PDF
一种抽取新闻网页结构化数据的方法 被引量:1
18
作者 陈爽 李先国 +1 位作者 陈福 李素 《燕山大学学报》 CAS 2007年第6期485-488,共4页
根据统计结果,从阅读角度对网页页面空间的构成进行了噪声与信息实体的划分与判断,改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,逐级降噪,并利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反... 根据统计结果,从阅读角度对网页页面空间的构成进行了噪声与信息实体的划分与判断,改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,逐级降噪,并利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向过滤降噪抽取新闻网页得到结构化数据的方法,并使用这种方法进行了大范围的效果验证。验证结果表明:这种方法信息抽取准确率高,对中英文新闻网页都有良好的适用性。 展开更多
关键词 信息抽取 html解析 DOM 标签补偿 噪声标记
下载PDF
在基于J2EE架构的网站中集成HTTP代理的设计与实现 被引量:4
19
作者 史承毅 《计算机应用》 CSCD 北大核心 2011年第A01期27-29,共3页
提出了一种在服务器上存在基于J2EE网站的情况下,将HTTP代理服务集成于网站的方案。相对于传统的HTTP代理服务,用该设计方法实现的HTTP代理,无需在浏览器客户端进行设置且不另外多开端口,提高了用户体验,同时降低了服务器安全风险。
关键词 HTTP代理 集成 html解析 J2EE 网络管理
下载PDF
基于Heritrix和Jsoup的信息抽取系统的设计与实现 被引量:2
20
作者 刘全志 于治楼 《山东师范大学学报(自然科学版)》 CAS 2015年第2期16-19,共4页
应用开源的Heritrix和Jsoup设计了一个通用性强的网络商品信息抽取系统,实现了Web信息的抽取、存储.系统由三个分别独立的功能模块组成,即采集网页模块、抽取信息模块、数据存储模块,并对抽取算法在真实数据页面上进行了验证.实验结果... 应用开源的Heritrix和Jsoup设计了一个通用性强的网络商品信息抽取系统,实现了Web信息的抽取、存储.系统由三个分别独立的功能模块组成,即采集网页模块、抽取信息模块、数据存储模块,并对抽取算法在真实数据页面上进行了验证.实验结果表明系统具有良好的召回率和准确率,抽取效果良好. 展开更多
关键词 WEB信息抽取 html解析器 Jsoup 网络爬虫 Heritirx
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部