期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
594
篇文章
<
1
2
…
30
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Swing的HTML解析器的实现与应用
1
作者
宋宇
《科技资讯》
2024年第14期43-45,49,共4页
HTML页面解析是一切工作的基础。首先,通过分析HTML解析器感兴趣的标签与超链接的分类,在Java的Swing包的基础上实现了一个HTML解析器,用来提取HTML文档的超链接和锚文本;其次,把HTML解析器应用到多媒体信息检索系统的搜索器Spider的开...
HTML页面解析是一切工作的基础。首先,通过分析HTML解析器感兴趣的标签与超链接的分类,在Java的Swing包的基础上实现了一个HTML解析器,用来提取HTML文档的超链接和锚文本;其次,把HTML解析器应用到多媒体信息检索系统的搜索器Spider的开发中,通过设定若干个种子网站,选择合适的搜索算法,从中筛选出包含音频、视频和Flash动画的Web页面,并将其存放在数据库中。
展开更多
关键词
解析
器
html
SWING
超文本链接
链接文本
下载PDF
职称材料
XML解析技术研究
被引量:
59
2
作者
冯进
丁博
+2 位作者
史殿习
张瞩熹
许凯
《计算机工程与科学》
CSCD
北大核心
2009年第2期120-124,共5页
XML解析技术是XML语言被广泛应用的前提和基础,计算平台和XML应用特征的变化不断推动着该技术的发展。本文分析了XML解析技术存在的挑战,在对现有XML解析技术进行分类的基础上详细比较和分析了各类技术的特点及应用场景,指出了XML解析...
XML解析技术是XML语言被广泛应用的前提和基础,计算平台和XML应用特征的变化不断推动着该技术的发展。本文分析了XML解析技术存在的挑战,在对现有XML解析技术进行分类的基础上详细比较和分析了各类技术的特点及应用场景,指出了XML解析技术未来的研究趋势。
展开更多
关键词
xml
xml
解析
xml
应用
下载PDF
职称材料
一种基于多叉树的HTML到XML的转换方法
被引量:
4
3
作者
张文斌
陈恩红
王进
《小型微型计算机系统》
CSCD
北大核心
2003年第4期713-715,共3页
当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的 方法来检索或提取隐藏其中的数据.针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把 对HTML的信息检索问题转化为对XML的检索...
当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的 方法来检索或提取隐藏其中的数据.针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把 对HTML的信息检索问题转化为对XML的检索问题,以便简化下一步的检索问题.
展开更多
关键词
多叉树
html
语言
xml
语言
信息检索
Web
Internet
下载PDF
职称材料
一种基于内容的HTML到XML转换策略
被引量:
9
4
作者
李青山
陈平
《计算机工程与应用》
CSCD
北大核心
2001年第9期30-32,共3页
互联网应用系统中传统HTML内容数据的重用及其与Web中标准XML格式数据的互交换非常重要。通过对HTML结构和语法特点的分析,文章定义了一种分离HTML格式信息与表达有效语义的内容数据的标记规则,建立了该标记规则到...
互联网应用系统中传统HTML内容数据的重用及其与Web中标准XML格式数据的互交换非常重要。通过对HTML结构和语法特点的分析,文章定义了一种分离HTML格式信息与表达有效语义的内容数据的标记规则,建立了该标记规则到XML模式的一种影射,从而实现了一种从HTML内容到XML结构数据的转换策略。最后,在网页在线维护系统WOMS中应用该策略实现网站管理者对网页的在线维护。
展开更多
关键词
互联网
应用程序
html
xml
数据转换
下载PDF
职称材料
XML应用的基石:XML解析技术
被引量:
50
5
作者
刘芳
肖铁军
《计算机工程与设计》
CSCD
北大核心
2005年第10期2823-2824,2839,共3页
XML解析器是XML应用的基础,选择合适的XML解析技术对应用系统的性能有着较大的影响。通过对XML解析中3种主要解析技术的对比,分析和总结了XML解析器应用中的若干问题,归纳了应用系统设计中XML解析技术的选取原则,并提出了基于性能优化...
XML解析器是XML应用的基础,选择合适的XML解析技术对应用系统的性能有着较大的影响。通过对XML解析中3种主要解析技术的对比,分析和总结了XML解析器应用中的若干问题,归纳了应用系统设计中XML解析技术的选取原则,并提出了基于性能优化考虑的解析器设计思路。
展开更多
关键词
xml
xml
解析
器
DOM
SAX
XPP
下载PDF
职称材料
用DOM解析XML文档
被引量:
19
6
作者
李勇军
冀汶莉
马光思
《计算机应用》
CSCD
北大核心
2001年第z1期103-105,共3页
概括介绍了文档对象模型 (DOM)的结构、特点及其功能 ,并以微软的DOM解析器为例 ,给出了解析XML文档的方法。
关键词
DOM
xml
解析
下载PDF
职称材料
基于对称性的HTML到XML的转换方法
被引量:
2
7
作者
魏志华
黄孝伦
+1 位作者
刘亮
史林霞
《武汉理工大学学报(信息与管理工程版)》
CAS
2007年第7期45-48,共4页
作为构造、存储、发送信息的方式,XML的出现在很大程度上解决了一些HTML所不能解决的问题。用XML作为数据变换的中介,给系统的实现带来极大的灵活性。HTML到XML的转换可以方便实现网上数据的交换。所提出的基于对称性的转换方法,可以高...
作为构造、存储、发送信息的方式,XML的出现在很大程度上解决了一些HTML所不能解决的问题。用XML作为数据变换的中介,给系统的实现带来极大的灵活性。HTML到XML的转换可以方便实现网上数据的交换。所提出的基于对称性的转换方法,可以高效方便地实现HTML到XML的转换,简化HTML中的信息抽取问题。
展开更多
关键词
html
xml
对称性
下载PDF
职称材料
Web文档清洗系统中HTML解析器的开发
被引量:
7
8
作者
王强
王继成
+1 位作者
武港山
张福炎
《计算机应用研究》
CSCD
北大核心
2002年第2期54-57,共4页
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无...
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典。
展开更多
关键词
html
解析
器
词法器
递归下降
文档清洗系统
WEB
INTERNET
下载PDF
职称材料
高性能的XML解析器OnceXMLParser
被引量:
4
9
作者
金蓓弘
曹冬磊
+2 位作者
任鑫
余双
戴蓓洁
《软件学报》
EI
CSCD
北大核心
2008年第10期2728-2738,共11页
XML(extensible markup language)解析器是分析、处理XML文档的基础软件.研究高性能验证型XML解析器的实现.开发了支持3种解析模型的XML解析器OnceXMLParser,该解析器通过了严格的XML兼容性测试和API兼容性测试.OnceXMLParser具有轻量...
XML(extensible markup language)解析器是分析、处理XML文档的基础软件.研究高性能验证型XML解析器的实现.开发了支持3种解析模型的XML解析器OnceXMLParser,该解析器通过了严格的XML兼容性测试和API兼容性测试.OnceXMLParser具有轻量级体系结构并进行了多方面的性能优化,包括高效的词法分析、基于统计分析的自动机实现、合理的资源分配策略以及语言层次上的优化.性能测试结果表明,OnceXMLParser具有出色的解析性能.
展开更多
关键词
xml
(extensible
MARKUP
language)
解析
器
性能优化
下载PDF
职称材料
OnceSAXParser:一种高效轻量的XML解析器
被引量:
7
10
作者
曹冬磊
田四化
金蓓弘
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第19期49-50,53,共3页
通过优化XML词法和语法处理以及构造轻量级体系结构,实现了支持SAX的高效XML解析器――OnceSAXParser。文中还将OnceSAXParser与目前最流行的XML解析器Xerces进行了对比分析和性能测试,结果显示OnceSAXParser的性能比Xerces平均提高了27...
通过优化XML词法和语法处理以及构造轻量级体系结构,实现了支持SAX的高效XML解析器――OnceSAXParser。文中还将OnceSAXParser与目前最流行的XML解析器Xerces进行了对比分析和性能测试,结果显示OnceSAXParser的性能比Xerces平均提高了27%以上。
展开更多
关键词
xml
解析
器
SAX
性能优化
下载PDF
职称材料
基于DOM的XML解析与应用
被引量:
25
11
作者
蔚晓娟
冉静
+1 位作者
李爱华
尹治本
《计算机技术与发展》
2007年第4期86-88,139,共4页
随着XML的广泛应用,大量的信息都将通过XML文档来进行存储、交换,因此熟悉和掌握一种解析XML文档的方法是很重要的。文中着重介绍基于DOM的XML解析的原理、特点、实现及在数据存储方面的应用,并以业务查询组件为例,详细描述了XML建模、...
随着XML的广泛应用,大量的信息都将通过XML文档来进行存储、交换,因此熟悉和掌握一种解析XML文档的方法是很重要的。文中着重介绍基于DOM的XML解析的原理、特点、实现及在数据存储方面的应用,并以业务查询组件为例,详细描述了XML建模、解析及与JAVA反射机制相结合实现组件的可扩展现性,增强了组件的灵活性和扩展现性,降低组件的维护成本,突出了XML存储数据的优点,对推广应用XML和DOM技术有一定的实用意义。
展开更多
关键词
文档对象模型
xml
解析
JAVA反射机制
下载PDF
职称材料
XML与HTML在Web环境中的应用分析
被引量:
10
12
作者
林清
董占球
《计算机应用》
CSCD
北大核心
2001年第z1期67-68,71,共3页
传统网页编程语言HTML已经越来越无法满足人们的各种需求 ,文中分析了HTML的局限性 ,从XML标准的产生背景出发 ,阐述了XML的特点及其优越性 。
关键词
xml
WWW
html
Web
互连网:标记语言
下载PDF
职称材料
基于表格驱动的XML配置文件解析与生成技术
被引量:
11
13
作者
郭瑞杰
王斌
丁捷
《计算机工程与应用》
CSCD
北大核心
2006年第9期89-92,共4页
XML文件作为配置文件是很多系统的首选,但是目前针对XML文件的配置信息提取与配置文件的构造技术都缺乏通用性,效率较低,扩展性很差。针对这一问题,论文提出了一种通用的基于表格驱动的XML配置文件解析与构造技术。该技术具有如下几个特...
XML文件作为配置文件是很多系统的首选,但是目前针对XML文件的配置信息提取与配置文件的构造技术都缺乏通用性,效率较低,扩展性很差。针对这一问题,论文提出了一种通用的基于表格驱动的XML配置文件解析与构造技术。该技术具有如下几个特征:第一,采用表格驱动,用表格来表示XML的结构信息,可实现配置信息更加严格的验证;第二,利用表格中的槽(slot)结合函数回调来提取配置信息和生成配置文件,使数据和对数据的操作分开,降低了与配置文件的耦合性,同时也使解析和构造统一化,具有高效性。第三,采用基于插件的开放式架构,通过扩展插件可以解析、生成任何复杂的配置文件,具有易扩展性;实际应用表明,论文提出的XML配置文件解析与构造技术具有通用性、易扩展性和高效性。
展开更多
关键词
配王文件
表格驱动
xml
解析
器
xerces—c++
ICU
下载PDF
职称材料
SGML、HTML与XML的比较
被引量:
10
14
作者
徐永川
《情报科学》
CSSCI
北大核心
2004年第1期100-103,共4页
本文分别介绍 3种标记语言 :标准通用标记语言 (SGML)、超文本标记语言和可扩展标记语言(XML) ,并对其作简单的比较。
关键词
SGML
标准通用标记语言
html
超文本标记语言
xml
可扩展标记语言
下载PDF
职称材料
基于并行子树构建的XML解析方法
被引量:
5
15
作者
陈荣鑫
廖湖声
陈维斌
《计算机科学》
CSCD
北大核心
2011年第3期191-194,235,共5页
XML解析的高耗时特点制约着XML应用系统整体性能的提高,并行化是一种重要的优化手段。现有的并行XML解析算法存在的问题是需要通过预处理进行数据划分,才能实现分片并行完全解析处理。预处理往往很耗时,若进行优化处理,则实现复杂。提...
XML解析的高耗时特点制约着XML应用系统整体性能的提高,并行化是一种重要的优化手段。现有的并行XML解析算法存在的问题是需要通过预处理进行数据划分,才能实现分片并行完全解析处理。预处理往往很耗时,若进行优化处理,则实现复杂。提出的方法可实现对XML数据任意分片直接进行解析,并行构建各个片断中的子树,再通过子树合并获得全局的文档树。实验结果表明该方法能有效利用多核计算环境,并行实现XML解析。
展开更多
关键词
xml
解析
子树构建
并行
多核
下载PDF
职称材料
嵌入式HTML文档解析器的设计与实现
被引量:
4
16
作者
李庆诚
彭洁
+1 位作者
宫晓利
刘嘉欣
《计算机工程》
CAS
CSCD
北大核心
2009年第9期258-260,共3页
针对HTML文档在手持移动阅读设备上的阅读有效性问题,设计实现一种面向嵌入式应用的、平台无关的HTML文档解析器,对其关键技术进行阐述和分析。提出一种屏幕适配探测机制,实现对当前屏幕阅读无效内容的过滤。实验结果表明,该解析器降低...
针对HTML文档在手持移动阅读设备上的阅读有效性问题,设计实现一种面向嵌入式应用的、平台无关的HTML文档解析器,对其关键技术进行阐述和分析。提出一种屏幕适配探测机制,实现对当前屏幕阅读无效内容的过滤。实验结果表明,该解析器降低了对嵌入式系统处理能力与内存配置的要求,能满足手持阅读设备的需要。
展开更多
关键词
嵌入式
html
文档
解析
器
屏幕适配探测
手持阅读设备
下载PDF
职称材料
XML解析器应用分析
被引量:
10
17
作者
徐冰
李启炎
朱茜
《计算机系统应用》
北大核心
2002年第1期30-32,共3页
本文在简述XML一系列优越特性的基础上,结合当前研究热点,详细介绍了解析XML文档的两种方法:DOM和SAX,深入探讨了两者的利弊,并给出一个DOM解析器的实际应用。
关键词
xml
DOM
SAX
解析
器
用户界面
文档标记语言
下载PDF
职称材料
HTML文件解析器设计:原理、算法与应用
被引量:
8
18
作者
许骏
柳泉波
《小型微型计算机系统》
CSCD
北大核心
2001年第11期1378-1381,共4页
网页设计制作已成为当前计算机基础教育的重要内容 ,但与此相关的自动阅卷系统研究尚未见报导 .本文介绍了作者在这方面所做的工作 ,内容包括 HTML文件解析器的设计原理、主要算法和典型应用等 .HTML文件解析器作为网上远程考试与评价...
网页设计制作已成为当前计算机基础教育的重要内容 ,但与此相关的自动阅卷系统研究尚未见报导 .本文介绍了作者在这方面所做的工作 ,内容包括 HTML文件解析器的设计原理、主要算法和典型应用等 .HTML文件解析器作为网上远程考试与评价系统的组成部分之一 。
展开更多
关键词
html
文件
解析
器
算法
网页设计
远程教育
下载PDF
职称材料
一种提高中文搜索引擎检索质量的HTML解析方法
被引量:
20
19
作者
宋睿华
马少平
+1 位作者
陈刚
李景阳
《中文信息学报》
CSCD
北大核心
2003年第4期19-26,共8页
中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大...
中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大多数情况下是不可能的。在这篇论文中 ,我们提出了网页噪声的概念 ,并针对中文网页的特点 ,实现了一种对网页自动分块并去噪的HTML解析方法 ,从而达到在预处理阶段消除潜在无关项和间接项的目的。实验结果表明 ,该方法能够在不占用查询时间的前提下 10 0 %地消除中文搜索引擎隐藏的间接项 ,以及大约 11%的无法过滤或隐藏的无关项或间接项 ,从而大幅度提高检索结果的查准率。
展开更多
关键词
中文搜索引擎
检索质量
html
解析
方法
网页噪声
分块模型
网页去噪
中文信息处理
下载PDF
职称材料
用SAX解析XML文档的实现方法
被引量:
12
20
作者
王芳
李正凡
《华东交通大学学报》
2004年第1期84-86,共3页
讨论了解析XML文档的两种API.简要介绍了DOM和SAX在处理XML文档时的不同特点,重点分析了SAX的接口及其相关方法,并通过简单的示例展示了用SAX解析XML文档的方法.
关键词
SAX
解析
xml
文档
DOM
xml
解析
器
可扩展标记语言
程序设计
下载PDF
职称材料
题名
基于Swing的HTML解析器的实现与应用
1
作者
宋宇
机构
南京中医药大学图书馆
出处
《科技资讯》
2024年第14期43-45,49,共4页
文摘
HTML页面解析是一切工作的基础。首先,通过分析HTML解析器感兴趣的标签与超链接的分类,在Java的Swing包的基础上实现了一个HTML解析器,用来提取HTML文档的超链接和锚文本;其次,把HTML解析器应用到多媒体信息检索系统的搜索器Spider的开发中,通过设定若干个种子网站,选择合适的搜索算法,从中筛选出包含音频、视频和Flash动画的Web页面,并将其存放在数据库中。
关键词
解析
器
html
SWING
超文本链接
链接文本
Keywords
Parser
html
Swing
Hyperlink
Link text
分类号
G250 [文化科学—图书馆学]
下载PDF
职称材料
题名
XML解析技术研究
被引量:
59
2
作者
冯进
丁博
史殿习
张瞩熹
许凯
机构
国防科技大学计算机学院
总后后勤科学研究所
国防科技大学理学院
出处
《计算机工程与科学》
CSCD
北大核心
2009年第2期120-124,共5页
基金
国家863计划资助项目(2006AA01Z198)
文摘
XML解析技术是XML语言被广泛应用的前提和基础,计算平台和XML应用特征的变化不断推动着该技术的发展。本文分析了XML解析技术存在的挑战,在对现有XML解析技术进行分类的基础上详细比较和分析了各类技术的特点及应用场景,指出了XML解析技术未来的研究趋势。
关键词
xml
xml
解析
xml
应用
Keywords
xml
xml
parsing
xml
application
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一种基于多叉树的HTML到XML的转换方法
被引量:
4
3
作者
张文斌
陈恩红
王进
机构
中国科学技术大学计算机科学系
出处
《小型微型计算机系统》
CSCD
北大核心
2003年第4期713-715,共3页
基金
国家自然科学基金(60005004)资助
安徽省自然科学基金(01042302)资助
文摘
当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的 方法来检索或提取隐藏其中的数据.针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把 对HTML的信息检索问题转化为对XML的检索问题,以便简化下一步的检索问题.
关键词
多叉树
html
语言
xml
语言
信息检索
Web
Internet
Keywords
html
xml
multi-tree
information retrie
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
G354.4 [文化科学—情报学]
下载PDF
职称材料
题名
一种基于内容的HTML到XML转换策略
被引量:
9
4
作者
李青山
陈平
机构
西安电子科技大学软件工程研究所
出处
《计算机工程与应用》
CSCD
北大核心
2001年第9期30-32,共3页
基金
国防科技电子预研项目资助!(编号:6214)
文摘
互联网应用系统中传统HTML内容数据的重用及其与Web中标准XML格式数据的互交换非常重要。通过对HTML结构和语法特点的分析,文章定义了一种分离HTML格式信息与表达有效语义的内容数据的标记规则,建立了该标记规则到XML模式的一种影射,从而实现了一种从HTML内容到XML结构数据的转换策略。最后,在网页在线维护系统WOMS中应用该策略实现网站管理者对网页的在线维护。
关键词
互联网
应用程序
html
xml
数据转换
Keywords
html
, Content Transformation, Markup Rules,extensible Markup Language,
xml
Schema
分类号
TP393.409 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
XML应用的基石:XML解析技术
被引量:
50
5
作者
刘芳
肖铁军
机构
江苏大学计算机科学与通信工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2005年第10期2823-2824,2839,共3页
文摘
XML解析器是XML应用的基础,选择合适的XML解析技术对应用系统的性能有着较大的影响。通过对XML解析中3种主要解析技术的对比,分析和总结了XML解析器应用中的若干问题,归纳了应用系统设计中XML解析技术的选取原则,并提出了基于性能优化考虑的解析器设计思路。
关键词
xml
xml
解析
器
DOM
SAX
XPP
Keywords
xml
xml
parser
DOM
SAX
XPP
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
用DOM解析XML文档
被引量:
19
6
作者
李勇军
冀汶莉
马光思
机构
西北大学计算机科学系
西安科技学院通信工程系
西安建筑科技大学信控学院
出处
《计算机应用》
CSCD
北大核心
2001年第z1期103-105,共3页
文摘
概括介绍了文档对象模型 (DOM)的结构、特点及其功能 ,并以微软的DOM解析器为例 ,给出了解析XML文档的方法。
关键词
DOM
xml
解析
分类号
TP311.12 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于对称性的HTML到XML的转换方法
被引量:
2
7
作者
魏志华
黄孝伦
刘亮
史林霞
机构
武汉理工大学计算机科学与技术学院
出处
《武汉理工大学学报(信息与管理工程版)》
CAS
2007年第7期45-48,共4页
文摘
作为构造、存储、发送信息的方式,XML的出现在很大程度上解决了一些HTML所不能解决的问题。用XML作为数据变换的中介,给系统的实现带来极大的灵活性。HTML到XML的转换可以方便实现网上数据的交换。所提出的基于对称性的转换方法,可以高效方便地实现HTML到XML的转换,简化HTML中的信息抽取问题。
关键词
html
xml
对称性
Keywords
html
xml
symmetry
分类号
TP311.52 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
Web文档清洗系统中HTML解析器的开发
被引量:
7
8
作者
王强
王继成
武港山
张福炎
机构
南京大学计算机科学与技术系
南京大学计算机软件新技术国家重点实验室
出处
《计算机应用研究》
CSCD
北大核心
2002年第2期54-57,共4页
基金
国家自然科学基金资助项目 (60 0 73 0 3 0 )
国家教育部"现代远程教育关键技术研究重点项目"
日本富士通研究所"Web文档清洗技术研究"资助项目
文摘
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典。
关键词
html
解析
器
词法器
递归下降
文档清洗系统
WEB
INTERNET
Keywords
html
Parser
Lexicon
Recursive Descendant
Web Cleaning
分类号
TP393.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
高性能的XML解析器OnceXMLParser
被引量:
4
9
作者
金蓓弘
曹冬磊
任鑫
余双
戴蓓洁
机构
中国科学院软件研究所
中国科学院研究生院
出处
《软件学报》
EI
CSCD
北大核心
2008年第10期2728-2738,共11页
基金
国家高技术研究发展计划(863)
国家重点基础研究发展计划(973)~~
文摘
XML(extensible markup language)解析器是分析、处理XML文档的基础软件.研究高性能验证型XML解析器的实现.开发了支持3种解析模型的XML解析器OnceXMLParser,该解析器通过了严格的XML兼容性测试和API兼容性测试.OnceXMLParser具有轻量级体系结构并进行了多方面的性能优化,包括高效的词法分析、基于统计分析的自动机实现、合理的资源分配策略以及语言层次上的优化.性能测试结果表明,OnceXMLParser具有出色的解析性能.
关键词
xml
(extensible
MARKUP
language)
解析
器
性能优化
Keywords
extensible markup language
parser
performance tuning
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
OnceSAXParser:一种高效轻量的XML解析器
被引量:
7
10
作者
曹冬磊
田四化
金蓓弘
机构
中国科学院软件研究所软件工程技术中心
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第19期49-50,53,共3页
基金
国家"973"计划基金资助项目(2002CB312005)
国家"863"计划基金资助项目(2001AA113010)
文摘
通过优化XML词法和语法处理以及构造轻量级体系结构,实现了支持SAX的高效XML解析器――OnceSAXParser。文中还将OnceSAXParser与目前最流行的XML解析器Xerces进行了对比分析和性能测试,结果显示OnceSAXParser的性能比Xerces平均提高了27%以上。
关键词
xml
解析
器
SAX
性能优化
Keywords
ML Parser
SAX
Performance tuning
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于DOM的XML解析与应用
被引量:
25
11
作者
蔚晓娟
冉静
李爱华
尹治本
机构
西南交通大学信息科学与技术学院
出处
《计算机技术与发展》
2007年第4期86-88,139,共4页
文摘
随着XML的广泛应用,大量的信息都将通过XML文档来进行存储、交换,因此熟悉和掌握一种解析XML文档的方法是很重要的。文中着重介绍基于DOM的XML解析的原理、特点、实现及在数据存储方面的应用,并以业务查询组件为例,详细描述了XML建模、解析及与JAVA反射机制相结合实现组件的可扩展现性,增强了组件的灵活性和扩展现性,降低组件的维护成本,突出了XML存储数据的优点,对推广应用XML和DOM技术有一定的实用意义。
关键词
文档对象模型
xml
解析
JAVA反射机制
Keywords
DOM
xml
parse
Java reflection
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
XML与HTML在Web环境中的应用分析
被引量:
10
12
作者
林清
董占球
机构
中国科学技术大学计算机科学技术系
出处
《计算机应用》
CSCD
北大核心
2001年第z1期67-68,71,共3页
文摘
传统网页编程语言HTML已经越来越无法满足人们的各种需求 ,文中分析了HTML的局限性 ,从XML标准的产生背景出发 ,阐述了XML的特点及其优越性 。
关键词
xml
WWW
html
Web
互连网:标记语言
分类号
TP393.4 [自动化与计算机技术—计算机应用技术]
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于表格驱动的XML配置文件解析与生成技术
被引量:
11
13
作者
郭瑞杰
王斌
丁捷
机构
中国科学院研究生院
中国科学院计算技术研究所
出处
《计算机工程与应用》
CSCD
北大核心
2006年第9期89-92,共4页
基金
国家973基础研究发展规划资助项目(编号:2004CB318109)
文摘
XML文件作为配置文件是很多系统的首选,但是目前针对XML文件的配置信息提取与配置文件的构造技术都缺乏通用性,效率较低,扩展性很差。针对这一问题,论文提出了一种通用的基于表格驱动的XML配置文件解析与构造技术。该技术具有如下几个特征:第一,采用表格驱动,用表格来表示XML的结构信息,可实现配置信息更加严格的验证;第二,利用表格中的槽(slot)结合函数回调来提取配置信息和生成配置文件,使数据和对数据的操作分开,降低了与配置文件的耦合性,同时也使解析和构造统一化,具有高效性。第三,采用基于插件的开放式架构,通过扩展插件可以解析、生成任何复杂的配置文件,具有易扩展性;实际应用表明,论文提出的XML配置文件解析与构造技术具有通用性、易扩展性和高效性。
关键词
配王文件
表格驱动
xml
解析
器
xerces—c++
ICU
Keywords
configuration file,table-driven,
xml
parser,xerees-c++,ICU
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
SGML、HTML与XML的比较
被引量:
10
14
作者
徐永川
机构
重庆医科大学第二临床学院
出处
《情报科学》
CSSCI
北大核心
2004年第1期100-103,共4页
文摘
本文分别介绍 3种标记语言 :标准通用标记语言 (SGML)、超文本标记语言和可扩展标记语言(XML) ,并对其作简单的比较。
关键词
SGML
标准通用标记语言
html
超文本标记语言
xml
可扩展标记语言
Keywords
Markup language SGML
html
xml
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
G203 [文化科学—传播学]
下载PDF
职称材料
题名
基于并行子树构建的XML解析方法
被引量:
5
15
作者
陈荣鑫
廖湖声
陈维斌
机构
北京工业大学计算机学院
集美大学计算机工程学院
华侨大学计算机学院
出处
《计算机科学》
CSCD
北大核心
2011年第3期191-194,235,共5页
基金
福建省自然科学基金项目(2008J04005)
北京市自然科学基金项目(4082003)资助
文摘
XML解析的高耗时特点制约着XML应用系统整体性能的提高,并行化是一种重要的优化手段。现有的并行XML解析算法存在的问题是需要通过预处理进行数据划分,才能实现分片并行完全解析处理。预处理往往很耗时,若进行优化处理,则实现复杂。提出的方法可实现对XML数据任意分片直接进行解析,并行构建各个片断中的子树,再通过子树合并获得全局的文档树。实验结果表明该方法能有效利用多核计算环境,并行实现XML解析。
关键词
xml
解析
子树构建
并行
多核
Keywords
xml
parsing
Sub-tree construction
Parallel
Multi-core
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
嵌入式HTML文档解析器的设计与实现
被引量:
4
16
作者
李庆诚
彭洁
宫晓利
刘嘉欣
机构
南开大学信息技术科学学院计算机科学与技术系
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第9期258-260,共3页
基金
天津市科技发展计划基金资助项目(06YFGZGX04000)
文摘
针对HTML文档在手持移动阅读设备上的阅读有效性问题,设计实现一种面向嵌入式应用的、平台无关的HTML文档解析器,对其关键技术进行阐述和分析。提出一种屏幕适配探测机制,实现对当前屏幕阅读无效内容的过滤。实验结果表明,该解析器降低了对嵌入式系统处理能力与内存配置的要求,能满足手持阅读设备的需要。
关键词
嵌入式
html
文档
解析
器
屏幕适配探测
手持阅读设备
Keywords
embedded
html
document
parser
Screen Matching Detection(SMD)
handheld mobile device
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
XML解析器应用分析
被引量:
10
17
作者
徐冰
李启炎
朱茜
机构
上海同济大学
出处
《计算机系统应用》
北大核心
2002年第1期30-32,共3页
文摘
本文在简述XML一系列优越特性的基础上,结合当前研究热点,详细介绍了解析XML文档的两种方法:DOM和SAX,深入探讨了两者的利弊,并给出一个DOM解析器的实际应用。
关键词
xml
DOM
SAX
解析
器
用户界面
文档标记语言
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
HTML文件解析器设计:原理、算法与应用
被引量:
8
18
作者
许骏
柳泉波
机构
北京师范大学现代教育技术研究所
出处
《小型微型计算机系统》
CSCD
北大核心
2001年第11期1378-1381,共4页
基金
广东省高校重点科研课题资助
文摘
网页设计制作已成为当前计算机基础教育的重要内容 ,但与此相关的自动阅卷系统研究尚未见报导 .本文介绍了作者在这方面所做的工作 ,内容包括 HTML文件解析器的设计原理、主要算法和典型应用等 .HTML文件解析器作为网上远程考试与评价系统的组成部分之一 。
关键词
html
文件
解析
器
算法
网页设计
远程教育
Keywords
html/
X
html
File parser
Algorithm
html
file design
Automatic examination paper marking
Distance Eduction
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
G728 [文化科学—成人教育学]
下载PDF
职称材料
题名
一种提高中文搜索引擎检索质量的HTML解析方法
被引量:
20
19
作者
宋睿华
马少平
陈刚
李景阳
机构
清华大学计算机科学与技术系
出处
《中文信息学报》
CSCD
北大核心
2003年第4期19-26,共8页
基金
国家重点基础研究资助项目 (973) (G19980 30 5 0 9)
自然科学基金资助项目 (6 0 2 2 30 0 4 )
86 3高科技资助项目 (2 0 0 1AA114 0 82 )
文摘
中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大多数情况下是不可能的。在这篇论文中 ,我们提出了网页噪声的概念 ,并针对中文网页的特点 ,实现了一种对网页自动分块并去噪的HTML解析方法 ,从而达到在预处理阶段消除潜在无关项和间接项的目的。实验结果表明 ,该方法能够在不占用查询时间的前提下 10 0 %地消除中文搜索引擎隐藏的间接项 ,以及大约 11%的无法过滤或隐藏的无关项或间接项 ,从而大幅度提高检索结果的查准率。
关键词
中文搜索引擎
检索质量
html
解析
方法
网页噪声
分块模型
网页去噪
中文信息处理
Keywords
computer application
Chinese information processing
html
parser
noise filtering
block model
search engine
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
用SAX解析XML文档的实现方法
被引量:
12
20
作者
王芳
李正凡
机构
华东交通大学信息工程学院
华东交通大学软件学院
出处
《华东交通大学学报》
2004年第1期84-86,共3页
文摘
讨论了解析XML文档的两种API.简要介绍了DOM和SAX在处理XML文档时的不同特点,重点分析了SAX的接口及其相关方法,并通过简单的示例展示了用SAX解析XML文档的方法.
关键词
SAX
解析
xml
文档
DOM
xml
解析
器
可扩展标记语言
程序设计
Keywords
xml
SAX
DOM
xml
Parser
分类号
TP317.2 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Swing的HTML解析器的实现与应用
宋宇
《科技资讯》
2024
0
下载PDF
职称材料
2
XML解析技术研究
冯进
丁博
史殿习
张瞩熹
许凯
《计算机工程与科学》
CSCD
北大核心
2009
59
下载PDF
职称材料
3
一种基于多叉树的HTML到XML的转换方法
张文斌
陈恩红
王进
《小型微型计算机系统》
CSCD
北大核心
2003
4
下载PDF
职称材料
4
一种基于内容的HTML到XML转换策略
李青山
陈平
《计算机工程与应用》
CSCD
北大核心
2001
9
下载PDF
职称材料
5
XML应用的基石:XML解析技术
刘芳
肖铁军
《计算机工程与设计》
CSCD
北大核心
2005
50
下载PDF
职称材料
6
用DOM解析XML文档
李勇军
冀汶莉
马光思
《计算机应用》
CSCD
北大核心
2001
19
下载PDF
职称材料
7
基于对称性的HTML到XML的转换方法
魏志华
黄孝伦
刘亮
史林霞
《武汉理工大学学报(信息与管理工程版)》
CAS
2007
2
下载PDF
职称材料
8
Web文档清洗系统中HTML解析器的开发
王强
王继成
武港山
张福炎
《计算机应用研究》
CSCD
北大核心
2002
7
下载PDF
职称材料
9
高性能的XML解析器OnceXMLParser
金蓓弘
曹冬磊
任鑫
余双
戴蓓洁
《软件学报》
EI
CSCD
北大核心
2008
4
下载PDF
职称材料
10
OnceSAXParser:一种高效轻量的XML解析器
曹冬磊
田四化
金蓓弘
《计算机工程》
EI
CAS
CSCD
北大核心
2006
7
下载PDF
职称材料
11
基于DOM的XML解析与应用
蔚晓娟
冉静
李爱华
尹治本
《计算机技术与发展》
2007
25
下载PDF
职称材料
12
XML与HTML在Web环境中的应用分析
林清
董占球
《计算机应用》
CSCD
北大核心
2001
10
下载PDF
职称材料
13
基于表格驱动的XML配置文件解析与生成技术
郭瑞杰
王斌
丁捷
《计算机工程与应用》
CSCD
北大核心
2006
11
下载PDF
职称材料
14
SGML、HTML与XML的比较
徐永川
《情报科学》
CSSCI
北大核心
2004
10
下载PDF
职称材料
15
基于并行子树构建的XML解析方法
陈荣鑫
廖湖声
陈维斌
《计算机科学》
CSCD
北大核心
2011
5
下载PDF
职称材料
16
嵌入式HTML文档解析器的设计与实现
李庆诚
彭洁
宫晓利
刘嘉欣
《计算机工程》
CAS
CSCD
北大核心
2009
4
下载PDF
职称材料
17
XML解析器应用分析
徐冰
李启炎
朱茜
《计算机系统应用》
北大核心
2002
10
下载PDF
职称材料
18
HTML文件解析器设计:原理、算法与应用
许骏
柳泉波
《小型微型计算机系统》
CSCD
北大核心
2001
8
下载PDF
职称材料
19
一种提高中文搜索引擎检索质量的HTML解析方法
宋睿华
马少平
陈刚
李景阳
《中文信息学报》
CSCD
北大核心
2003
20
下载PDF
职称材料
20
用SAX解析XML文档的实现方法
王芳
李正凡
《华东交通大学学报》
2004
12
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
30
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部