期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于改进DOM树的网页去噪声方法 被引量:6
1
作者 丁宝琼 谢远平 吴琼 《计算机应用》 CSCD 北大核心 2009年第B06期175-177,共3页
一个普通的Web网页可以被分成信息块和噪声块两个部分,因此快速准确地去除网页中的噪声块是网页信息采集处理的关键技术之一。利用网页模板的相似性,提出一种基于改进DOM的网页噪声去除算法,并将通过此算法处理的网页用于SVM分类系统,... 一个普通的Web网页可以被分成信息块和噪声块两个部分,因此快速准确地去除网页中的噪声块是网页信息采集处理的关键技术之一。利用网页模板的相似性,提出一种基于改进DOM的网页噪声去除算法,并将通过此算法处理的网页用于SVM分类系统,结果显示经过处理的网页对分类结果的准确性有了一定的改进。 展开更多
关键词 网页噪声 dom 噪声节点 分类器
下载PDF
XML编程中的DOM与SAX技术 被引量:25
2
作者 赵俊岚 《计算机工程》 CAS CSCD 北大核心 2004年第24期70-72,共3页
在XML的基础上,介绍了DOM与SAX技术的产生以及实现方式。通过引入应用示例对DOM与SAX的工作方式以及解析过程进行了分析,进而对两种技术进行了比较,并指出了DOM与SAX技术所适宜的情况与环境。
关键词 可扩展标记语言 文档对象模型 SAX 节点 树型结构 事件驱动
下载PDF
基于DOM的Deep Web查询接口属性抽取方法
3
作者 石龙 强保华 +2 位作者 何倩 吴春明 谌超 《桂林电子科技大学学报》 2012年第6期468-472,共5页
属性抽取主要基于单元素属性抽取,而多元素属性抽取的研究较少。针对多元素组成属性情况进行研究,提出一种基于查询接口DOM结构的属性抽取方法,该方法将查询接口解析成DOM,基于DOM节点提取查询接口上对应的表单元素,对从查询接口上提取... 属性抽取主要基于单元素属性抽取,而多元素属性抽取的研究较少。针对多元素组成属性情况进行研究,提出一种基于查询接口DOM结构的属性抽取方法,该方法将查询接口解析成DOM,基于DOM节点提取查询接口上对应的表单元素,对从查询接口上提取获得的元素集合进行二次聚类,挖掘元素之间的组合关系,最终将元素组合形成属性。这种方法能很好地抽取接口上的单元素属性和多元素属性,实验结果表明了方法的有效性。 展开更多
关键词 属性抽取 DEEP Web 查询接口 dom节点 表单元素
下载PDF
基于XML的数据库信息交换机制 被引量:8
4
作者 成绫 李盛韬 程学旗 《计算机工程与应用》 CSCD 北大核心 2003年第25期184-186,225,共4页
该文对XML在数据库信息交换领域的应用问题进行了探讨;分析了XML在与DOM技术相结合进行数据库信息交换的优势和意义,并通过一个应用实例阐述了此种技术的具体实现方法。
关键词 数据库 XML dom 节点树
下载PDF
节点频度和语义距离相结合的网页正文信息抽取 被引量:3
5
作者 孟军 刘秋水 王秀坤 《计算机工程与应用》 CSCD 北大核心 2009年第1期140-143,共4页
提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离... 提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在96%以上,优于基于信息熵的抽取方法。 展开更多
关键词 信息提取 带有节点频度的文档对象模型树 节点频度 语义距离
下载PDF
一种基于节点密度分割和标签传播的Web页面挖掘方法 被引量:13
6
作者 张乃洲 曹薇 李石君 《计算机学报》 EI CSCD 北大核心 2015年第2期349-364,共16页
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中... 获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性. 展开更多
关键词 页面分割 节点密度 标签传播 dom 块分类 社会计算 社交网络
下载PDF
网页Pagelet的自动抽取方法
7
作者 朱明 李伟 《计算机应用》 CSCD 北大核心 2005年第11期2612-2614,共3页
W eb页面中除了所包含的数据外,往往还包含很多导航信息、广告等。针对W eb页面的特点,提出了DOM树比较算法,通过对多个页面进行比较,识别出主体内容。实验结果证明该方法是有效可行的。
关键词 WEB挖掘 信息获取 dom相似度 dom节点聚类
下载PDF
一种基于统计的中文网页正文抽取方法 被引量:3
8
作者 钱爱兵 《情报学报》 CSSCI 北大核心 2009年第2期187-194,共8页
针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值... 针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文,即大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文。通过使用中文新闻类网页对该方法的有效性进行验证,结果表明:该方法虽然简单,但是抽取准确率极高且易于实现。 展开更多
关键词 文本密度 文本结点 正文抽取 贝叶斯判别准则 dom
下载PDF
基于节点类型标注的网页主题信息抽取方法 被引量:4
9
作者 谢方立 周国民 王健 《计算机科学》 CSCD 北大核心 2016年第S2期31-34,49,共5页
提出一种基于DOM节点类型标注的网页主题信息抽取的方法。首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算方法。通过给DOM节点添加类型和内聚度两个属性,在正文提取阶... 提出一种基于DOM节点类型标注的网页主题信息抽取的方法。首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算方法。通过给DOM节点添加类型和内聚度两个属性,在正文提取阶段选取内聚度大于阈值的文本型节点,最后整合成网页主题信息。将该方法与另外3款网页正文提取工具做对比实验,结果显示该方法在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%。 展开更多
关键词 dom 节点类型标注 主题信息抽取
下载PDF
用Java扩展XSLT
10
作者 孙晓霞 刘晓霞 《微机发展》 2005年第8期30-33,共4页
XSLT提供了一种将XML文档转换为HTML的强有力的工具。然而,当这种转换需要涉及更多逻辑的时候,就会显现出它的不足之处。文中讲述了如何使用Java扩展XSLT,从而更好地发挥两种语言的特色。最后给出一实例来具体展示如何将XML节点传送到J... XSLT提供了一种将XML文档转换为HTML的强有力的工具。然而,当这种转换需要涉及更多逻辑的时候,就会显现出它的不足之处。文中讲述了如何使用Java扩展XSLT,从而更好地发挥两种语言的特色。最后给出一实例来具体展示如何将XML节点传送到Java类并返回到样式表以进一步处理。 展开更多
关键词 可扩展样式表语言转换 样式表 XML节点 模板 文档对象模型
下载PDF
XML文档查询方法的实现与实例分析 被引量:1
11
作者 曹哲术 方兴 《计算机与现代化》 2005年第5期116-118,121,共4页
针对如何在浩如烟海的XML数据源中获取有用信息的问题,介绍了几种典型解决方法,并对各方法的实例进行了分析。
关键词 XML XML文档 DSO dom 节点 XQL XML QL
下载PDF
基于文本对象模型的自动化网页内容提取方法 被引量:3
12
作者 李桐宇 任锐 +1 位作者 蔡鸿明 姜丽红 《上海交通大学学报》 EI CAS CSCD 北大核心 2018年第10期1363-1369,共7页
网页内容提取在信息检索、文本分析以及网络资源数据处理等领域具有重要的工程与应用价值.针对网页中的大量无关内容及网页结构的异构性所造成的网页内容提取难题,提出一种基于文本对象模型(DOM)的自动化网页内容提取方法.首先,在节点... 网页内容提取在信息检索、文本分析以及网络资源数据处理等领域具有重要的工程与应用价值.针对网页中的大量无关内容及网页结构的异构性所造成的网页内容提取难题,提出一种基于文本对象模型(DOM)的自动化网页内容提取方法.首先,在节点过滤后,对网页的DOM模型进行压缩,便于后续分析处理;然后,提出基于文本-链接密度的内容提取方法来识别网页内容;最后,基于节点熵来识别并去除网页内容中的噪声链接.实验结果表明,相比于传统的网页内容提取方法,该方法的准确率和F1分数均有明显提升,而召回率仅有轻微下降. 展开更多
关键词 文本对象模型 网页内容提取 文本密度 节点熵
下载PDF
基于CORBA的XML映射中间件研究
13
作者 丁文学 蔡瑞英 《微处理机》 2009年第2期43-46,50,共5页
在分析XML文档特点基础之上,利用DOM建立XML文档的节点树,研究并提出了一套规则将一个XML节点树映射为三个公共类。为此提出两个算法以实现XML文档与这三个公共类之间的双向映射。利用持久层框架(Hibernate)来实现这三个类与数据库之间... 在分析XML文档特点基础之上,利用DOM建立XML文档的节点树,研究并提出了一套规则将一个XML节点树映射为三个公共类。为此提出两个算法以实现XML文档与这三个公共类之间的双向映射。利用持久层框架(Hibernate)来实现这三个类与数据库之间的映射。从而在XML文档与数据库之间建立了一个映射持久层,以实现软件元素的大粒度重用,增强系统的可移植性。同时为了解决异构环境下系统的通信问题,利用CORBA具有平台和语言无关的特性来设计系统的通信模块,使得用户可以在不同的平台上,以不同的编程语言采用静态或动态的方式对服务发起调用。 展开更多
关键词 公共对象请求代理 文档对象模型 持久层框架 节点树 松耦合
下载PDF
最小节点信息树抽取规则及可视化生成方法
14
作者 霍滨焱 《应用科技》 CAS 2009年第7期37-40,共4页
提出了最小节点信息树概念,将抽取规则分为粗略规则和精细规则,降低了DOM树的高度,提高了信息抽取效率.设计并实现了一种最小节点信息树抽取规则的可视化实现方法.
关键词 WEB信息抽取 抽取规则 最小节点信息树
下载PDF
基于Visual Basic环境下的XML信息挖掘与开发方法研究
15
作者 曾瑞 《科技广场》 2005年第10期56-59,共4页
本文论述了基于VB环境下的XML开发的整体构思,讨论了关于在XML中使用VB开发应用程序的方法,DOM节点树和应用程序操作的使用方法,并用例子说明了VB应用程序利用DOM对XML文档的使用方法。
关键词 XML 节点 文档对象模型
下载PDF
基于多特征融合的网页表格数据提取方法
16
作者 马佳芸 杨林峰 《工业控制计算机》 2022年第11期81-83,86,共4页
随着工业互联网的快速发展,工业管理网站获得大量应用,网页内容防篡改成为重要的安全问题。在面向工业管理网站的篡改检测问题中,网页表格数据检测是其中的重要环节,实现网页表格数据的自动化提取成为研究人员关注的重点问题。现有的网... 随着工业互联网的快速发展,工业管理网站获得大量应用,网页内容防篡改成为重要的安全问题。在面向工业管理网站的篡改检测问题中,网页表格数据检测是其中的重要环节,实现网页表格数据的自动化提取成为研究人员关注的重点问题。现有的网页表格数据提取方法通常集中于表格自身的结构特征,且多数方法只针对由标签构成的规范化表格,无法提取由其他标签构成的非规范化表格,因此提出了一种基于多特征融合的表格数据提取方法。该方法首先对网页进行预处理,然后根据DOM树节点的标签特征和属性特征进行过滤,再通过相似度聚类算法对路径相似的节点进行分组,最后结合节点簇的尺寸特征和空间特征确定表格区域。实验结果表明,该方法适用于规范化表格和非规范化表格的数据提取任务,具有较高的准确性和通用性。 展开更多
关键词 表格数据提取 多特征融合 dom 节点聚类
下载PDF
基于DOM的Web文本分割
17
作者 罗建利 《图书情报工作》 CSSCI 北大核心 2009年第4期116-120,共5页
利用web文档的半结构化信息,提出一种基于DOM的web文本分割算法。该算法充分挖掘web网页中控制网页内容结构和显示的HTML标签信息,构建HTMLDOM树。首先通过改进传统的平面文本分割方法,使之适用于web文本分割;然后利用DOM树中的节点平... 利用web文档的半结构化信息,提出一种基于DOM的web文本分割算法。该算法充分挖掘web网页中控制网页内容结构和显示的HTML标签信息,构建HTMLDOM树。首先通过改进传统的平面文本分割方法,使之适用于web文本分割;然后利用DOM树中的节点平滑平面文本分割的结果,初步实验表明该算法能有效提高web文本分割的精确度。 展开更多
关键词 dom 文本分割 主题边界 文本节点
原文传递
Web页面最大有意义节点发现算法研究 被引量:3
18
作者 李亚子 方安 +1 位作者 陈薇 朱峰 《现代图书情报技术》 CSSCI 北大核心 2009年第10期22-27,共6页
在分析国内外研究和实现发现Web页面中最大有意义节点算法的基础上,将多个相似页面压缩成为样式树,通过计算节点的重要性发现最大有意义节点并给出样例分析。
关键词 样式树 最大有意义节点 节点重要性 dom
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部