期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
基于页面Block的Web档案采集和存储 被引量:12
1
作者 宋杰 王大玲 +1 位作者 鲍玉斌 申德荣 《软件学报》 EI CSCD 北大核心 2008年第2期275-290,共16页
提出了基于页面Block对Web页面的采集和存储方式,并详细表述了该方法如何完成基于布局页面分区、Block主题的抽取、版本和差异的比较以及增量存储的方式.实现了一个Web归档原型系统,并对所提出的算法进行了详细的测试.理论和实验表明,... 提出了基于页面Block对Web页面的采集和存储方式,并详细表述了该方法如何完成基于布局页面分区、Block主题的抽取、版本和差异的比较以及增量存储的方式.实现了一个Web归档原型系统,并对所提出的算法进行了详细的测试.理论和实验表明,所提出的基于页面Block的Web档案(Web archive)采集和存储方法能够很好地适应Web档案的管理方式,并对基于Web档案的查询、搜索、知识发现和数据挖掘等应用提供有利的数据资源. 展开更多
关键词 web档案 页面分区 页块
下载PDF
Web页面清洗技术的研究与实现 被引量:20
2
作者 周源远 王继成 +1 位作者 郑刚 张福炎 《计算机工程》 CAS CSCD 北大核心 2002年第9期48-50,197,共4页
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的... 文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性。 展开更多
关键词 web页面 清洗技术 文本块 链接块 DOM 解析器 Internet 信息检索
下载PDF
网页分块聚类的Web站点逻辑域挖掘 被引量:1
3
作者 郑皎凌 王成良 《计算机工程》 CAS CSCD 北大核心 2007年第4期52-54,57,共4页
Web逻辑域挖掘是当前Web挖掘领域的研究热点之一,它强调从网站设计者的角度来挖掘站点中有逻辑联系的网页,以形成一个逻辑域,而不是单纯的文本聚类或超链排序。随着应用的不同,站点逻辑域的界定也有所不同。在综合分析了几种具有代表性... Web逻辑域挖掘是当前Web挖掘领域的研究热点之一,它强调从网站设计者的角度来挖掘站点中有逻辑联系的网页,以形成一个逻辑域,而不是单纯的文本聚类或超链排序。随着应用的不同,站点逻辑域的界定也有所不同。在综合分析了几种具有代表性的站点逻辑域及其挖掘方法后,提出了基于网页分块聚类的Web站点逻辑域挖掘模型和挖掘算法。实验结果表明,该算法具有很好的稳定性和适应性,其精度不受站点规模、语言、镜像等因素的影响,召回率则会随着取回网页数目的增加而增加。 展开更多
关键词 网页分块 web逻辑域 web挖掘 分块粒度
下载PDF
Web页面信息主动检索模型 被引量:1
4
作者 袁鼎荣 钟宁 《智能系统学报》 2010年第2期112-116,共5页
单个页面信息量远远大于特定用户对页面中的信息需求.为快速准确从当前页面中获取特定用户所需求的兴趣信息,提出了页面信息主动检索模型.该检索模型中,根据页面Block特点将当前Web页面转化成信息树,根据用户过去的浏览行为构造用户特征... 单个页面信息量远远大于特定用户对页面中的信息需求.为快速准确从当前页面中获取特定用户所需求的兴趣信息,提出了页面信息主动检索模型.该检索模型中,根据页面Block特点将当前Web页面转化成信息树,根据用户过去的浏览行为构造用户特征树,挖掘用户特征树产生用户需求信息集,然后从当前页面中检索需求的信息,获取用户兴趣信息集.详述了主动检索的基本原理,给出了相应的算法描述,并通过实验证明了该模型具有可行性. 展开更多
关键词 页面block 页面信息树 用户特征树 主动检索
下载PDF
一种基于节点密度分割和标签传播的Web页面挖掘方法 被引量:13
5
作者 张乃洲 曹薇 李石君 《计算机学报》 EI CSCD 北大核心 2015年第2期349-364,共16页
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中... 获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性. 展开更多
关键词 页面分割 节点密度 标签传播 DOM树 块分类 社会计算 社交网络
下载PDF
基于页面分块模型的PageRank算法研究 被引量:4
6
作者 白似雪 刘华斌 《南昌大学学报(工科版)》 CAS 2008年第2期179-183,共5页
提出了一个基于页面分块重要性模型的PageRank改进算法。该算法考虑同一页面内属于不同分块的出链接有着不同的重要性,故对不同分块的出链接赋予相应的权重,从而更合理、更公正、更有效地计算页面的PageRank值。与以往的PageRank算法及... 提出了一个基于页面分块重要性模型的PageRank改进算法。该算法考虑同一页面内属于不同分块的出链接有着不同的重要性,故对不同分块的出链接赋予相应的权重,从而更合理、更公正、更有效地计算页面的PageRank值。与以往的PageRank算法及其改进算法相比,该算法以基于视觉特征的页面分块算法为核心,更好地反映了网页的特性,符合了用户的使用习惯,具有良好的效果。 展开更多
关键词 pageRANK 页面分块重要性模型 链接分析 主题漂移 支持向量机
下载PDF
Web信息抽取技术在统一检索系统中的应用研究 被引量:7
7
作者 王权 施韶亭 《计算机应用与软件》 CSCD 2010年第10期120-122,137,共4页
结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统... 结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台。 展开更多
关键词 web信息抽取 统一检索 页面结构分析 关键信息块 子树广度
下载PDF
基于结构与内容的Web主要信息提取方法研究
8
作者 张文东 李伟 《计算机工程与设计》 CSCD 北大核心 2008年第24期6210-6212,共3页
Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发... Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发,准确地将Web内容进行分块,并对分块内容进行分析处理,从而提取出Web页面的主要信息。 展开更多
关键词 web页面 内容 结构 分块 信息提取
下载PDF
Web页面分块技术综述
9
作者 吕天 于长富 《现代计算机》 2012年第9期8-13,21,共7页
有很多不同的分块算法都可以对Web网页进行分块,研究分块的目的是为了相关领域进一步研究的需要,例如通过页面块内容的重要程度研究基于块的搜索、定位网页的重要主题或内容,研究网页主要内容或主题的抽取,以及基于Web页面分块的Web存... 有很多不同的分块算法都可以对Web网页进行分块,研究分块的目的是为了相关领域进一步研究的需要,例如通过页面块内容的重要程度研究基于块的搜索、定位网页的重要主题或内容,研究网页主要内容或主题的抽取,以及基于Web页面分块的Web存档等。首先给出Web页面分块问题定义和分类,并对几种典型的分块算法进行原理剖析,为进一步研究Web页面分块问题提供一些有益的参考。 展开更多
关键词 web页面 分块算法 web页面分块
下载PDF
基于分块重要性模型与Xpath的Web信息抽取的研究
10
作者 庞秋奔 顾平 杨小梅 《计算机与现代化》 2009年第8期73-75,79,共4页
网页分块方法使得Web信息抽取的单位由页面缩小为块。文中研究了网页分块的主要方法与基于学习的分块重要性模型,对Xpath的Web抽取方法进行分析。结合两者的优势提出一种基于分块重要性模型与Xpath结合的Web信息抽取方法,探讨了其设计过... 网页分块方法使得Web信息抽取的单位由页面缩小为块。文中研究了网页分块的主要方法与基于学习的分块重要性模型,对Xpath的Web抽取方法进行分析。结合两者的优势提出一种基于分块重要性模型与Xpath结合的Web信息抽取方法,探讨了其设计过程,并给出形式化描述与实验结果,结果表明该方法适合于抽取多记录型的网页。 展开更多
关键词 网页分块 块重要性权重 XPATH web信息抽取
下载PDF
基于新型主题信息量化方法的Web主题信息提取研究 被引量:1
11
作者 吕聚旺 都云程 +1 位作者 王弘蔚 施水才 《现代图书情报技术》 CSSCI 北大核心 2008年第12期48-53,共6页
针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采... 针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。 展开更多
关键词 网页主题信息信息抽取信息块语义信息IB—DOM树
下载PDF
基于Web标准的页面分块算法研究 被引量:2
12
作者 郭坤银 邢永康 《微处理机》 2009年第6期58-61,共4页
页面分块在文档分类,信息抽取,主题信息采集,以及搜索引擎优化等方面具有重要的作用。首先提出了一种基于Web标准的页面分块算法,通过对网页进行解析和布局分析,利用Web标准对网页进行分块。实验证明该算法在对遵循Web标准的网页进行分... 页面分块在文档分类,信息抽取,主题信息采集,以及搜索引擎优化等方面具有重要的作用。首先提出了一种基于Web标准的页面分块算法,通过对网页进行解析和布局分析,利用Web标准对网页进行分块。实验证明该算法在对遵循Web标准的网页进行分块时,在分块准确性和复杂页面适应性方面得到了提高。 展开更多
关键词 页面分块 层叠样式表 语义块
下载PDF
Web页面信息块的自动分割 被引量:10
13
作者 瞿有利 于浩 +1 位作者 徐国伟 西野文人 《中文信息学报》 CSCD 北大核心 2004年第1期6-13,共8页
随着Internet的发展 ,Web页面数量的急剧增加 ,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元 ,它们在展现上排列紧凑、风格相似 ,在HTML语法上具有类似的模式 ,例如一个BBS页面上多个发言 ,每个信息被称... 随着Internet的发展 ,Web页面数量的急剧增加 ,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元 ,它们在展现上排列紧凑、风格相似 ,在HTML语法上具有类似的模式 ,例如一个BBS页面上多个发言 ,每个信息被称为一个信息块。对于信息抽取、信息过滤等应用 ,需要首先将原始页面中分割为若干合适的信息块以便于后续的处理。本文提出了一种自动将Web页面分割为信息块的方法 :首先通过创建Web页面结构化的HMTL分析树 ,然后根据包含有效文本量等确定包含信息块的子树 ,最后根据子树深度信息利用 2 -rankPAT算法进行分割。通过对BBS页面的信息块抽取实验 ,证明了该方法的有效性。 展开更多
关键词 计算机应用 中文信息处理 web页面 信息提取 信息块
下载PDF
基于网页分块的正文信息提取方法 被引量:13
14
作者 黄玲 陈龙 《计算机应用》 CSCD 北大核心 2008年第S2期326-328,共3页
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中... 网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字。实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。 展开更多
关键词 web信息抽取 主题内容块 网页正文信息
下载PDF
改进的Shark-search算法在网络采集中的应用 被引量:1
15
作者 张玲 祁玉娟 姜华 《计算机技术与发展》 2017年第8期192-194,199,共4页
Shark-search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相关性而忽略了网页的组织结构特性,在抓取有较多噪音链接的网页时效果欠佳。基于网页组织结构特性的分析研... Shark-search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相关性而忽略了网页的组织结构特性,在抓取有较多噪音链接的网页时效果欠佳。基于网页组织结构特性的分析研究,提出了一种基于网页主题分块的Shark-search算法。该算法在经典Shark-search算法的基础上依据网页组织结构根据网页布局标签对页面内容进行分块,从网页,块和链接三个层面与主题的相关性得到链接的综合价值,因而具有自学习功能,能统计学习与主题相关性较大的块特征,并在发生主题漂移的时候具有自调整功能,给予主题相关性较大的父页面上的链接更多被抓取的机会。采集实验结果表明,所提出的算法在经典Shark-search的基础上能较好地改进主题信息采集的查准率,能够更灵活地针对实际的Web资源状况进行自调整。 展开更多
关键词 Shark-search算法 网页分块 web信息搜集 链接价值 主题漂移
下载PDF
基于模块的网页设计技术 被引量:4
16
作者 张宏森 朱征宇 《计算机应用研究》 CSCD 北大核心 2002年第2期49-50,53,共3页
在信息资源迅速增长的今天 ,如何对Web上大量的信息进行高效地组织和维护 ,以及提高Web上搜索和浏览信息的速度和性能是我们面对的一个重要问题。从模块化的程序设计思想中得到启发 ,提出了一种模块化网页设计技术。该技术在网页快速制... 在信息资源迅速增长的今天 ,如何对Web上大量的信息进行高效地组织和维护 ,以及提高Web上搜索和浏览信息的速度和性能是我们面对的一个重要问题。从模块化的程序设计思想中得到启发 ,提出了一种模块化网页设计技术。该技术在网页快速制作、模块重用、数据一致性维护。 展开更多
关键词 模块化网页 HTML语言 浏览器 web服务器 搜索引擎 网页设计
下载PDF
面向移动设备的网页切割研究与设计
17
作者 肖云鹏 王佐成 李茜 《计算机工程与应用》 CSCD 北大核心 2008年第17期71-73,共3页
移动手持设备因其屏幕小,有限的计算及存储能力而不便浏览普通Web页面;另一方面,对于PDA、手机用户,本着用户个性定制以及降低费用的原则也有必要对现有Web页面进行"裁减"。就以上问题,提出一种面向移动设备网页切割的解决方... 移动手持设备因其屏幕小,有限的计算及存储能力而不便浏览普通Web页面;另一方面,对于PDA、手机用户,本着用户个性定制以及降低费用的原则也有必要对现有Web页面进行"裁减"。就以上问题,提出一种面向移动设备网页切割的解决方案:首先对半结构化的HTML文档进行结构化处理,接着基于DOM规范将HTML转化为DOM树并对其噪音清洗,然后对网页进行基于内容和基于链接的分块并对分块结果按照分层和用户定制的思想进行切割、重构,最后在开源项目HTMLParser基础上开发了原型系统并对系统执行效率和切割效果进行了评估。结果表明该方案切实可行,具有可观的应用价值。 展开更多
关键词 DOM 噪音清洗 网页分块 网页切割 网页重构
下载PDF
基于CSS的网页分割算法 被引量:4
18
作者 孙晓辉 刘建 +1 位作者 王劲林 陈晓 《微计算机应用》 2008年第9期46-51,共6页
在页面变换,信息抽取,信息过滤等应用中,首先需要将原始页面分割成为若干合适的信息块以便于后续的处理。本文提出了一种基于CSS的网页分割算法,通过对网页进行解析和布局处理,提取出其中的CSS信息,并且使用重复模式检测和聚类的方法对... 在页面变换,信息抽取,信息过滤等应用中,首先需要将原始页面分割成为若干合适的信息块以便于后续的处理。本文提出了一种基于CSS的网页分割算法,通过对网页进行解析和布局处理,提取出其中的CSS信息,并且使用重复模式检测和聚类的方法对生成的CSS树进行分割。试验证明该方法能够有效地分割网页,并且不依赖于特定的浏览器,适合嵌入式系统使用。 展开更多
关键词 网页分割 HTML CSS 聚类 信息块
下载PDF
基于CURE算法的网页分块及正文块提取研究 被引量:1
19
作者 王超 徐杰锋 《微型机与应用》 2012年第12期11-14,共4页
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信... 研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。 展开更多
关键词 web信息抽取 聚类算法 页面分块 正文块提取
下载PDF
网页中信息部分识别研究
20
作者 熊磊 谭庆平 《计算机与数字工程》 2008年第10期140-144,共5页
以搜索引擎为需求,研究网页中信息部分识别技术,探讨了网页识别技术相关内容和技术,提出了算法。第一步将网页初步划分为块,第二步从初步划分出来的块中识别出重要信息块,第三步将识别出来的重要信息块与存储的重要信息块比较,来决定是... 以搜索引擎为需求,研究网页中信息部分识别技术,探讨了网页识别技术相关内容和技术,提出了算法。第一步将网页初步划分为块,第二步从初步划分出来的块中识别出重要信息块,第三步将识别出来的重要信息块与存储的重要信息块比较,来决定是否存储。最后通过实验实现了提出的算法,实验结果显示了提出的算法有着良好的效果。 展开更多
关键词 网页 内容块 识别 算法
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部