期刊文献+
共找到88篇文章
< 1 2 5 >
每页显示 20 50 100
基于页面Block的Web档案采集和存储 被引量:12
1
作者 宋杰 王大玲 +1 位作者 鲍玉斌 申德荣 《软件学报》 EI CSCD 北大核心 2008年第2期275-290,共16页
提出了基于页面Block对Web页面的采集和存储方式,并详细表述了该方法如何完成基于布局页面分区、Block主题的抽取、版本和差异的比较以及增量存储的方式.实现了一个Web归档原型系统,并对所提出的算法进行了详细的测试.理论和实验表明,... 提出了基于页面Block对Web页面的采集和存储方式,并详细表述了该方法如何完成基于布局页面分区、Block主题的抽取、版本和差异的比较以及增量存储的方式.实现了一个Web归档原型系统,并对所提出的算法进行了详细的测试.理论和实验表明,所提出的基于页面Block的Web档案(Web archive)采集和存储方法能够很好地适应Web档案的管理方式,并对基于Web档案的查询、搜索、知识发现和数据挖掘等应用提供有利的数据资源. 展开更多
关键词 web档案 页面分区 页块
下载PDF
一种基于页面Block的Web信息提取方法 被引量:3
2
作者 蒙韧 邵延振 袁鼎荣 《计算机技术与发展》 2010年第1期197-200,共4页
基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块(Block)给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相... 基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块(Block)给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相比,更符合实际情况,粒度优势明显。该算法针对页面中不同分块的重要性给予不同的权值,依据权值大小取舍页面信息提供给用户。针对该算法进行了模拟实验,从实验结果可以看出该算法具有一定的实用性和有效性。 展开更多
关键词 语义block block权值 block主题提取 web信息挖掘
下载PDF
改进的PageRank在Web信息搜集中的应用 被引量:12
3
作者 秦拯 张玲 李娜 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1044-1049,共6页
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主... PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度· 展开更多
关键词 PAGERANK算法 主题分块 web信息搜集
下载PDF
Web页面清洗技术的研究与实现 被引量:20
4
作者 周源远 王继成 +1 位作者 郑刚 张福炎 《计算机工程》 CAS CSCD 北大核心 2002年第9期48-50,197,共4页
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的... 文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性。 展开更多
关键词 web页面 清洗技术 文本块 链接块 DOM 解析器 Internet 信息检索
下载PDF
Node.js:一种新的Web应用构建技术 被引量:41
5
作者 王金龙 宋斌 丁锐 《现代电子技术》 北大核心 2015年第6期70-73,共4页
现如今,有很多种Web应用程序开发语言。在Web应用程序开发过程中,大部分语言都要解决多线程问题。而且这些Web应用程序都要部署在第三方Web服务器上,如:Apache,Tomcat,Nginx等。近期一种基于I/O事件驱动模型服务器端的Java Script运行... 现如今,有很多种Web应用程序开发语言。在Web应用程序开发过程中,大部分语言都要解决多线程问题。而且这些Web应用程序都要部署在第三方Web服务器上,如:Apache,Tomcat,Nginx等。近期一种基于I/O事件驱动模型服务器端的Java Script运行环境——Node.js得到了广泛的关注和应用。通过对同步阻塞语言PHP和异步非阻塞的Node.js构建的Web应用程序做一些性能上的比较,发现在高并发请求的情况下,Node.js构建的服务器比PHP构建的应用程序的响应时间短、吞吐率高。最终得出结论 Node.js在构建快速、可扩展的Web应用程序方面的优势大于PHP。 展开更多
关键词 web服务器 异步非阻塞 事件驱动模型 Node.js
下载PDF
网页分块聚类的Web站点逻辑域挖掘 被引量:1
6
作者 郑皎凌 王成良 《计算机工程》 CAS CSCD 北大核心 2007年第4期52-54,57,共4页
Web逻辑域挖掘是当前Web挖掘领域的研究热点之一,它强调从网站设计者的角度来挖掘站点中有逻辑联系的网页,以形成一个逻辑域,而不是单纯的文本聚类或超链排序。随着应用的不同,站点逻辑域的界定也有所不同。在综合分析了几种具有代表性... Web逻辑域挖掘是当前Web挖掘领域的研究热点之一,它强调从网站设计者的角度来挖掘站点中有逻辑联系的网页,以形成一个逻辑域,而不是单纯的文本聚类或超链排序。随着应用的不同,站点逻辑域的界定也有所不同。在综合分析了几种具有代表性的站点逻辑域及其挖掘方法后,提出了基于网页分块聚类的Web站点逻辑域挖掘模型和挖掘算法。实验结果表明,该算法具有很好的稳定性和适应性,其精度不受站点规模、语言、镜像等因素的影响,召回率则会随着取回网页数目的增加而增加。 展开更多
关键词 网页分块 web逻辑域 web挖掘 分块粒度
下载PDF
Web页面信息主动检索模型 被引量:1
7
作者 袁鼎荣 钟宁 《智能系统学报》 2010年第2期112-116,共5页
单个页面信息量远远大于特定用户对页面中的信息需求.为快速准确从当前页面中获取特定用户所需求的兴趣信息,提出了页面信息主动检索模型.该检索模型中,根据页面Block特点将当前Web页面转化成信息树,根据用户过去的浏览行为构造用户特征... 单个页面信息量远远大于特定用户对页面中的信息需求.为快速准确从当前页面中获取特定用户所需求的兴趣信息,提出了页面信息主动检索模型.该检索模型中,根据页面Block特点将当前Web页面转化成信息树,根据用户过去的浏览行为构造用户特征树,挖掘用户特征树产生用户需求信息集,然后从当前页面中检索需求的信息,获取用户兴趣信息集.详述了主动检索的基本原理,给出了相应的算法描述,并通过实验证明了该模型具有可行性. 展开更多
关键词 页面block 页面信息树 用户特征树 主动检索
下载PDF
一种基于树结构的Web数据自动抽取方法 被引量:21
8
作者 胡东东 孟小峰 《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1607-1613,共7页
介绍了一种基于树结构的自动从HTML页面中抽取数据的方法 在HTML页面的树形结构之上 ,提出了基于语义块的HTML页面结构模型 :HTML页面中的数据值主要存在于语义块中 ,不同的HTML页面的主要区别在于语义块的区别 基于语义块的结构模型 ... 介绍了一种基于树结构的自动从HTML页面中抽取数据的方法 在HTML页面的树形结构之上 ,提出了基于语义块的HTML页面结构模型 :HTML页面中的数据值主要存在于语义块中 ,不同的HTML页面的主要区别在于语义块的区别 基于语义块的结构模型 ,自动抽取通过 4个步骤完成 :通过HTML页面比较发现语义块 ;区分语义块中数据值的角色 ;推导数据模式和推导抽取规则 在实际HTML页面上的实验已经证明 ,这种方法能够达到较高的正确率 ,同时 ,随着文档的增大 。 展开更多
关键词 web 抽取 自动 树结构 语义块
下载PDF
基于Web结构分区的协同过滤推荐算法研究
9
作者 邵延振 蒙韧 +1 位作者 袁鼎荣 李新友 《计算机技术与发展》 2010年第6期67-69,73,共4页
Intenet的快速增长导致了个性化服务的需求急剧增加。基于页面结构的信息提取与推荐是Web数据挖掘中三大研究领域之一。该研究的关键技术是识别Web页面的组织形式,从中挖掘所需要的个性化页面信息。基于Web数据挖掘的个性化信息推荐系... Intenet的快速增长导致了个性化服务的需求急剧增加。基于页面结构的信息提取与推荐是Web数据挖掘中三大研究领域之一。该研究的关键技术是识别Web页面的组织形式,从中挖掘所需要的个性化页面信息。基于Web数据挖掘的个性化信息推荐系统可以满足互联网未来发展趋势的需要。与传统的以页面为单位的Web信息提取相比,基于页面结构分区的信息推荐更符合实际情况,粒度优势明显。以一组数据为实例阐述了基于Web挖掘的协同过滤推荐算法是如何进行数据表示、近邻查询以及产生推荐页面分区信息的。 展开更多
关键词 web数据挖掘 推荐系统 协同过滤 页面分区 个性化信息
下载PDF
开放环境下Web服务组合研究述评 被引量:1
10
作者 张晓青 相春艳 《烟台师范学院学报(自然科学版)》 2005年第3期192-196,共5页
开放环境下用户的服务请求往往与现有Web服务存在差异,要满足用户的服务请求,需要对现有Web服务重新进行组合.从Web服务组合的构件块、服务组合类型与服务组合的生命周期、服务组合模型、服务组合机制四个方面,对当前的Web服务组合技术... 开放环境下用户的服务请求往往与现有Web服务存在差异,要满足用户的服务请求,需要对现有Web服务重新进行组合.从Web服务组合的构件块、服务组合类型与服务组合的生命周期、服务组合模型、服务组合机制四个方面,对当前的Web服务组合技术进行介绍与分析. 展开更多
关键词 web服务组合 构件块 组合类型 生命周期 组合模型 组合机制
下载PDF
基于结构与内容的Web主要信息提取方法研究
11
作者 张文东 李伟 《计算机工程与设计》 CSCD 北大核心 2008年第24期6210-6212,共3页
Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发... Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发,准确地将Web内容进行分块,并对分块内容进行分析处理,从而提取出Web页面的主要信息。 展开更多
关键词 web页面 内容 结构 分块 信息提取
下载PDF
基于BP神经网络的Deep Web实体识别方法 被引量:5
12
作者 徐红艳 党晓婉 +1 位作者 冯勇 李军平 《计算机应用》 CSCD 北大核心 2013年第3期776-779,共4页
针对现有实体识别方法自动化水平不高、适应性差等不足,提出一种基于反向传播(BP)神经网络的Deep Web实体识别方法。该方法将实体分块后利用反向传播神经网络的自主学习特性,将语义块相似度值作为反向传播神经网络的输入,通过训练得到... 针对现有实体识别方法自动化水平不高、适应性差等不足,提出一种基于反向传播(BP)神经网络的Deep Web实体识别方法。该方法将实体分块后利用反向传播神经网络的自主学习特性,将语义块相似度值作为反向传播神经网络的输入,通过训练得到正确的实体识别模型,从而实现对异构数据源的自动化实体识别。实验结果表明,所提方法的应用不仅能够减少实体识别中的人工干预,而且能够提高实体识别的效率和准确率。 展开更多
关键词 DEEP web 反向传播神经网络 实体识别 相似度 语义块
下载PDF
Web页面分块技术综述
13
作者 吕天 于长富 《现代计算机》 2012年第9期8-13,21,共7页
有很多不同的分块算法都可以对Web网页进行分块,研究分块的目的是为了相关领域进一步研究的需要,例如通过页面块内容的重要程度研究基于块的搜索、定位网页的重要主题或内容,研究网页主要内容或主题的抽取,以及基于Web页面分块的Web存... 有很多不同的分块算法都可以对Web网页进行分块,研究分块的目的是为了相关领域进一步研究的需要,例如通过页面块内容的重要程度研究基于块的搜索、定位网页的重要主题或内容,研究网页主要内容或主题的抽取,以及基于Web页面分块的Web存档等。首先给出Web页面分块问题定义和分类,并对几种典型的分块算法进行原理剖析,为进一步研究Web页面分块问题提供一些有益的参考。 展开更多
关键词 web页面 分块算法 web页面分块
下载PDF
一种基于节点密度分割和标签传播的Web页面挖掘方法 被引量:13
14
作者 张乃洲 曹薇 李石君 《计算机学报》 EI CSCD 北大核心 2015年第2期349-364,共16页
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中... 获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性. 展开更多
关键词 页面分割 节点密度 标签传播 DOM树 块分类 社会计算 社交网络
下载PDF
基于分块重要性模型与Xpath的Web信息抽取的研究
15
作者 庞秋奔 顾平 杨小梅 《计算机与现代化》 2009年第8期73-75,79,共4页
网页分块方法使得Web信息抽取的单位由页面缩小为块。文中研究了网页分块的主要方法与基于学习的分块重要性模型,对Xpath的Web抽取方法进行分析。结合两者的优势提出一种基于分块重要性模型与Xpath结合的Web信息抽取方法,探讨了其设计过... 网页分块方法使得Web信息抽取的单位由页面缩小为块。文中研究了网页分块的主要方法与基于学习的分块重要性模型,对Xpath的Web抽取方法进行分析。结合两者的优势提出一种基于分块重要性模型与Xpath结合的Web信息抽取方法,探讨了其设计过程,并给出形式化描述与实验结果,结果表明该方法适合于抽取多记录型的网页。 展开更多
关键词 网页分块 块重要性权重 XPATH web信息抽取
下载PDF
桥梁技术状况评定相关问题及思考
16
作者 郑彪 《山西交通科技》 2024年第1期72-74,87,共4页
随着我国基础设施的不断建设,公路里程不断增长,公路桥梁总数超过100万座,大量桥梁进入养护-检测-维修处置-养护的循环阶段,定期检测作为公路桥梁养护维修的重要依据,其检测结果直接影响养护管理部门的决策。针对简支转连续预应力小箱... 随着我国基础设施的不断建设,公路里程不断增长,公路桥梁总数超过100万座,大量桥梁进入养护-检测-维修处置-养护的循环阶段,定期检测作为公路桥梁养护维修的重要依据,其检测结果直接影响养护管理部门的决策。针对简支转连续预应力小箱梁在定期检测过程中遇到的梁体腹板竖向裂缝、钢筋锈蚀,挡块病害及台背排水状况病害,提出自己的理解与建议,供检测及养护工作者参考借鉴。 展开更多
关键词 定期检测 腹板竖向裂缝 钢筋锈蚀 挡块病害 台背排水状况
下载PDF
ArchIndex:基于多源数据的城市街区检索引擎
17
作者 莫怡晨 卢德格尔·霍夫施塔特 +1 位作者 李飚 唐芃 《新建筑》 2024年第1期15-21,共7页
城市街区检索引擎是一种城市认知智能,通过整合和呈现多源城市数据,建立城市空间检索模型,从而简化城市设计前期的认知和调研。文章通过动态网页提供城市街区检索引擎ArchIndex,在可定期更新的空间关系数据库的基础上,采集街区实例数据... 城市街区检索引擎是一种城市认知智能,通过整合和呈现多源城市数据,建立城市空间检索模型,从而简化城市设计前期的认知和调研。文章通过动态网页提供城市街区检索引擎ArchIndex,在可定期更新的空间关系数据库的基础上,采集街区实例数据,建立形态、功能、活力三个方面的向量化指标,用于城市街区的检索与可视化。最终方案实现了分布式运行部署,可对任意城市建立索引,用云端计算与网页应用,为城市形态学研究提供了易用的工具和新的方法。 展开更多
关键词 城市街区 检索引擎 空间数据库 形态量化分析 网络应用
下载PDF
Web信息抽取技术在统一检索系统中的应用研究 被引量:7
18
作者 王权 施韶亭 《计算机应用与软件》 CSCD 2010年第10期120-122,137,共4页
结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统... 结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台。 展开更多
关键词 web信息抽取 统一检索 页面结构分析 关键信息块 子树广度
下载PDF
一种基于多连限制的WEB前端性能优化算法研究
19
作者 冉崇善 李庆林 +1 位作者 孙连山 马畑名 《陕西科技大学学报(自然科学版)》 2015年第4期146-150,共5页
前端性能是衡量一个Web应用程序成功与否的重要条件.在综合考虑TDD和TSR指数最小优先条件下,设计了一个调度权值计算模型,并结合该模型总结出一种SACC优化算法.通过优化调度多连阻塞的请求序列来改善前端性能.实验结果表明,采用SACC算... 前端性能是衡量一个Web应用程序成功与否的重要条件.在综合考虑TDD和TSR指数最小优先条件下,设计了一个调度权值计算模型,并结合该模型总结出一种SACC优化算法.通过优化调度多连阻塞的请求序列来改善前端性能.实验结果表明,采用SACC算法优化后的页面,相比一般情况下有效的降低页面的TDD和TSR指数,平均降幅分别达14%和25%,显著提高页面响应速度. 展开更多
关键词 web前端 调度权值 多连阻塞 SACC
下载PDF
Deep Web接口的自动识别技术研究
20
作者 杨永红 高磊 +1 位作者 余航 徐欣辰 《计算机工程与应用》 CSCD 北大核心 2017年第7期109-114,共6页
获取Deep Web中信息的主要途径是通过在其提供的查询接口上提交查询来实现的,目前大部分的研究以表单内的<form></form>标签获得表单内容结构,判断是不是一个Deep Web查询接口。提出了接口块的概念,设计了一种基于页面信息... 获取Deep Web中信息的主要途径是通过在其提供的查询接口上提交查询来实现的,目前大部分的研究以表单内的<form></form>标签获得表单内容结构,判断是不是一个Deep Web查询接口。提出了接口块的概念,设计了一种基于页面信息和视觉信息的接口块定位方法,最后将判定接口块是不是Deep Web接口看作是一个模式识别的分类问题,通过抽取适当的表单结构特征,采用C4.5决策树和SVM相结合的分类算法来进行接口块的判定,得到页面中含有的Deep Web查询接口。采用UIUC的TEL-8数据集进行实验,结果表明,该方法的准确率达到了97.30%,具有良好的可行性和实用性。 展开更多
关键词 Deepweb接口 文档对象化模型树 接口块 多类分类
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部