期刊文献+
共找到87篇文章
< 1 2 5 >
每页显示 20 50 100
Research of Extracting Data from HTML Web Pages Automatically 被引量:1
1
作者 王茹 宋瀚涛 陆玉昌 《Journal of Beijing Institute of Technology》 EI CAS 2003年第S1期104-108,共5页
In order to use data information in the Internet, it is necessary to extract data from web pages. An HTT tree model representing HTML pages is presented. Based on the HTT model, a wrapper generation algorithm AGW is p... In order to use data information in the Internet, it is necessary to extract data from web pages. An HTT tree model representing HTML pages is presented. Based on the HTT model, a wrapper generation algorithm AGW is proposed. The AGW algorithm utilizes comparing and correcting technique to generate the wrapper with the native characteristic of the HTT tree structure. The AGW algorithm can not only generate the wrapper automatically, but also rebuild the data schema easily and reduce the complexity of the computing. 展开更多
关键词 information extraction data transformation WRAPPER html page
下载PDF
基于HTML标记用途分析的网页正文提取技术 被引量:15
2
作者 常红要 朱征宇 +2 位作者 陈烨 张鹏 曾丽芳 《计算机工程与设计》 CSCD 北大核心 2010年第24期5187-5191,共5页
通过分析噪音数据特点和它所产生的影响,利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法,可用于网页正文的自动提取。实验结果表明,该方法能有效地得到大多数HTML网页的主体内容部分。针对HTML文件的解析方法不仅可以用于... 通过分析噪音数据特点和它所产生的影响,利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法,可用于网页正文的自动提取。实验结果表明,该方法能有效地得到大多数HTML网页的主体内容部分。针对HTML文件的解析方法不仅可以用于提取HTML文件的主体文本,也可以用于得到HTML文件中其它HTML元素的内容。 展开更多
关键词 html网页 数据挖掘 内容抽取 噪音数据 元素删除法
下载PDF
有效HTML文本信息抽取方法的研究 被引量:15
3
作者 韩忠明 李文正 莫倩 《计算机应用研究》 CSCD 北大核心 2008年第12期3568-3571,3574,共5页
从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容,导致很难从网页中获取正确的文本信息。分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以... 从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容,导致很难从网页中获取正确的文本信息。分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以进行文本的识别与抽取。提出了机器学习、统计估计以及FDR三种HLML正文抽取方法,并作了大量的实验比较和分析。实验结果表明,该算法可以有效地过滤噪声而且算法的复杂度很低,效率与效果均达到一个很好的平衡。 展开更多
关键词 网页 信息抽取 机器学习 统计
下载PDF
ASP.NET下利用动态网页技术生成静态HTML页面的方法 被引量:13
4
作者 白金牛 李慧萍 王培吉 《计算机应用与软件》 CSCD 北大核心 2008年第1期79-81,共3页
介绍了一种在ASP.NET环境下利用动态网页技术生成静态HTML页面的方法。利用这种技术,网站内容管理人员在添加网页时直接利用后台管理发布程序就把页面存放成HTML静态文件,它有生成页面简单、快速的优点。这种技术对于访问量大的网站尤... 介绍了一种在ASP.NET环境下利用动态网页技术生成静态HTML页面的方法。利用这种技术,网站内容管理人员在添加网页时直接利用后台管理发布程序就把页面存放成HTML静态文件,它有生成页面简单、快速的优点。这种技术对于访问量大的网站尤其适用,可以减轻服务器端运行程序和读取数据库的压力,提高了网站的数据存取效率,生成的静态页面也更利于搜索引擎收录。 展开更多
关键词 ASP.NET 动态页面 静态页面 C#
下载PDF
基于文本及HTML标签密度的网页正文提取 被引量:1
5
作者 杨大为 王诗念 +2 位作者 包立岩 要虹吏 刘畅 《沈阳理工大学学报》 CAS 2022年第4期14-19,共6页
大多数资讯类网页都包含了与资讯正文无关的内容,如推荐、广告等,这些噪声对获取资讯正文具有较大干扰性。针对基于文本及符号密度的网页正文提取方法(TSD)没有考虑段落标签对提取效果的影响部分进行改进,提出基于文本及HTML标签密度的... 大多数资讯类网页都包含了与资讯正文无关的内容,如推荐、广告等,这些噪声对获取资讯正文具有较大干扰性。针对基于文本及符号密度的网页正文提取方法(TSD)没有考虑段落标签对提取效果的影响部分进行改进,提出基于文本及HTML标签密度的网页正文提取方法(TTD),通过对页面文本内容和标签的统计分析,可以快速提取正文内容,适用于常见的资讯网站,具有较强的通用性。实验表明,该方法的提取效果较当前常用的方法在准确度上有较大提升,具有较高的实用性。 展开更多
关键词 标签密度 html标签 网页 正文提取
下载PDF
用HTML+CSS+JavaScript实现计算器的设计 被引量:3
6
作者 于万国 《衡水学院学报》 2014年第4期27-30,共4页
利用HMTL实现了网页计算器的结构,用CSS样式美化了计算器的显示外观,用JavaScript实现了计算器的计算功能,三部分的组合实现了WEB页中计算器的设计.该计算器可以进行加、减、乘、除等混合运算.
关键词 html CSS JAVASCRIPT WEB页 计算器
下载PDF
WinHelp和HTML Help 被引量:2
7
作者 吕维先 《苏州丝绸工学院学报》 2000年第4期55-60,共6页
简要介绍了WinHelp和HTMLHelp以及如何使用HTMLHelpWorkshop设计帮助系统 ;详细介绍了如何在VB6 .0中和VC6 0中添加对帮助的支持 ,以及如何设计上下文敏感帮助。
关键词 WINHELP WEB页 主题映射 帮助系统 设计
下载PDF
利用MSHTML组件从网页上提取数据 被引量:5
8
作者 吕树进 《保定师范专科学校学报》 2004年第4期15-17,共3页
讨论了HTML语言、MSHTML对象模型及利用MSHTML组件从网页上提取数据的方法.
关键词 html语言 MShtml对象模型 网页
下载PDF
利用FrontPage制作网页 被引量:3
9
作者 牟连泳 崔美玉 《微机发展》 1999年第5期25-27,共3页
Web 站点是当今 Internet 蓬勃发展的核心应用。 Front Page 是近年来相继出现的多种网页制作工具之一。本文通过一个 Web 页面的制作过程介绍利用 Front Page98 制作、管理网页的基本方法和设计原则。
关键词 FRONTpage 网页 超链接 INTERNET网
下载PDF
深入分析HTML5在信息安全上的优化 被引量:2
10
作者 高攀 施蔚然 《信息安全与技术》 2012年第8期83-84,87,共3页
从HTML的发展变革,到HTML5新特性的细致讲解,整体呈现了HTML5这一新版本带来的巨大飞跃。对初学HTML5的编程和设计人员具体很高的借鉴价值和指导意义。
关键词 html 5 网站开发 信息安全 页面优化
下载PDF
项目导向任务驱动在《HTML+CSS网页设计》课程中的改革探讨 被引量:1
11
作者 李丹 杨娜 《电脑知识与技术》 2013年第11X期7507-7509,共3页
探讨了采用项目导向和任务驱动对《HTML+CSS网页设计》课程进行教学改革。首先明确了课程的能力培养目标;其次以项目为导向设计教学内容,通过完成一个完整项目组织教学,根据项目的需要将教学内容划分为三大模块,每个模块再细分为若干个... 探讨了采用项目导向和任务驱动对《HTML+CSS网页设计》课程进行教学改革。首先明确了课程的能力培养目标;其次以项目为导向设计教学内容,通过完成一个完整项目组织教学,根据项目的需要将教学内容划分为三大模块,每个模块再细分为若干个子任务;最后,为完善整个教学环节,保证教学效果,制定了相应的考核评价方法。通过教学改革实践后,学生对理论知识点的掌握、开发网页的各项能力及网页作品质量明显提高。 展开更多
关键词 项目导向 任务驱动 网页设计 html CSS 课程改革
下载PDF
环球网WWW的Home Page及其制作
12
作者 朱群雄 王艳清 《北京化工大学学报(自然科学版)》 CAS CSCD 北大核心 1996年第4期83-89,共7页
详细论述了INTERNET网上最受欢迎、最为成功的环球网WWW资源、HTML超文本标记语言设计特点及HomePage的创建方法.
关键词 环球网 超文本 标记语言 计算机通信 计算机网络
下载PDF
从HTML到XHTML网页过渡技术研究
13
作者 梁玲 《电脑开发与应用》 2012年第3期39-42,共4页
目前W3C推荐的网页格式标准是XML1.0[1],但要求为数众多的已有站点直接采用XML还为时过早。因此,用XML对HTML进行扩展,得到了XHTML。但多数Web开发人员仍习惯用HTML语法写XHTML网页,导致代码不被识别或显示效果不佳。通过对比研究XHTML... 目前W3C推荐的网页格式标准是XML1.0[1],但要求为数众多的已有站点直接采用XML还为时过早。因此,用XML对HTML进行扩展,得到了XHTML。但多数Web开发人员仍习惯用HTML语法写XHTML网页,导致代码不被识别或显示效果不佳。通过对比研究XHTML与HTML的细致区别,阐明了XHTML文档的结构特征及独特的语法要求,目的在于帮助Web开发人员适应这种技术的变化,顺利地完成Web开发任务。 展开更多
关键词 html Xhtml XML W3C 网页
下载PDF
用动态HTML制作动态Web页面 被引量:2
14
作者 孙卫红 《计算机应用》 CSCD 1998年第9期25-27,共3页
动态HTML是IE4.0的新特征,使用动态HTML,作者可以动态地改变Web页面的形式与内容。本文通过介绍动态HTML,介绍了一些制作动态Web页面的实例与方法。
关键词 动态html WEB页面 浏览器 INTERNET网
下载PDF
URL模式与HTML结构相结合的平行网页获取方法 被引量:6
15
作者 刘奇 刘洋 孙茂松 《中文信息学报》 CSCD 北大核心 2013年第3期91-99,共9页
平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑... 平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战。该文提出了一种URL模式与HTML结构相结合的平行网页获取方法,首先利用HTML结构实现平行网页的递归访问,其次使用URL模式优化遍历平行网站的拓扑顺序,从而实现高效准确的平行网页获取。在联合国与香港政府①两个平行网站上的实验表明,该方法相对传统获取方法在获取时间上减少50%以上,准确率提高15%,并显著提高了机器翻译的质量(BLEU值分别提高1.6和0.7个百分点)。 展开更多
关键词 平行网页获取 平行语料库 URL模式 html结构
下载PDF
利用HTML标签筛选网页分类样本 被引量:3
16
作者 侯小静 王黎明 《微机发展》 2005年第3期142-144,共3页
互联网的Web网页中蕴藏着内容广泛、形式各异的信息资源,通过网页的自动分类可以更好地对其内容进行组织和管理,加快信息检索的速度。在训练网页分类器时,对网页样本集进行有效地筛选有可能改善分类器的性能。文中利用HTML文档的结构特... 互联网的Web网页中蕴藏着内容广泛、形式各异的信息资源,通过网页的自动分类可以更好地对其内容进行组织和管理,加快信息检索的速度。在训练网页分类器时,对网页样本集进行有效地筛选有可能改善分类器的性能。文中利用HTML文档的结构特点,基于标签对网页样本集进行筛选,从中去除索引型和表格型网页,实验表明,这种方法有一定的可行性。 展开更多
关键词 超文本标识语言 文档对象模型 标签 网页分类
下载PDF
基于改进HTML-Tree的中文网页特征向量提取方法 被引量:3
17
作者 李铭岳 周军 《信息技术》 2009年第1期10-14,共5页
中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键。经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取。该方法充分利用不同类... 中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键。经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取。该方法充分利用不同类别网页的特点,考虑了网页内各种元素权重的贡献。经过实验验证,该方法提高了网页特征向量提取的效率,有效提高了中文网页分类的准确度和召回度。 展开更多
关键词 html-Tree 特征向量 网页分类
下载PDF
基于HTML5+CSS3的网页布局 被引量:7
18
作者 葛蓝 《数字技术与应用》 2017年第10期92-93,共2页
随着互联网产业的高速发展,如今HTML5和CSS3已成为主流的Web前端开发技术,与以往版本相比,HTML5新元素及其特性HTML5的语义化标签以及属性,可以让开发者非常方便地实现清晰的web页面布局,加上CSS3的效果渲染,快速建立丰富灵活的web页面... 随着互联网产业的高速发展,如今HTML5和CSS3已成为主流的Web前端开发技术,与以往版本相比,HTML5新元素及其特性HTML5的语义化标签以及属性,可以让开发者非常方便地实现清晰的web页面布局,加上CSS3的效果渲染,快速建立丰富灵活的web页面显得非常简单。本文以一个简单的鲜花网站首页为例,介绍基于Html5+CSS布局的网页。 展开更多
关键词 html5 CSS 网页布局
下载PDF
基于结构与内容的网页主题信息提取研究 被引量:15
19
作者 吴鹏飞 孟祥增 +1 位作者 刘俊晓 马凤娟 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期41-44,共4页
结合HTML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容.实验结果表... 结合HTML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容.实验结果表明,此方法对各种复杂结构的网页主题信息提取较为理想. 展开更多
关键词 映射表 启发式规则 html 区域分割 向量空间模型
下载PDF
Web页面主题信息抽取研究与实现 被引量:11
20
作者 刘艳敏 刘飚 +2 位作者 封化民 宋国森 方勇 《计算机工程与应用》 CSCD 北大核心 2006年第21期146-148,共3页
Web页面中的主要信息通常隐藏在大量无关的特征中,如无关紧要的图片和不相关的连接,使用户不能迅速获取主题信息,限制了Web的可用性。论文提出一种网页主题内容提取的方法及相应算法,并通过人工判定的方法对来自120个网站的5000个网页... Web页面中的主要信息通常隐藏在大量无关的特征中,如无关紧要的图片和不相关的连接,使用户不能迅速获取主题信息,限制了Web的可用性。论文提出一种网页主题内容提取的方法及相应算法,并通过人工判定的方法对来自120个网站的5000个网页进行了测试和评估。实验结果表明该方法切实可行,可达到91.35%的准确率。 展开更多
关键词 html 信息提取 页面结构分析 标记统计
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部