期刊文献+
共找到109篇文章
< 1 2 6 >
每页显示 20 50 100
On Structure-based Web Data Extraction: The Model, Method and Application
1
作者 俞方桦 戴玮 陈家训 《Journal of China Textile University(English Edition)》 EI CAS 2000年第4期103-106,共4页
Web data extraction is to obtain valuable data from the tremendous information resource of the World Wide Web according to the pre - defined pattern. It processes and classifies the data on the Web. Formalization of t... Web data extraction is to obtain valuable data from the tremendous information resource of the World Wide Web according to the pre - defined pattern. It processes and classifies the data on the Web. Formalization of the procedure of Web data extraction is presented, as well as the description of crawling and extraction algorithm. Based on the formalization, an XML - based page structure description language, TIDL, is brought out, including the object model, the HTML object reference model and definition of tags. At the final part, a Web data gathering and querying application based on Internet agent technology, named Web Integration Services Kit (WISK) is mentioned. 展开更多
关键词 World WIDE web web mining data extraction HTML XML
下载PDF
An Efficient Mechanism for Product Data Extraction from E-Commerce Websites
2
作者 Malik Javed Akhtar Zahur Ahmad +3 位作者 Rashid Amin Sultan H.Almotiri Mohammed A.Al Ghamdi Hamza Aldabbas 《Computers, Materials & Continua》 SCIE EI 2020年第12期2639-2663,共25页
A large amount of data is present on the web which can be used for useful purposes like a product recommendation,price comparison and demand forecasting for a particular product.Websites are designed for human underst... A large amount of data is present on the web which can be used for useful purposes like a product recommendation,price comparison and demand forecasting for a particular product.Websites are designed for human understanding and not for machines.Therefore,to make data machine-readable,it requires techniques to grab data from web pages.Researchers have addressed the problem using two approaches,i.e.,knowledge engineering and machine learning.State of the art knowledge engineering approaches use the structure of documents,visual cues,clustering of attributes of data records and text processing techniques to identify data records on a web page.Machine learning approaches use annotated pages to learn rules.These rules are used to extract data from unseen web pages.The structure of web documents is continuously evolving.Therefore,new techniques are needed to handle the emerging requirements of web data extraction.In this paper,we have presented a novel,simple and efficient technique to extract data from web pages using visual styles and structure of documents.The proposed technique detects Rich Data Region(RDR)using query and correlative words of the query.RDR is then divided into data records using style similarity.Noisy elements are removed using a Common Tag Sequence(CTS)and formatting entropy.The system is implemented using JAVA and runs on the dataset of real-world working websites.The effectiveness of results is evaluated using precision,recall,and F-measure and compared with five existing systems.A comparison of the proposed technique to existing systems has shown encouraging results. 展开更多
关键词 Document object model rich data region common tag sequence web data extraction deep web mining
下载PDF
Creating customized data services from web pages
3
作者 季光 Wang Guiling Han Yanbo 《High Technology Letters》 EI CAS 2013年第2期203-207,共5页
To extract structured data from a web page with customized requirements,a user labels some DOM elements on the page with attribute names.The common features of the labeled elements are utilized to guide the user throu... To extract structured data from a web page with customized requirements,a user labels some DOM elements on the page with attribute names.The common features of the labeled elements are utilized to guide the user through the labeling process to minimize user efforts,and are also utilized to retrieve attribute values.To turn the attribute values into a structured result,the attribute pattern needs to be induced.For this purpose,a space-optimized suffix tree called attribute tree is built to transform the document object model(DOM) tree into a simpler form while preserving its useful properties such as attribute sequence order.The pattern is induced bottom-up on the attribute tree,and is further used to build the structured result.Experiments are conducted and show high performance of our approach in terms of precision,recall and structural correctness. 展开更多
关键词 数据服务 网页 自定义 文档对象模型 属性值 结构化 标签页面 自底向上
下载PDF
一种Web评论自动抽取方法 被引量:12
4
作者 刘伟 严华梁 +1 位作者 肖建国 曾建勋 《软件学报》 EI CSCD 北大核心 2010年第12期3220-3236,共17页
Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致... Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致性严重影响了评论记录在DOM树和视觉上的相似性;其次,评论内容在DOM树中是一棵复杂的子树,而且彼此之间在DOM树中的结构相差巨大.为了解决这两个问题,提出了一种完整的解决方案,使用多种技术来实现对用户评论内容的抽取.抽取过程分为两个步骤,基于深度加权的树相似性算法评论记录首先从网页中抽取出来,然后通过比较DOM树中节点的一致性,将纯粹的用户评论内容从评论记录中抽取出来.在多个新闻网站和论坛网站上的实验结果表明,该方法可以达到较高的准确度和效率. 展开更多
关键词 web用户评论 结构化数据记录 web数据抽取
下载PDF
基于约束条件随机场的Web数据语义标注 被引量:9
5
作者 董永权 李庆忠 +1 位作者 丁艳辉 彭朝晖 《计算机研究与发展》 EI CSCD 北大核心 2012年第2期361-371,共11页
Web数据语义标注是Web信息抽取中的关键步骤.条件随机场是利用序列特征处理序列标注问题的经典方法.然而现有条件随机场模型无法综合利用已有的Web数据库信息和Web数据元素之间的逻辑关系,导致Web数据语义标注准确率不高.因此,提出一种... Web数据语义标注是Web信息抽取中的关键步骤.条件随机场是利用序列特征处理序列标注问题的经典方法.然而现有条件随机场模型无法综合利用已有的Web数据库信息和Web数据元素之间的逻辑关系,导致Web数据语义标注准确率不高.因此,提出一种约束条件随机场模型(CCRF).该模型通过引入可信约束和逻辑约束,有效利用了已有的Web数据库信息和Web数据元素之间的逻辑关系.为了克服现有条件随机场模型Viterbi推理方法无法综合利用这2类约束的不足,该模型采用整数线性规划推理方法,将两类约束同时引入推理过程.通过在多个领域的真实数据集上的实验结果表明,所提出的模型能够显著提高Web数据语义标注的性能,并且为Web信息抽取奠定了良好的基础. 展开更多
关键词 语义标注 web信息抽取 条件随机场 整数线性规划 web数据集成
下载PDF
Web数据挖掘研究与探讨 被引量:29
6
作者 曼丽春 朱宏 杨全胜 《现代电子技术》 2005年第8期3-6,共4页
随着WWW迅猛发展,WWW上的信息量不断增加,如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。由于Web数据具有的半结构化特性,使得Web数据挖掘更加复杂,不同于传统的基于数据库的数据挖掘。为了解... 随着WWW迅猛发展,WWW上的信息量不断增加,如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。由于Web数据具有的半结构化特性,使得Web数据挖掘更加复杂,不同于传统的基于数据库的数据挖掘。为了解决这个问题,把数据挖掘的理论和技术应用于WWW,出现了一个新的研究领域Web数据挖掘。基于Web的数据挖掘主要分为:Web内容挖掘、Web结构挖掘和Web使用记录的挖掘。综述了基于Web的数据挖掘技术概念与原理,并且介绍用以Web数据挖掘实现的一种全新的技术XML。如何进一步开发Web数据挖掘,充分利用Web资源,还有待于进一步的研究。Web数据挖掘的研究具有极大的挑战性,同时又具有极大的开发潜力。 展开更多
关键词 数据挖掘 web数据 信息提取 XML
下载PDF
基于Web挖掘的网页清洗技术 被引量:7
7
作者 李嘉佑 贾自艳 +1 位作者 何清 史忠植 《计算机工程与应用》 CSCD 北大核心 2006年第25期98-101,共4页
随着互联网上信息的大量增多,Web挖掘技术越来越重要。而在Web挖掘过程中,基于Web的信息抽取的主要部分是如何去除网页中的噪音数据,它是Web数据的预处理的过程,这个预处理结果影响了Web挖掘的结果。在文中先分析了噪音数据的特点,然后... 随着互联网上信息的大量增多,Web挖掘技术越来越重要。而在Web挖掘过程中,基于Web的信息抽取的主要部分是如何去除网页中的噪音数据,它是Web数据的预处理的过程,这个预处理结果影响了Web挖掘的结果。在文中先分析了噪音数据的特点,然后根据实际观察提取规则并且用于模型统计的方法,去除噪音数据,抽取相关可利用的信息。 展开更多
关键词 web数据 信息抽取 噪音数据
下载PDF
数据抽取及语义分析在Web数据挖掘中的应用 被引量:6
8
作者 袁占亭 张秋余 李威 《计算机工程与设计》 CSCD 北大核心 2005年第6期1425-1427,1437,共4页
把复杂的网络站点作为多个业务数据源,采用数据仓库及数据挖掘技术,从中抽取并净化数据到挖掘数据库,从而将数据抽取及语义分析应用于Web数据挖掘中。在此基础上又提出了运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的... 把复杂的网络站点作为多个业务数据源,采用数据仓库及数据挖掘技术,从中抽取并净化数据到挖掘数据库,从而将数据抽取及语义分析应用于Web数据挖掘中。在此基础上又提出了运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的过程中的思想,使数据提取更加准确。 展开更多
关键词 web 数据挖掘 数据抽取 语义分析 数据结构
下载PDF
Web信息的自主抽取方法 被引量:15
9
作者 许建潮 侯锟 《计算机工程与应用》 CSCD 北大核心 2005年第14期185-189,198,共6页
提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够... 提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。 展开更多
关键词 web 半结构化数据 信息抽取 WRAPPER
下载PDF
模式发现在Web抽取中的应用及设计 被引量:7
10
作者 蔡霞 张森 周宇 《控制工程》 CSCD 2003年第3期227-229,269,共4页
WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动... WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动数据抽取技术。初步实验结果表明所得的抽取规则能从多数搜索引擎上获得较高的抽取率。该方法对于从搜索引擎的搜索结果等结构化、半结构化网页中自动抽取重复模式具有较好的效果。 展开更多
关键词 web 数据抽取 模式发现 搜索引擎 WWW 计算机网络
下载PDF
基于网页布局相似度的Web论坛数据抽取 被引量:9
11
作者 王允 李弼程 林琛 《中文信息学报》 CSCD 北大核心 2010年第2期68-75,共8页
Web论坛中蕴含着丰富的信息资源,充分利用这些信息资源依赖于论坛数据抽取技术。该文解决了从Web论坛抽取什么数据和如何抽取的问题,提出了一种基于网页布局相似度的Web论坛数据抽取方法,有效弥补了目前方法的自动化程度低,或准确率低... Web论坛中蕴含着丰富的信息资源,充分利用这些信息资源依赖于论坛数据抽取技术。该文解决了从Web论坛抽取什么数据和如何抽取的问题,提出了一种基于网页布局相似度的Web论坛数据抽取方法,有效弥补了目前方法的自动化程度低,或准确率低的不足。该方法充分利用Web论坛网页布局结构上的特点,采用分级处理的方式,先识别出主题信息块、再利用待抽取数据的统计规律在主题信息块中完成抽取,整个过程不需要任何人工干预。实验结果表明,新方法对不同的BBS站点有很好的通用性,且具有较高的准确率和召回率。 展开更多
关键词 计算机应用 中文信息处理 web论坛 数据抽取 相似度
下载PDF
基于页面标签的Web结构化数据抽取 被引量:8
12
作者 任仲晟 薛永生 《计算机科学》 CSCD 北大核心 2007年第10期133-136,共4页
本文研究了从data intensive类型的Web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim- HTree,有效地减少了识别数据记录的... 本文研究了从data intensive类型的Web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim- HTree,有效地减少了识别数据记录的时间。在此基础上,提出子串匹配调整算法,对数据记录进行识别,标识教据项。实验表明,该算法是有效的。 展开更多
关键词 web数据抽取 web挖掘 结构化数据 信息抽取
下载PDF
基于XML的Web数据挖掘的研究 被引量:7
13
作者 刘振岩 王万森 《计算机科学》 CSCD 北大核心 2003年第5期42-43,70,共3页
The paper advances a system framework of Web data mining based on XML. This system framework inte-grates Information Retrieval with Information Extraction, and utilizes traditional data mining methods to completeWeb d... The paper advances a system framework of Web data mining based on XML. This system framework inte-grates Information Retrieval with Information Extraction, and utilizes traditional data mining methods to completeWeb data mining through XML. 展开更多
关键词 web 数据挖掘 XML 数据库 数据仓库 数据源 数据管理
下载PDF
WEB数据挖掘研究与探讨 被引量:10
14
作者 曼丽春 朱宏 《西南民族大学学报(自然科学版)》 CAS 2005年第2期302-306,共5页
随着WWW迅猛发展,WWW上的信息量不断增加,如何在这些信息中找到用户真正需要的内容,成了数据组 织和web相关领域的专家学者关注的焦点.为了解决这个问题,把数据挖掘的理论和技术应用于WWW,出现了一个新 的研究领域--Web数据挖掘.主要介... 随着WWW迅猛发展,WWW上的信息量不断增加,如何在这些信息中找到用户真正需要的内容,成了数据组 织和web相关领域的专家学者关注的焦点.为了解决这个问题,把数据挖掘的理论和技术应用于WWW,出现了一个新 的研究领域--Web数据挖掘.主要介绍了Web数据挖掘的原理、应用、实现以及它的最近发展情况. 展开更多
关键词 数据挖掘 web数据:信息提取 XML
下载PDF
Web权威信息自动提取技术的研究及应用 被引量:3
15
作者 李净 袁小华 沈晓晶 《计算机工程》 CAS CSCD 北大核心 2008年第13期54-55,66,共3页
WWW为各行各业提供了大量的信息,但如何准确地从这些信息中提取出相关领域的权威信息是目前研究的热点问题之一。该文提出评判网站信息的多因素综合评估模型,该模型对网站的权威值进行合理计算,给出基于表格数据的语法树模型,完成了表... WWW为各行各业提供了大量的信息,但如何准确地从这些信息中提取出相关领域的权威信息是目前研究的热点问题之一。该文提出评判网站信息的多因素综合评估模型,该模型对网站的权威值进行合理计算,给出基于表格数据的语法树模型,完成了表格数据的自动提取。通过实例证明,该方法很好地解决了权威信息的准确和自动提取。 展开更多
关键词 数据提取 web数据挖掘 语法树 多因素综合评估 表格
下载PDF
Web数据管理研究综述 被引量:83
16
作者 孟小峰 《计算机研究与发展》 EI CSCD 北大核心 2001年第4期385-395,共11页
综述了 Web数据管理技术 .对 Web数据管理的研究给出了定义 .就 Web数据管理的几个重要问题给出了阐述 .在此基础上提出了一种基于 XML 的
关键词 web数据管理 半结构化数据模式 信息集成 数据模型 数据库 计算机
下载PDF
一种可行的Web数据抽取包装器的设计方法 被引量:3
17
作者 李宏伟 史培中 张素智 《计算机应用与软件》 CSCD 2009年第3期110-113,共4页
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新... Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果。充分体现了此Web包装器的可行性,并具有一定的高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成。 展开更多
关键词 包装器 抽取规则 信息抽取 web数据集成
下载PDF
基于HTML或MXL描述的Web页信息抽取技术研究 被引量:2
18
作者 谢维成 吕先竞 宋玉忠 《情报科学》 CSSCI 北大核心 2005年第9期1398-1402,共5页
从同类企业挖掘有价值的信息是企业信息化的重要任务,目前Web企业信息描述大多数是用HTML表示的,但基于XML描述的企业信息Web页面逐渐增加,Web数据抽取是Web企业信息挖掘的关键,本文提出了一种面向HTML和XML描述的Web页面的Web数据抽取... 从同类企业挖掘有价值的信息是企业信息化的重要任务,目前Web企业信息描述大多数是用HTML表示的,但基于XML描述的企业信息Web页面逐渐增加,Web数据抽取是Web企业信息挖掘的关键,本文提出了一种面向HTML和XML描述的Web页面的Web数据抽取模型并阐述了实现过程。 展开更多
关键词 web 企业信息挖掘 HTML XML 数据抽取
下载PDF
基于Web文本的灾害信息挖掘研究进展 被引量:7
19
作者 李卫江 温家洪 《灾害学》 CSCD 2010年第2期119-123,128,共6页
Web文本中蕴含着丰富的以自然语言描述的非结构灾害信息和知识。基于Web文本自动提取和构造结构化、综合性灾害信息,是灾害信息领域研究的前沿问题。目前国内外利用Web文本挖掘技术在灾时与灾后的应急响应与救援,灾害的早期预警和风险... Web文本中蕴含着丰富的以自然语言描述的非结构灾害信息和知识。基于Web文本自动提取和构造结构化、综合性灾害信息,是灾害信息领域研究的前沿问题。目前国内外利用Web文本挖掘技术在灾时与灾后的应急响应与救援,灾害的早期预警和风险分析方面进行示范应用;同时在文本灾害信息的语义理解与抽取、文本灾害信息的时空匹配、以及文本灾害信息的不确定性和可靠性评价等关键技术领域迅速展开研究。我国应加强以Web文本为信息源的中文灾害信息挖掘关键技术、软件,以及管理体系的研究,以有效弥补灾害研究与管理过程中灾害数据共享困难,以及可利用的动态实时、综合性灾害数据缺乏的薄弱环节,提升灾害信息服务水平。 展开更多
关键词 web文本 灾害信息 空间信息 挖掘技术
下载PDF
基于页面链接挖掘的Web教育信息检索 被引量:4
20
作者 王成云 王乐乐 《情报科学》 CSSCI 北大核心 2004年第4期475-477,487,共4页
教育信息检索是教育信息应用于教育科研与教育教学的关键环节 ,而 Web页面链接挖掘是对 Web页面之间的链接结构进行挖掘。本文对 Web链接结构挖掘在教育信息检索方面上进行了研究 ,介绍了 Web挖掘的概念、分类 ,以及 HITS与 Page- rank... 教育信息检索是教育信息应用于教育科研与教育教学的关键环节 ,而 Web页面链接挖掘是对 Web页面之间的链接结构进行挖掘。本文对 Web链接结构挖掘在教育信息检索方面上进行了研究 ,介绍了 Web挖掘的概念、分类 ,以及 HITS与 Page- rank等算法 ,并提出了一种基于样本模式特征提取的信息检索方法。 展开更多
关键词 教育信息 网络信息检索 页面链接 数据挖掘 web结构挖掘 HITS Page-rank 算法
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部