期刊文献+
共找到112篇文章
< 1 2 6 >
每页显示 20 50 100
基于Web网页的DOM树链接预分类、信息抽取方法研究
1
作者 罗莎 《长江信息通信》 2023年第11期133-135,共3页
为满足Web网页的数据记录、自动抽取需求,提出依托DOM树特征的网页信息链接预分类、领域本体的Web信息抽取方法,根据HTML、XML网页文档结构设置DOM对象节点树,标记网页页码导航节点、前导符节点、数据特征节点,用DOM根节点到目标节点的... 为满足Web网页的数据记录、自动抽取需求,提出依托DOM树特征的网页信息链接预分类、领域本体的Web信息抽取方法,根据HTML、XML网页文档结构设置DOM对象节点树,标记网页页码导航节点、前导符节点、数据特征节点,用DOM根节点到目标节点的标签序列计算树路径,根据各网页链接的XPATH树路径进行分组,DOM树特征预分类模块完成站点信息链接预分类,采用SVM分类器、支持向量机SVM算法,将网页的数据记录样本作出数据信息抽取、属性特征提取计算,从而抽取出满足用户需求的数据文本、数据记录信息。 展开更多
关键词 web网页 DOM树特征 信息链接预分类 信息抽取方法
下载PDF
基于本体的Web信息抽取系统 被引量:14
2
作者 王志华 魏斌 +1 位作者 李占波 赵伟 《计算机工程与设计》 CSCD 北大核心 2012年第7期2634-2639,共6页
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架。对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文... 为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架。对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案。实验结果表明,该方法可以得到性能较高的抽取结果。 展开更多
关键词 本体 信息抽取 web页面 关键技术 抽取框架
下载PDF
基于网页结构树的Web信息抽取方法 被引量:24
3
作者 陈琼 苏文健 《计算机工程》 EI CAS CSCD 北大核心 2005年第20期54-55,140,共3页
提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构... 提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。 展开更多
关键词 信息抽取 半结构 网页结构树 模式
下载PDF
基于动态异构的Web信息集成网页分析方法 被引量:7
4
作者 李昌清 李艳霞 +1 位作者 李胜利 王剑 《计算机应用研究》 CSCD 北大核心 2007年第12期204-206,共3页
将动态异构的Web信息资源进行抽取以统一的方式供用户查询和使用,是当前迫切需要解决的问题。介绍了分析相关Web页面的方法和经验,实现了自动提交HTML表单获得所需页面和对页面的信息抽取。最后,实验证明了此方法的有效性。
关键词 网页分析 信息抽取 模式匹配
下载PDF
Web信息抽取技术综述 被引量:22
5
作者 陈钊 张冬梅 《计算机应用研究》 CSCD 北大核心 2010年第12期4401-4405,共5页
快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一... 快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一定的相似性,基于DOM树结构和基于模板的抽取技术发展很快而且已经得到了广泛的应用。分别论述了上述几类技术在近几年来的研究进展,从自动化程度、适用范围和复杂性三个角度分析对比了几类技术的优缺点。 展开更多
关键词 web信息抽取 网页噪声 URL聚类 DSE算法 RoadRunner系统 MDR 视觉特征 模板
下载PDF
基于模拟退火算法和二阶HMM的Web信息抽取 被引量:7
6
作者 李伟男 李书琴 +2 位作者 景旭 魏露 李新乐 《计算机工程与设计》 CSCD 北大核心 2014年第4期1264-1268,共5页
针对传统隐马尔科夫模型对初值敏感和未考虑历史状态的问题,提出了使用模拟退火算法训练二阶隐马尔科夫模型参数的SA-HMM2。在基于SA-HMM2的Web信息抽取方法中,采用基于视觉的网页分割算法VIPS对网页分块得到状态转移序列,利用提出的SA-... 针对传统隐马尔科夫模型对初值敏感和未考虑历史状态的问题,提出了使用模拟退火算法训练二阶隐马尔科夫模型参数的SA-HMM2。在基于SA-HMM2的Web信息抽取方法中,采用基于视觉的网页分割算法VIPS对网页分块得到状态转移序列,利用提出的SA-HMM2训练算法获取HMM2全局最优模型参数,用改进的Viterbi算法实现了Web信息的抽取。实验结果表明,该方法在平均综合值方面比HMM、GA-HMM分别提高约21%和7%。 展开更多
关键词 web信息抽取 隐马尔科夫模型 二阶隐马尔科夫模型 模拟退火算法 基于视觉的网页分割算法
下载PDF
基于DOM模型扩展的Web信息提取 被引量:21
7
作者 顾韵华 田伟 《计算机科学》 CSCD 北大核心 2009年第11期235-237,289,共4页
提出了一种基于DOM模型扩展的Web信息提取方法。将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容。该方法不要求对网页的结构有预先认识,具有自动和通用的... 提出了一种基于DOM模型扩展的Web信息提取方法。将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容。该方法不要求对网页的结构有预先认识,具有自动和通用的特点。提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中。 展开更多
关键词 文档对象模型 web信息提取 影响度因子 DOM树扩展
下载PDF
基于相似页面的Web信息抽取系统的实现 被引量:3
8
作者 贡正仙 朱巧明 李培峰 《计算机应用》 CSCD 北大核心 2006年第8期1983-1986,共4页
分析了RoadRunner的核心算法,针对RoadRunner的不足,综合自动和半自动抽取阶段的各项研究成果,设计并实现了基于相似页面的W eb信息抽取系统。介绍了系统结构和实现的关键技术,包括如何获取相似页面,可靠的噪声处理和自动归纳抽取规则... 分析了RoadRunner的核心算法,针对RoadRunner的不足,综合自动和半自动抽取阶段的各项研究成果,设计并实现了基于相似页面的W eb信息抽取系统。介绍了系统结构和实现的关键技术,包括如何获取相似页面,可靠的噪声处理和自动归纳抽取规则的算法。 展开更多
关键词 web页面 RoadRunner 相似页面 信息抽取
下载PDF
一种基于SVM和AdaBoost的Web实体信息抽取方法 被引量:3
9
作者 孙明 陆春生 +2 位作者 徐秀星 李庆忠 彭朝晖 《计算机应用与软件》 CSCD 北大核心 2013年第4期101-106,152,共7页
提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标... 提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标签的特征,提出一种基于AdaBoost的集成学习方法,从页面的主数据区域自动地抽取Web实体信息。在两个真实数据集上进行实验,并与相关研究工作进行比较,实验结果说明该方法能够取得良好的抽取效果。 展开更多
关键词 web信息抽取 页面分割 集成学习
下载PDF
基于页面分类的Web信息抽取方法研究 被引量:5
10
作者 成卫青 于静 +1 位作者 杨晶 杨龙 《计算机技术与发展》 2013年第1期54-58,共5页
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通... 通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。 展开更多
关键词 web信息抽取 正则表达式 页面分类 HTMLPARSER 结点树
下载PDF
Web信息抽取技术在统一检索系统中的应用研究 被引量:7
11
作者 王权 施韶亭 《计算机应用与软件》 CSCD 2010年第10期120-122,137,共4页
结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统... 结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台。 展开更多
关键词 web信息抽取 统一检索 页面结构分析 关键信息块 子树广度
下载PDF
基于Web文本的灾害信息挖掘研究进展 被引量:7
12
作者 李卫江 温家洪 《灾害学》 CSCD 2010年第2期119-123,128,共6页
Web文本中蕴含着丰富的以自然语言描述的非结构灾害信息和知识。基于Web文本自动提取和构造结构化、综合性灾害信息,是灾害信息领域研究的前沿问题。目前国内外利用Web文本挖掘技术在灾时与灾后的应急响应与救援,灾害的早期预警和风险... Web文本中蕴含着丰富的以自然语言描述的非结构灾害信息和知识。基于Web文本自动提取和构造结构化、综合性灾害信息,是灾害信息领域研究的前沿问题。目前国内外利用Web文本挖掘技术在灾时与灾后的应急响应与救援,灾害的早期预警和风险分析方面进行示范应用;同时在文本灾害信息的语义理解与抽取、文本灾害信息的时空匹配、以及文本灾害信息的不确定性和可靠性评价等关键技术领域迅速展开研究。我国应加强以Web文本为信息源的中文灾害信息挖掘关键技术、软件,以及管理体系的研究,以有效弥补灾害研究与管理过程中灾害数据共享困难,以及可利用的动态实时、综合性灾害数据缺乏的薄弱环节,提升灾害信息服务水平。 展开更多
关键词 web文本 灾害信息 空间信息 挖掘技术
下载PDF
基于领域本体的Web页面信息抽取 被引量:4
13
作者 黄婵 罗艳梅 《实验室研究与探索》 CAS 北大核心 2011年第1期62-65,共4页
由于当前信息抽取系统因知识库结构和内容的不同带来的搜索质量问题,将本体引入信息抽取中,有助于信息抽取系统对领域内的概念和概念之间的联系的统一认识,为用户提供更有价值的信息。提出了基于本体的文本信息抽取算法,通过本体元素描... 由于当前信息抽取系统因知识库结构和内容的不同带来的搜索质量问题,将本体引入信息抽取中,有助于信息抽取系统对领域内的概念和概念之间的联系的统一认识,为用户提供更有价值的信息。提出了基于本体的文本信息抽取算法,通过本体元素描述抽取的文本信息。最后,利用此算法对某领域样本Web页面进行抽取并分析。实验表明性能有所提高。 展开更多
关键词 领域本体 web页面 案信息抽取
下载PDF
基于标记树的Web页面区域划分和搜索方法 被引量:7
14
作者 胡飞 《计算机科学》 CSCD 北大核心 2005年第8期182-185,共4页
Web页面的布局可以分为:主要内容、单位标识、导航信息、交互信息和版权申明。我们在处理这些页面时往往只关心主要内容,而且可以从语义上快速定位到主要内容,但是软件系统要做到这一点就非常困难。本文提出一种基于标记树的Web页面区... Web页面的布局可以分为:主要内容、单位标识、导航信息、交互信息和版权申明。我们在处理这些页面时往往只关心主要内容,而且可以从语义上快速定位到主要内容,但是软件系统要做到这一点就非常困难。本文提出一种基于标记树的Web页面区域划分和搜索方法,让软件系统可以忽略别的区域,快速定位到主要内容。对于大量Web页面处理而言,这种方法可以起到减少时间,缩小空间的作用,Web页面越多,效果就越显著。 展开更多
关键词 web页面布局 页面结构 页面区域 标记树 标记树模式 web页面 搜索方法 区域划分 快速定位 软件系统
下载PDF
Web信息抽取及知识表示系统的研究与实现 被引量:2
15
作者 谭守标 徐超 +1 位作者 江元 宁仁霞 《计算机系统应用》 2010年第9期1-4,9,共5页
研究了从数据密集型Web页面中自动提取结构化数据并形成知识表示系统的问题。基于知识数据库实现动态页面获取,进行预处理后转换为XML文档,采用基于PAT-array的模式发现算法自动发现重复模式,结合基于本体的关键词库自动识别页面数据显... 研究了从数据密集型Web页面中自动提取结构化数据并形成知识表示系统的问题。基于知识数据库实现动态页面获取,进行预处理后转换为XML文档,采用基于PAT-array的模式发现算法自动发现重复模式,结合基于本体的关键词库自动识别页面数据显示结构模型,利用XML的对象-关系映射技术将数据存入知识数据库,由此实现Web数据自动抽取。同时,利用知识数据库已有知识从互联网抽取新知识,达到知识数据库的自扩展。以交通信息自动抽取及混合交通出行方案生成与表示系统进行的实验表明该系统具有高抽取准确率和良好的适应性。 展开更多
关键词 web信息提取 知识表示 数据密集型web页面 基于本体的关键词库
下载PDF
基于XML和DOM技术的Web信息抽取模型 被引量:1
16
作者 李文 郑邦习 邓武 《大连交通大学学报》 CAS 2013年第3期96-99,118,共5页
将XML技术应用于搜索引擎,提出一种基于XML和DOM技术的Web信息抽取模型,对模型的数据采集、页面优化处理、抽取规则生成和信息抽取四个阶段进行了详细分析,讨论了网页爬虫、NekoHTML、Xerces-J、JTree、Xpath以及XSLT技术在Web信息抽取... 将XML技术应用于搜索引擎,提出一种基于XML和DOM技术的Web信息抽取模型,对模型的数据采集、页面优化处理、抽取规则生成和信息抽取四个阶段进行了详细分析,讨论了网页爬虫、NekoHTML、Xerces-J、JTree、Xpath以及XSLT技术在Web信息抽取中的应用,实现了Web信息抽取的半自动化. 展开更多
关键词 信息抽取 XML技术 DOM技术 web页面
下载PDF
基于海量冗余网页过滤的Web挖掘技术研究 被引量:2
17
作者 赵玺 《科技通报》 北大核心 2013年第4期21-22,25,共3页
智能教学系统通过搜索网页关键词获取教学资源时,由于存在许多具有相同关键词的垃圾网页的影响,使得教学资源较难从海量网页信息中快速挖掘出来,传统的关键词查找方法受垃圾网页的影响使得搜索量过大,造成智能教学资源获取的及时性不高... 智能教学系统通过搜索网页关键词获取教学资源时,由于存在许多具有相同关键词的垃圾网页的影响,使得教学资源较难从海量网页信息中快速挖掘出来,传统的关键词查找方法受垃圾网页的影响使得搜索量过大,造成智能教学资源获取的及时性不高。为此,提出Web信息抽取技术应用在智能教学资源挖掘中。根据教学资源获取要求批量获取相关Web网页,利用Xpath语言结合搜索请求和网页主题信息块特征对Web网页进行清洗,然后根据Web文本特征模型挖掘出教学所需的资源。仿真实验表明,这种方法能够有效克服垃圾网页地干扰,快速完成教学资源地挖掘,取得了满意的结果。 展开更多
关键词 智能教学 垃圾网页 信息抽取
下载PDF
基于DOM的中文人物WEB信息提取 被引量:2
18
作者 陈晓云 宋伟国 苗胜法 《微计算机信息》 2010年第36期15-17,共3页
本文面向中文人物WEB信息提取这个主题,将HTML文档解析成DOM树,扩展DOM树,增加主题相关度影响因子。提出特征权值计算方法计算主题相关度,并根据主题相关性因子进行剪枝,提取主题信息。进而通过句法分析、模式匹配提取中文人物的姓名、... 本文面向中文人物WEB信息提取这个主题,将HTML文档解析成DOM树,扩展DOM树,增加主题相关度影响因子。提出特征权值计算方法计算主题相关度,并根据主题相关性因子进行剪枝,提取主题信息。进而通过句法分析、模式匹配提取中文人物的姓名、出生年月、性别等信息。结果表明,该方法有较好的查全率和准确率。 展开更多
关键词 信息提取 文档对象模型 影响因子 中文人物
下载PDF
基于正则表达式的Web页面信息抽取技术研究 被引量:2
19
作者 罗粮 朱儒明 《现代计算机》 2017年第10期17-19,38,共4页
通过分析网页信息抽取技术和正则表达式相关理论,提出基于正则表达式的Web信息抽取方法,并设计相应的网页信息抽取算法。通过对此算法实现的信息抽取系统进行测试实验表明,所提出的Web页面信息抽取方法能达到较高的召回率和准确率。
关键词 信息抽取 正则表达式 网页信息
下载PDF
基于结构与内容的Web主要信息提取方法研究
20
作者 张文东 李伟 《计算机工程与设计》 CSCD 北大核心 2008年第24期6210-6212,共3页
Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发... Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发,准确地将Web内容进行分块,并对分块内容进行分析处理,从而提取出Web页面的主要信息。 展开更多
关键词 web页面 内容 结构 分块 信息提取
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部