期刊文献+
共找到118篇文章
< 1 2 6 >
每页显示 20 50 100
一种自动抽取Web信息方法的设计与实现 被引量:3
1
作者 胡国晴 李建华 《计算机与现代化》 2009年第1期38-40,48,共4页
针对目前Web信息抽取技术实现复杂、维护困难以及抽取速度慢的问题,本文根据Web页面的特点,提出一种新的Web抽取策略。此策略在处理Web页面时降低了处理Web页面的结构的复杂性,提高了Web信息抽取的速度。并根据策略建立了该Web信息自动... 针对目前Web信息抽取技术实现复杂、维护困难以及抽取速度慢的问题,本文根据Web页面的特点,提出一种新的Web抽取策略。此策略在处理Web页面时降低了处理Web页面的结构的复杂性,提高了Web信息抽取的速度。并根据策略建立了该Web信息自动抽取方法的模型,此模型首先分析页面的结构,根据结构快速生成抽取规则,构建规则库;并对页面抽取的内容进行分析,构建资源库。基于此模型的方法能自主学习,实现自动抽取,这在很大程度上减少了人工参与,并能获得比较好的抽取结果。 展开更多
关键词 web信息抽取 web抽取策略 自主学习 抽取规则
下载PDF
基于XPath的Web信息抽取的设计与实现 被引量:6
2
作者 杨文柱 徐林昊 +2 位作者 陈少飞 郝亚南 李天柱 《计算机工程》 CAS CSCD 北大核心 2003年第16期82-83,113,共3页
提出了一种基于XPath的Web信息抽取方法,鉴于目前还没有免费的商用XPath引擎可用,于是利用DOM定制了一个XPath引擎,实现了Web信息抽取。该文着重介绍了原型系统的工作原理和实现中所采用的具体技术,该方法可用于Web查询和包装器的... 提出了一种基于XPath的Web信息抽取方法,鉴于目前还没有免费的商用XPath引擎可用,于是利用DOM定制了一个XPath引擎,实现了Web信息抽取。该文着重介绍了原型系统的工作原理和实现中所采用的具体技术,该方法可用于Web查询和包装器的构造,也可用于格式转换。 展开更多
关键词 XPATH web信息抽取 文档对象模型
下载PDF
基于知识图谱的Web信息抽取系统 被引量:16
3
作者 王辉 郁波 +1 位作者 洪宇 肖仰华 《计算机工程》 CAS CSCD 北大核心 2017年第6期118-124,共7页
为实现多领域海量网页信息的有效抽取,以中文知识图谱CN-DBpedia为基础设计Web信息抽取系统。基于知识图谱对网页数据项进行自动标注,建立具有容错能力的包装器归纳框架,从包含错误的标注集中归纳学习出正确的包装器。实验结果表明,该... 为实现多领域海量网页信息的有效抽取,以中文知识图谱CN-DBpedia为基础设计Web信息抽取系统。基于知识图谱对网页数据项进行自动标注,建立具有容错能力的包装器归纳框架,从包含错误的标注集中归纳学习出正确的包装器。实验结果表明,该系统的准确率和召回率均高于传统人工标注方法,可显著降低网页信息抽取过程中的人力成本,灵活运用于大规模、多领域的网页信息抽取任务。 展开更多
关键词 知识图谱 多领域 web信息抽取 网页自动标注 容错 包装器归纳框架
下载PDF
Web信息抽取技术研究进展 被引量:19
4
作者 陈少飞 郝亚南 +2 位作者 李天柱 徐林昊 杨文柱 《河北大学学报(自然科学版)》 CAS 2003年第1期106-112,共7页
Web信息抽取技术是当今的一个研究热点。目前出现了基于不同原理的多种信息抽取技术,它们具有不同的性能。本文根据信息抽取的原理,对现有的信息抽取技术进行了分类,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现形式... Web信息抽取技术是当今的一个研究热点。目前出现了基于不同原理的多种信息抽取技术,它们具有不同的性能。本文根据信息抽取的原理,对现有的信息抽取技术进行了分类,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行了分析和比较,在此基础上提出了待研究的问题。 展开更多
关键词 web信息抽取技术 研究进展 HTML XML 语义 抽取模式 抽取原理 web查询 抽取规则
下载PDF
基于重复模式的自动Web信息抽取 被引量:8
5
作者 胡仁龙 袁春风 +1 位作者 武港山 濮小佳 《计算机工程》 CAS CSCD 北大核心 2008年第22期73-76,共4页
互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽... 互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽取过程中不需要人工干预。对10个在线购物网站进行了测试,实验结果表明提出的方法是有效的。 展开更多
关键词 web信息抽取 DOM树 重复模式
下载PDF
一种基于XML的Web信息抽取方法 被引量:7
6
作者 李剑波 李小华 +1 位作者 董树明 杨科华 《情报杂志》 CSSCI 北大核心 2006年第8期49-51,共3页
目前Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了Web信息抽取技术。在论述了半结构化Web信息抽取技术总体解决方案的基础上,研究了Web信息抽取的实现技术,并从应用的角度... 目前Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了Web信息抽取技术。在论述了半结构化Web信息抽取技术总体解决方案的基础上,研究了Web信息抽取的实现技术,并从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,为进一步满足Web信息检索提供了一种新的高效的检索方法。 展开更多
关键词 XML web信息抽取 抽取规则 半结构化
下载PDF
正则表达式在Web信息抽取中的应用 被引量:39
7
作者 胡军伟 秦奕青 张伟 《北京信息科技大学学报(自然科学版)》 2011年第6期86-89,共4页
针对基于HTML结构的信息抽取方法,提出了正则表达式的处理方法。利用正则表达式的匹配、替换和提取等功能,重点讨论了正则表达式在Web信息抽取过程中的应用。正则表达式已成功的应用在数据搜集、页面优化、规则学习和信息抽取等整个Web... 针对基于HTML结构的信息抽取方法,提出了正则表达式的处理方法。利用正则表达式的匹配、替换和提取等功能,重点讨论了正则表达式在Web信息抽取过程中的应用。正则表达式已成功的应用在数据搜集、页面优化、规则学习和信息抽取等整个Web信息抽取的过程中。 展开更多
关键词 web信息抽取 正则表达式 匹配 替换 提取
下载PDF
基于重复模式的Web信息抽取 被引量:6
8
作者 高强 张敬之 +1 位作者 耿桦 潘金贵 《计算机科学》 CSCD 北大核心 2007年第4期210-212,221,共4页
网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实... 网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实例中抽取出对应的数据记录。 展开更多
关键词 web信息抽取 重复模式 后缀树
下载PDF
基于模板流程配置的Web信息抽取 被引量:5
9
作者 刘辉 陈静玉 徐学洲 《计算机工程》 CAS CSCD 北大核心 2008年第20期55-57,共3页
针对Web信息抽取中存在的包装器构造复杂及抽取精度等问题,提出并实现了一种基于模板流程配置的Web信息抽取框架。将用户请求、访问和获取Web页面的动作进行分解,抽取其中的动作模式,并映射到流程配置模板中的节点。通过流程解析器对用... 针对Web信息抽取中存在的包装器构造复杂及抽取精度等问题,提出并实现了一种基于模板流程配置的Web信息抽取框架。将用户请求、访问和获取Web页面的动作进行分解,抽取其中的动作模式,并映射到流程配置模板中的节点。通过流程解析器对用户创建的流程配置XML描述文档进行解析,抽取感兴趣的信息。试验结果表明,系统可快速、准确地实现抽取。 展开更多
关键词 web信息抽取 模板流程配置 包装器 框架
下载PDF
基于DOM的Web信息抽取规则的构造与实现 被引量:5
10
作者 杨敬伟 杨文柱 高悦 《河北大学学报(自然科学版)》 CAS 北大核心 2007年第2期209-212,共4页
为了实现对Web信息的查询、重构和再利用,人们采用了Web信息抽取技术.本文主要讨论基于DOM的Web信息抽取,研究如何构造抽取规则,才能提高信息抽取的准确度、提高抽取规则的适应能力,并给出了抽取规则的生成过程.
关键词 DOM web信息抽取 抽取规则
下载PDF
基于遗传算法和隐马尔可夫模型的Web信息抽取的改进 被引量:8
11
作者 李荣 胡志军 郑家恒 《计算机科学》 CSCD 北大核心 2012年第3期196-199,215,共5页
为了进一步提高Web信息抽取的准确性和效率,针对Web信息抽取的遗传算法和一阶隐马尔可夫模型混合方法在初值选取和参数寻优上的不足,提出了一种遗传算法和二阶隐马尔可夫模型内嵌结合的改进方法。在分层预处理阶段,利用格式信息和文本... 为了进一步提高Web信息抽取的准确性和效率,针对Web信息抽取的遗传算法和一阶隐马尔可夫模型混合方法在初值选取和参数寻优上的不足,提出了一种遗传算法和二阶隐马尔可夫模型内嵌结合的改进方法。在分层预处理阶段,利用格式信息和文本特征将文本切分成文本行、块或单个的词等恰当的层次;然后采用内嵌的遗传算法和二阶隐马尔可夫混合模型训练参数,保留最优和次优染色体,修正Baum-Welch算法的初始参数,多次使用遗传算法微调二阶隐马尔可夫模型;最后用改进的Viterbi算法实现Web信息抽取。实验结果表明,改进方法在精确度、召回率指标和时间性能上均比遗传算法和一阶隐马尔可夫模型的混合方法具有更好的性能。 展开更多
关键词 web信息抽取 遗传算法 二阶隐马尔可夫模型 分层
下载PDF
一种基于SVM和AdaBoost的Web实体信息抽取方法 被引量:3
12
作者 孙明 陆春生 +2 位作者 徐秀星 李庆忠 彭朝晖 《计算机应用与软件》 CSCD 北大核心 2013年第4期101-106,152,共7页
提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标... 提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标签的特征,提出一种基于AdaBoost的集成学习方法,从页面的主数据区域自动地抽取Web实体信息。在两个真实数据集上进行实验,并与相关研究工作进行比较,实验结果说明该方法能够取得良好的抽取效果。 展开更多
关键词 web信息抽取 页面分割 集成学习
下载PDF
Web信息抽取技术综述 被引量:22
13
作者 陈钊 张冬梅 《计算机应用研究》 CSCD 北大核心 2010年第12期4401-4405,共5页
快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一... 快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一定的相似性,基于DOM树结构和基于模板的抽取技术发展很快而且已经得到了广泛的应用。分别论述了上述几类技术在近几年来的研究进展,从自动化程度、适用范围和复杂性三个角度分析对比了几类技术的优缺点。 展开更多
关键词 web信息抽取 网页噪声 URL聚类 DSE算法 RoadRunner系统 MDR 视觉特征 模板
下载PDF
基于改进的PSO和HMM的Web信息抽取算法 被引量:3
14
作者 王川 段德全 王晓东 《河南师范大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第5期65-68,共4页
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际应用中模型参数极易陷入局部最优的问题,提出了一种基于改进的粒子群优化算法的隐马尔可夫模型参数优化模型,用于Web信息抽取.以似然概率值作为适应度函数,使用改进的粒子群... 针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际应用中模型参数极易陷入局部最优的问题,提出了一种基于改进的粒子群优化算法的隐马尔可夫模型参数优化模型,用于Web信息抽取.以似然概率值作为适应度函数,使用改进的粒子群优化算法结合Baum-Welch算法对HMM模型参数进行全局优化,实现了Web页面信息的抽取.实验结果表明,该算法在精确率和时间等指标上与现有算法相比具有更好的性能. 展开更多
关键词 PSO HMM web信息抽取
下载PDF
基于网格的Web信息抽取系统的设计与实现 被引量:2
15
作者 贡正仙 支丽艳 +1 位作者 朱巧明 李培峰 《计算机应用与软件》 CSCD 北大核心 2007年第11期50-51,116,共3页
Web信息抽取已经成为下一代Web应用的一个研究热点。在分析了当前Web信息抽取技术面临问题的基础上,结合网格技术的发展,提出了一个基于网格的Web信息抽取系统(GWIES),并给出了GWIES的设计方案,描述了系统实现的关键技术。
关键词 web信息抽取 网格 GLOBUS 调度
下载PDF
直推式支持向量机在Web信息抽取中的应用研究 被引量:6
16
作者 肖建鹏 张来顺 任星 《计算机工程与应用》 CSCD 北大核心 2009年第2期147-149,共3页
直推式支持向量机是一种直接从已知样本出发对特定的未知样本进行识别的分类技术。在分析直推式支持向量机分类原理的基础上,提出一种基于直推式支持向量机的Web信息抽取方法,直接从分类的角度抽取Web信息。只需要提供少量标记样本就可... 直推式支持向量机是一种直接从已知样本出发对特定的未知样本进行识别的分类技术。在分析直推式支持向量机分类原理的基础上,提出一种基于直推式支持向量机的Web信息抽取方法,直接从分类的角度抽取Web信息。只需要提供少量标记样本就可以实现对大量未标注样本的分类标注,从而以分类的方式完成Web数据抽取任务。实验结果表明,使用这种方法进行Web信息抽取是有效性。 展开更多
关键词 web信息抽取 分类学习 直推式支持向量机
下载PDF
基于视觉特征和领域本体的Web信息抽取 被引量:5
17
作者 张鑫 陈梅 +1 位作者 王翰虎 王嫣然 《计算机技术与发展》 2011年第2期58-61,65,共5页
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法。该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web页面中信... 为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法。该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web页面中信息项的抽取路径。通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则。使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点。 展开更多
关键词 视觉特征 领域本体 web信息抽取 路径学习 启发式学习
下载PDF
基于模拟退火算法和二阶HMM的Web信息抽取 被引量:7
18
作者 李伟男 李书琴 +2 位作者 景旭 魏露 李新乐 《计算机工程与设计》 CSCD 北大核心 2014年第4期1264-1268,共5页
针对传统隐马尔科夫模型对初值敏感和未考虑历史状态的问题,提出了使用模拟退火算法训练二阶隐马尔科夫模型参数的SA-HMM2。在基于SA-HMM2的Web信息抽取方法中,采用基于视觉的网页分割算法VIPS对网页分块得到状态转移序列,利用提出的SA-... 针对传统隐马尔科夫模型对初值敏感和未考虑历史状态的问题,提出了使用模拟退火算法训练二阶隐马尔科夫模型参数的SA-HMM2。在基于SA-HMM2的Web信息抽取方法中,采用基于视觉的网页分割算法VIPS对网页分块得到状态转移序列,利用提出的SA-HMM2训练算法获取HMM2全局最优模型参数,用改进的Viterbi算法实现了Web信息的抽取。实验结果表明,该方法在平均综合值方面比HMM、GA-HMM分别提高约21%和7%。 展开更多
关键词 web信息抽取 隐马尔科夫模型 二阶隐马尔科夫模型 模拟退火算法 基于视觉的网页分割算法
下载PDF
基于页面分类的Web信息抽取方法研究 被引量:5
19
作者 成卫青 于静 +1 位作者 杨晶 杨龙 《计算机技术与发展》 2013年第1期54-58,共5页
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通... 通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。 展开更多
关键词 web信息抽取 正则表达式 页面分类 HTMLPARSER 结点树
下载PDF
Web信息抽取技术在统一检索系统中的应用研究 被引量:7
20
作者 王权 施韶亭 《计算机应用与软件》 CSCD 2010年第10期120-122,137,共4页
结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统... 结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台。 展开更多
关键词 web信息抽取 统一检索 页面结构分析 关键信息 子树广度
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部