期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
Web信息抽取技术综述 被引量:22
1
作者 陈钊 张冬梅 《计算机应用研究》 CSCD 北大核心 2010年第12期4401-4405,共5页
快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一... 快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一定的相似性,基于DOM树结构和基于模板的抽取技术发展很快而且已经得到了广泛的应用。分别论述了上述几类技术在近几年来的研究进展,从自动化程度、适用范围和复杂性三个角度分析对比了几类技术的优缺点。 展开更多
关键词 web信息抽取 网页噪声 URL聚类 DSE算法 RoadRunner系统 MDR 视觉特征 模板
下载PDF
基于Web挖掘的专业文本特征提取方法研究 被引量:1
2
作者 吕林霞 张明新 《兰州石化职业技术学院学报》 2007年第3期33-35,共3页
通过对专业信息自动分类的文本特征提取方法的分析研究,提出在文本分析时根据Web内容挖掘和结构挖掘的方法提取特征词条来建立文本特征空间,同时利用专业类别向量、专业词典技术可有效解决高维空间问题。
关键词 web挖掘 专业信息 文档自动分类 特征提取
下载PDF
模板化的Web列表页面信息自动抽取方法的研究 被引量:1
3
作者 王琛 《现代计算机(中旬刊)》 2013年第8期77-80,共4页
提出一种模板化的Web列表页面信息自动抽取方法,并对其实现的关键技术进行了阐述,包括页面预处理,Web列表页面中数据区域、数据记录的定位方法。同时提出一种有效的对DOM子树进行属性对齐和标注的方式,并给出相关算法。实验结果表明,该... 提出一种模板化的Web列表页面信息自动抽取方法,并对其实现的关键技术进行了阐述,包括页面预处理,Web列表页面中数据区域、数据记录的定位方法。同时提出一种有效的对DOM子树进行属性对齐和标注的方式,并给出相关算法。实验结果表明,该方法能够自动寻找并抽取Web列表页面的主要信息,具有较高的查全率和查准率。 展开更多
关键词 web信息抽取 列表页面 DOM 网页去噪 数据属性对齐
下载PDF
基于新型主题信息量化方法的Web主题信息提取研究 被引量:1
4
作者 吕聚旺 都云程 +1 位作者 王弘蔚 施水才 《现代图书情报技术》 CSSCI 北大核心 2008年第12期48-53,共6页
针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采... 针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。 展开更多
关键词 网页主题信息信息抽取信息块语义信息IB—DOM树
下载PDF
基于网页框架和规则的网页噪音去除方法 被引量:17
5
作者 时达明 林鸿飞 杨志豪 《计算机工程》 CAS CSCD 北大核心 2007年第19期276-278,共3页
提出了一种基于网页框架和规则的网页去除噪音的新方法,该方法根据网页中HTML标签<table>将网页分成若干部分,对各个table的长宽比属性进行比较,去掉长宽比很大的部分,并对其余table中的内容进行分析,根据内部是否存在和段落文字... 提出了一种基于网页框架和规则的网页去除噪音的新方法,该方法根据网页中HTML标签<table>将网页分成若干部分,对各个table的长宽比属性进行比较,去掉长宽比很大的部分,并对其余table中的内容进行分析,根据内部是否存在和段落文字有关的标签<p>或<br>等来区分主题内容和噪音内容,在此基础上去除噪音内容。对来自CWT200G语料的132 559个网页进行测试后的结果表明,该方法可以有效地去除网页噪音,使索引文件减少约75%,大大地提高了检索速度,准确度也得到一定提高。 展开更多
关键词 信息检索 网页噪音 页面框架
下载PDF
基于分块的网页主题信息自动提取算法 被引量:6
6
作者 殷贤亮 李猛 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第10期39-41,共3页
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用... 对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率. 展开更多
关键词 网页分块 主题信息 自动提取 特征选择 网页分类
下载PDF
一种基于块分析的网页去噪音方法 被引量:8
7
作者 刘晨曦 吴扬扬 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期149-152,共4页
一张网页通常由许多信息块组成,除了主题内容块以外,还常常包含广告信息、导航条、版权信息等信息块。结合网页块大小、位置等信息以及网页本身的一些特点,提出了一种基于块分析的、自动调整阈值的去除噪音方法,该算法显著减少了网页的... 一张网页通常由许多信息块组成,除了主题内容块以外,还常常包含广告信息、导航条、版权信息等信息块。结合网页块大小、位置等信息以及网页本身的一些特点,提出了一种基于块分析的、自动调整阈值的去除噪音方法,该算法显著减少了网页的噪音,并通过网页分类对比实验证明了该算法的有效性。 展开更多
关键词 网页 噪音 信息提取 HTML
下载PDF
基于非内容信息的网络关键资源有效定位 被引量:2
8
作者 刘奕群 张敏 马少平 《智能系统学报》 2007年第1期45-52,共8页
网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到Web上一小部分数据,而其中又充斥着大量的低质量信息.如何在用户查询无关的条件下找到Web上高质量的关键资源,是Web信息检索面临的挑战.基于大规模网页统计的方法发现,多种网... 网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到Web上一小部分数据,而其中又充斥着大量的低质量信息.如何在用户查询无关的条件下找到Web上高质量的关键资源,是Web信息检索面临的挑战.基于大规模网页统计的方法发现,多种网页非内容特征可以用于关键资源页面的定位,利用决策树学习方法对这些特征进行综合,即可以实现用户查询无关的关键资源页面定位.在文本信息检索会议(TREC)标准评测平台上进行的超过19G文本数据规模的实验表明,这种定位方法能够利用20%左右的页面覆盖超过70%的Web关键信息;在仅为全部页面24%的关键资源集合上的检索结果,比在整个页面集合上的检索有超过60%的性能提高.这说明使用较少的索引量获取较高的检索性能是完全可能的. 展开更多
关键词 网络信息检索 关键资源页面 主题过滤 机器学习
下载PDF
任意网页的主题信息抽取研究 被引量:6
9
作者 张儒清 郭岩 +2 位作者 刘悦 俞晓明 程学旗 《中文信息学报》 CSCD 北大核心 2017年第5期127-137,共11页
目前大部分的网页信息抽取方法都局限于某一类网页的提取,并没有进一步深入到适用于任意网页的抽取。针对这一问题,该文提出了一种基于融合机制的任意网页主题信息抽取框架,特点是通过"模板库匹配—基于模板抽取—网页分类—全自... 目前大部分的网页信息抽取方法都局限于某一类网页的提取,并没有进一步深入到适用于任意网页的抽取。针对这一问题,该文提出了一种基于融合机制的任意网页主题信息抽取框架,特点是通过"模板库匹配—基于模板抽取—网页分类—全自动抽取"四个步骤实现对模板无关的全自动抽取算法和基于模板的抽取算法的融合。实验显示,这种融合机制能促进抽取准确率的有效提高,从而最终建立起一个适用于任意网页的、具有实用价值的信息抽取框架。 展开更多
关键词 任意网页 主题信息 网页分类 实用价值
下载PDF
基于主题的网页噪音去除机制 被引量:8
10
作者 万乐 左万利 高金 《计算机工程与设计》 CSCD 北大核心 2008年第8期2072-2074,2084,共4页
由于主题的缺失,传统的网页噪音去除算法均是通过一些启发式的规则判断哪些是有用信息,哪些是噪音信息。而在主题爬行的环境下,由于有了明确的主题,可以使用一些不同的方法来发现网页噪音。提出了一种基于主题的网页噪音去除算法,通过... 由于主题的缺失,传统的网页噪音去除算法均是通过一些启发式的规则判断哪些是有用信息,哪些是噪音信息。而在主题爬行的环境下,由于有了明确的主题,可以使用一些不同的方法来发现网页噪音。提出了一种基于主题的网页噪音去除算法,通过构造网页DOM树的一个变种,即内容块树,利用分类器判断网页的噪音块。实验结果表明,该方法噪音去除精度是87%,而以前的方法仅有42%。 展开更多
关键词 web网页 噪音去除 信息提取 预处理
下载PDF
汉维主题网页自动获取技术的研究 被引量:2
11
作者 梁建飞 吐尔根.依布拉音 +1 位作者 田生伟 赛依旦.阿不力米提 《计算机应用与软件》 CSCD 北大核心 2012年第1期42-45,共4页
为了获得大量用于机器翻译研究的汉维(维吾尔)文语料,提出一种从网页中自动获取主题信息的方法。考虑到有主题网页中主题信息分布相对集中、文本密度较高,并且这类网页中大量的噪音信息是由链接引入的,提出的算法首先将链接分为噪音链... 为了获得大量用于机器翻译研究的汉维(维吾尔)文语料,提出一种从网页中自动获取主题信息的方法。考虑到有主题网页中主题信息分布相对集中、文本密度较高,并且这类网页中大量的噪音信息是由链接引入的,提出的算法首先将链接分为噪音链接和非噪音链接,并在源码中删除噪音链接的锚文本和非噪音链接的HTML标签,然后利用容器标签将源码划分为若干部分并删除文本长度和文本密度均小于各自阈值的源码块。针对汉维网页做了实验,实验结果表明,算法在设置合适的阈值的情况下良好率达到90%以上。 展开更多
关键词 有主题网页 主题信息 噪音信息
下载PDF
基于信息量衰减幅度的网页正文提取 被引量:1
12
作者 陈阳 陈兴蜀 吴麒 《计算机工程与设计》 CSCD 北大核心 2012年第7期2555-2560,共6页
网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法。该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅... 网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法。该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅度确定主题区域子树,对该子树进行裁剪之后提取出正文信息。在获取主题区域子树后,对整个网页范围内的正文提取将被限制在网页正文所在的区域,这样就大幅度降低了网页噪音的干扰,从而能更加精确地提取出网页正文信息。实验结果表明,该方法的抽取准确率可以达到95%以上,具有较好的应用价值。 展开更多
关键词 网页正文提取 标签树 主题区域子树 信息抽取 网页噪音
下载PDF
动态分块网页主题信息准确自动提取仿真 被引量:2
13
作者 崔彦青 《计算机仿真》 北大核心 2019年第10期349-352,377,共5页
针对当前方法在进行动态分块网页主题信息自动提取是存在提取准确率较低、错误率较高、耗时较长的缺点,采用混合加权方法对动态分块网页主题信息进行自动提取.在对动态分块网页主题信息进行预处理的基础上,构建预处理后动态分块网页主... 针对当前方法在进行动态分块网页主题信息自动提取是存在提取准确率较低、错误率较高、耗时较长的缺点,采用混合加权方法对动态分块网页主题信息进行自动提取.在对动态分块网页主题信息进行预处理的基础上,构建预处理后动态分块网页主题信息的分层树模型,确定网页主题信息的内在联系,采用二元集合序列描述目标提取的动态分块网页主题信息,计算不同的网页主题信息文本对全网页主题信息的贡献程度;采用空间向量模型描述动态分块网页主题信息特征,并利用混合加强的方法从空间向量模型中提取动态分块网页主题信息.仿真结果证明,采用的方法耗时可控制在0.1s内,对样本数据提取的准确率较高.说明采用的方法能够实现动态分块网页主题信息的准确、高效提取. 展开更多
关键词 动态分块网页 主题信息 自动提取
下载PDF
基于模式匹配的网页净化方法
14
作者 曾蒸 马燕 《重庆师范大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第6期103-108,共6页
新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,... 新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,实现网页净化。本方法可去除来自不同网站网页的噪音内容,无需事先训练数据集来生成模板,不需要生成网页DOM树。对同构、异构和不符合XML规范的网页净化,试验证明效果理想且性能稳定。 展开更多
关键词 网页噪音 网页净化 信息提取
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部