期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
32
篇文章
<
1
2
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
结合网页结构与文本特征的正文提取方法
被引量:
15
1
作者
熊忠阳
蔺显强
+1 位作者
张玉芳
牙漫
《计算机工程》
CAS
CSCD
2013年第12期200-203,210,共5页
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去...
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。
展开更多
关键词
正文提取
网页去噪
网页分块
主题爬行
信息检索
WEB挖掘
下载PDF
职称材料
基于正文相关度的维吾尔网页正文提取
被引量:
2
2
作者
王瑞
周喜
李晓
《计算机工程》
CAS
CSCD
2012年第21期153-156,160,共5页
网页表达的主要信息通常隐藏在大量无关的结构与文字中,使正文信息不能被迅速获取,影响文本检测的效率。为此,根据维吾尔网页的非规范化编码、论坛型网页较多等特点,提出一种基于正文相关度的正文提取算法,并建立上下文正文密度和节点...
网页表达的主要信息通常隐藏在大量无关的结构与文字中,使正文信息不能被迅速获取,影响文本检测的效率。为此,根据维吾尔网页的非规范化编码、论坛型网页较多等特点,提出一种基于正文相关度的正文提取算法,并建立上下文正文密度和节点间正文比例等数学模型对算法进行改进。对大量维吾尔网页的实验结果表明,该算法具有较好的正文提取正确率和召回率,能够有效地从维吾尔网页中提取到所需的正文信息。
展开更多
关键词
正文提取
正文
相关度
信息安全
自然语言处理
正文
密度
下载PDF
职称材料
基于SVM与DOM重心半径模型的Web正文提取
被引量:
2
3
作者
易国洪
代瑜
+1 位作者
冯智莉
黎慧源
《计算机工程》
CAS
CSCD
北大核心
2019年第6期206-210,共5页
为了从网页中精确地提取正文内容,提出一种基于支持向量机(SVM)与DOM重心半径模型的算法。通过SVM对网页DOM节点集进行提取,得出文本块节点。根据网页链接信息和初次提取的文本块节点计算重心半径,利用重心半径模型进行二次精确提取,并...
为了从网页中精确地提取正文内容,提出一种基于支持向量机(SVM)与DOM重心半径模型的算法。通过SVM对网页DOM节点集进行提取,得出文本块节点。根据网页链接信息和初次提取的文本块节点计算重心半径,利用重心半径模型进行二次精确提取,并给出相应的公式推导和超参数选取过程。实验结果表明,与统计抽取、FFT抽取等算法相比,该算法的准确率和提取效率较高,泛化能力较好。
展开更多
关键词
支持向量机
特征向量
重心半径
网页
正文提取
下载PDF
职称材料
基于结构相似网页聚类的正文提取算法研究
被引量:
2
4
作者
王海涌
冯兆旭
+1 位作者
杨海波
张津栋
《计算机工程与应用》
CSCD
北大核心
2018年第11期122-127,139,共7页
针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各"块"对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘...
针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各"块"对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作为两个网页的相似度。该算法充分考虑结构差别较大的网页对网页正文提取的影响,通过计算网页间相似度将网页聚类,使得同一簇中的网页正文提取结果更加准确。实验结果表明,该方法具有更高的准确率,各项评价指标均有所提高。
展开更多
关键词
正文提取
相似性
文档对象模型(DOM)树
层次聚类
下载PDF
职称材料
基于文本及HTML标签密度的网页正文提取
5
作者
杨大为
王诗念
+2 位作者
包立岩
要虹吏
刘畅
《沈阳理工大学学报》
CAS
2022年第4期14-19,共6页
大多数资讯类网页都包含了与资讯正文无关的内容,如推荐、广告等,这些噪声对获取资讯正文具有较大干扰性。针对基于文本及符号密度的网页正文提取方法(TSD)没有考虑段落标签对提取效果的影响部分进行改进,提出基于文本及HTML标签密度的...
大多数资讯类网页都包含了与资讯正文无关的内容,如推荐、广告等,这些噪声对获取资讯正文具有较大干扰性。针对基于文本及符号密度的网页正文提取方法(TSD)没有考虑段落标签对提取效果的影响部分进行改进,提出基于文本及HTML标签密度的网页正文提取方法(TTD),通过对页面文本内容和标签的统计分析,可以快速提取正文内容,适用于常见的资讯网站,具有较强的通用性。实验表明,该方法的提取效果较当前常用的方法在准确度上有较大提升,具有较高的实用性。
展开更多
关键词
标签密度
HTML标签
网页
正文提取
下载PDF
职称材料
基于DBSCAN算法的网页正文提取
被引量:
6
6
作者
欧阳佳
林丕源
《计算机工程》
CAS
CSCD
北大核心
2011年第3期64-66,69,共4页
针对网页正文提取问题,提出一种基于分段因子的方法对网页源文件进行过滤得到纯文本段,将每段看作二维空间中的一个点,利用DBSCAN聚类算法对这些点进行聚类得到正文内容。该方法复杂度低,并且不依赖于网站布局风格,适应性强。对各大国...
针对网页正文提取问题,提出一种基于分段因子的方法对网页源文件进行过滤得到纯文本段,将每段看作二维空间中的一个点,利用DBSCAN聚类算法对这些点进行聚类得到正文内容。该方法复杂度低,并且不依赖于网站布局风格,适应性强。对各大国内外新闻类网站进行实验,结果表明,该方法对中英文新闻类网站的正文提取效果明显,具有较高的平均准确率。
展开更多
关键词
主题爬虫
正文提取
DBSCAN算法
密度
下载PDF
职称材料
基于信息量衰减幅度的网页正文提取
被引量:
1
7
作者
陈阳
陈兴蜀
吴麒
《计算机工程与设计》
CSCD
北大核心
2012年第7期2555-2560,共6页
网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法。该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅...
网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法。该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅度确定主题区域子树,对该子树进行裁剪之后提取出正文信息。在获取主题区域子树后,对整个网页范围内的正文提取将被限制在网页正文所在的区域,这样就大幅度降低了网页噪音的干扰,从而能更加精确地提取出网页正文信息。实验结果表明,该方法的抽取准确率可以达到95%以上,具有较好的应用价值。
展开更多
关键词
网页
正文提取
标签树
主题区域子树
信息抽取
网页噪音
下载PDF
职称材料
一种基于统计的复杂页面正文提取方法
被引量:
1
8
作者
秦成磊
魏晓
杨阳
《计算机应用与软件》
CSCD
2015年第7期90-92,147,共4页
随着信息技术的发展,web页面复杂多样的特点愈来愈明显,传统页面正文提取方法的效率和精确度较低。针对这种情况,提出一种基于统计的正文提取算法。该算法依据Html标签特征提取经过过滤的每对“〉”和“〈”之间的文本信息,对其长...
随着信息技术的发展,web页面复杂多样的特点愈来愈明显,传统页面正文提取方法的效率和精确度较低。针对这种情况,提出一种基于统计的正文提取算法。该算法依据Html标签特征提取经过过滤的每对“〉”和“〈”之间的文本信息,对其长度进行统计并按照匹配顺序进行排序。根据文本长度最优阈值,划定文本行号区间,最后利用公共子序列进行优化并完成正文提取。实验结果表明,该方法能够精确高效地提取复杂页面的正文信息且具有较好的通用性。
展开更多
关键词
复杂页面
正文提取
统计
公共子序列
文本长度最优阈值
文本行号区间
下载PDF
职称材料
基于改进内容分析算法的网页正文提取
被引量:
3
9
作者
陈婷婷
严华
臧军
《计算机工程与设计》
北大核心
2018年第4期1017-1021,共5页
针对内容分析算法,即Readability算法,在正文抽取中易丢失部分正文字段、锚文本、结构数据(表格、列表)的缺点,提出一种改进的网页正文提取算法。基于网页正文的结构特征,在原算法基础上评估非p标签节点的文本特性;引入节点相对距离过...
针对内容分析算法,即Readability算法,在正文抽取中易丢失部分正文字段、锚文本、结构数据(表格、列表)的缺点,提出一种改进的网页正文提取算法。基于网页正文的结构特征,在原算法基础上评估非p标签节点的文本特性;引入节点相对距离过滤文本特性较强的网页噪音;重新定义剪枝范围,避免剪枝过度,使Readability算法的正文内部信息丢失问题得到较好地的改善。对国内各大博客、新闻、科普、专业类网站进行正文提取实验,实验结果表明,该算法结果优于Readability算法,正文提取准确率达到95%以上。
展开更多
关键词
内容分析算法
Readability算法
数据丢失
节点相对距离
正文提取
下载PDF
职称材料
一种基于标点密度的网页正文提取方法
被引量:
2
10
作者
杨钦
杨沐昀
《智能计算机与应用》
2015年第4期42-44,47,共4页
本文提出了一种基于DOM树的正文提取方法。该方法是在基于DOM树的文本密度的正文提取算法的框架上改进而来的。基于对文言文翻译网站的观察,本方法使用标点符号密度取代原方法的文本密度。通过随机选取50篇文言文翻译网页作为测试集,本...
本文提出了一种基于DOM树的正文提取方法。该方法是在基于DOM树的文本密度的正文提取算法的框架上改进而来的。基于对文言文翻译网站的观察,本方法使用标点符号密度取代原方法的文本密度。通过随机选取50篇文言文翻译网页作为测试集,本文提出的方法获得了更好的准确率、召回率和F值。
展开更多
关键词
DOM
标点密度
文本密度
正文提取
下载PDF
职称材料
基于文本密度的藏文网页正文提取方法
被引量:
3
11
作者
洛松求培
安见才让
《计算机时代》
2017年第8期46-47,51,共3页
互联网的发展带动了另一种形式的信息传播,人们越来越多地依赖于电子产品,Web网页也随之变为了最大的信息源,利用好这些资源便涉及信息提取。为了从Web网页中获取关键藏文信息,文章提出了基于文本密度的藏文网页正文提取方法,利用半结...
互联网的发展带动了另一种形式的信息传播,人们越来越多地依赖于电子产品,Web网页也随之变为了最大的信息源,利用好这些资源便涉及信息提取。为了从Web网页中获取关键藏文信息,文章提出了基于文本密度的藏文网页正文提取方法,利用半结构化的HTML网页中正文内容的连续性特点,结合正则表达式过滤HTML标签。此方法针对主题型网页,类似新闻类网页中的正文提取具有较高的准确率。
展开更多
关键词
藏文信息
藏文网页
正文提取
HTML
WEB网页
下载PDF
职称材料
采用长短期记忆网络的深度学习方法进行网页正文提取
被引量:
3
12
作者
陈前华
胡嘉杰
+1 位作者
江吉
吴豪
《计算机应用》
CSCD
北大核心
2021年第S01期20-24,共5页
针对复杂网页上主题信息被过多地与主题无关的广告、导航、版权等噪声信息隐藏的问题,提出一种基于长短期记忆的深度学习正文提取方法(LTE)。首先,设计一种根据超文本标记语言(HTML)中标签信息的数据划分策略:通过遍历HTML代码的文档对...
针对复杂网页上主题信息被过多地与主题无关的广告、导航、版权等噪声信息隐藏的问题,提出一种基于长短期记忆的深度学习正文提取方法(LTE)。首先,设计一种根据超文本标记语言(HTML)中标签信息的数据划分策略:通过遍历HTML代码的文档对象模型(DOM)树来根据DOM树结构划分每一个具有文本信息的文本块;然后,通过预训练模型对每一个内容块的从属关系进行表征;最后,这些标签会被输入到用这种格式的数据预先训练好的长短期记忆(LSTM)网络模型进行主要内容正文判别。实验结果证明,模型能够有效拟合已标记的数据集,在训练集中的F1分数能稳定在0.96以上;对于不存在于训练集中的网页格式,对其正文的预测准确度也比两个传统正文抽取工具Readability和Newspaper3k的分别高47.54、19.02个百分点。由实验结果可知,LTE能够有效提取出网页中的正文内容。
展开更多
关键词
文档对象模型
长短期记忆网络
预训练
深度学习
正文提取
下载PDF
职称材料
网页正文提取技术的分析与研究
被引量:
1
13
作者
杨丽萍
《计算机光盘软件与应用》
2012年第22期115-116,共2页
随着互联网应用的不断开发,基于网页正文提取的技术层出不穷。几种比较经典的提取模型包括:基于DOM树网页提取模型、基于统计的网页提取模型、基于分块的网页提取模型。本文对网页正文提取技术的综合分析与研究,各种网页提取算法的优劣。
关键词
网页
正文提取
技术
经典
提取
模型的分析与研究
下载PDF
职称材料
基于文本及符号密度的网页正文提取方法
被引量:
1
14
作者
洪鸿辉
丁世涛
+1 位作者
黄傲
郭致远
《电子设计工程》
2019年第8期133-137,共5页
大多数的网站的网页除了主要的内容,还包含导航栏,广告,版权等无关信息。这些额外的内容亦被称为噪声,通常与主题无关。由于这些噪声会妨碍搜索引擎对Web数据的挖掘性能,所以需要过滤噪声。在本文中,我们提出基于网页文本密度与符号密...
大多数的网站的网页除了主要的内容,还包含导航栏,广告,版权等无关信息。这些额外的内容亦被称为噪声,通常与主题无关。由于这些噪声会妨碍搜索引擎对Web数据的挖掘性能,所以需要过滤噪声。在本文中,我们提出基于网页文本密度与符号密度对网页进行正文内容提取,这是一种快速,准确通用的网页提取算法,而且还可以保留原始结构。通过与现有的一些算法对比,可以体现该算法的精确度,同时该算法可以较好的支持大数据量网页正文提取操作。
展开更多
关键词
文本密度
算法
噪音
正文提取
下载PDF
职称材料
基于分块的网页正文信息提取算法研究
被引量:
32
15
作者
黄文蓓
杨静
顾君忠
《计算机应用》
CSCD
北大核心
2007年第B06期24-26,30,共4页
提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度...
提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。
展开更多
关键词
Web网页
正文提取
内容块
标签树
噪音
下载PDF
职称材料
逆序解析DOM树及网页正文信息提取
被引量:
15
16
作者
张瑞雪
宋明秋
公衍磊
《计算机科学》
CSCD
北大核心
2011年第4期213-215,225,共4页
一般地,从HTML网页中提取正文信息,应先将HTML网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,...
一般地,从HTML网页中提取正文信息,应先将HTML网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,在准确提取目标信息的过程中,独立解析整个DOM树是没有必要的。在此,提出了逆序解析DOM树算法,并结合DOM树相似理论和传统的顺序解析算法,从部分目标信息开始分别向后顺序和向前逆序解析DOM树,同时定位并获取其他目标信息。利用该方法提取网页正文信息,一方面只需解析部分DOM树,从而减少了解析树结构花费的时间,另一方面不需要遍历整个DOM树查找目标信息,从而节省了查找时间,大大提高了信息提取速度。最后,通过实验证实了该方法的优越性。
展开更多
关键词
DOM树
网页
正文提取
结构相似性
逆序解析
下载PDF
职称材料
绿色网络网页正文内容提取算法
被引量:
1
17
作者
龙珑
邓伟
《计算机工程》
CAS
CSCD
2013年第7期252-256,共5页
互联网中的网页有较多商业广告,绿色网络系统无法过滤其中具有不良内容的网站。为解决该问题,提出一种绿色网络网页正文内容提取算法。通过文件对象模型树识别与提取网页正文内容模块,使用基于粒子群的权值优化算法对网页正文各个板块...
互联网中的网页有较多商业广告,绿色网络系统无法过滤其中具有不良内容的网站。为解决该问题,提出一种绿色网络网页正文内容提取算法。通过文件对象模型树识别与提取网页正文内容模块,使用基于粒子群的权值优化算法对网页正文各个板块特征权值进行评分,利用与不良关键字的比较,确定并过滤不良网页。实验结果表明,经粒子群权值算法优化提取后,绿色网络系统对不良网页的识别准确率为86.9%,召回率为95.6%,F值为91.02%,比优化前有较大提高。
展开更多
关键词
绿色网络
网瘾
不良内容
粒子群优化
正文提取
下载PDF
职称材料
基于布局相似性的网页正文内容提取研究
被引量:
10
18
作者
杨柳青
李晓东
耿光刚
《计算机应用研究》
CSCD
北大核心
2015年第9期2581-2586,共6页
合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性...
合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性的网页正文提取方法,即通过比对来自同一网站同一专题的网页DOM树中节点数据信息的相似性来实现正文提取,并对相关问题进行了尝试性的研究和实现。实验证明该方法思路简单、实用性强、普适性好,在满足较高准确率的同时,能为众多互联网内容分析应用提供支撑。
展开更多
关键词
布局相似性
网页
正文提取
信息检索
下载PDF
职称材料
基于权值优化的网页正文内容提取算法
被引量:
8
19
作者
吴麒
陈兴蜀
谭骏
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011年第4期32-37,共6页
目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后...
目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后,利用各个特征属性具有不同重要性的特点,使用粒子群优化算法对特征权值及阈值进行了优化和确定,使其性能得到进一步的提升;最后通过实验对该方法进行验证.结果表明,与未经权值优化的提取算法相比,在基本维持相同精确率的基础上,该方法可使网页正文内容提取的召回率提升至95.8%.
展开更多
关键词
权值优化
正文
内容
提取
特征属性
统计特征
准确率
召回率
下载PDF
职称材料
基于CURE算法的网页分块及正文块提取研究
被引量:
1
20
作者
王超
徐杰锋
《微型机与应用》
2012年第12期11-14,共4页
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信...
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。
展开更多
关键词
WEB信息抽取
聚类算法
页面分块
正文
块
提取
下载PDF
职称材料
题名
结合网页结构与文本特征的正文提取方法
被引量:
15
1
作者
熊忠阳
蔺显强
张玉芳
牙漫
机构
重庆大学计算机学院
出处
《计算机工程》
CAS
CSCD
2013年第12期200-203,210,共5页
基金
国家自然科学基金资助项目(71102065)
文摘
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。
关键词
正文提取
网页去噪
网页分块
主题爬行
信息检索
WEB挖掘
Keywords
content extraction
Web page denoising
Web page segmentation
subject crawling
information retrieve
Web mining
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于正文相关度的维吾尔网页正文提取
被引量:
2
2
作者
王瑞
周喜
李晓
机构
中国科学院新疆理化技术研究所
中国科学院研究生院
出处
《计算机工程》
CAS
CSCD
2012年第21期153-156,160,共5页
基金
新疆维吾尔自治区高技术研究发展基金资助项目(201012112)
新疆维吾尔自治区电子发展专项基金资助项目(XJDZZXZJ20109)
文摘
网页表达的主要信息通常隐藏在大量无关的结构与文字中,使正文信息不能被迅速获取,影响文本检测的效率。为此,根据维吾尔网页的非规范化编码、论坛型网页较多等特点,提出一种基于正文相关度的正文提取算法,并建立上下文正文密度和节点间正文比例等数学模型对算法进行改进。对大量维吾尔网页的实验结果表明,该算法具有较好的正文提取正确率和召回率,能够有效地从维吾尔网页中提取到所需的正文信息。
关键词
正文提取
正文
相关度
信息安全
自然语言处理
正文
密度
Keywords
content extraction
content correlativity
information security
natural language processing
content density
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于SVM与DOM重心半径模型的Web正文提取
被引量:
2
3
作者
易国洪
代瑜
冯智莉
黎慧源
机构
武汉工程大学计算机科学与工程学院
武汉工程大学智能机器人湖北省重点实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2019年第6期206-210,共5页
基金
国家自然科学基金青年项目“基于能力集成动态规划的自适应软件需求的群体决策问题研究”(61502355)
文摘
为了从网页中精确地提取正文内容,提出一种基于支持向量机(SVM)与DOM重心半径模型的算法。通过SVM对网页DOM节点集进行提取,得出文本块节点。根据网页链接信息和初次提取的文本块节点计算重心半径,利用重心半径模型进行二次精确提取,并给出相应的公式推导和超参数选取过程。实验结果表明,与统计抽取、FFT抽取等算法相比,该算法的准确率和提取效率较高,泛化能力较好。
关键词
支持向量机
特征向量
重心半径
网页
正文提取
Keywords
Support Vector Machine(SVM)
feature vector
gravity radius
Web pages
content extraction
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于结构相似网页聚类的正文提取算法研究
被引量:
2
4
作者
王海涌
冯兆旭
杨海波
张津栋
机构
兰州交通大学电子与信息工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2018年第11期122-127,139,共7页
基金
甘肃省自然科学基金(No.145RJZA086)
兰州交通大学科技支撑基金(No.ZC2014003)
兰州市科技计划项目(No.2013-3-79)
文摘
针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各"块"对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作为两个网页的相似度。该算法充分考虑结构差别较大的网页对网页正文提取的影响,通过计算网页间相似度将网页聚类,使得同一簇中的网页正文提取结果更加准确。实验结果表明,该方法具有更高的准确率,各项评价指标均有所提高。
关键词
正文提取
相似性
文档对象模型(DOM)树
层次聚类
Keywords
information extraction
similarity
Document Object Model(DOM) tree
hierarchical clustering
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于文本及HTML标签密度的网页正文提取
5
作者
杨大为
王诗念
包立岩
要虹吏
刘畅
机构
沈阳理工大学信息科学与工程学院
出处
《沈阳理工大学学报》
CAS
2022年第4期14-19,共6页
基金
辽宁省教育厅科学研究经费项目(LG201915)
沈阳理工大学科研创新团队建设计划资助项目(SYLUTD202105)。
文摘
大多数资讯类网页都包含了与资讯正文无关的内容,如推荐、广告等,这些噪声对获取资讯正文具有较大干扰性。针对基于文本及符号密度的网页正文提取方法(TSD)没有考虑段落标签对提取效果的影响部分进行改进,提出基于文本及HTML标签密度的网页正文提取方法(TTD),通过对页面文本内容和标签的统计分析,可以快速提取正文内容,适用于常见的资讯网站,具有较强的通用性。实验表明,该方法的提取效果较当前常用的方法在准确度上有较大提升,具有较高的实用性。
关键词
标签密度
HTML标签
网页
正文提取
Keywords
tag density
HTML tag
web page
text extract
分类号
TU528 [建筑科学—建筑技术科学]
下载PDF
职称材料
题名
基于DBSCAN算法的网页正文提取
被引量:
6
6
作者
欧阳佳
林丕源
机构
华南农业大学信息学院
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第3期64-66,69,共4页
基金
国家自然科学基金资助项目(60573043)
文摘
针对网页正文提取问题,提出一种基于分段因子的方法对网页源文件进行过滤得到纯文本段,将每段看作二维空间中的一个点,利用DBSCAN聚类算法对这些点进行聚类得到正文内容。该方法复杂度低,并且不依赖于网站布局风格,适应性强。对各大国内外新闻类网站进行实验,结果表明,该方法对中英文新闻类网站的正文提取效果明显,具有较高的平均准确率。
关键词
主题爬虫
正文提取
DBSCAN算法
密度
Keywords
topic-focused crawler
content extraction
DBSCAN
density
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于信息量衰减幅度的网页正文提取
被引量:
1
7
作者
陈阳
陈兴蜀
吴麒
机构
四川大学计算机学院网络与可信计算研究所
中国电子科技集团公司第二十九研究所信息综合控制国家重点实验室
出处
《计算机工程与设计》
CSCD
北大核心
2012年第7期2555-2560,共6页
基金
国家973重点基础研究发展计划基金项目(2007CB311106)
国家信息安全专项(242项目)基金项目((242)2009A82)
文摘
网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法。该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅度确定主题区域子树,对该子树进行裁剪之后提取出正文信息。在获取主题区域子树后,对整个网页范围内的正文提取将被限制在网页正文所在的区域,这样就大幅度降低了网页噪音的干扰,从而能更加精确地提取出网页正文信息。实验结果表明,该方法的抽取准确率可以达到95%以上,具有较好的应用价值。
关键词
网页
正文提取
标签树
主题区域子树
信息抽取
网页噪音
Keywords
content information extraction
tag tree
primary area subtree information extraction
noise of web page
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于统计的复杂页面正文提取方法
被引量:
1
8
作者
秦成磊
魏晓
杨阳
机构
上海应用技术学院计算机科学与信息工程学院
出处
《计算机应用与软件》
CSCD
2015年第7期90-92,147,共4页
文摘
随着信息技术的发展,web页面复杂多样的特点愈来愈明显,传统页面正文提取方法的效率和精确度较低。针对这种情况,提出一种基于统计的正文提取算法。该算法依据Html标签特征提取经过过滤的每对“〉”和“〈”之间的文本信息,对其长度进行统计并按照匹配顺序进行排序。根据文本长度最优阈值,划定文本行号区间,最后利用公共子序列进行优化并完成正文提取。实验结果表明,该方法能够精确高效地提取复杂页面的正文信息且具有较好的通用性。
关键词
复杂页面
正文提取
统计
公共子序列
文本长度最优阈值
文本行号区间
Keywords
Complex web pages Text extraction Statistics Public sub-sequence Text length optimal threshold Text line number range
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于改进内容分析算法的网页正文提取
被引量:
3
9
作者
陈婷婷
严华
臧军
机构
四川大学电子信息学院
电子信息控制重点实验室
中石化管道储运有限公司荆门输油处
出处
《计算机工程与设计》
北大核心
2018年第4期1017-1021,共5页
基金
国家973重点基础研究发展计划基金项目(2013CB328903-2)
文摘
针对内容分析算法,即Readability算法,在正文抽取中易丢失部分正文字段、锚文本、结构数据(表格、列表)的缺点,提出一种改进的网页正文提取算法。基于网页正文的结构特征,在原算法基础上评估非p标签节点的文本特性;引入节点相对距离过滤文本特性较强的网页噪音;重新定义剪枝范围,避免剪枝过度,使Readability算法的正文内部信息丢失问题得到较好地的改善。对国内各大博客、新闻、科普、专业类网站进行正文提取实验,实验结果表明,该算法结果优于Readability算法,正文提取准确率达到95%以上。
关键词
内容分析算法
Readability算法
数据丢失
节点相对距离
正文提取
Keywords
content analysis algorithm
Readability algorithm
data loss
relative distance of nodes
web content extraction
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于标点密度的网页正文提取方法
被引量:
2
10
作者
杨钦
杨沐昀
机构
哈尔滨工业大学计算机科学与技术学院
出处
《智能计算机与应用》
2015年第4期42-44,47,共4页
文摘
本文提出了一种基于DOM树的正文提取方法。该方法是在基于DOM树的文本密度的正文提取算法的框架上改进而来的。基于对文言文翻译网站的观察,本方法使用标点符号密度取代原方法的文本密度。通过随机选取50篇文言文翻译网页作为测试集,本文提出的方法获得了更好的准确率、召回率和F值。
关键词
DOM
标点密度
文本密度
正文提取
Keywords
DOM
Point Density
Text Density
Content Extraction
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于文本密度的藏文网页正文提取方法
被引量:
3
11
作者
洛松求培
安见才让
机构
青海民族大学计算机学院
出处
《计算机时代》
2017年第8期46-47,51,共3页
基金
青海省科技厅项目资助(2016-ZJ-Y04)
文摘
互联网的发展带动了另一种形式的信息传播,人们越来越多地依赖于电子产品,Web网页也随之变为了最大的信息源,利用好这些资源便涉及信息提取。为了从Web网页中获取关键藏文信息,文章提出了基于文本密度的藏文网页正文提取方法,利用半结构化的HTML网页中正文内容的连续性特点,结合正则表达式过滤HTML标签。此方法针对主题型网页,类似新闻类网页中的正文提取具有较高的准确率。
关键词
藏文信息
藏文网页
正文提取
HTML
WEB网页
Keywords
Tibetan information
Tibetan Web content extraction
HTML
Web
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
采用长短期记忆网络的深度学习方法进行网页正文提取
被引量:
3
12
作者
陈前华
胡嘉杰
江吉
吴豪
机构
东莞中国科学院云计算产业技术创新与育成中心
广东电子工业研究院人工智能实验室
出处
《计算机应用》
CSCD
北大核心
2021年第S01期20-24,共5页
基金
国家重点研发计划项目(2018YFB1004600)。
文摘
针对复杂网页上主题信息被过多地与主题无关的广告、导航、版权等噪声信息隐藏的问题,提出一种基于长短期记忆的深度学习正文提取方法(LTE)。首先,设计一种根据超文本标记语言(HTML)中标签信息的数据划分策略:通过遍历HTML代码的文档对象模型(DOM)树来根据DOM树结构划分每一个具有文本信息的文本块;然后,通过预训练模型对每一个内容块的从属关系进行表征;最后,这些标签会被输入到用这种格式的数据预先训练好的长短期记忆(LSTM)网络模型进行主要内容正文判别。实验结果证明,模型能够有效拟合已标记的数据集,在训练集中的F1分数能稳定在0.96以上;对于不存在于训练集中的网页格式,对其正文的预测准确度也比两个传统正文抽取工具Readability和Newspaper3k的分别高47.54、19.02个百分点。由实验结果可知,LTE能够有效提取出网页中的正文内容。
关键词
文档对象模型
长短期记忆网络
预训练
深度学习
正文提取
Keywords
Document Object Model(DOM)
Long Short-Term Memory(LSTM)network
pre-training
deep learning
text extraction
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网页正文提取技术的分析与研究
被引量:
1
13
作者
杨丽萍
机构
三江学院
出处
《计算机光盘软件与应用》
2012年第22期115-116,共2页
文摘
随着互联网应用的不断开发,基于网页正文提取的技术层出不穷。几种比较经典的提取模型包括:基于DOM树网页提取模型、基于统计的网页提取模型、基于分块的网页提取模型。本文对网页正文提取技术的综合分析与研究,各种网页提取算法的优劣。
关键词
网页
正文提取
技术
经典
提取
模型的分析与研究
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于文本及符号密度的网页正文提取方法
被引量:
1
14
作者
洪鸿辉
丁世涛
黄傲
郭致远
机构
武汉邮电科学研究院
出处
《电子设计工程》
2019年第8期133-137,共5页
文摘
大多数的网站的网页除了主要的内容,还包含导航栏,广告,版权等无关信息。这些额外的内容亦被称为噪声,通常与主题无关。由于这些噪声会妨碍搜索引擎对Web数据的挖掘性能,所以需要过滤噪声。在本文中,我们提出基于网页文本密度与符号密度对网页进行正文内容提取,这是一种快速,准确通用的网页提取算法,而且还可以保留原始结构。通过与现有的一些算法对比,可以体现该算法的精确度,同时该算法可以较好的支持大数据量网页正文提取操作。
关键词
文本密度
算法
噪音
正文提取
Keywords
text density
algorithm
noise
text extract
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于分块的网页正文信息提取算法研究
被引量:
32
15
作者
黄文蓓
杨静
顾君忠
机构
华东师范大学计算机科学技术系
出处
《计算机应用》
CSCD
北大核心
2007年第B06期24-26,30,共4页
基金
上海市科学技术委员会科技攻关项目(055115001)
文摘
提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。
关键词
Web网页
正文提取
内容块
标签树
噪音
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
逆序解析DOM树及网页正文信息提取
被引量:
15
16
作者
张瑞雪
宋明秋
公衍磊
机构
大连理工大学系统工程研究所
出处
《计算机科学》
CSCD
北大核心
2011年第4期213-215,225,共4页
基金
国家自然科学基金项目(70671016)资助
文摘
一般地,从HTML网页中提取正文信息,应先将HTML网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,在准确提取目标信息的过程中,独立解析整个DOM树是没有必要的。在此,提出了逆序解析DOM树算法,并结合DOM树相似理论和传统的顺序解析算法,从部分目标信息开始分别向后顺序和向前逆序解析DOM树,同时定位并获取其他目标信息。利用该方法提取网页正文信息,一方面只需解析部分DOM树,从而减少了解析树结构花费的时间,另一方面不需要遍历整个DOM树查找目标信息,从而节省了查找时间,大大提高了信息提取速度。最后,通过实验证实了该方法的优越性。
关键词
DOM树
网页
正文提取
结构相似性
逆序解析
Keywords
DOM tree
Web content extracting
Structural similarity
Parsing reversely
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
绿色网络网页正文内容提取算法
被引量:
1
17
作者
龙珑
邓伟
机构
广西师范学院计算机与信息工程学院
广西肿瘤防治研究所
出处
《计算机工程》
CAS
CSCD
2013年第7期252-256,共5页
基金
国家创新基金资助项目(10C26224504901)
广西自然科学基金资助项目(2011GXNSFB0180825)
文摘
互联网中的网页有较多商业广告,绿色网络系统无法过滤其中具有不良内容的网站。为解决该问题,提出一种绿色网络网页正文内容提取算法。通过文件对象模型树识别与提取网页正文内容模块,使用基于粒子群的权值优化算法对网页正文各个板块特征权值进行评分,利用与不良关键字的比较,确定并过滤不良网页。实验结果表明,经粒子群权值算法优化提取后,绿色网络系统对不良网页的识别准确率为86.9%,召回率为95.6%,F值为91.02%,比优化前有较大提高。
关键词
绿色网络
网瘾
不良内容
粒子群优化
正文提取
Keywords
green network
net addiction
undesired content
Particle Swarm Optimization(PSO)
text extraction
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于布局相似性的网页正文内容提取研究
被引量:
10
18
作者
杨柳青
李晓东
耿光刚
机构
中国科学院计算机网络信息中心
中国互联网络信息中心
出处
《计算机应用研究》
CSCD
北大核心
2015年第9期2581-2586,共6页
基金
国家自然科学基金面上项目(61375039)
国家自然科学基金青年资助项目(61005029)
中国科学院计算机网络信息中心"一三五"规划重点培育方向专项基金资助项目(CNIC_PY_1402)
文摘
合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性的网页正文提取方法,即通过比对来自同一网站同一专题的网页DOM树中节点数据信息的相似性来实现正文提取,并对相关问题进行了尝试性的研究和实现。实验证明该方法思路简单、实用性强、普适性好,在满足较高准确率的同时,能为众多互联网内容分析应用提供支撑。
关键词
布局相似性
网页
正文提取
信息检索
Keywords
layout similarity
Web page content extract
information retrieval
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于权值优化的网页正文内容提取算法
被引量:
8
19
作者
吴麒
陈兴蜀
谭骏
机构
四川大学计算机学院∥网络与可信计算研究所
中国电子科技集团公司第二十九研究所信息综合控制国家重点实验室
出处
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011年第4期32-37,共6页
基金
国家"973"计划项目(2007CB311106)
文摘
目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后,利用各个特征属性具有不同重要性的特点,使用粒子群优化算法对特征权值及阈值进行了优化和确定,使其性能得到进一步的提升;最后通过实验对该方法进行验证.结果表明,与未经权值优化的提取算法相比,在基本维持相同精确率的基础上,该方法可使网页正文内容提取的召回率提升至95.8%.
关键词
权值优化
正文
内容
提取
特征属性
统计特征
准确率
召回率
Keywords
weight optimization
content extraction
feature attribute
statistical feature
precision
recall rate
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于CURE算法的网页分块及正文块提取研究
被引量:
1
20
作者
王超
徐杰锋
机构
中国石油大学(华东)计算机与通信工程学院计算机科学与技术系
出处
《微型机与应用》
2012年第12期11-14,共4页
文摘
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。
关键词
WEB信息抽取
聚类算法
页面分块
正文
块
提取
Keywords
Web information extraction
clustering algorithm
page block
text block extraction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
结合网页结构与文本特征的正文提取方法
熊忠阳
蔺显强
张玉芳
牙漫
《计算机工程》
CAS
CSCD
2013
15
下载PDF
职称材料
2
基于正文相关度的维吾尔网页正文提取
王瑞
周喜
李晓
《计算机工程》
CAS
CSCD
2012
2
下载PDF
职称材料
3
基于SVM与DOM重心半径模型的Web正文提取
易国洪
代瑜
冯智莉
黎慧源
《计算机工程》
CAS
CSCD
北大核心
2019
2
下载PDF
职称材料
4
基于结构相似网页聚类的正文提取算法研究
王海涌
冯兆旭
杨海波
张津栋
《计算机工程与应用》
CSCD
北大核心
2018
2
下载PDF
职称材料
5
基于文本及HTML标签密度的网页正文提取
杨大为
王诗念
包立岩
要虹吏
刘畅
《沈阳理工大学学报》
CAS
2022
0
下载PDF
职称材料
6
基于DBSCAN算法的网页正文提取
欧阳佳
林丕源
《计算机工程》
CAS
CSCD
北大核心
2011
6
下载PDF
职称材料
7
基于信息量衰减幅度的网页正文提取
陈阳
陈兴蜀
吴麒
《计算机工程与设计》
CSCD
北大核心
2012
1
下载PDF
职称材料
8
一种基于统计的复杂页面正文提取方法
秦成磊
魏晓
杨阳
《计算机应用与软件》
CSCD
2015
1
下载PDF
职称材料
9
基于改进内容分析算法的网页正文提取
陈婷婷
严华
臧军
《计算机工程与设计》
北大核心
2018
3
下载PDF
职称材料
10
一种基于标点密度的网页正文提取方法
杨钦
杨沐昀
《智能计算机与应用》
2015
2
下载PDF
职称材料
11
基于文本密度的藏文网页正文提取方法
洛松求培
安见才让
《计算机时代》
2017
3
下载PDF
职称材料
12
采用长短期记忆网络的深度学习方法进行网页正文提取
陈前华
胡嘉杰
江吉
吴豪
《计算机应用》
CSCD
北大核心
2021
3
下载PDF
职称材料
13
网页正文提取技术的分析与研究
杨丽萍
《计算机光盘软件与应用》
2012
1
下载PDF
职称材料
14
基于文本及符号密度的网页正文提取方法
洪鸿辉
丁世涛
黄傲
郭致远
《电子设计工程》
2019
1
下载PDF
职称材料
15
基于分块的网页正文信息提取算法研究
黄文蓓
杨静
顾君忠
《计算机应用》
CSCD
北大核心
2007
32
下载PDF
职称材料
16
逆序解析DOM树及网页正文信息提取
张瑞雪
宋明秋
公衍磊
《计算机科学》
CSCD
北大核心
2011
15
下载PDF
职称材料
17
绿色网络网页正文内容提取算法
龙珑
邓伟
《计算机工程》
CAS
CSCD
2013
1
下载PDF
职称材料
18
基于布局相似性的网页正文内容提取研究
杨柳青
李晓东
耿光刚
《计算机应用研究》
CSCD
北大核心
2015
10
下载PDF
职称材料
19
基于权值优化的网页正文内容提取算法
吴麒
陈兴蜀
谭骏
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011
8
下载PDF
职称材料
20
基于CURE算法的网页分块及正文块提取研究
王超
徐杰锋
《微型机与应用》
2012
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部