期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
网页清洗系统基于静态正则表达式的实现 被引量:5
1
作者 赵仁杰 李众立 《微计算机信息》 北大核心 2007年第36期226-227,共2页
本文介绍了一种新的基于c++模板技术实现的正则表达式引擎:Xpressive.并通过应用Xpressive技术中的静态正则表达式来实现网页清洗。该实现有效的避免了传统方法分析网页DOM树算法复杂不易实现的缺点,在保证算法简单和结果正确的同时,还... 本文介绍了一种新的基于c++模板技术实现的正则表达式引擎:Xpressive.并通过应用Xpressive技术中的静态正则表达式来实现网页清洗。该实现有效的避免了传统方法分析网页DOM树算法复杂不易实现的缺点,在保证算法简单和结果正确的同时,还以测试数据证明应用静态正则表达式运行速度上的优势。 展开更多
关键词 网页清洗 静态正则表达式 xpressive
下载PDF
基于内容相似度的网页正文提取 被引量:20
2
作者 王利 刘宗田 +1 位作者 王燕华 廖涛 《计算机工程》 CAS CSCD 北大核心 2010年第6期102-104,共3页
提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此... 提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。 展开更多
关键词 网页正文抽取 网页映射 网页清洗 文本相似度
下载PDF
正则表达式在批量新闻网页处理中的应用 被引量:1
3
作者 唐壹勋 《福建电脑》 2008年第3期117-118,共2页
本文首先简要介绍了网页清洗技术,然后指出了新闻网页的特征并做了结构分析,在此基础上使用了正则表达式来解析批量新闻网页中的HTML代码,并最终获得新闻文本内容。本文研究所获取的实验数据可以为WEB中新闻的信息检索和挖掘工作服务。
关键词 网页清洗 正则表达式 批量网页文本
下载PDF
WEB文献资料采集系统 被引量:2
4
作者 马创新 《计算机系统应用》 2012年第7期9-12,37,共5页
为了能够充分利用WEB上丰富的文献资源,设计了一个专业的WEB文献资料采集系统WLES。该系统集成了网页抓取和网页清洗两方面技术,并且引入机器学习方法到网页清洗中,通过机器对训练语料的学习得到一个清洗模型,然后用该模型来实施网页清... 为了能够充分利用WEB上丰富的文献资源,设计了一个专业的WEB文献资料采集系统WLES。该系统集成了网页抓取和网页清洗两方面技术,并且引入机器学习方法到网页清洗中,通过机器对训练语料的学习得到一个清洗模型,然后用该模型来实施网页清洗。实验证明该系统在网页抓取和网页清洗方面都具有优良的性能,能够满足使用者的文献采集需求。 展开更多
关键词 文献资料采集 机器学习 网页清洗 清洗模型
下载PDF
基于正则表达式的信息滤除算法 被引量:6
5
作者 高丙坤 成战刚 李倩 《现代计算机》 2008年第2期54-55,64,共3页
摈弃了传统网页清洗算法实现繁琐、效率低下、准确率差等种种弊端,分析了当前网页的代码结构,提出了基于正则表达式的信息筛选、滤除算法,并在Visual Studio.NET2003环境下结合Regex类、MatchCollection类、Match类,用C#语言实现了该算法。
关键词 网页清洗 信息滤除 正则表达式
下载PDF
基于标签的信息抽取预处理算法
6
作者 范春晓 和晓军 李淑云 《数字技术与应用》 2009年第11期107-108,共2页
针对现有现有HTML网页的特点,提出了一种基于标签的Web网页的清洗技术,该方法基于HTML各种标签的特点,对修饰性等与内容无关的标签进行清洗,首先界定清洗的规则,对呵清洗的标签进行定义;然后根据清洗规则对HTML网页进行处理。本... 针对现有现有HTML网页的特点,提出了一种基于标签的Web网页的清洗技术,该方法基于HTML各种标签的特点,对修饰性等与内容无关的标签进行清洗,首先界定清洗的规则,对呵清洗的标签进行定义;然后根据清洗规则对HTML网页进行处理。本论文所提方法没有改变文档的半结构特点,使后续信息的抽取较之未改进有明显的优势。 展开更多
关键词 标签 规则 网页清洗
下载PDF
行业动态信息采集系统关键问题解决方案 被引量:2
7
作者 黎柯 蔡永香 +3 位作者 干佳林 王居远 杨鼎 胡森勇 《测绘科学》 CSCD 北大核心 2016年第3期161-166,共6页
为了解决行业动态信息采集系统中网页定向爬取、网页清洗、信息检索等关键问题,文章提出一套基于Heritrix、Jsoup和Lucene的解决方案,并以测绘地理动态信息系统为例进行验证,结果证明该方法能够较好完成测绘地理信息的定向爬取,实现对... 为了解决行业动态信息采集系统中网页定向爬取、网页清洗、信息检索等关键问题,文章提出一套基于Heritrix、Jsoup和Lucene的解决方案,并以测绘地理动态信息系统为例进行验证,结果证明该方法能够较好完成测绘地理信息的定向爬取,实现对不同风格网站网页的清洗,并建立索引提供信息检索机制,给测绘行业人士提供准确可靠的信息服务,为相关研究提供参考。 展开更多
关键词 Heritrix和Lucene 信息爬取 网页清洗 全文检索
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部