检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到7篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

网页清洗系统基于静态正则表达式的实现被引量：5: 1; 作者赵仁杰李众立《微计算机信息》北大核心 2007年第36期226-227,共2页; 本文介绍了一种新的基于c++模板技术实现的正则表达式引擎:Xpressive.并通过应用Xpressive技术中的静态正则表达式来实现网页清洗。该实现有效的避免了传统方法分析网页DOM树算法复杂不易实现的缺点,在保证算法简单和结果正确的同时,还... 展开更多; 关键词网页清洗静态正则表达式 xpressive; 下载PDF 职称材料

基于内容相似度的网页正文提取被引量：20: 2; 作者王利刘宗田 +1 位作者王燕华廖涛《计算机工程》 CAS CSCD 北大核心 2010年第6期102-104,共3页; 提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此... 展开更多; 关键词网页正文抽取网页映射网页清洗文本相似度; 下载PDF 职称材料

正则表达式在批量新闻网页处理中的应用被引量：1: 3; 作者唐壹勋《福建电脑》 2008年第3期117-118,共2页; 本文首先简要介绍了网页清洗技术,然后指出了新闻网页的特征并做了结构分析,在此基础上使用了正则表达式来解析批量新闻网页中的HTML代码,并最终获得新闻文本内容。本文研究所获取的实验数据可以为WEB中新闻的信息检索和挖掘工作服务。; 关键词网页清洗正则表达式批量网页文本; 下载PDF 职称材料

WEB文献资料采集系统被引量：2: 4; 作者马创新《计算机系统应用》 2012年第7期9-12,37,共5页; 为了能够充分利用WEB上丰富的文献资源,设计了一个专业的WEB文献资料采集系统WLES。该系统集成了网页抓取和网页清洗两方面技术,并且引入机器学习方法到网页清洗中,通过机器对训练语料的学习得到一个清洗模型,然后用该模型来实施网页清... 展开更多; 关键词文献资料采集机器学习网页清洗清洗模型; 下载PDF 职称材料

基于正则表达式的信息滤除算法被引量：6: 5; 作者高丙坤成战刚李倩《现代计算机》 2008年第2期54-55,64,共3页; 摈弃了传统网页清洗算法实现繁琐、效率低下、准确率差等种种弊端,分析了当前网页的代码结构,提出了基于正则表达式的信息筛选、滤除算法,并在Visual Studio.NET2003环境下结合Regex类、MatchCollection类、Match类,用C#语言实现了该算法。; 关键词网页清洗信息滤除正则表达式; 下载PDF 职称材料

基于标签的信息抽取预处理算法: 6; 作者范春晓和晓军李淑云《数字技术与应用》 2009年第11期107-108,共2页; 针对现有现有HTML网页的特点，提出了一种基于标签的Web网页的清洗技术，该方法基于HTML各种标签的特点，对修饰性等与内容无关的标签进行清洗，首先界定清洗的规则，对呵清洗的标签进行定义；然后根据清洗规则对HTML网页进行处理。本... 展开更多; 关键词标签规则网页清洗; 下载PDF 职称材料

行业动态信息采集系统关键问题解决方案被引量：2: 7; 作者黎柯蔡永香 +3 位作者干佳林王居远杨鼎胡森勇《测绘科学》 CSCD 北大核心 2016年第3期161-166,共6页; 为了解决行业动态信息采集系统中网页定向爬取、网页清洗、信息检索等关键问题,文章提出一套基于Heritrix、Jsoup和Lucene的解决方案,并以测绘地理动态信息系统为例进行验证,结果证明该方法能够较好完成测绘地理信息的定向爬取,实现对... 展开更多; 关键词 Heritrix和Lucene 信息爬取网页清洗全文检索; 原文传递

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部