-
题名网页清洗系统基于静态正则表达式的实现
被引量:5
- 1
-
-
作者
赵仁杰
李众立
-
机构
西南科技大学计算机应用与科学学院
-
出处
《微计算机信息》
北大核心
2007年第36期226-227,共2页
-
基金
863计划(2003AA116060)基于国产软硬件的多通道网络教育关键技术与应用研究
-
文摘
本文介绍了一种新的基于c++模板技术实现的正则表达式引擎:Xpressive.并通过应用Xpressive技术中的静态正则表达式来实现网页清洗。该实现有效的避免了传统方法分析网页DOM树算法复杂不易实现的缺点,在保证算法简单和结果正确的同时,还以测试数据证明应用静态正则表达式运行速度上的优势。
-
关键词
网页清洗
静态正则表达式
xpressive
-
Keywords
wcbpagc cleaning, static regular expression, Xpressivc
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名基于内容相似度的网页正文提取
被引量:20
- 2
-
-
作者
王利
刘宗田
王燕华
廖涛
-
机构
上海大学计算机科学与工程学院
上海海洋大学信息学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第6期102-104,共3页
-
基金
国家自然科学基金资助项目(60575035
60975033)
+1 种基金
上海市重点学科建设基金资助项目(J50103)
上海大学研究生创新基金资助项目(SHUCX092162)
-
文摘
提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。
-
关键词
网页正文抽取
网页映射
网页清洗
文本相似度
-
Keywords
Web page main text extraction
Web page mapping
Web page cleaning
text similarity
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名正则表达式在批量新闻网页处理中的应用
被引量:1
- 3
-
-
作者
唐壹勋
-
机构
浙江省宁波银行
-
出处
《福建电脑》
2008年第3期117-118,共2页
-
文摘
本文首先简要介绍了网页清洗技术,然后指出了新闻网页的特征并做了结构分析,在此基础上使用了正则表达式来解析批量新闻网页中的HTML代码,并最终获得新闻文本内容。本文研究所获取的实验数据可以为WEB中新闻的信息检索和挖掘工作服务。
-
关键词
网页清洗
正则表达式
批量网页文本
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
G210
[文化科学—新闻学]
-
-
题名WEB文献资料采集系统
被引量:2
- 4
-
-
作者
马创新
-
机构
南京师范大学文学院
-
出处
《计算机系统应用》
2012年第7期9-12,37,共5页
-
基金
国家社科基金重大项目(10&ZD117)
江苏高校重点研究基地重大项目(2010JDXM023)
+1 种基金
江苏省教育厅高校哲学社会科学基金(2011SJB740010)
江苏省高校自然科学研究项目(11KJD520009)
-
文摘
为了能够充分利用WEB上丰富的文献资源,设计了一个专业的WEB文献资料采集系统WLES。该系统集成了网页抓取和网页清洗两方面技术,并且引入机器学习方法到网页清洗中,通过机器对训练语料的学习得到一个清洗模型,然后用该模型来实施网页清洗。实验证明该系统在网页抓取和网页清洗方面都具有优良的性能,能够满足使用者的文献采集需求。
-
关键词
文献资料采集
机器学习
网页清洗
清洗模型
-
Keywords
literature collection
machine learning
pages clean
cleaning model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于正则表达式的信息滤除算法
被引量:6
- 5
-
-
作者
高丙坤
成战刚
李倩
-
机构
大庆石油学院电气信息工程学院
中国石油测井有限公司长庆事业部解释中心
-
出处
《现代计算机》
2008年第2期54-55,64,共3页
-
文摘
摈弃了传统网页清洗算法实现繁琐、效率低下、准确率差等种种弊端,分析了当前网页的代码结构,提出了基于正则表达式的信息筛选、滤除算法,并在Visual Studio.NET2003环境下结合Regex类、MatchCollection类、Match类,用C#语言实现了该算法。
-
关键词
网页清洗
信息滤除
正则表达式
-
Keywords
Web Cleanout
Information Filtration
Regular Expression
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于标签的信息抽取预处理算法
- 6
-
-
作者
范春晓
和晓军
李淑云
-
机构
沈阳理工大学信息科学与工程学院
沈阳理工大学信息科学与工程学院
烟台南山学院软件工程学院
-
出处
《数字技术与应用》
2009年第11期107-108,共2页
-
文摘
针对现有现有HTML网页的特点,提出了一种基于标签的Web网页的清洗技术,该方法基于HTML各种标签的特点,对修饰性等与内容无关的标签进行清洗,首先界定清洗的规则,对呵清洗的标签进行定义;然后根据清洗规则对HTML网页进行处理。本论文所提方法没有改变文档的半结构特点,使后续信息的抽取较之未改进有明显的优势。
-
关键词
标签
规则
网页清洗
-
分类号
S896.1
[农业科学—特种经济动物饲养]
-
-
题名行业动态信息采集系统关键问题解决方案
被引量:2
- 7
-
-
作者
黎柯
蔡永香
干佳林
王居远
杨鼎
胡森勇
-
机构
长江大学地球科学学院
-
出处
《测绘科学》
CSCD
北大核心
2016年第3期161-166,共6页
-
基金
国土资源部项目(2014Z1317)
-
文摘
为了解决行业动态信息采集系统中网页定向爬取、网页清洗、信息检索等关键问题,文章提出一套基于Heritrix、Jsoup和Lucene的解决方案,并以测绘地理动态信息系统为例进行验证,结果证明该方法能够较好完成测绘地理信息的定向爬取,实现对不同风格网站网页的清洗,并建立索引提供信息检索机制,给测绘行业人士提供准确可靠的信息服务,为相关研究提供参考。
-
关键词
Heritrix和Lucene
信息爬取
网页清洗
全文检索
-
Keywords
Heritrix and Lucene
information capturing
Web filtering
full-text retrieval
-
分类号
P208
[天文地球—地图制图学与地理信息工程]
-