应用正则式抽取Google网页内容被引量：6

Extracting the Content of Google Web Page with Regular Expressions

下载PDF

导出

摘要正确、完整地抽取搜索网页的内容,是对检索到的信息进行处理的基本前提。本文分析了Google网页的结构特征,给出了一组匹配Google网页内容的正则式,并用V isual C#实现了一个内容抽取器。对多个Google网页的实际应用表明,本文提出的正则式匹配方法可以抽取Google网页的全部主要内容。 That properly and completely extracting the content of search Web pages is the basic precondition for handling the information retrieved. This paper analyses the structure characteristic of Google Web pages, presents a group of regular expressions for matching the content of these pages, and realizes a content extractor with Visual C#. The results from practical application to many Google Web pages shows that the matching method with regular expressions can extract the whole main content of Google Web pages.

作者张健欧红

机构地区长沙理工大学图书馆湖南图书馆

出处《现代图书情报技术》 CSSCI 北大核心 2005年第9期50-53,共4页 New Technology of Library and Information Service

关键词正则式抽取网页 GOOGLE Regular expressions Extraction Web page Google

分类号 G354 [文化科学—情报学]

引文网络
相关文献

参考文献8

1张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
2全立新.谈异构数据库之间的代码移植技术——SQLJ[J].计算机应用与软件,2004,21(9):41-43. 被引量：24
3黄红华,俞勇.CW IWSK——从半结构化中抽取信息的归纳规则方法[J].上海交通大学学报,2003,37(3):424-427. 被引量：3
4Theodore W. Hong, Keith L. Clark. Towards a Universal Web Wrapper.In :Proceddings of the 17th International Florida Intelligence Research Symposium Conference. Florida, USA : AAAI Press ,2004. Available at .
5吴伟,刘友华.基于DOM的Web信息自动抽取[J].现代图书情报技术,2004(2):68-71. 被引量：4
6Google Web APIs Reference. http://www.google.com/api/reference,( Accessed May. 8,2005 ).
7Linger F.McQueen C. Wilton P.著.刘乐亭译.C#字符串和正则表达式参考手册[M].北京:清华大学出版社,2003..
8Archer T. Whitechapel A.著.马朝晖等译.C#技术揭秘[M].北京:机械工业出版社,2003..

二级参考文献22

1Shian-Hua Lin, Jan-Ming Ho. Discovering informative content blocks from Web documents. In: SIGKDD, 2002
2Soumen Chakrabarti, Mukul M. Joshi and Vivek B. Tawde.Enhanced topic distillation using text, markup tags, and hyperlinks. In: SIGIR, 2001
3S. Chakrabarti, M. Joshi, and M. Subramanyam. Accelerated focused crawling through online relevance feedback. In :WWW, Hawaii. ACM, 2002
4Yiming Yang. Noise reduction in a statistical approach to text categorization. In: Proceedings of SIGIR-95, 18th ACM International Conference on Research and Development in Information Retrieval, 1995
5Li Xiaoli and Shi Zhongzhi. Innovating Web page classification through reducing noise. Journal of Computer Science & Technology, 2002 ,17(1): 9 ～ 17
6http://162. 105.80.84/cgi-bin/getdirectory? ccode = 0
7http://e. pku. edu. cn
8Yang Y. Expert network:effective and efficient learning from human decisions in text categorization and retrieval. In: Proceedings of the Seventeenth International ACM SIGIR Conference on Research and Development in Information Retrieval,1994. 13 ～ 22
9Lewis D. D., et al. Training algorithms for linear text classitiers. In: Proceedings of the Nineteenth International ACM SIGIR Conference on Research and Development in Information Retrieval, 1996. 298 ～ 306
10Michael W. Berry, Murray Browne. Understand Search Engines (Mathematical Modeling and Text Retrieval). SLAM,1999

共引文献84

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
3陈雪,徐慧,沈家峻.基于网页结构的网页去噪算法设计[J].软件,2013,34(8):95-97. 被引量：1
4胡冬梅.泰达图书馆个性化信息服务系统的探索与实践[J].现代图书情报技术,2004(10):92-95. 被引量：8
5余冬玲,潘玉安,吴南星.基于WEB的压砖机CAD/CAE信息集成系统设计与研究[J].陶瓷学报,2004,25(4):264-267. 被引量：1
6薛晓滨.基于数据集成的数据分析系统实现[J].铁道科学与工程学报,2005,2(2):93-96. 被引量：1
7孟涛,闫宏飞,王继民.Web网页信息变化的时间局部性规律及其验证[J].情报学报,2005,24(4):398-406. 被引量：8
8翟东升,余旸.国际贸易技术壁垒信息采集系统设计与实现[J].情报杂志,2005,24(8):33-35. 被引量：3
9翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1
10史军强,罗惠琼,闫晓茹.具有完善语义匹配的WEB信息集成[J].成都信息工程学院学报,2005,20(6):641-644. 被引量：3

同被引文献37

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2孟小峰,周龙骧,王珊.数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836. 被引量：176
3郑玉彤,孙小红.Google群集系统[J].微计算机应用,2005,26(3):264-264. 被引量：1
4胡立辉,张健,陈曦.基于正则式的CNKI网页全自动包装器[J].长沙理工大学学报（自然科学版）,2006,3(2):58-63. 被引量：3
5杨敬伟,杨文柱,高悦.基于DOM的Web信息抽取规则的构造与实现[J].河北大学学报（自然科学版）,2007,27(2):209-212. 被引量：5
6[4]Theodore W Hong,Keith L Clark.Towards a universal web wrapper[A].Proceddings of the 17th International Florida Intelligence Research Symposium Conference[C].Florida:AAAI Press,2004.
7[6]Linger F,Mc Queen C,Wilton P.C++字符串和正则表达式参考手册[M].北京:清华大学出版社,2003.
8[7]Archer T,Whitechapel A.C++技术揭秘[M].北京:机械工业出版社,2003.
9[8]Visual C + + 2005 Express Edition[EB/OL].http://msdn.microsoft.com/vstudio/express/visualcsharp,2005.11.
10comScore评出2007年美国20大高增长互联网公司[EB/OL].2008-02-09.http://www.iteye.com/news/1080.

引证文献6

1胡立辉,张健,陈曦.基于正则式的CNKI网页全自动包装器[J].长沙理工大学学报（自然科学版）,2006,3(2):58-63. 被引量：3
2胡立辉,周斌,黄园媛.基于正则式的维普网全自动包装器的实现[J].计算机工程与应用,2006,42(31):87-89. 被引量：1
3熊惠荟,欧阳君.基于模板法的网页英语试卷自动抽取技术的研究[J].计算机与数字工程,2009,37(4):50-52. 被引量：1
4曹俊,万晓云,廖顺宝.基于正则表达式批量提取CNKI文献元数据技术探究[J].图书情报工作,2010,54(19):111-114. 被引量：3
5沈振萍.Google公司的商务创新研究[J].安徽科技,2012(2):55-56.
6高庆宁,吴鹏,张晶晶.基于文档对象模型与行块分布算法的网页信息抽取[J].情报理论与实践,2016,39(4):133-137. 被引量：9

二级引证文献17

1邵增荣,李英,范体军.正则表达式在油价事件网页提取中的应用[J].现代图书情报技术,2009(2):83-88. 被引量：1
2曹俊,万晓云,廖顺宝.基于正则表达式批量提取CNKI文献元数据技术探究[J].图书情报工作,2010,54(19):111-114. 被引量：3
3刘淳安,赵天绪,黄梅娟.基于差分进化算法的智能组卷方法[J].计算机与数字工程,2011,39(1):1-3. 被引量：6
4杨波,张立娜.基于C#正则表达式的农业文献管理系统的研究与应用[J].安徽农业科学,2012,40(5):2988-2990. 被引量：1
5张金松,陈燕,刘晓钟.基于主题模型的文献引用贡献分析[J].图书情报工作,2013,57(4):120-124. 被引量：5
6郭东峰.基于SVM的Web信息抽取研究[J].黑龙江科技信息,2013(18):153-153.
7袁志.在线题库的一种便捷录入方法及其实现[J].软件工程师,2014(9):29-31. 被引量：2
8陈淑平.基于特征及规则模式的学位论文元数据信息自动抽取研究[J].农业图书情报学刊,2015,27(2):57-59. 被引量：1
9孟川,武小年.基于文本特征值的正文抽取方法[J].桂林电子科技大学学报,2017,37(2):106-110. 被引量：2
10王健,张金.基于节点权重的网页去噪方法的研究[J].计算机技术与发展,2017,27(10):83-86. 被引量：2

1何三畏.“冒充记者”不是长久之计[J].南方人物周刊,2012(12):33-33.
2王渝生.科学的昨天、今天和明天[J].科技潮,2008(12):52-55.
3郭颖.“家风正”则“作风优”[J].支部生活（山东）,2014(4):23-24.
4卢镇平.电视纪录片能定义吗？[J].岭南新闻探索,2009(1):55-57.
5胡立辉,周斌,黄园媛.基于正则式的维普网全自动包装器的实现[J].计算机工程与应用,2006,42(31):87-89. 被引量：1
6王伟.期刊刊名英译探讨[J].科技与出版,2003(2):45-47.
7胡立辉,张健,陈曦.基于正则式的CNKI网页全自动包装器[J].长沙理工大学学报（自然科学版）,2006,3(2):58-63. 被引量：3
8宁远.数字时代你需要昵称的N个理由[J].数字商业时代,2006(5):102-103.
9龚龙,胡振刚.群众的事——无小事 ——全省机关转变作风、为民办实事纪实[J].党员生活（湖北）,2008(11):30-31.
10乌亚尊.成功来自全方位的策划[J].出版广角,1999(6):53-53.

现代图书情报技术

2005年第9期

浏览历史

内容加载中请稍等...

应用正则式抽取Google网页内容被引量：6

参考文献8

二级参考文献22

共引文献84

同被引文献37

引证文献6

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

应用正则式抽取Google网页内容 被引量：6

参考文献8

二级参考文献22

共引文献84

同被引文献37

引证文献6

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

应用正则式抽取Google网页内容被引量：6