网络数据资源自动获取技术研究与应用被引量：3

A new technology and application of Internet information automatic acquisition

下载PDF

导出

摘要人类社会现已进入了一个信息大爆发的新时代,如何利用计算机新技术从互联网上自动获取特定主题信息并实时提供服务,成为信息技术研究领域的热点之一。在网络爬虫、数据抽取、文本智能分类等关键技术研究及实现的基础上,研制集成了全球油气行业动态信息系统PetroDIS。该系统在信息获取、信息分类、网页构建等多方面做到了自动化,极大地提高了信息收集效率。 Human society has stepped into a new era of the proliferation of massive information. Automatic obtaining of information about particular subject and providing real-time services with new computer technologies have become a hot spot of information technology research. The development of PetroDIS is based on the research of key technologies including web crawler, data extraction, and intelligent text categorization. By enabling the automation in information acquisition, information classification, webpage construction and other aspects, the system greatly improves the efficiency of information collection.

作者牛敏米石云张倩

机构地区中国石油勘探开发研究院

出处《信息技术》 2013年第12期23-26,共4页 Information Technology

基金国家油气重大专项"全球剩余油气资源研究及油气资产快速评价技术(二期)"(2011ZX05028-004) 中国石油天然气股份有限公司重大专项"资源评价研究"(2012 E-050104)

关键词网络爬虫网页分析智能分类自适应神经网络油气行业动态信息系统 Web crawler webpage analysis intelligent classification adaptive neural network petroleum dynamic information system

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1敬晓芳.解析Eclipse和各插件的关系[J].电脑编程技巧与维护,2010(2):24-25. 被引量：4
2Swvd.,VS,石磊.EcliPSe：一个用于高性能并行模拟的系统[J].软件,1992,13(6):440-462. 被引量：1
3Yang Yiming. An evaluation of statistical approaches to text categorization[J].In Journal of Information Retrieval,1999,(1/2):67-88.
4刘晨曦,吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报（自然科学版）,2007,25(2):149-152. 被引量：8
5欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
6WANG JiyingLochovsky FH. Data-rich Section Extraction from HTML Pages[A].Singapore:IEEE Computer Society,2002.1-10.

二级参考文献12

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
3刘冲,张海玥,张卫东,周秀中,林少凡.配置Tomcat使Apache服务器支持Java动态网页编程[J].计算机应用,2001,21(z1):109-110. 被引量：9
4张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
5常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
6王晓军,等.JSP动态网站开发基础教程与实验指导[M].北京:清华大学出版社,2008.
7GUPTA S,KAISER G,NEISTADT D,et al.DOM-based content extraction of HTML documents[C]//Proceeding of the 12th International Conference on World Wide Web.New York:ACM Press,2003:207-214.
8LIN Shian-hua,HO Jan-ming.Discovering informative content blocks from Web documents[C]//Proceeding of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2002:588-593.
9CAI Deng,YU Shi-peng,WEN Ji-rong,et al.Extracting content structure for Web pages based on visual representation[C]//Proceeding of the 5th Asia Pacific Web Conference.Berlin:Springer-Verlag,2003:406-417.
10CHANG Chih-chung,LIN Chih-jen.LIBSVM:a library for support vector machines[EB/OL].[2006-11-17].http://www.csie.ntu.edu.tw/～cjlin/libsvm/.

共引文献77

1王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
2郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
3许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11
4刘晨曦,吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报（自然科学版）,2007,25(2):149-152. 被引量：8
5冯少卿,都云程.网页结构模板生成新方法研究[J].北京机械工业学院学报,2007,22(3):15-19. 被引量：2
6张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
7时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[J].计算机工程,2007,33(19):276-278. 被引量：17
8王建冬,王继民,田飞佳.一种基于内容规则的网页去噪算法[J].现代图书情报技术,2008(3):51-54. 被引量：4
9时达明,林鸿飞,赵晶.基于模板化的Blog信息抽取[J].计算机工程与应用,2008,44(9):156-158. 被引量：5
10万乐,左万利,高金.基于主题的网页噪音去除机制[J].计算机工程与设计,2008,29(8):2072-2074. 被引量：8

同被引文献21

1赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
2李时文,卢建朱.快速有效的XML访问控制新方案[J].计算机应用,2009,29(9):2336-2338. 被引量：3
3郎炯,刘宴兵,熊仕勇.基于SOA软件架构的数据集成方法[J].计算机应用,2010,30(9):2370-2373. 被引量：27
4崔建岷.铁路信息资源整合实践研究[J].铁路计算机应用,2011,20(6):19-21. 被引量：2
5张冠军.基于XML异构系统间的数据交换技术[J].现代电子技术,2013,36(2):45-47. 被引量：8
6韦乐.基于XML的异构数据交换引擎的设计[J].网络安全技术与应用,2013(2):42-44. 被引量：1
7李贵,陈成,李征宇,韩子扬,孙平,孙焕良.基于标签路径的Web结构化数据自动抽取[J].计算机科学,2013,40(06A):141-144. 被引量：3
8王琛.模板化的Web列表页面信息自动抽取方法的研究[J].现代计算机（中旬刊）,2013(8):77-80. 被引量：1
9徐建根,李辉康.安全生产指挥中心建设与铁路信息化建设五统一[J].中国铁路,2013(9):4-7. 被引量：3
10孙美,郭年根,沈鹍.铁路工务安全生产管理信息系统的设计与实现[J].铁路计算机应用,2013,22(8):23-27. 被引量：15

引证文献3

1吕永国,杨斌,彭之军.基于PHP的网页信息抽取研究[J].科技广场,2015(5):29-32. 被引量：1
2胥昊.基于地理信息系统的轨道交通数据集成方法研究[J].都市快轨交通,2016,29(2):44-47. 被引量：4
3金昌锦.多数据源招聘信息采集的爬虫系统实现[J].福建电脑,2019,35(11):13-16. 被引量：1

二级引证文献6

1吴水平,关桂霞,焦健楠,王雪琪,柯子博,褚金奎,晏磊.基于SAE云平台的仿生偏振导航测量误差分析[J].全球定位系统,2016,41(2):43-49. 被引量：3
2朱珺.城市轨道交通运营信息发布系统构建研究[J].铁道运输与经济,2017,39(8):98-102. 被引量：6
3王大坤,赵明,冯天录.信息系统集成与数据集成策略的分析[J].中国新通信,2017,19(15):104-104. 被引量：8
4李文,张林郁.智能型医疗器械产品并行开发数据集成仿真[J].计算机仿真,2018,35(8):357-360. 被引量：1
5山君亮,安红.基于道路拓扑的交通地理元数据检索模型仿真[J].计算机仿真,2020,37(8):376-379. 被引量：3
6金昌锦.大学生就业信息跟踪及管理系统设计与实现[J].电子技术与软件工程,2021(21):112-114. 被引量：2

1梁志恒.基于椭圆曲线密码体制的公安信息系统设计与实现[J].电脑知识与技术（技术论坛）,2005(6):61-63.
2俞培果.关于建立综合性大型动态信息系统的思考[J].中国信息导报,1994(7):10-11. 被引量：1
3王文琴,王文娟,郑成增.条码技术在企业生产过程中的应用[J].福建电脑,2003,19(8):25-26. 被引量：1
4秦永平,施涛,秦永克.基于ECDSA的信息系统安全研究[J].计算机工程与设计,2005,26(7):1859-1861.
5Benjamin Bohm WAGO.面向未来的灵活控制[J].现代制造,2015,0(30):66-67.
6吴多智,陈益全.响应式网页设计案例实现与分析[J].安徽电子信息职业技术学院学报,2016,15(2):14-17. 被引量：7
7罗克韦尔自动化与北京中加诚信管道技术有限公司合作打造更加安全的管线控制解决方案[J].自动化博览,2015,0(2):5-5.
8赵强.主题爬虫的关键技术[J].现代计算机,2014,20(2):19-22.
9周大通,林东龙,戴倚霞,侯新然,李哲.大数据技术将引领油气行业变革[J].石油科技论坛,2016,35(5):45-50. 被引量：6
10张春生,马楠,隋永刚.浅析软件定义存储在油气行业的应用[J].中国管理信息化,2016,19(11):172-174. 被引量：1

信息技术

2013年第12期

浏览历史

内容加载中请稍等...

网络数据资源自动获取技术研究与应用被引量：3

参考文献6

二级参考文献12

共引文献77

同被引文献21

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

网络数据资源自动获取技术研究与应用 被引量：3

参考文献6

二级参考文献12

共引文献77

同被引文献21

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

网络数据资源自动获取技术研究与应用被引量：3