基于XPath的新闻信息抽取系统设计与实现被引量：3

Design and Implementation of News and Information Extraction System based on XPath

下载PDF

导出

摘要随着互联网技术的迅猛发展,因特网成为目前新闻信息最丰富最主要的来源。本文在分析新闻网页的基础上,分析了目前现有的信息抽取技术和XML技术,提出了一个基于XML技术的Web新闻抽取系统。本文主要是充分运用XML中的XPath技术在数据定位方面的优势,并提出一种基于DOM树的XPath生成算法,使用XSLT语言用于描述抽取规则,并使用路径表达式XPath定位待抽取的信息点。 With the rapid development of Internet technology,the Internet is now the main source of the most abundant information. On the basis of the analysis of news Web pages,and analysis of the current existing information extraction technology and XML technology,the paper presents a Web news extraction system based on XML technology. This paper mainly uses the XPath XML technology in data location advantages,and puts forward a DOM tree based XPath generation algorithm,using XSLT language to describe the selection rules,and the path expression XPath to extract information point.

作者阮娟

机构地区台州职业技术学院电气信息学院

出处《智能计算机与应用》 2015年第2期58-61,共4页 Intelligent Computer and Applications

关键词数据挖掘信息抽取新闻抽取系统 XPATH Data Mining Information Extraction News and Information Extraction System XPath

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1刘迁,焦慧,贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究,2007,24(7):6-9. 被引量：41
2陈小辉,文佳,邓杰英.MySQL数据库的权限及其安全缺陷[J].计算机安全,2008(2):82-85. 被引量：3
3刘钊夏,何明昕.利用JTidy和XML实现Web数据信息的批量提取[J].计算机工程与设计,2010,31(6):1243-1246. 被引量：2
4曹风华.XSLT在XML向HTML转换中的作用[J].现代计算机,2010,16(3):102-104. 被引量：2
5周登,戴玉刚,付涛.基于树结构的Web信息抽取[J].计算机技术与发展,2009,19(9):38-41. 被引量：3

二级参考文献40

1王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
2车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
3杨彬.利用XML技术进行Web内容挖掘[J].计算机与现代化,2005(11):48-50. 被引量：6
4梅东霞,张晓明.基于单个XML文档结构的数据挖掘[J].石油化工高等学校学报,2007,20(1):94-98. 被引量：3
5仲华,崔志明.基于XML的信息抽取和多层向量空间技术研究[J].计算机技术与发展,2007,17(7):49-52. 被引量：4
6唐红光,周铁军.基于XML的Web数据挖掘技术[J].民营科技,2007(1):14-14. 被引量：1
7Laender A H F, Ribeiro- Neto B A, Da Silva A S, et al.A Brief Survey of Web Data Extraction Tools [ J ]. SIGMOD Record,2002,31 (2) :84 - 93.
8Wessrnan A, Liddle S W, Embley D W. A generalized framework for an ontology- based data- extraction system[C]// The 4th International Conference on Information Systems Technology and its Applications. Palmerston North, New Zealand. [s. n. ] ,2005:239 - 253.
9盖磊,王海军,刘俊民.一种基于XML的Web地震信息提取的实现[J].计算机应用与软件,2007,24(8):103-105. 被引量：3
10XML中国论坛.XML实用进阶教程[M].北京:清华大学出版社,2000.

共引文献46

1李宏伟,史培中,张素智.新书发布信息集成查询系统的设计与实现[J].郑州轻工业学院学报（自然科学版）,2008,23(3):108-111. 被引量：1
2徐萍,邵波.基于本体信息抽取的竞争情报预处理分析[J].情报杂志,2008,27(9):33-35. 被引量：6
3王红卫,马红,张素智,赵宇.基于预定义模式的Web网页结构化数据抽取[J].郑州轻工业学院学报（自然科学版）,2008,23(6):1-3. 被引量：1
4李宏伟,史培中,张素智.一种高效Web数据抽取包装器的设计与实现[J].计算机技术与发展,2009,19(2):123-126. 被引量：2
5李宏伟,史培中,张素智.一种可行的Web数据抽取包装器的设计方法[J].计算机应用与软件,2009,26(3):110-113. 被引量：3
6高玉琢,任思佳,王恒,佘廉.基于数值编码规则的信息抽取方法[J].宁夏大学学报（自然科学版）,2009,30(1):46-49. 被引量：2
7周久凤.知识存取:内涵、特征及其量素[J].图书情报工作,2009,53(8):98-101. 被引量：4
8张煜斌,陆建峰,李文林,陈涤平.基于Meta-Bootstrapping的中医医案结构化研究[J].微电子学与计算机,2009,26(10):111-114. 被引量：4
9杨选选,张蕾.基于语义角色和概念图的信息抽取模型[J].计算机应用,2010,30(2):411-414. 被引量：19
10李斌.浅谈web信息抽取[J].大众科技,2010,12(4):48-49.

同被引文献24

1干峰,李超峰,胡珊.XML数据库技术及其在医院信息系统中的应用[J].医学信息,2009,22(4):463-465. 被引量：3
2胡军伟,秦奕青,张伟.正则表达式在Web信息抽取中的应用[J].北京信息科技大学学报（自然科学版）,2011,26(6):86-89. 被引量：39
3李小青,廖湖声,张晓博.XQuery实现技术研究综述[J].计算机科学,2012,39(3):9-13. 被引量：3
4刘保国,林方.贯彻科学发展观与促进电力产业发展[J].工会论坛（山东省工会管理干部学院学报）,2012,18(6):88-90. 被引量：1
5吴旻峰.基于XML的电子病历系统及其院际信息共享技术研究[J].软件,2013,34(1):106-107. 被引量：13
6王庆福.网站建设中数据库技术与WEB技术的应用对比研究[J].软件,2013,34(2):86-87. 被引量：16
7李华勇.计算机数据库存储技术的开发与应用[J].长沙铁道学院学报（社会科学版）,2013,14(2):199-200. 被引量：2
8姚树春.Oracle数据库应用中安全问题研究[J].软件,2014,35(1):94-95. 被引量：9
9董国华,朱习军.中医肺病科电子病历系统设计与实现[J].软件,2014,35(3):17-19. 被引量：5
10董晓光,喻涛.使用Maven构建java项目[J].电子技术与软件工程,2014(10):105-105. 被引量：9

引证文献3

1田昊宇,马义.Native XML数据库在电子病历存储中的应用分析[J].软件,2017,38(10):202-206.
2党佩,阎光伟.基于WebMagic爬取技术的电力事故信息获取[J].计算机技术与发展,2019,29(6):125-129. 被引量：3
3王瑞.新闻评论类公众号XML内容分发的发展策略研究--基于十家新闻评论微信公众号的实证考察[J].出版广角,2020(10):68-70. 被引量：4

二级引证文献7

1陈孝平,吴在德,裘法祖.171例巨大肝癌手术切除治疗体会(英文)[J].中华外科杂志,2000,38(1):6-9. 被引量：28
2王国庆,高红梅,黄法锦,白玛旺久.基于webmagic爬取技术的西藏主流媒体热点新闻的获取[J].数码世界,2020,0(1):57-58. 被引量：1
3李晓.主流媒体如何做强知识型新闻评论[J].青年记者,2021(2):59-60. 被引量：1
4孙昊璟.新型主流媒体新闻评论的挑战及对策[J].青年记者,2021(10):83-84. 被引量：3
5奚增辉,王卫斌,陆嘉铭,瞿海妮.应用主题爬虫的电力网络舆情数据采集[J].西安工程大学学报,2022,36(2):72-78. 被引量：6
6刘滨,孙中贤,吕梓逸,孟宪达,陈莉,詹世源.智慧交通互联网态势感知平台研究[J].河北科技大学学报,2022,43(6):651-660. 被引量：2
7黄安军.媒体融合赋能大学生网上精神家园建设的路径探析[J].新闻研究导刊,2023,14(17):201-203. 被引量：1

1李利,王秀峰.XML文档操作的高级语言XSLT[J].微计算机应用,2004,25(1):88-88.
2谭锋,崔亮亮.基于XPath的XML数据提取的C#实现[J].电脑知识与技术,2011,7(3X):2073-2075.
3段晓娟,徐长梅,孙宁.XPath技术的解析[J].计算机系统应用,2003,12(9):27-29. 被引量：1
4陈佳,胡燕,轩艳艳.一种基于XML的Web信息抽取方法[J].计算机与数字工程,2007,35(6):101-103. 被引量：3
5苏炜,李正权,黎有.基于网页分块自定义信息提取的Web信息采集器设计[J].广东科技,2010,19(16):41-45.
6赵改连,鲍培明,王梅娟.查询XML数据的几种常用方法[J].金陵科技学院学报,2006,22(1):18-22.
7王吉林,舒江波,李勇,杨森.分布式Web主题信息抽取的框架探析[J].情报理论与实践,2014,37(12):117-122. 被引量：2
8初识XSLT[J].电子与电脑,2002(4):68-68.
9宁博,王国仁,赵燕燕,朴小雪.Xtwig连接:基于流的对无根树查询模式的高效处理[J].计算机研究与发展,2007,44(z3):195-200.
10古可,刘超,金茂忠.C++代码缺陷自动检测工具的研究与实现[J].计算机应用研究,2009,26(5):1628-1631. 被引量：5

智能计算机与应用

2015年第2期

浏览历史

内容加载中请稍等...

基于XPath的新闻信息抽取系统设计与实现被引量：3

参考文献5

二级参考文献40

共引文献46

同被引文献24

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于XPath的新闻信息抽取系统设计与实现 被引量：3

参考文献5

二级参考文献40

共引文献46

同被引文献24

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于XPath的新闻信息抽取系统设计与实现被引量：3