基于子树广度的Web信息抽取被引量：3

Web Information Extraction Based on Sub-tree Breadth

下载PDF

导出

摘要提出一种新的网页信息抽取方法,基于子树的广度可不加区分地对不同科技文献网站的页面信息进行自动抽取。对大量科技文献网站进行信息抽取实验,已应用到甘肃省科技文献共享平台。实验结果证明,该方法能不依赖科技文献网页的来源而自动地抽取相关信息,并能保证较高的数据抽取回召率和查准率。 This paper proposes a new method which can extract the useful information from the different document sites automatically based on the breadth of a sub-tree. Experimental evaluation on a large of Web pages from different document Web sites has done and this method has been applied to the platform of gansu science ＆ technology document sharing successfully. Experimental result shows this method automatically extracts the information ignoring where Web sites the pages come from and has high accuracy in terms of recall and precision.

作者王权施韶亭

机构地区甘肃省科学技术情报研究所

出处《计算机工程》 CAS CSCD 北大核心 2009年第3期89-90,93,共3页 Computer Engineering

基金甘肃省技术研究与开发专项计划基金资助项目(2007GS05285)

关键词子树广度信息抽取跨库检索 sub-tree breadth information extraction cross-search

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Liu Ling, Calton R Han Wei. XWRAP: An XML-enabled Wrapper Construction System for Web Information Source[C]//Proc. of the 16th International Conference on Data Engineering. Washington D. C., USA: [s. n.], 2000: 611-621.
2Hammer J, Garcia M H, Cho J, et al. Extracting Semistructured Information from the Web[C]//Proc. of the 1st Workshop on Management of Semistructured Data. Tucson, Arizona. USA: [s. n.], 1997: 18-25.
3Huck G, Fankhauser P, Aberer K. Jedi: Extracting and Synthesizing Information from the Web[C]//Proc. of the 3rd International Conference on Cooperative Information Systems. New York, USA: [s. n.], 1998: 32-43.
4Baumgartner R, Flesca S, Gottlob G. Visual Web Information Extraction With Lixto[C]//Proc. of the 27th Int'l Conf. on Very Large Data Bases. San Francisco, California, USA: [s. n.], 2001: 119-128.
5Raggett D. HTML Tidy Project Page[Z]. (2005-02-01). http:// tidy.sourceforge.net.
6Deng Cai, Yu Shipeng, Wen Jirong, et al. Block-based Web Search[C]//Proc. of the 27th Annual International ACM SIGIR Conference. Sheffield, South Yorkshire, UK: [s. n.], 2004.
7Deng Cai, He Xiaofei, Wen Jirong, et al. Block-level Link Analysis[C]//Proc. of the 27th Annual International ACM SIGIR Conference. Sheffield, South Yorkshire, UK: [s. n.], 2004.
8甘肃省科学技术情报研究所.甘肃科技文献资源共享平台[Z].[2007-06-10).http://www.gsstd.cn.
9曹方,施韶亭.基于Web过程模拟的异构数字文献统一检索系统设计与实现[J].情报学报,2006,25(5):575-579. 被引量：11
10Gaizauskas R, Wilks Y. Information Extraction: Beyond Document Retrieval[J]. Computational Linguistics and Chinese Language Processing, 1998, 3(2): 17-60.

二级参考文献8

1杨思洛.数字资源整合检索协议研究[J].图书馆杂志,2004,23(11):51-55. 被引量：6
2林彤,舒真才.基于Web Services的异地异构数据库的集成[J].北京工业大学学报,2005,31(2):210-213. 被引量：10
3LIU M.L.分布式计算原理与应用[M].北京:清华大学出版社,2004
4http://curl.haxx.se/libcurl/php/
5http://curl.haxx.s e/libcurl/
6http://www.php.net
7李勇文,张晓林.跨网关整合检索和整合浏览机制[J].图书情报工作,2002,46(9):74-78. 被引量：53
8孙红艳,白秀丽,刘伟东.信息整合:区域公共图书馆与社科院信息系统对接互动的新课题[J].图书馆建设,2003(4):116-117. 被引量：1

共引文献10

1王权,施韶亭.基于PHP的统一检索系统的设计与实现[J].兰州理工大学学报,2008,34(1):91-94. 被引量：10
2王权.基于Web过程模拟的动态Web信息获取[J].甘肃科技,2008,24(22):16-19. 被引量：2
3唐利.图书馆数字化资源统一检索策略研究[J].重庆文理学院学报（自然科学版）,2009,28(3):90-93.
4王兰成.科技档案异构数据整合及其检索的研究[J].中国科技资源导刊,2009,41(5):36-41. 被引量：3
5王博芬.企业信息资源集成与开发解决方案研究[J].经济研究导刊,2010(25):32-34. 被引量：1
6王权,施韶亭.Web信息抽取技术在统一检索系统中的应用研究[J].计算机应用与软件,2010,27(10):120-122. 被引量：7
7葛川,陈洪梅,刘岚.数字资源统一检索系统的设计与实现[J].现代情报,2011,31(4):49-52. 被引量：3
8张静,王权.甘肃科技文献共享平台架构及关键技术研究[J].计算机应用与软件,2012,29(2):135-137. 被引量：3
9赵凡,施韶亭.基于反向代理技术的文献资源网关研究与实现[J].甘肃科技,2012,28(21):18-20. 被引量：1
10马力.PHP技术支持的基因数据库Web平台构建[J].计算机光盘软件与应用,2012,15(22):210-211. 被引量：1

同被引文献23

1胡芒谷.我国科技文献共享平台的建设模式研究与可持续发展思考[J].数字图书馆论坛,2008(7):67-70. 被引量：7
2周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
3曹方,施韶亭.基于Web过程模拟的异构数字文献统一检索系统设计与实现[J].情报学报,2006,25(5):575-579. 被引量：11
4Zhai Yanhong, Liu Bing. Web Data Extraction Based on Partial Tree Alignment[C]//Proc. of the 14th Int'l Conf. on World Wide Web. New York, USA: ACM Press, 2005: 76-85.
5Zhu Jun, Nie Zaiqing. 2D Conditional Random Fields for Web Information Extraction[C]//Proc. of the 22nd Int'l Conf. on Machine Learning. San Francisco, USA: Morgan Kaufmaun Publishers, 2005: 1044-1051.
6Lafferty J, McCallum A, Pereira F. Conditional Random Fields: Probabmstic Models for Segmenting and Labeling Sequence Data[C]//Proc. of ICML'01. San Francisco, USA: Morgan Kaufmann. 2001:282-289.
7Li Jia, Najmi A, Gray R M. hnage Classification by a Two- dimensional Hidden Markov Model[J]. IEEE Trans. on Signal Processing, 2000, 48(2): 517-533.
8Liu Dong, Nocedal J. On the Limited Memory BFGS Method for Large Scale Optimization[J]. Mathmetical Programming, 2005, 45(1-3): 503-528.
9全国国民阅读调查课题组. 国民阅读调查: 中国国民对阅读作用的认知较高[EB/OL]. (2010-04-26). http://www.nlc.gov.cn/yjfw/ 2010/0426/article_1683.htm.
10Cormen T H, Leiserson C E. 算法导论[M]. 潘金贵, 顾铁龙, 李成法, 等, 译. 北京: 机械工业出版社, 2010.

引证文献3

1卓林,杨舟,赵朋朋,崔志明.基于二维混合条件随机场的Web记录抽取模型[J].计算机工程,2011,37(5):59-61.
2张静,王权.甘肃科技文献共享平台架构及关键技术研究[J].计算机应用与软件,2012,29(2):135-137. 被引量：3
3李庆诚,张安站,宫晓利,张金.类纸阅读器在线读物系统的研究与实现[J].计算机工程,2012,38(3):261-264. 被引量：1

二级引证文献4

1秦建军.四川省科技文献共享服务平台的共享思路探讨[J].技术与市场,2013,20(2):130-130. 被引量：3
2陈刚,卢红星,姬波,佘维.工控信息化系统架构及其关键技术[J].计算机工程与设计,2014,35(8):2934-2938.
3童英华,耿生玲.基于ARM的嵌入式藏文电子阅读器的设计与实现[J].电子设计工程,2016,24(1):138-140.
4庄珉,王勇,张祚泰.WEB应用与数据库安全关键技术研究[J].IT经理世界,2022,25(5):72-76.

1王权,施韶亭.Web信息抽取技术在统一检索系统中的应用研究[J].计算机应用与软件,2010,27(10):120-122. 被引量：7
2王权.基于Web过程模拟的动态Web信息获取[J].甘肃科技,2008,24(22):16-19. 被引量：2
3常国辉.科技文献共享平台的应用与建设[J].科技经济市场,2015(3):170-170. 被引量：1
4李洪敏,陈广平,凌荣辉,卢敏.内外网信息交换模式设计与实现[J].通信技术,2009,42(4):120-122. 被引量：8
5孙仙.黑龙江省科技文献信息服务系统建设及其服务[J].黑龙江科技信息,2011(25):268-268. 被引量：1
6国外的信息化建设和信息资源整合[J].信息系统工程,2010,23(4):8-8. 被引量：3
7全省地方情报工作研讨会暨科技文献共享平台经验交流会在宜宾市隆重召开[J].宜宾科技,2008(4).
8中国航天科工信息技术研究院2010年信息化产品发布会在京举办[J].电子产品世界,2010,17(3):58-58.
9方红,吕琼芳.浙江省科技文献共建共享平台探索学科服务新模式[J].今日科技,2012(12):29-29.
10朱倩飞.涉密科技档案管理保密策略[J].电子技术与软件工程,2016(22):219-219. 被引量：1

计算机工程

2009年第3期

浏览历史

内容加载中请稍等...

基于子树广度的Web信息抽取被引量：3

参考文献10

二级参考文献8

共引文献10

同被引文献23

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于子树广度的Web信息抽取 被引量：3

参考文献10

二级参考文献8

共引文献10

同被引文献23

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于子树广度的Web信息抽取被引量：3