基于Web的电子期刊元数据信息抽取方法被引量：7

Web-based extraction of periodical metadata information

下载PDF

导出

摘要通过对各种Web信息抽取方式的分析,将一种新的抽取方法应用于电子期刊信息抽取.该方法首先应用文档结构相对路径结合节点内容特征进行相似度比较来完成对所需抽取信息块的精确定位;然后对于需要抽取出来的各个信息项则采用正则表达式构造文本信息项的特征模式;在此基础上,实现准确抽取.测试结果表明:基于Web的电子期刊元数据信息抽取方法在查全率和精确度方面高于一般的信息抽取方法,取得了比较令人满意的效果. A novel method which was adopted to extract periodical metadata was proposed after various ways to extract the information from webs was analyzed.Before the metadata were extracted,those target information blocks were correctly extracted by using relative paths in document and the contents of nodes to jude similarity.According to the similarity,the target information blocks were located.Regular expressions were used to feature the text of the extracted information The experiment results showed the method ob...

作者李胜利李昌清袁平鹏刘英书

机构地区华中科技大学计算机科学与技术学院

出处《华中科技大学学报（自然科学版）》 EI CAS CSCD 北大核心 2007年第12期13-15,共3页 Journal of Huazhong University of Science and Technology(Natural Science Edition)

基金中国下一代互联网资助项目(CNGI-04-15-7A) 湖北省科技基础条件平台专项基金资助项目武汉市科技攻关资助项目(20061002032)

关键词信息抽取包装器模式匹配电子期刊 information extraction wrap pattern matching periodical metadata

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1[1]Garcia-Molina H,Hammer J,Ireland K,et al.Integrating and Accessing Heterogeneous Information Sources in TSIMMIS[C]∥Proceedings of the AAAI Symposium on Information Gathering.San Francisco:Stanford,1995:61-64.
2[2]ARANAUD S,FABIEN A.Building light-weight wrappers for legacy Web data-sources using W4F[C]∥Proceedings of 25th VLDB Conference.Scotland:Edinburgh,1999:738-741.
3[3]Laender A H F,Ribeiro-Neto B A,da Silva A S,et al.A Brief Survey of Web Data Extraction Tools[J].ACM SIGMOD Record,2002,31(2):84-93.
4[4]卢睿.信息的抽取[D].大连:大连海事学院信息工程学院,2004.
5[5]Liger F,McQueen C,Wilton P.C#字符串和正则表达式参考手册[M].刘乐亭,译.北京:清华大学出版社,2003.
6金莉,卢正鼎.Web信息提取中多策略学习算法的研究[J].华中科技大学学报（自然科学版）,2003,31(1):22-24. 被引量：3
7郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(06X):304-306. 被引量：18
8李跃进,赵晶,林鸿飞.基于Internet的军事演习信息抽取系统[J].计算机工程与应用,2006,42(14):214-218. 被引量：6

二级参考文献23

1娄雅斌,陶凤梅,马垣.基于“本体”的异构数据源的集成方法研究[J].微计算机信息,2005,21(10X):117-118. 被引量：20
2[1]Quinlan J R, Chameron-Jones R M. Foll: a midterm report. in: Brazdil P ed. Proceedings of the 6th European Conference on Machine Learning Volume 667 of Lecture Noters in Artificial Intelligence. Austrila: Springer-Verlag, 1993. 3～30.
3[2]Ciravegna F. (LP)2, An adaptive algorithm for information extraction from Web-related texts. in: Nebel B ed. Proceedings of the 17th International Joint Conference on Artificial Intelligence. San Fransisco: Morgan-Kaufmnn, 2001. 1251～1256
4[3]Grishman R, Sundheim B. Design of the MUC-6 evaluation. in: San Mateo ed. Proceedings of 6th Message Understanding conferece. San Fransisco: Morgan-Kaufmarrn, 1995. 1～11
5Ralph Grishman.Information Extraction:Techniques and Challenges.Lecture Notes in Computer Science,1997;1299:10～27.
6Eikvil L.Information Extraction from World Wide Web-A survey[R].Technical Report 945,Norweigan Computing Center,1999.
7Jerry R Hobbs,Douglas Appelt,John Bear et al.FASTUS:A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text[C].In:Finite State Devices for Natural Language Processing,MIT press,1996.
8E Agchtein,Gravano.Snowball:Extracting relations from Large Plaintext Collections[C].In:Proceedings of the 5th ACM International Conference on Digital Libraries,2000.
9Valter Crescenzi,Giansalvatore Mecca,Paolo Merialdo.Automatic Web Information Extraction in the ROADRUNNER System.Lecture Notes in Computer Science,2002 ;2465:264～277.
10I Musiea.Extraction patterns for information extraction tasks:A survey[C].In:Proceedings of the AAAI 1999 Workshop on Machine Learning for Information Extraction,1999.

共引文献23

1唐坚,刘海燕.作战文书中部队番号的自动识别方法[J].兵器装备工程学报,2020,0(2):143-147. 被引量：1
2张继红,陈小全.海量交通安全数据的元数据管理研究[J].计算机研究与发展,2011,48(S1):74-77. 被引量：3
3文坤梅,卢正鼎,叶卫国.Web-MIND:基于特定主题的Web信息挖掘系统[J].计算机工程与科学,2007,29(6):71-73.
4吴琴霞,张志鸿.语义Web中RDF元数据的存储与管理[J].微计算机信息,2007,23(33):144-145. 被引量：1
5张柳松.基于本体的智能检索系统的研究[J].微计算机信息,2007,23(33):237-238. 被引量：4
6李昌清,李艳霞,李胜利,王剑.基于动态异构的Web信息集成网页分析方法[J].计算机应用研究,2007,24(12):204-206. 被引量：7
7牛之贤,白鹏洲,段富.基于框架语义标注的自由文本信息抽取研究[J].计算机工程与应用,2008,44(25):143-145. 被引量：2
8马新建,夏士雄.基于本体的多源异构数据集成方法研究[J].微计算机信息,2008,24(25):291-293. 被引量：7
9彭文滔,叶飞跃,李霞,员红娟.信息抽取中基于DOM树的过滤器方法的研究[J].微计算机信息,2008,24(30):217-219. 被引量：4
10于志敏,谢丽聪,韩晓芸.Web元数据信息提取技术的研究[J].微计算机信息,2008,24(33):232-233. 被引量：2

同被引文献41

1尹海清,曲选辉.数据挖掘:粉末冶金创新发展的加速器[J].粉末冶金工业,2020,30(1):1-6. 被引量：2
2游祎,赵荣.我国元数据研究现状与发展[J].图书情报工作,2008,52(S1):202-205. 被引量：7
3狄涤,周竞扬,潘金贵.基于规则的HTML文档元数据提取[J].计算机工程,2004,30(9):85-86. 被引量：7
4陈兰,左志宏,熊毅,孟令谦.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004,21(8):155-157. 被引量：18
5刘金红,夏阳,陆余良.基于Ontology的网络元数据抽取系统的研究与实现[J].安徽电子信息职业技术学院学报,2004,3(5):10-13. 被引量：3
6袁平,韩景润,党海飞.空间元数据自动生成技术研究[J].地理信息世界,2005,3(1):11-15. 被引量：3
7郭瑞华,张玉莉.语义Web上DC元数据的描述及抽取技术[J].现代情报,2005,25(6):212-214. 被引量：6
8张承立,陈剑波,齐开悦.基于语义网的语义相似度算法改进[J].计算机工程与应用,2006,42(17):165-166. 被引量：38
9郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(06X):304-306. 被引量：18
10郭志鑫,金海,陈汉华.SemreX中基于语义的文档参考文献元数据信息提取[J].计算机研究与发展,2006,43(8):1368-1374. 被引量：8

引证文献7

1徐慧,杨学兵.基于本体相似度的中文科研论文信息抽取[J].计算机技术与发展,2008,18(12):203-206. 被引量：2
2周霜菊.基于本体的教学信息抽取设计[J].现代情报,2009,29(3):194-196. 被引量：2
3周亚.2001—2008年国内元数据自动抽取研究综述[J].科技情报开发与经济,2009,19(23):140-142. 被引量：3
4张丽娜,陈俊杰,赵丽欣.基于HTMLParser的BT种子网页信息抽取[J].电脑开发与应用,2010,23(3):59-61. 被引量：4
5钱爱兵.期刊论文元数据自动抽取系统的设计与实现[J].计算机光盘软件与应用,2014,17(21):87-90.
6陈淑平.基于特征及规则模式的学位论文元数据信息自动抽取研究[J].农业图书情报学刊,2015,27(2):57-59. 被引量：1
7王畅畅,苏航,侯雅青,段琳娜.材料数据基础设施架构研究与应用[J].金属功能材料,2023,30(5):78-88.

二级引证文献11

1何毅.基于Web的建筑业主题搜索引擎技术[J].吉林广播电视大学学报,2009(6):126-128.
2张国平,李钊.网页信息抽取RoadRunner技术浅析[J].科技创业月刊,2010,23(11):172-173. 被引量：1
3商杰,陈德华,薛莉芳.文本元数据自动抽取算法的研究[J].计算机应用与软件,2011,28(12):148-150. 被引量：2
4魏小辉.基于Web的内容管理系统的研究[J].信息通信,2013,26(6):96-97. 被引量：1
5吴琴霞,高峰,刘永革.基于上下文语义的甲骨文领域概念抽取算法的研究[J].科学技术与工程,2014,22(26):255-258. 被引量：1
6杨海亮,徐用吉.利用VB读取方正排版文件提取元数据[J].中国科技期刊研究,2015,26(6):612-617. 被引量：8
7张方,尹刚,王涛,余跃.面向开源社区的Web数据抽取方法研究[J].现代计算机,2017,23(3):27-29.
8罗粮,朱儒明.基于正则表达式的Web页面信息抽取技术研究[J].现代计算机,2017,23(10):17-19. 被引量：2
9阳广元.国内基于本体的信息抽取研究现状与热点分析[J].图书馆理论与实践,2017,0(5):38-43. 被引量：1
10郭晓亮,景勇,张璐,吉海涛,郭雨梅,黄仲一.学术期刊元数据处理例证分析[J].编辑学报,2019,31(6):655-659. 被引量：1

1魏刚,胡文静.认识网页制作中的路径[J].中国科技信息,2006(16):143-143.
2沈晓卫,李培峰,朱巧明.槽填充中抽取模式的优化方法[J].中文信息学报,2015,29(2):199-206. 被引量：1
3刘晓利,丁振国.基于XML Schema完整性约束转换的索引机制研究[J].现代图书情报技术,2008(10):43-47.
4金阳.Labview应用程序开发中使用支持文件相对路径的有关问题[J].湖北汽车工业学院学报,2015,29(1):64-67.
5张烨.关于网页设计中路径使用的思考[J].漯河职业技术学院学报,2005,4(2):34-35. 被引量：1
6徐学辉.浅谈网站建设中相对路径与绝对路径的使用[J].中国科技信息,2006(03A):43-43. 被引量：3
7林丽华.WinRAR解压缩只要相对路径[J].电脑迷,2011(8):77-77.
8张志宝,孙微涛,罗文峰.基于HSI空间改进的彩色图像边缘检测方法[J].计算机与数字工程,2016,44(11):2257-2262. 被引量：6
9还书国,邱海霞.WEB信息抽取的研究[J].消费导刊,2008,0(12):172-172. 被引量：2
10陈英,黄小花.网页中超链接的路径[J].电脑知识与技术（过刊）,2015,21(9X):16-17.

华中科技大学学报（自然科学版）

2007年第12期

浏览历史

内容加载中请稍等...

基于Web的电子期刊元数据信息抽取方法被引量：7

参考文献8

二级参考文献23

共引文献23

同被引文献41

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于Web的电子期刊元数据信息抽取方法 被引量：7

参考文献8

二级参考文献23

共引文献23

同被引文献41

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于Web的电子期刊元数据信息抽取方法被引量：7