基于自动规约规则的HTML文档元数据提取被引量：3

Metadata Extracting for HTML Document Based on Automatic Inducted Rules

导出

摘要利用HTML文档的元数据,可以为Web检索提供多样化的检索手段。本文提出了一种从HTML文档自动提取文档元数据的方法,对其中提取规则的设计、规约算法及其复杂度分析做出了重点介绍。该方法的提取规则在语法形式上和文档片断接近,更适合自动生成,通过自动规约生成规则无需人工分析,适应Web文档特点。文章最后给出了实验结果并进行了分析。 With the metadata of HTML documents, kinds of retrieving methods can be provided for web retrieving. This paper puts forward a method of extracting metadata from HTML documents automatically. We emphasize the design of extracting rules, induction algorithm and complexity analysis . The extraction rules are similar to the document fraction in syntax and suited for automatic induction. The automation induction rules have no need of manual analysis. So the rules can meet the requirement of the web documents. In the end the experimental results are given and analyzed.

作者王守芳狄涤潘金贵

机构地区南京大学计算机科学与技术系计算机软件新技术国家重点实验室

出处《模式识别与人工智能》 EI CSCD 北大核心 2005年第4期405-411,共7页 Pattern Recognition and Artificial Intelligence

关键词元数据提取基于规则自动规约 Metadata Extracting, Rule Based, Automatic Induction

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1王晔,王继成,张福炎.基于元数据的Web信息检索研究[J].情报学报,2001,20(3):309-316. 被引量：14
2Freitag D. Information Extraction from HTML: Application ofa General Machine Learning Approach. Inz Proc of the 15th National Conference on Artificial Intelligence. Madison, USA,1998, 517-523.
3Kushmerick N, Thomas B. Adaptive Information Extraction:Core Technologies for Information Agents. In: Klusch M, Bergamaschi S, Edwards P, Petta P, eds. Intelligent Information Agents R&D in Europe: The AgentI,ink Persepective. 2002.http://citeseer, ist. psu. edu/kushmetrick02adaptive, html.
4Hobbs J. The Generic Information Extraction System. In: Proc of the 5th Message Understanding Conference. San Francisco,USA: Morgan Kaufman, 1993, 87-91.
5Kushmerick N. Wrapper Induction: Efficiency and Expressiveness. Artificial Intelligence, 2000, 118(1-2):15--68.
6Soderland S. Learning Information Extraction Rules for SemiStructured and Free Text. Machine Learning, 1999, 34(1-3):233-272.
7Hsu C N, Dung M T. Generating Finite-State Transducers for Semistructured Data Extraction from the Web. Information Systems, 1998, 23(8): 521-538.
8Soderland S. Learning Text Analysis Rules for Domain SpecificNatural Language Processing. Ph. D Dissertation. University of Massachusetts, Amherst, USA, 1997.
9狄涤,周竞扬,潘金贵.基于规则的HTML文档元数据提取[J].计算机工程,2004,30(9):85-86. 被引量：7

二级参考文献6

1htm2 北京图书馆自动化发展部，中国机读目录通讯格式，1991年
2Raggett D, Hors A L, Jacobs I. HTML 4.0 Specification.http://www.w3.org /TR/1998/REC-htm140-19980424/
3Kobayashi M, Takeda K. Information Retrieval on the Web. ACM Computing Surveys, 2000, 32 (2): 144-173
4http://dublincore.org/
5Dublin Core Metadata Initiative. Dublin Core Metadata Element Set,Version 1.1: Reference Description. http://dublincore.org/documents/1999/07/02/dces/
6王晔,王继成,张福炎.基于元数据的Web信息检索研究[J].情报学报,2001,20(3):309-316. 被引量：14

共引文献19

1狄涤,周竞扬,潘金贵.基于规则的HTML文档元数据提取[J].计算机工程,2004,30(9):85-86. 被引量：7
2王兰成.主题信息检索应用数据库技术的研究现状与展望[J].中国图书馆学报,2004,30(4):58-61.
3俞飞豪.引文索引系统再开发研究[J].情报科学,2004,22(9):1133-1136. 被引量：1
4过仕明,靖继鹏.元数据在网络信息资源组织与检索中的作用[J].情报科学,2004,22(12):1455-1457. 被引量：14
5曾宪文,沈学东.基于移动Agent的元数据自动抽取研究[J].微型电脑应用,2006,22(8):10-11.
6许永涛,王延章,陈雪龙.基于E-R-P建模体系的政务资源元数据表示模型[J].计算机工程,2007,33(10):49-51. 被引量：2
7潘冲,周国民.基于元数据的农业网站管理信息系统研究[J].安徽农业科学,2008,36(3):1261-1262. 被引量：1
8张付志,侯娜,刘慧,马玉静.一种基于启发式搜索的论文元数据提取算法[J].计算机应用与软件,2009,26(9):86-88. 被引量：1
9刘晓星,胡畅霞.WEB中文本信息检索的关键技术研究[J].硅谷,2011,4(16):96-96.
10钱爱兵.期刊论文元数据自动抽取系统的设计与实现[J].计算机光盘软件与应用,2014,17(21):87-90.

同被引文献28

1狄涤,周竞扬,潘金贵.基于规则的HTML文档元数据提取[J].计算机工程,2004,30(9):85-86. 被引量：7
2杨文安,陈行益.“元数据模型”在数据提取中的实现[J].吉林大学学报（信息科学版）,2005,23(1):32-36. 被引量：13
3李禹生,周建中.基于HTML的W eb信息元数据提取技术应用[J].武汉工业学院学报,2005,24(4):7-10. 被引量：4
4陈云榕,刘立柱,丁志鸿.PDF文件中关键信息的提取与组织方法研究[J].计算机工程与设计,2007,28(7):1688-1690. 被引量：12
5于江德,樊孝忠,尹继豪.基于条件随机场的中文科研论文信息抽取[J].华南理工大学学报（自然科学版）,2007,35(9):90-94. 被引量：11
6丁革建,钱华斌.方正小样文件转换成HTML文件[J].电脑编程技巧与维护,1998(11):56-58. 被引量：1
7毛善锋.含公式Word文件到方正书版文件的实用转换方案[J].中国科技期刊研究,2009,20(6):1087-1091. 被引量：3
8成艳真,韩卫媛.文字处理软件与方正排版软件的格式转换方法探讨[J].济源职业技术学院学报,2010,9(4):50-52. 被引量：3
9张国民.浅谈文档类电子文件格式及其特点[J].兰台世界（中旬）,2012(1):9-10. 被引量：4
10龚立群,马宝英,常晓荣.科技文献元数据自动抽取研究述评[J].计算机系统应用,2013,22(3):11-15. 被引量：6

引证文献3

1王向东,金玉玕.石炭纪年代地层学研究概况[J].地层学杂志,2000,24(2):90-98. 被引量：27
2杨海亮,徐用吉.提取方正排版文件广义元数据并生成全文HTML的探索[J].中国科技期刊研究,2016,27(2):202-206. 被引量：5
3黄昇.基于Python的高校电子文档管理系统[J].计算机系统应用,2021,30(4):69-76. 被引量：4

二级引证文献36

1王向东,胡科毅,郄文昆,盛青怡,陈波,林巍,要乐,王秋来,祁玉平,陈吉涛,廖卓庭,宋俊俊.中国石炭纪综合地层和时间框架[J].中国科学：地球科学,2019,49(1):139-159. 被引量：19
2祁玉平,王志浩,罗辉.全球维宪阶与谢尔普霍夫阶界线层的生物地层研究进展及展望[J].地层学杂志,2004,28(3):281-287. 被引量：1
3王向东,金玉玕.石炭系全球界线层型研究进展[J].地层学杂志,2005,29(2):147-153. 被引量：16
4赵兵,刘登忠,陶晓风,马润则,胡新伟.西藏仲巴县昂拉仁错—塔若错一带拉嘎组的地层特征及沉积环境[J].地质通报,2006,25(7):800-805. 被引量：5
5冯京,李永军,王晓刚,杜志刚,刘静,张洪瑞.东天山库姆塔格沙垄地区石炭纪化石新资料及地层厘定[J].中国地质,2007,34(5):942-949. 被引量：6
6惠博,伊海生,陈三运,时志强.龙门山马角坝地区石炭纪沉积相和层序地层研究[J].断块油气田,2009,16(6):10-12. 被引量：4
7武向峰,伊海生,惠博,杨伟,杜秋定.四川龙门山马角坝组铁质鲕粒成因及沉积环境[J].沉积与特提斯地质,2010,30(1):25-31. 被引量：6
8谈力,李鑫,孙元林.鄂西地区长阳组的时代问题[J].地层学杂志,2011,35(1):8-18. 被引量：2
9卜建军,牛志军,吴俊,段先锋.内蒙古西部额济纳旗及邻区上石炭统—下二叠统阿木山组的沉积特征和时代[J].地质通报,2012,31(10):1669-1683. 被引量：13
10余婷,罗正宇.走廊区武威盆地大黄沟组沉积相研究[J].内江科技,2013,34(1):123-124.

1李禹生,周建中.基于HTML的W eb信息元数据提取技术应用[J].武汉工业学院学报,2005,24(4):7-10. 被引量：4
2张付志,刘华中.基于度量级融合的论文元数据提取方法[J].情报学报,2013,32(3):235-243. 被引量：1
3张付志,侯娜,刘慧,马玉静.一种基于启发式搜索的论文元数据提取算法[J].计算机应用与软件,2009,26(9):86-88. 被引量：1
4唐燕飞,张为群.一种基于用例和Petri网的业务过程建模方法[J].西南师范大学学报（自然科学版）,2006,31(3):105-109. 被引量：3
5于千城.商业智能系统中元数据的提取[J].电脑知识与技术（过刊）,2007(22):1115-1117.
6丁振凡.基于Tika语义分析的文档内容检索服务研究[J].井冈山大学学报（自然科学版）,2013,34(2):60-64. 被引量：1
7高妮,周明全,耿国华,贺毅岳.网络科技资源平台中元数据的设计与实现[J].计算机工程与应用,2009,45(25):141-144. 被引量：3
8于志敏,谢丽聪,韩晓芸.Web元数据信息提取技术的研究[J].微计算机信息,2008,24(33):232-233. 被引量：2
9杨在春.关于C++中常量的语法形式的研究与应用[J].电脑编程技巧与维护,2014(4):90-91.
10王晓雯,孙承爱,周春露.基于元数据映射机制的异构数据操作[J].软件导刊,2015,14(1):146-148. 被引量：4

模式识别与人工智能

2005年第4期

浏览历史

内容加载中请稍等...

基于自动规约规则的HTML文档元数据提取被引量：3

参考文献9

二级参考文献6

共引文献19

同被引文献28

引证文献3

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于自动规约规则的HTML文档元数据提取 被引量：3

参考文献9

二级参考文献6

共引文献19

同被引文献28

引证文献3

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于自动规约规则的HTML文档元数据提取被引量：3