半结构化文档集的结构模式提取的研究与实现被引量：5

Research and Implementation of Structure Extraction of Semi-structured Document

下载PDF

导出

摘要提出了通过结构模式提取,在信息源对缺失信息进行恢复与重构的思想,给出了结构模式提取模型,并讨论了实现该模型的关键步骤与算法,最后结合基于该模型实现的系统对半结构化文档集的结构模式提取及其应用进行了总结。该研究成果已成功应用于实际系统中。 A model of structure extraction was brought forward in the paper. First, an idea was given that the semantic structure information been extracted at information source through the rules of the relation between semantic structure information and style information. Then, the paper puts forward a model how to extract structure of semi-structured document. The key step and key algorithm were discussed in detail. Last, the extraction method and its application were summarized with an system, which had been constructed based on the scheme. The idea and the method had been used in an applied system with success.

作者杨建武陈晓鸥

机构地区北京大学计算机研究所文字信息处理技术国家重点实验室

出处《计算机工程》 CAS CSCD 北大核心 2001年第10期19-21,113,共4页 Computer Engineering

基金国家重点工程中国百科术语数据库工程新闻出版署--(上报国家计委的重点工程)

关键词半结构化文档集结构模式提取 WEB INTERNET Structure extraction Semi-structure XML Markup language Web publishing

分类号 TP393.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1黄豫清,戚广志,张福炎.从WEB文档中构造半结构化信息的抽取器[J].软件学报,2000,11(1):73-78. 被引量：47
2杨建武.基于SGML/XML的Internet信息发布[J].计算机工程与应用,2000,36(11):5-7. 被引量：3
3Yi J，A Classifier for Semistructured Documents，2000年
4孟志华，北大方正书版排版技术与应用，1993年

二级参考文献2

1Ham mar J，SIGMOD Record，1997年，26卷，2期，18页
2孟志华，北大方正书版排版技术与应用，1993年，12页

共引文献48

1明廷波,左志宏,史永刚,林琳.Web信息抽取中基于神经网络的规则学习方法[J].南京大学学报（自然科学版）,2005,41(z1):1-6. 被引量：1
2胡晓江,苑伟政,朱名铨.IIE环境下数字民航的虚拟数据仓库研究[J].小型微型计算机系统,2003,24(1):68-71. 被引量：4
3GU Ning.A Semantic Approach for Web Document Processing[J].Journal of Shanghai University(English Edition),2001,5(z1):82-85.
4李文奇,张忠能.页面包装器自动生成的改进算法[J].计算机工程与应用,2004,40(22):113-115. 被引量：3
5李泽文.基于Web的数据挖掘技术[J].现代计算机,2004,10(7):29-33. 被引量：10
6刘金红,夏阳,陆余良.基于Ontology的网络元数据抽取系统的研究与实现[J].安徽电子信息职业技术学院学报,2004,3(5):10-13. 被引量：3
7程渤,浮花玲,杨国纬.基于工作流及集成中间件技术的电力信息一体化设计及实现[J].电力系统自动化,2004,28(19):80-83. 被引量：15
8许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
9张阔,徐鹏,李涓子,王克宏.基于优化层次聚类的文档逻辑结构抽取[J].清华大学学报（自然科学版）,2005,45(4):471-474. 被引量：2
10谢维成,吕先竞,宋玉忠.基于HTML或MXL描述的Web页信息抽取技术研究[J].情报科学,2005,23(9):1398-1402. 被引量：2

同被引文献36

1胡师彦.XML原理与应用[J].哈尔滨商业大学学报（自然科学版）,2001,17(4):55-57. 被引量：4
2李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
3仲华,崔志明.基于XML的信息抽取和多层向量空间技术研究[J].计算机技术与发展,2007,17(7):49-52. 被引量：4
4Burget R. Layout Based Information Extraction from HTML Documents[ C ]/The Ninth International Conference on Document Analysis and Recognition. [ s. l. ] : [s. n. ],2007.
5Li Yu, Meng Xiaofeng, Li Qing, et al. Hybrid Method for Automated News Content Extraction from the Web[ C ]//Web Information Systems Engineering ( WISE2006 ). Wuhan: [ s. n.], 2006.
6Gupta S, Kaiser G, Neistadt D, et al. DOM-based Content Extraction of HTML Documents [ C ]//The 12th International Conference on World Wide Web. [ s. l. ] : [ s. n. ], 2003.
7Geng Hua ,Gao Qiang,pan Jingui. Extracting Content for News Web Pages Based on DOM[J]. International Journal of Computer Science and Network Security, 2007, 7 (2) : 124-129.
8Lin Shian-hua, Ho Jan-ming. Discovering informative content blocks from Web documents[ C]//ACM SIGKDD Inter- national Conference on Knowledge Discovery & Data Mining. [s.l. ]: [s.n. l, 2002.
9Chen Enhong. Semistructured Data Extraction and Schema Knowledge Mining. Accepted by Euromicro Workshop on Multimedia and Telecommunications, Italy, 1999.
10W3C. Extensible Markup Language (XML) 1.0[EB/OL].http://www. w3. org/TR/1998/REC- xml - 19980210.2000 - 10- 06.

引证文献5

1倪丽萍,张维勇,金麒.XML搜索引擎技术的实现与探讨[J].合肥工业大学学报（自然科学版）,2004,27(7):774-777. 被引量：1
2谢红侠,惠正运.一种面向文档的XML的索引查询方法[J].微机发展,2005,15(12):24-26. 被引量：1
3殷彬,杨会志.灵活结构网页的正文提取[J].计算机技术与发展,2011,21(9):111-113. 被引量：3
4马康.基于结构化文档的测试需求分析自动化提取研究[J].信息化研究,2015,41(1):1-3. 被引量：2
5徐国利.基于Web的半结构化数据的知识发现[J].大学图书馆学报,2003,21(3):8-11. 被引量：4

二级引证文献11

1李世玲.解读语义Web[J].图书情报工作,2006,50(2):45-48.
2王宏鑫.关于网络信息数据的多尺度表达模型研究[J].情报科学,2007,25(7):966-971.
3王锋.一种基于DTD模式的XML索引技术研究[J].安徽科技学院学报,2010,24(1):35-39.
4庄景彬,郭朝珍.一种全面支持XML动态更新的扩展BSC编码[J].合肥工业大学学报（自然科学版）,2013,36(4):435-439. 被引量：1
5祝瑞.Web数据挖掘在高校网站中的应用研究[J].聊城大学学报（自然科学版）,2013,26(3):87-90. 被引量：4
6姬鑫,钟诚.基于分块的新闻网页信息抽取算法[J].计算机应用与软件,2015,32(4):317-322. 被引量：6
7周亦,周明全,王学松,黄友良.大数据环境下历史人物知识图谱构建与实现[J].系统仿真学报,2016,28(10):2560-2566. 被引量：16
8杜博远,王美清,陈长福,陈飞.基于结构一致和特征学习的网页信息标签提取[J].计算机工程与应用,2017,53(7):74-78. 被引量：2
9张伟,李晓鹏,王伟,王旭,李晨霞,王芳.输变电工程安全质量管理信息系统的建设与应用[J].内蒙古电力技术,2020,38(2):45-48. 被引量：8
10师子源,李成,王明飞.文档一致性测试系统的研究与设计[J].北京印刷学院学报,2022,30(3):56-60.

1邹国华.对XML存取的研究与实现[J].科技广场,2005(12):64-66.
2庄毅,徐海力.半结构化数据与关系数据的比较研究[J].计算机与现代化,2004(1):29-30. 被引量：3
3赵传申,孙志挥.半结构化文档数据流的快速频繁模式挖掘[J].东南大学学报（自然科学版）,2006,36(3):452-456.
4宋强,徐鹏,李涓子.半结构化文档中非标记化表格的抽取[J].计算机工程,2005,31(18):81-83. 被引量：3
5韩毅.数字图书馆中基于XML的搜索引擎设计[J].情报科学,2003,21(12):1320-1322. 被引量：1
6XQuery简介及在.Net中的应用[J].微型电脑应用,2005,21(8):62-64.
7程和侠,黄国兴.XQuery简介及在.Net中的应用[J].微型电脑应用,2005,21(7):62-63. 被引量：1
8王桐,刘大昕.一种新的混合XML文档聚类方法[J].哈尔滨工程大学学报,2007,28(6):697-701. 被引量：7
9彭勇军,张娟.基于支撑向量机的多媒体图像半结构化技术研究[J].信息通信,2012,25(6):6-7.
10李庆,刘智勇.基于XML的档案袋数据管理技术初探[J].五邑大学学报（自然科学版）,2003,17(2):47-53.

计算机工程

2001年第10期

浏览历史

内容加载中请稍等...

半结构化文档集的结构模式提取的研究与实现被引量：5

参考文献4

二级参考文献2

共引文献48

同被引文献36

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

半结构化文档集的结构模式提取的研究与实现 被引量：5

参考文献4

二级参考文献2

共引文献48

同被引文献36

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

半结构化文档集的结构模式提取的研究与实现被引量：5