Web表格信息抽取模型的设计与实现被引量：1

THE DESIGN AND IMPLEMENTATION OF INFORMATION EXTRACTION MODEL ON WEB TABLES

下载PDF

导出

摘要 Web表格作为一种简洁有效的数据信息表达方式,已广泛应用于Web页面中。现提出一种基于表格结构的Web表格信息抽取模型,该模型主要有表格定位模块、表格结构预处理模块和表格信息抽取与重构模块三个模块组成,根据Web表格的结构标记和自定义的启发式规则来抽取表格信息。实验结果表明该模型能够很好地应用于Web表格信息的抽取。 As a compact and efficient way to present relational data information, Web tables are used frequently in Web documents. In this paper it presents a new model based on table structure that extracts information from tables of Web documents. It is composed of table positio- ning ＇module, table structure pretreatment module and table information extraction and remodelling module, extracts information from table according to Web table structure label and self-defined heuristic rules. The experimental results show that this model is well performed in information extraction from tables of Web documents.

作者廖涛刘宗田孔庆苹

机构地区上海大学计算机科学与工程学院

出处《计算机应用与软件》 CSCD 2009年第4期72-74,共3页 Computer Applications and Software

基金国家发改委基金项目(SNMCFIP-2006S001)。

关键词表格结构抽取模型启发式规则预处理解析 Table structure Model of extracting Heuristic method rules Pretreatment Parse

分类号 TP393.092 [自动化与计算机技术—计算机应用技术] TP311.132 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Stefan Kuhlins, Ross Tredwell. Tookits for generating wrappers-a survey of software toolkits for automated data extraction from web sites[ C ]. International Corference NetOb-jectDay, Berlin: Springer, 2003:154 - 198.
2Hammer J, Garcia-Molina H, Cho J, Aranha R and Crespo A. Extracting semistructured information from the Web[ J]. SIGOD Record, 1997,26 (2) :18 -25.
3黄豫清,戚广志,张福炎.从WEB文档中构造半结构化信息的抽取器[J].软件学报,2000,11(1):73-78. 被引量：47
4Chen H H,Tsai S C,Tsai J H. Mining tables from large scale html texts [C]. In The 18th International Conference on Computa-tional Linguistics(COLING) ,2000 : 166 - 172.
5Gaizauskas Robert, Yorick Wilks. Infor-mation extraction:Beyond document retrieval. Journal of Documentation, 1998,54 ( 1 ) :70 - 105.

二级参考文献1

1Ham mar J，SIGMOD Record，1997年，26卷，2期，18页

共引文献46

1明廷波,左志宏,史永刚,林琳.Web信息抽取中基于神经网络的规则学习方法[J].南京大学学报（自然科学版）,2005,41(z1):1-6. 被引量：1
2胡晓江,苑伟政,朱名铨.IIE环境下数字民航的虚拟数据仓库研究[J].小型微型计算机系统,2003,24(1):68-71. 被引量：4
3GU Ning.A Semantic Approach for Web Document Processing[J].Journal of Shanghai University(English Edition),2001,5(z1):82-85.
4李文奇,张忠能.页面包装器自动生成的改进算法[J].计算机工程与应用,2004,40(22):113-115. 被引量：3
5李泽文.基于Web的数据挖掘技术[J].现代计算机,2004,10(7):29-33. 被引量：10
6刘金红,夏阳,陆余良.基于Ontology的网络元数据抽取系统的研究与实现[J].安徽电子信息职业技术学院学报,2004,3(5):10-13. 被引量：3
7程渤,浮花玲,杨国纬.基于工作流及集成中间件技术的电力信息一体化设计及实现[J].电力系统自动化,2004,28(19):80-83. 被引量：15
8许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
9张阔,徐鹏,李涓子,王克宏.基于优化层次聚类的文档逻辑结构抽取[J].清华大学学报（自然科学版）,2005,45(4):471-474. 被引量：2
10谢维成,吕先竞,宋玉忠.基于HTML或MXL描述的Web页信息抽取技术研究[J].情报科学,2005,23(9):1398-1402. 被引量：2

同被引文献10

1Hammer J, Garcia-Molina H, Cho J, et al.Extracting semistructured information from the Web[J].SIGOD Record, 1997,26(2): 18-25.
2Box model[EB/OL].http://www.w3.org/TR/REC--CSS2/box.html.
3时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[J].计算机工程,2007,33(19):276-278. 被引量：17
4赵洪,肖洪,薛德军,师庆辉.Web表格信息抽取研究综述[J].现代图书情报技术,2008(3):24-31. 被引量：11
5刘浩阳.网络赌博犯罪分析及证据固定方法[J].警察技术,2008(5):49-51. 被引量：8
6宋丹,许侃,林鸿飞.文本挖掘中的知识模式表示、评价及检索机制[J].情报学报,2008,27(5):650-656. 被引量：2
7李卫东.基于DOM的半结构化网页信息抽取算法[J].河北省科学院学报,2009,26(1):21-24. 被引量：2
8陈巍.计算机网络犯罪案件的案情分析模型研究[J].四川警察学院学报,2009,21(3):37-42. 被引量：1
9黄豫清,戚广志,张福炎.从WEB文档中构造半结构化信息的抽取器[J].软件学报,2000,11(1):73-78. 被引量：47
10王放,顾宁,吴国文.基于本体的WEB表格信息抽取[J].小型微型计算机系统,2003,24(12):2142-2146. 被引量：17

引证文献1

1史存会,罗文华,林鸿飞.文本挖掘技术在互联网赌博案情分析中的应用[J].计算机工程与应用,2011,47(28):113-116. 被引量：3

二级引证文献3

1杨彬.基于文本挖掘的网络赌博取证系统的设计与研究[J].福建警察学院学报,2014,28(6):36-40.
2谯冉,张小兵.跨境网络赌博犯罪分析与预防对策——以近年来H省打击网络赌博犯罪为例[J].山东警察学院学报,2017,29(5):101-108. 被引量：16
3高杨,罗文华.网络赌博案件中代理所用主机的电子数据取证特征分析[J].中国刑警学院学报,2015(2):45-48. 被引量：1

1黄荣.基于模板的网页主题信息抽取模型[J].科技信息,2011(4):250-251. 被引量：1
2洪流,张巍,肖明军,蔡庆生.一种改进的基于HMM的信息抽取模型[J].模式识别与人工智能,2004,17(3):347-351. 被引量：1
3楼俊君.高校网站群信息抽取系统分析与设计[J].黑龙江科技信息,2013(20):155-155.
4傅魁,聂规划.面向电子交易的商品供应信息抽取模型[J].武汉理工大学学报（信息与管理工程版）,2007,29(7):96-99. 被引量：1
5杜秋霞,王洪国,邵增珍,付鑫,刘衍民.基于混合HMM的文献元数据地名抽取方法研究[J].计算机与数字工程,2017,45(1):101-106. 被引量：5
6刘琪,王小正,王磊.基于本体的教育资源语义检索关键技术研究[J].电脑知识与技术,2014(6):3872-3875. 被引量：1
7曹顺良,刘杰,王健,刘念祖,李亦学.RE-OEM:一种半结构化生物数据的信息抽取模型[J].计算机应用研究,2008,25(9):2647-2650. 被引量：2
8杨选选,张蕾.基于语义角色和概念图的信息抽取模型[J].计算机应用,2010,30(2):411-414. 被引量：19
9沈娜.基于WEB新闻内容的信息抽取方法研究[J].江西科技学院学报,2015,10(3):25-29.
10廖涛,刘宗田,孙荣.Web表格定位技术的研究与实现[J].计算机科学,2009,36(9):227-230. 被引量：9

计算机应用与软件

2009年第4期

浏览历史

内容加载中请稍等...

Web表格信息抽取模型的设计与实现被引量：1

参考文献5

二级参考文献1

共引文献46

同被引文献10

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

Web表格信息抽取模型的设计与实现 被引量：1

参考文献5

二级参考文献1

共引文献46

同被引文献10

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

Web表格信息抽取模型的设计与实现被引量：1