基于规则模型的网页主题文本提取方法被引量：3

Web content information extraction method based on rule model

下载PDF

导出

摘要通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法。该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到有效提取网页主题文本的目的。实验结果表明,该方法对于各类型网页主题文本的提取均具有较高的准确率,通用性强。 A web content information extraction method based on rule model is presented by analysing on structured and semi-structured web data. Based on learning from the feature of HTML tag and web page layout, a universal extraction model is built by defining a series of filtering, extracting and merging rule and web content is extracted effectively. The practice shows that this method has good accuracy in extracting web content information and is applied widely.

作者张裕钦李振坤吴永杰

机构地区广东工业大学计算机学院

出处《计算机工程与设计》 CSCD 北大核心 2009年第20期4665-4667,共3页 Computer Engineering and Design

关键词规则模型信息抽取主题文本提取数据采集 WEB挖掘 rule model web information extraction main body extraction data gathering web mining

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2Finn A,Kushmerick N,Smyth B.Fact or fiction:Content classification for digital libraries [C].2nd DELOS Network of Excellence Workshop on Personalization and Recommender Systems in Digital Libraries,2001.
3周源远,王继成,郑刚,张福炎.Web页面清洗技术的研究与实现[J].计算机工程,2002,28(9):48-50. 被引量：20
4赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
5刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004,16(3):507-510. 被引量：51
6王敬普,林亚平,周顺先,岳文.基于包装器模型的文本信息抽取[J].计算机应用,2006,26(3):655-658. 被引量：8

二级参考文献47

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2崔继馨,张鹏,杨文柱.基于DOM的Web信息抽取[J].河北农业大学学报,2005,28(3):90-93. 被引量：12
3[1]A. McCallum, K. Nigam, J. Rennie, and K. Seymore. A machine learning approach to building Domain-Specific Search Engines [A]. In Proceedings of IJCAI-99 [C]. 622-667.
4[2]Ellien Riloff. Automatically Constructing a Dictionary for Information Extraction Task [A]. Proceeding for the Eleventh National Conference on Artificial Intelligence [C]. 1993. 811-816.
5[3]E. Riloff , R. Jones. Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping [A]. Proceedings of the Sixteenth National Conference on Artificial Intelligence [C]. 1999. 811-816.
6[4]S. Soderland. Learning information extraction rules for semi-structured and free text [J]. Machine Learning, 1999, 1-44.
7[5]Kushmerick, N. Wrapper induction: efficiency and Expressiveness [J]. Artificial Intelligence,2000, Vol. 118, pp. 15--68.
8[6]Leek,T. R. Information Extraction Using Hidden Markov Models [D]. Master's thesis, UC san Diego,1997.
9[7]Kristie Seymore, Andrew McCallum, Ronal Rosenfel. Learning Hidden Markov Model Structure for Information Extract [A]. AAAI' 99 Workshop on Machine Learning for Information Extraction [C]. 1999. 37-42.
10[8]Dayne Frietag, Andrew McCallum. Information Extraction with HMMs and shrinkage [A]. In Proceedings of the AAAI'99 Workshop on Machine Learning for Information Extraction [C], 1999, pp. 31-36.

共引文献178

1赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
2郭彦兵.网页文本分类技术研究[J].科技创业家,2013(9):54-54.
3程冲,黄水清.利用正则表达式解析新闻网页的算法研究[J].农业图书情报学刊,2005,17(4):5-8. 被引量：7
4许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
5翟东升,余旸.国际贸易技术壁垒信息采集系统设计与实现[J].情报杂志,2005,24(8):33-35. 被引量：3
6翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1
7张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
8王敬普,林亚平,周顺先,岳文.基于包装器模型的文本信息抽取[J].计算机应用,2006,26(3):655-658. 被引量：8
9侯锟,罗海龙.Web页面表格信息的自主抽取[J].科技广场,2006(4):70-72. 被引量：2
10吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4

同被引文献30

1王敬普,林亚平,周顺先,岳文.基于包装器模型的文本信息抽取[J].计算机应用,2006,26(3):655-658. 被引量：8
2郑健珍,林坤辉,周昌乐,康恺.基于本体语义的定题爬虫[J].山东大学学报（理学版）,2006,41(3):106-110. 被引量：11
3许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11
4赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
5王磊,蒋建中,郭军利.基于扩展DOM树的Web页面信息抽取[J].计算机应用与软件,2007,24(6):137-139. 被引量：12
6张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
7任仲晟,薛永生.基于页面标签的Web结构化数据抽取[J].计算机科学,2007,34(10):133-136. 被引量：8
8BAYKAN E,HENZINGER M R,MARIAN L,etal.PurelyURLbasedtopicclassification[C]//Procofthe18thInternationalWorldWideWebConference.NewYork:ACMPress,2009:1109-1110.
9PANTG,SRINIVASANP,MENCZERF.Explorationversusexploitationintopicdrivencrawlers[C]//Procofthe2ndInternationalWorkshoponWebDynamics.NewYork:ACMPress,2002:88-97.
10BIRDS,KLEINE,LOPERE.Naturallanguageprocessingwithpython[M].[S.l.]:O’ReillyMediaInc,2009.

引证文献3

1蔡李,单艳,薛化建,苏国平.维吾尔文网页正文抽取系统的研究与实现[J].计算机工程与设计,2012,33(2):551-555. 被引量：3
2赵永霄,哈力旦.阿布都热依木,张振东.面向增量同生主题的维吾尔文爬虫的研究[J].计算机应用研究,2014,31(11):3269-3272. 被引量：1
3王晓,罗永莲.基于决策树与单元距离抽取新闻网页内容[J].晋中学院学报,2019,36(3):66-71.

二级引证文献4

1李湘东,霍亚勇,黄莉.图书网页的自动识别及书目信息抽取研究[J].现代图书情报技术,2014(4):71-77. 被引量：3
2薛朋强,鲜英,努尔布力,吾守尔.斯拉木.面向维吾尔文的敏感信息过滤方法研究[J].计算机工程与应用,2018,54(5):236-241. 被引量：6
3依不拉音·吾斯曼,郭文强,于凯.面向多形式维文的敏感信息过滤算法研究[J].计算机工程与应用,2020,56(10):127-133. 被引量：3
4依不拉音.乌斯曼,王悦.面向维吾尔跨文字搜索引擎的统一转换机制设计[J].计算机科学,2016,43(S2):77-82. 被引量：4

1张学芳,刘胜全,刘艳.舆情本体概念抽取研究[J].新疆大学学报（自然科学版）,2016,33(3):333-337. 被引量：3
2金菁.提取帮助文档中的主题文本[J].软件世界,1999(1):96-97.
3熊忠阳,任芳,张玉芳,毛嘉莉,周涓.基于XML描述的数据挖掘结果的存储方法[J].计算机工程与设计,2006,27(20):3874-3877. 被引量：2
4李艳霞,巩九洲,黎玉琴.基于Web Services的Web挖掘实现方案[J].自动化技术与应用,2008,27(5):73-75. 被引量：1
5黄豫清,戚广智,张福炎.构造Web文档中半结构化信息的技术[J].计算机辅助设计与图形学学报,2000,12(3):230-234. 被引量：4
6黄振晗.基于文档特征的Web主题文本提取[J].现代计算机,2009,15(8):26-30.
7陈和平,高丽,杨玲贤.基于面向值的映像方法在XML数据存储中的应用[J].武汉科技大学学报,2005,28(2):197-200. 被引量：2
8蒲强,李鑫,刘启和,杨国纬.一种Web主题文本通用提取方法[J].计算机应用,2007,27(6):1394-1396. 被引量：5
9黄豫清,戚广志,张福炎.从WEB文档中构造半结构化信息的抽取器[J].软件学报,2000,11(1):73-78. 被引量：47
10朱苏阳,惠浩添,钱龙华,张民.基于自监督学习的维基百科家庭关系抽取[J].计算机应用,2015,35(4):1013-1016. 被引量：1

计算机工程与设计

2009年第20期

浏览历史

内容加载中请稍等...

基于规则模型的网页主题文本提取方法被引量：3

参考文献6

二级参考文献47

共引文献178

同被引文献30

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于规则模型的网页主题文本提取方法 被引量：3

参考文献6

二级参考文献47

共引文献178

同被引文献30

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于规则模型的网页主题文本提取方法被引量：3