一种基于分类算法的网页信息提取方法被引量：11

A Method of Web Information Extraction Based on Classification Algorithm

下载PDF

导出

摘要在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对Web页面的信息提取。这种提取方法操作简单,易于实现,对网页结构的依赖性小。 In the research of Web information extraction, most of the existing algorithms are based on HTML struc-ture. As the structure of HTML files changes frequently, wrapper must be updated accordingly. But the update of wrapper needs a lot of domain knowledge. In this paper, a new Web information extraction method based on classification algorithm is provided, which can group the Web text by HTML text display attributes. The information extraction of Web pages is finished by classifying the Web text with different values of the display attributes and acquiring desired text. This algorithm is easy to implementation and small-dependent of the HTML structure. Experiments prove its good performance.

作者汪建伟杨冬青高军王腾蛟

机构地区北京大学信息科学技术学院

出处《计算机科学》 CSCD 北大核心 2008年第3期91-93,共3页 Computer Science

基金国家242基金(课题编号:2005B22,2006B20)

关键词信息提取属性向量 WRAPPER 显示属性 Web information extraction,Attribute vector,Wrapper,Display attributes

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1www. google.com
2www. baidu.com
3Chang C H, Kayed M, Girgis M R, Shaalan K. A Survey of Web Information Extraction Systems. IEEE Transactions on Knowledge and Data Engineering, 2006. 1411-1428
4Laender A H F, et al. A Brief Survey of Web Data Extraction Tools. [J]. ACM SIGMOD Record,2002,31(2)
5DENG Cai, YU Shipeng, WEN Jirong, et al. VIPS: A Vision- Based Page Segmentation Algorithm [R]: [Microsoft Technical Report, MSR-TR-2003-79]. 2003
6Zhao Hongkun, Meng Weiyi, Yu C. Automatic Extraction of Dynamic Record Sections From Search Engine Result Pages VLDB 2006 Seoul,Korea
7王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81

二级参考文献13

1O Buyukkokten, H Garcia-Molina, A Paepcke. Accordion summarization for end-game browsing on PDAs and cellular phones. In: Proc of ACM Conf on Human Factors in Computing Systems(CHI 2001). New York: ACM Press, 2001. 213～220
2Wang Tengjiao, Tang Shiwei, Yang Dongqing, et al. COMIIX:Towards effective WEB information extraction, integration and query answering. In: Proc of SIGMOD' 02. New York: ACM Press, 2002. 620
3Liu Ling, Pu Calton, Han Wei. XWRAP: An XML-enabled wrapper construction system for Web information sources. In:Proc of the 16th Int'l Conf on Data Engineering. Washington:IEEE Computer Society Press, 2000. 611～621
4R Baumgartner, S Flesca, G Gottlob. Visual Web information extraction with Lixto. In: Proc of the 27th Int'l Conf on Very Large Data Bases. San Francisco: Morgan Kaufmann, 2001. 119～ 128
5D Freitag. Machine learning for information extraction in information domains. Machine Learning, 2000, 39 (2-3): 169 ～202
6S SoderLan. Learning information extraction rules for semistructured and free text. Machine Learning, 1999, 34(1-3): 233～ 272
7R D Doorenbos, O Etzioni, D S Weld. A scalable comparasonshopping agent for the World-Wide Web. In: ACM Agents' 97.New York: ACM Press, 1997. 39～48
8D W Embley, et al. Conceptual-model-based data extraction from multiple-record Web pages. Data and Knowledge Engineering,1999, 31(3): 227～251
9A Finn, A Kushmerick, B Smyth. Fact or fiction: Content classification for digital libraries. The 2nd DELOS Network of Excellence Workshop on Personalisation and Recommender Systems in Digital Libraries, Dublin, Ireland, 2001
10S Gupta, G Kaiser, D Neistadt, et al. DOM-based content extraction of HTML documents. In: Proc of the 12th Int'l World-Wide Web Conf. New York: ACM Press, 2003. 207～214

共引文献82

1赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
2张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
3吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
4吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
5贺智平,徐学洲,李爱玲.一种基于信息熵的Web页面主题信息抽取方法[J].计算机工程与应用,2007,43(4):164-166. 被引量：6
6赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
7谢华,刘卫国.基于局部语义的网页净化算法[J].计算机系统应用,2007,16(5):25-28.
8章勤,余洋,陶文兵.图像搜索中基于网页分块的图像分类研究[J].计算机工程与科学,2007,29(6):42-44. 被引量：1
9高琰,谷士文,谭立球.基于多种策略的页面内容提取算法[J].西南交通大学学报,2007,42(4):473-477. 被引量：4
10张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10

同被引文献86

1郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
2黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
3王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
4陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
5张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
6于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
7杜义华,焦文彬.互联网中XML网页的链接解析与信息采集[J].计算机系统应用,2005,14(7):24-26. 被引量：2
8谷利芬,于亚征.Web采集技术的分析[J].焦作大学学报,2005,19(3):78-79. 被引量：1
9吕铁强,于满泉,孟庆发,周立德.基于网页分块的个性化信息采集的研究与设计[J].微电子学与计算机,2005,22(10):120-123. 被引量：10
10程岚岚,何丕廉,孙越恒.基于朴素贝叶斯模型的中文关键词提取算法研究[J].计算机应用,2005,25(12):2780-2782. 被引量：13

引证文献11

1胡凌云,胡桂兰,徐勇,李龙澍.基于Web的新闻文本分类技术的研究[J].安徽大学学报（自然科学版）,2010,34(6):66-70. 被引量：7
2赵晓峰,凌天斌,彭波,王转妮.一种基于网页源文件的信息提取算法[J].计算机与现代化,2012(2):38-39. 被引量：1
3李霞,蒋盛益.基于DOM树及行文本统计去噪的网页文本抽取技术[J].山东大学学报（理学版）,2012,47(3):38-42. 被引量：4
4李军,陈君,王玲芳,倪宏.一种垂直页面分割与信息提取方法的研究[J].计算机应用研究,2013,30(3):844-847. 被引量：3
5邵振凯.网页信息提取技术[J].计算机技术与发展,2013,23(9):36-38. 被引量：1
6梁道雷,姚亮,陈巩静.基于本体的纺织服装主题搜索引擎系统研究[J].丝绸,2014,51(11):28-31. 被引量：1
7罗永莲,赵昌垣,贾玉芳,芦彩林.基于朴素贝叶斯Web新闻内容的抽取方法[J].计算机与现代化,2016(1):59-63. 被引量：4
8王健,张金.基于节点权重的网页去噪方法的研究[J].计算机技术与发展,2017,27(10):83-86. 被引量：2
9郭培铭.基于文献特征提取网页信息的算法研究[J].现代计算机,2019,25(2):37-40.
10王晓,罗永莲.基于决策树与单元距离抽取新闻网页内容[J].晋中学院学报,2019,36(3):66-71.

二级引证文献34

1陈建国.基于Web结构的网站新闻采集系统的设计与实现[J].井冈山大学学报（自然科学版）,2012,33(2):54-57. 被引量：3
2彭伟.Web气象信息树型提取算法与LED显示设计[J].实验室研究与探索,2013,32(1):203-208. 被引量：1
3卢远征,叶晓彤.XML的DOM树结构在WEB挖掘中的应用[J].四川理工学院学报（自然科学版）,2013,26(3):64-67. 被引量：2
4薛春香,张玉芳.面向新闻领域的中文文本分类研究综述[J].图书情报工作,2013,57(14):134-139. 被引量：24
5陈荟慧,舒云星,林丽.多语种Web新闻语料抓取的通用模型研究[J].洛阳理工学院学报（自然科学版）,2013,23(4):34-39. 被引量：1
6李湘东,巴志超,黄莉.基于加权隐含狄利克雷分配模型的新闻话题挖掘方法[J].计算机应用,2014,34(5):1354-1359. 被引量：14
7卢玲,杨武,刘恒洋.差错网络的文本分类反馈校正方法[J].重庆邮电大学学报（自然科学版）,2014,26(6):790-795. 被引量：1
8张兵,汤进,罗斌.基于超链接和DOM结构树的网页标题实时抽取方法[J].计算机与现代化,2015(8):84-88. 被引量：2
9史瑞芳.网页正文信息抽取新方法[J].通讯世界,2015,21(10):210-211. 被引量：4
10兰秋军,李卫康,刘文星.不同情境下中文文本分类模型的表现及选择[J].湖南大学学报（自然科学版）,2016,43(4):141-146. 被引量：4

1高强,张敬之,耿桦,潘金贵.基于重复模式的Web信息抽取[J].计算机科学,2007,34(4):210-212. 被引量：6
2张国荣,印鉴.基于离散余弦变换矩阵的隐私数据保护方法[J].计算机工程,2009,35(2):157-158. 被引量：3
3许倩,程东年.基于层次聚类的网络流量异常分类算法[J].计算机工程,2012,38(23):131-136. 被引量：2
4吴磊,张敏灵.基于类属属性的多标记学习算法[J].软件学报,2014,25(9):1992-2001. 被引量：11
5石方夏.云环境下高机密性数据分离销毁优化仿真研究[J].计算机仿真,2017,34(4):319-322. 被引量：2
6张迎春,闫德勤,张丹枫.基于粗糙属性向量树的属性约简新方法[J].计算机应用与软件,2010,27(8):19-22. 被引量：2
7徐苏平,杨习贝,祁云嵩.基于类属属性约简的多标记学习[J].计算机应用,2015,35(11):3218-3221. 被引量：7
8张敏灵.偏标记学习研究综述[J].数据采集与处理,2015,30(1):77-87. 被引量：13
9栾虹.HTML文档分类中的词元权重算法[J].山东师范大学学报（自然科学版）,2005,20(2):22-25. 被引量：1
10李建刚,霍焱.一种基于遗传神经网络文本分类器的研究[J].电脑知识与技术,2007(6):1279-1280.

计算机科学

2008年第3期

浏览历史

内容加载中请稍等...

一种基于分类算法的网页信息提取方法被引量：11

参考文献7

二级参考文献13

共引文献82

同被引文献86

引证文献11

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

一种基于分类算法的网页信息提取方法 被引量：11

参考文献7

二级参考文献13

共引文献82

同被引文献86

引证文献11

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

一种基于分类算法的网页信息提取方法被引量：11