基于标题机器学习的网页分割方法被引量：1

Novel Method of Web Page Segmentation Based on Title Machine Learning

下载PDF

导出

摘要针对已有网页分割方法都基于文档对象模型实现且实现难度较高的问题,提出了一种采用字符串数据模型实现网页分割的新方法。该方法通过机器学习获取网页标题的特征,利用标题实现网页分割。首先,利用网页行块分布函数和网页标题标签学习得到网页标题特征;然后,基于标题将网页分割成内容块;最后,利用块深度对内容块进行合并,完成网页分割。理论分析与实验结果表明,该方法中的算法具有O(n)的时间复杂度和空间复杂度,该方法对于高校门户、博客日志和资源网站等类型的网页具有较好的分割效果,并且可以用于网页信息管理的多种应用中,具有良好的应用前景。 To solve the problem that it is difficult to implement the web page segmentation method based on document object model（DOM）,a novel method was proposed through employing string model.The feature of the title of a web page is dug out by machine learning.Based on the found title,the web page is segmented.Firstly,the titles in web pages are picked up by the information of liner block function and title tag.Secondly,web pages are partitioned into content blocks by using the titles.Finally,the content blocks are merged by block depth information.It is proved that the complexity of algorithms in the method are O（n）,and the method is suitable for web pages in the university portal,blog and resource web sites.The method is useful for many applications in web page information management,and it has a good prospect.

作者李进生乐惠骁童名文 LI Jin -sheng1,LE Hui- xiao2, TONG Ming -wen2(1 Modern Education Technical Center, The Open University of Wuhan, Wuhan 430033, China;2School of Education Information Technology, Central China Normal University, Wuhan 430079, Chin)

机构地区武汉市广播电视大学现代教育技术中心华中师范大学教育信息技术学院

出处《计算机科学》 CSCD 北大核心 2018年第B06期583-587,共5页 Computer Science

基金教育部人文社科基金资助项目:数字化学习资源无障碍适配决策模型研究(15YJA880062)资助

关键词网页分割标题行块分布函数块深度机器学习 Webpage segmentation Title Liner block function Block depth Machine learning

分类号 TP37 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1李文昊,彭红超,童名文,石俊杰.基于视觉特征的网页最优分割算法[J].计算机科学,2015,42(11):284-287. 被引量：3
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3孙晓辉,刘建,王劲林,陈晓.基于CSS的网页分割算法[J].微计算机应用,2008,29(9):46-51. 被引量：4

二级参考文献37

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
3罗永莲,秦振吉.新闻网页主题内容提取方法研究[J].微计算机应用,2007,28(5):556-560. 被引量：5
4Morrison, D. R, Journal of ACM, 1968, (15) :514 -534
5Adapting Web pages for small -screen devices. Y Chen, X Xie, WY Ma, HJ Zhang - Intemet Computing, IEEE, 2005,9 (1) : 50 - 56
6G. Hattori, K. Hoashi, K. Matsumoto, F. Sugaya ( KDDI R&D Laboratories), Robust Web Page Segmentation for Mobile Terminal Using Content - Distances and Page Layout Information. Proceedings of the Sixteenth International World Wide Web Conference [C]. ( WWW2007).
7VIPS a Vision - based Page Segmentation Algorithm Cai, S Yu, JR Wen, WY Ma. Microsoft Technical Report, MSR -TR - 2003 - 79, 2003
8O Buyukkokten, H Garcia-Molina, A Paepcke. Accordion summarization for end-game browsing on PDAs and cellular phones. In: Proc of ACM Conf on Human Factors in Computing Systems(CHI 2001). New York: ACM Press, 2001. 213～220
9Wang Tengjiao, Tang Shiwei, Yang Dongqing, et al. COMIIX:Towards effective WEB information extraction, integration and query answering. In: Proc of SIGMOD' 02. New York: ACM Press, 2002. 620
10Liu Ling, Pu Calton, Han Wei. XWRAP: An XML-enabled wrapper construction system for Web information sources. In:Proc of the 16th Int'l Conf on Data Engineering. Washington:IEEE Computer Society Press, 2000. 611～621

共引文献84

1赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
2张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
3吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
4吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
5贺智平,徐学洲,李爱玲.一种基于信息熵的Web页面主题信息抽取方法[J].计算机工程与应用,2007,43(4):164-166. 被引量：6
6赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
7谢华,刘卫国.基于局部语义的网页净化算法[J].计算机系统应用,2007,16(5):25-28.
8章勤,余洋,陶文兵.图像搜索中基于网页分块的图像分类研究[J].计算机工程与科学,2007,29(6):42-44. 被引量：1
9高琰,谷士文,谭立球.基于多种策略的页面内容提取算法[J].西南交通大学学报,2007,42(4):473-477. 被引量：4
10张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10

同被引文献5

1彭红超,童名文,邹军华,郝秋红.基于规则的网页分割预处理算法研究[J].计算机科学,2013,40(11A):379-382. 被引量：1
2韦佳佳.基于HTML5语义化标签的Web文本提取技术[J].贵阳学院学报（自然科学版）,2017,12(3):25-28. 被引量：3
3任胜兵,王志健,王宇.Web页面自动化设计中布局挖掘和样式匹配算法[J].计算机工程与应用,2018,54(3):227-232. 被引量：2
4王宪发,郭岩,刘悦,俞晓明,程学旗.基于视觉特征的网页信息抽取方法研究[J].中文信息学报,2019,33(5):103-112. 被引量：5
5文星.基于移动终端适配技术的网站页面信息显示方法[J].自动化与仪器仪表,2019,0(12):126-129. 被引量：2

引证文献1

1张胜男,吴嘉惟,牛连强,杨坤.移动网页模块化样式模板匹配方法[J].计算机科学与应用,2020,10(6):1234-1242.

1贾柯祯.基于文档对象模型和图像处理的网页分割方法[J].现代计算机（中旬刊）,2018(3):52-54.
2王一洲,陈星,戴远飞.基于网页聚类的正文信息提取方法[J].小型微型计算机系统,2018,39(1):111-115. 被引量：6
3任红娟.Sci-hub及其对开放获取的影响研究[J].图书馆学研究,2018(6):74-78. 被引量：4
4魏为燚.漫谈教育博客写什么[J].福建论坛（社科教育版）,2006(11):35-36.
5编辑部.热点话题引动营销热潮[J].声屏世界（广告人）,2009(2):30-30.
6谭真,鲍明忠.IE5.0与文档对象模型[J].通信世界,1999,0(4):67-70.
7郭强,邹广天,连菲,张斯.应用Web标注技术的建筑图像语义采集方法[J].哈尔滨工业大学学报,2017,49(10):158-163. 被引量：6
8赵晓永,王磊.电商网页中商品规格信息自动抽取方法研究[J].计算机工程与应用,2017,53(24):168-171. 被引量：4
9吴宗大,江芳,陈恩红,徐贯东.面向云数据库服务的隐私字符串加密查询方案[J].计算机工程与应用,2018,54(11):103-108. 被引量：4
10冯飞,刘培学,李丽,陈玉杰.FCM融合改进的GSA算法在医学图像分割中的研究[J].计算机科学,2018,45(B06):252-254. 被引量：8

计算机科学

2018年第B06期

浏览历史

内容加载中请稍等...

基于标题机器学习的网页分割方法被引量：1

参考文献3

二级参考文献37

共引文献84

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于标题机器学习的网页分割方法 被引量：1

参考文献3

二级参考文献37

共引文献84

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于标题机器学习的网页分割方法被引量：1