基于标记树的WEB页面净化技术研究被引量：3

Web Page Distillation Based on the Tag Tree

下载PDF

导出

摘要根据Web页面标记建立标记树,通过分析,保留有用信息的标记子树,达到获取页面主要内容,净化页面的效果. It＇s the key problem that how to get the information people need of the internet through the computer. An arithmetic is put forward to solve this problem. At first a tag tree of the web page is constructed, then the authors divide the web page into several parts as Main part, Site flag, Navigation bar, Communication part, Copyrights, and the tag tree tells the relationship of these parts. The authors can parse the tag tree, get the child tag tree that only tells the Main part. So the main part is obtained and the web page is distilled.

作者李明张为群

机构地区重庆教育学院信息中心西南大学计算机与信息科学学院

出处《西南师范大学学报（自然科学版）》 CAS CSCD 北大核心 2006年第5期128-131,共4页 Journal of Southwest China Normal University(Natural Science Edition)

关键词标记树标记树模式页面净化 tag tree tag tree model web page distillation

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1DOM Interest Group. Document Object Model (DOM) [EB/OL]. http: //www. w3. org/DOM/, 2006-06-12.
2Valter Crescenzi, Giansalvatore Mecca. Automatic Information Extraction From Large Websites [J]. Journal of the ACM, 2004, 51(5): 731-779.
3Valter Crescenzi, Paolo Merialdo, Paolo Missier. Fine-Grain Web Site Structure Discovery [A]. Proceedings of the Fifth ACM International Workshop on Web Information and Data Management [C]. New Orleans: ACM Press, 2003. 382-397.
4Chen J L, Zhou B Y, Shi J, et al. Function Based Object Model Towards Website [A]. Hong Kong: 10 th International World Wide Web Conference [C]. 2001. 587-596.

同被引文献22

1常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
2林科锵,左志宏,林琳.Web表格信息抽取的研究[J].通讯和计算机（中英文版）,2005,2(8):27-31. 被引量：1
3刘杰,束博.一种高效的HTML/XHTML至WML的转换方法[J].北京工商大学学报（自然科学版）,2006,24(6):45-48. 被引量：2
4张瑞,李石君.网上表格数据到XML的自动转换[J].计算机工程与应用,2007,43(2):190-192. 被引量：5
5[9]The Apache Software Foundation.Cocoon[CP/OL].http://cocoon.apache.org/,2007-12-14.
6[10]刘圳,孟祥武.一种基于Cocoon的Web应用解决方案[EB/OL].http://www.paper.edu.cn/paper.php?serial_number=200704-211,2007-04-09.
7[11]Philippe LeHégaret,Ray Whitmer,Lauren Wood.Document Object Model (DOM)[EB/OL].http://www.w3c.org/DOM,2005-1-19.
8[5]Laurent Bouillon,Jean Vanderdonckt,Jacob Eisenstein.Model-Based Approaches to Reengineering Web Pages[C] //Proceedings of International Workshop on Task Model and Diagrams for user interface design TAMODIA'2002.Bucharest:INFOREC Publishing House Bucharest,2002:86-95.
9[6]Guido Menkhaus,Sebastian Fischmeister.Dialog Model Clustering for User Interface Adaptation[C] //Proceedings of ICWE 03.Oviedo:Springer Verlag,2003:194-203.
10[7]Jean Vanderdonckt,Laurent Bouillon,Nathalie Souchon.Flexible Reverse Engineering of Web Pages with VAQUITA[C] //Proceedings of IEEE 8th Working Conference on Reverse Engineering WCRE'2001.Suttgart:IEEE Computer Society Press,2001:241-248.

引证文献3

1彭涛,曾蒸,代晓红,胡飞.基于语义分层迭代法的网页挖掘技术[J].重庆工商大学学报（自然科学版）,2007,24(5):477-480. 被引量：2
2杨灵芝,唐雁.基于Cocoon框架的网页自适应转换模型研究[J].西南大学学报（自然科学版）,2008,30(5):173-176.
3曾广朴,陶维安.基于信息量的Web表格信息抽取方法[J].西南师范大学学报（自然科学版）,2010,35(4):159-163. 被引量：2

二级引证文献4

1张玉峰,何超.基于领域本体的语义文本挖掘研究[J].情报学报,2011,30(8):832-839. 被引量：16
2张玉峰,何超,李琳.基于联机分析挖掘的动态竞争情报多维语义分析研究[J].情报学报,2012,31(2):166-173. 被引量：4
3李杨,朱月琴,李朝奎,肖克炎,范建福,李秋平.面向海量地质文档的表格信息快速抽取方法研究[J].中国矿业,2017,26(9):98-103. 被引量：3
4鲁建明,冀星,刘畅.多特征融合的表格单元格分类模型[J].信息技术与信息化,2021(5):7-11. 被引量：3

1胡飞.基于标记树的Web页面区域划分和搜索方法[J].计算机科学,2005,32(8):182-185. 被引量：7
2陈华竣,郑智,倪德明.真前缀标记树——一种面向用户的子树选取策略表示方法[J].计算机技术与发展,2006,16(12):9-12. 被引量：1
3陈华竣.真前缀标记树在子树选取策略中的应用[J].广东技术师范学院学报,2006,27(6):32-34.
4阿里甫.库尔班,吐尔根.伊布拉音,吾买尔江.库尔班.维吾尔语框架语义文档数据模型的研究[J].新疆大学学报（自然科学版）,2009,26(1):107-110. 被引量：1
5徐德智,吴敏,Nkengu Damas.XML数据库的树模型抽象及其查询[J].计算机工程,2003,29(14):12-14. 被引量：1
6雷庆,熊汉琛.基于标记二叉树的XML数据模式提取算法[J].计算机工程与设计,2009,30(13):3205-3208. 被引量：1
7页面净化防挂马[J].电脑迷,2010(1):57-57.
8徐德智,H. Sidi.基于树模型的XML查询[J].企业技术开发（下半月）,2003,27(4):7-8. 被引量：2
9王伟良,施佺,曹渠江.基于XML Schema抽象模型的XML模式验证方法[J].计算机应用与软件,2007,24(3):41-43. 被引量：9
10常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24

西南师范大学学报（自然科学版）

2006年第5期

浏览历史

内容加载中请稍等...

基于标记树的WEB页面净化技术研究被引量：3

参考文献4

同被引文献22

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于标记树的WEB页面净化技术研究 被引量：3

参考文献4

同被引文献22

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于标记树的WEB页面净化技术研究被引量：3