基于标题与文本距离的网页去噪算法的研究

下载PDF

导出

摘要使用STU-DOM这种网页提取技术,在实际操作过程中,在对不含超级链接的网页噪音进行判断时,准确性较低,同时,这种技术也不能有效处理DIV、TABLE标签中的正文信息。这是一种效果比较差的网页去噪技术。本文针对STU-DOM树在提取网页过程中出现的相关问题,比较分析当前几种常见的技术方法,在此基础上使用合适的技术升级扩展STU-DOM树,通过计算网页标题与结点词共现频率,然后分析文本间的相似度,得到标题与文本距离,实现网页正文提取。实验结果证明,该去噪方法能够有效去除网页噪音。

作者苏秀芝

机构地区湖南软件职业学院

出处《中小企业管理与科技》 2014年第24期229-230,共2页 Management & Technology of SME

关键词网页去噪 STU-DOM 词共现

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
3丁宝琼,谢远平,吴琼.基于改进DOM树的网页去噪声方法[J].计算机应用,2009,29(B06):175-177. 被引量：6

二级参考文献21

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2崔继馨,张鹏,杨文柱.基于DOM的Web信息抽取[J].河北农业大学学报,2005,28(3):90-93. 被引量：12
3罗成,李弼程,张先飞.一种有效的网页噪声消除的方法[J].计算机工程,2007,33(8):89-91. 被引量：3
4O Buyukkokten, H Garcia-Molina, A Paepcke. Accordion summarization for end-game browsing on PDAs and cellular phones. In: Proc of ACM Conf on Human Factors in Computing Systems(CHI 2001). New York: ACM Press, 2001. 213～220
5Wang Tengjiao, Tang Shiwei, Yang Dongqing, et al. COMIIX:Towards effective WEB information extraction, integration and query answering. In: Proc of SIGMOD' 02. New York: ACM Press, 2002. 620
6Liu Ling, Pu Calton, Han Wei. XWRAP: An XML-enabled wrapper construction system for Web information sources. In:Proc of the 16th Int'l Conf on Data Engineering. Washington:IEEE Computer Society Press, 2000. 611～621
7R Baumgartner, S Flesca, G Gottlob. Visual Web information extraction with Lixto. In: Proc of the 27th Int'l Conf on Very Large Data Bases. San Francisco: Morgan Kaufmann, 2001. 119～ 128
8D Freitag. Machine learning for information extraction in information domains. Machine Learning, 2000, 39 (2-3): 169 ～202
9S SoderLan. Learning information extraction rules for semistructured and free text. Machine Learning, 1999, 34(1-3): 233～ 272
10R D Doorenbos, O Etzioni, D S Weld. A scalable comparasonshopping agent for the World-Wide Web. In: ACM Agents' 97.New York: ACM Press, 1997. 39～48

共引文献109

1赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
2张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
3吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
4吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
5贺智平,徐学洲,李爱玲.一种基于信息熵的Web页面主题信息抽取方法[J].计算机工程与应用,2007,43(4):164-166. 被引量：6
6赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
7谢华,刘卫国.基于局部语义的网页净化算法[J].计算机系统应用,2007,16(5):25-28.
8章勤,余洋,陶文兵.图像搜索中基于网页分块的图像分类研究[J].计算机工程与科学,2007,29(6):42-44. 被引量：1
9高琰,谷士文,谭立球.基于多种策略的页面内容提取算法[J].西南交通大学学报,2007,42(4):473-477. 被引量：4
10张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2苏秀芝.基于标题与文本相似度的网页正文提取算法[J].科技创新与应用,2016,6(25):57-58. 被引量：1
3那赫.基于DOM的Web主题信息提取系统的设计与实现[J].计算机与网络,2010,36(7):30-31. 被引量：1
4翟东海,鱼江,高飞,于磊,丁锋.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715. 被引量：109
5陈阳,陈兴蜀,吴麒.基于信息量衰减幅度的网页正文提取[J].计算机工程与设计,2012,33(7):2555-2560. 被引量：1
6陈笑蓉,刘作国.文本聚类的重构策略研究[J].中文信息学报,2016,30(2):189-195. 被引量：5
7贺智平,徐学洲,李爱玲.一种基于信息熵的Web页面主题信息抽取方法[J].计算机工程与应用,2007,43(4):164-166. 被引量：6
8杨柳青,李晓东,耿光刚.基于布局相似性的网页正文内容提取研究[J].计算机应用研究,2015,32(9):2581-2586. 被引量：10
9赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
10朱全银,周培,尹永华,陈浮,刘金岭.基于Web数据挖掘的多因素科技专家信息提取方法[J].淮阴工学院学报,2013,22(5):23-27. 被引量：1

中小企业管理与科技

2014年第24期

浏览历史

内容加载中请稍等...

基于标题与文本距离的网页去噪算法的研究

参考文献3

二级参考文献21

共引文献109

相关作者

相关机构

相关主题

浏览历史