期刊文献+

含有语义特征的网页新闻自动抽取 被引量:5

Automatic Web News Extraction with Semantic Features
下载PDF
导出
摘要 通过分析新闻网页的语义特征以及网页之间存在的通用性质,提出一种含有语义特征的网页新闻自动抽取方法,包括利用语义分类器识别新闻网页中的种子信息以及页面中的局部信息来完成抽取。在分类器中加入语义特征可以使F1值达到94.2%。在语义分类器与局部特征结合的情况下,F1值可以达到96.9%。实验结果证明,该方法能有效提高网页信息抽取算法的精度,降低机器学习所需要的标注成本。 This paper analyzes the semantic features and the similarity of Web news pages, and presents an automatic Web news extraction method with semantic features. It utilizes semantic classifier to find the seed information, and uses portion features to build information extraction rules. The F 1-Value of Web news extraction can reach to 94.2% when add semantic features to classifier. The performance of F 1-Value can reach to 96.9% when combine semantic classifier and portion features based information extraction method. Experimental result shows that the method can effectively improve the accuracy of Web information extraction method and cut the cost of manual labeling work.
出处 《计算机工程》 CAS CSCD 北大核心 2010年第7期173-175,178,共4页 Computer Engineering
基金 国家自然科学基金面上资助项目(60673038) 教育部高等学校博士学科点专项科研基金资助项目(200802460066) 上海市科委重点科技攻关基金资助项目(08511500302)
关键词 网络信息抽取 语义特征 局部特征 Web information extraction semantic features portion features
  • 相关文献

参考文献5

  • 1Laender A H F, Ribeiro-Neto B A, Silva A S. A Brief Survey of Web Data Extraction Tools[J]. SIGMOD Record, 2002, 31(2): 84-93.
  • 2韩先培,刘康,赵军.基于布局特征与语言特征的网页主要内容块发现[J].中文信息学报,2008,22(1):15-21. 被引量:8
  • 3Chuang S L, Hsu J Y. Tree-structured Template Generation for Web Pages[C]//Proc. of IEEE/WIC/ACM International Conference on Web Intelligence. [S. 1.]: IEEE Computer Society Press, 2004.
  • 4刘华.网页信息抽取及建库系统C#实现[J].计算机工程,2006,32(16):49-51. 被引量:5
  • 5Zheng Shuyi, Song Ruihua, Wen Jirong. Template-independent News Extraction Based on Visual Consistency[C]//Proc. of AAAI'07. Vancouver, Canada: [s. n.], 2007.

二级参考文献16

  • 1张普.关于大规模真实文本语料库的几点理论思考[J].语言文字应用,1999(1):35-44. 被引量:49
  • 2黄昌宁 李涓子.语料库语言学[M].北京:商务印书馆,2002..
  • 3朱凯.因特网语料自动下载分析软件的设计[C]..第一届学生计算语言学研讨会论文集[C].北京,2002..
  • 4Simon Robinson K,Allen S,C#高级编程[M].北京:清华大学出版社,2002.
  • 5Rupesh R.Mehta,Harish Karnick,and Pabitra Mitra.Semantic Structure Analysis of Web Documents.Digital Document Processing[M],Springer 2007.
  • 6Deng Cai,Shipeng Yu,Ji-Rong Wen and WeiYing Ma.VIPS:A Vision based Page Segmentation Algorithm[R].MSR-TR-2003-79.2003.
  • 7Lan Yi,Bing Liu,Xiaoli Li.Eliminating Noisy Information in Web Pages for Data Mining[A].The Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].2003.
  • 8Ziv Bar-Yossef,Sridhar Rajagopalan.Template Detection via Data Mining and its Applications[A].The eleventh international world wide web conference[C].2002.
  • 9Suhit Gupta,Gail Kaiser,David Neistadt,Peter Grimm.DOM-based Content Extraction of HTML Documents[A].The Twelfth International World Wide Web Conference[C].2003.
  • 10Deepayan CHakrabarti,Ravi Kumar,Kunal Punera.Page-level Template Detection via Isotonic Smoothing[A].The 16th International World Wide Web Conference[C].2007.

共引文献11

同被引文献48

引证文献5

二级引证文献19

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部