含有语义特征的网页新闻自动抽取被引量：5

Automatic Web News Extraction with Semantic Features

下载PDF

导出

摘要通过分析新闻网页的语义特征以及网页之间存在的通用性质,提出一种含有语义特征的网页新闻自动抽取方法,包括利用语义分类器识别新闻网页中的种子信息以及页面中的局部信息来完成抽取。在分类器中加入语义特征可以使F1值达到94.2%。在语义分类器与局部特征结合的情况下,F1值可以达到96.9%。实验结果证明,该方法能有效提高网页信息抽取算法的精度,降低机器学习所需要的标注成本。 This paper analyzes the semantic features and the similarity of Web news pages, and presents an automatic Web news extraction method with semantic features. It utilizes semantic classifier to find the seed information, and uses portion features to build information extraction rules. The F 1-Value of Web news extraction can reach to 94.2% when add semantic features to classifier. The performance of F 1-Value can reach to 96.9% when combine semantic classifier and portion features based information extraction method. Experimental result shows that the method can effectively improve the accuracy of Web information extraction method and cut the cost of manual labeling work.

作者施洋张奇黄萱菁

机构地区复旦大学计算机科学技术学院

出处《计算机工程》 CAS CSCD 北大核心 2010年第7期173-175,178,共4页 Computer Engineering

基金国家自然科学基金面上资助项目(60673038) 教育部高等学校博士学科点专项科研基金资助项目(200802460066) 上海市科委重点科技攻关基金资助项目(08511500302)

关键词网络信息抽取语义特征局部特征 Web information extraction semantic features portion features

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Laender A H F, Ribeiro-Neto B A, Silva A S. A Brief Survey of Web Data Extraction Tools[J]. SIGMOD Record, 2002, 31(2): 84-93.
2韩先培,刘康,赵军.基于布局特征与语言特征的网页主要内容块发现[J].中文信息学报,2008,22(1):15-21. 被引量：8
3Chuang S L, Hsu J Y. Tree-structured Template Generation for Web Pages[C]//Proc. of IEEE/WIC/ACM International Conference on Web Intelligence. [S. 1.]: IEEE Computer Society Press, 2004.
4刘华.网页信息抽取及建库系统C#实现[J].计算机工程,2006,32(16):49-51. 被引量：5
5Zheng Shuyi, Song Ruihua, Wen Jirong. Template-independent News Extraction Based on Visual Consistency[C]//Proc. of AAAI'07. Vancouver, Canada: [s. n.], 2007.

二级参考文献16

1张普.关于大规模真实文本语料库的几点理论思考[J].语言文字应用,1999(1):35-44. 被引量：49
2黄昌宁李涓子.语料库语言学[M].北京:商务印书馆,2002..
3朱凯.因特网语料自动下载分析软件的设计[C]..第一届学生计算语言学研讨会论文集[C].北京,2002..
4Simon Robinson K，Allen S，C#高级编程[M]．北京：清华大学出版社，2002．
5Rupesh R.Mehta,Harish Karnick,and Pabitra Mitra.Semantic Structure Analysis of Web Documents.Digital Document Processing[M],Springer 2007.
6Deng Cai,Shipeng Yu,Ji-Rong Wen and WeiYing Ma.VIPS:A Vision based Page Segmentation Algorithm[R].MSR-TR-2003-79.2003.
7Lan Yi,Bing Liu,Xiaoli Li.Eliminating Noisy Information in Web Pages for Data Mining[A].The Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].2003.
8Ziv Bar-Yossef,Sridhar Rajagopalan.Template Detection via Data Mining and its Applications[A].The eleventh international world wide web conference[C].2002.
9Suhit Gupta,Gail Kaiser,David Neistadt,Peter Grimm.DOM-based Content Extraction of HTML Documents[A].The Twelfth International World Wide Web Conference[C].2003.
10Deepayan CHakrabarti,Ravi Kumar,Kunal Punera.Page-level Template Detection via Isotonic Smoothing[A].The 16th International World Wide Web Conference[C].2007.

共引文献11

1刘华.基于分类标注语料库的关键词标引知识自动获取[J].图书情报工作,2007,51(7):41-43. 被引量：6
2王允,李弼程,林琛.基于网页布局相似度的Web论坛数据抽取[J].中文信息学报,2010,24(2):68-75. 被引量：9
3谭锋,李天真,崔亮亮.基于.NET的Web信息抽取系统关键技术研究[J].软件导刊,2010,9(12):120-122.
4郑敏.基于动态匹配的主题相关度判定算法[J].微电子学与计算机,2012,29(1):105-108. 被引量：1
5邵俊.基于视觉热区的网页内容抽取方法[J].计算机应用与软件,2012,29(6):199-201. 被引量：1
6王超,徐杰锋.基于CURE算法的网页分块及正文块提取研究[J].微型机与应用,2012,31(12):11-14. 被引量：1
7伍杰华,倪振声.改进多分类器集成AdaBoost算法的Web主题分类[J].计算机应用与软件,2013,30(11):64-67. 被引量：2
8吴秦,胡丽娟,梁久祯.基于分块重要度和二维条件随机场的Web信息抽取[J].南京大学学报（自然科学版）,2014,50(1):79-86. 被引量：5
9李天阳,王新.基于专家主页的信息源获取策略研究[J].情报理论与实践,2015,38(11):115-119.
10尹楠.学术期刊投稿网站网页标记语言正确性之探讨——以图书情报类期刊为例[J].软件,2017,38(11):181-186. 被引量：1

同被引文献48

1王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
2黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
3李向阳,苗壮.自由文本信息抽取技术[J].情报科学,2004,22(7):815-821. 被引量：23
4于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
5胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
6邹志文,柯青.基于向量空间模型的主动推送系统设计与优化[J].现代图书情报技术,2005(7):42-45. 被引量：6
7陈瑞芬.一种结合反馈方法的中文文本分类算法[J].计算机应用,2005,25(12):2862-2864. 被引量：9
8罗杰,陈力,夏德麟,王凯.基于新的关键词提取方法的快速文本分类系统[J].计算机应用研究,2006,23(4):32-34. 被引量：17
9赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
10朱红灿,龙朝阳.基于熵的新闻网页抽取方法的研究[J].现代图书情报技术,2007(4):48-51. 被引量：2

引证文献5

1陈钊,李嘉.基于语义的林产品贸易文本信息结构化研究[J].计算机工程,2011,37(20):261-263. 被引量：2
2许珂,蒙祖强,林啓峰.基于语义关联和信息增益的TFIDF改进算法研究[J].计算机应用研究,2012,29(2):557-560. 被引量：8
3汪洋,帅建梅.基于语义扩展模型的中文网页关键词抽取[J].计算机工程,2012,38(22):163-166. 被引量：4
4周建,汤进,罗斌.基于DOM结构树的网页正文信息分段方法[J].计算机与现代化,2013(10):229-232. 被引量：2
5李湘东,霍亚勇,黄莉.图书网页的自动识别及书目信息抽取研究[J].现代图书情报技术,2014(4):71-77. 被引量：3

二级引证文献19

1陈智敏,蒙祖强,林啟锋.基于要素提取关联词对的中文报道关系检测[J].计算机应用,2013,33(1):182-185. 被引量：2
2王梓,高金萍,陈钊.基于复合关键词向量空间的林产品贸易网站用户兴趣模型[J].计算机工程与科学,2013,35(5):154-160. 被引量：2
3林啟锋,蒙祖强,陈秋莲,陈智敏.结合语义和文本特征位串的高效KNN算法[J].计算机工程与设计,2013,34(7):2417-2421. 被引量：1
4张新林,彭灿明.基于模态匹配的校园网信息实时过滤方法[J].计算机与现代化,2013(11):91-94. 被引量：2
5何晓阳,张精理,丁婷.医学新闻关键词自动提取策略[J].中华医学图书情报杂志,2014,23(4):13-17. 被引量：2
6褚衍杰,魏强,李云照.基于关键词语义与作用域扩展的事件检测[J].计算机工程,2014,40(8):273-276. 被引量：2
7李晨,朱世伟,赵燕清,于俊凤.基于MapReduce的网络爬虫设计与实现[J].山东科学,2015,28(2):101-107. 被引量：1
8崔诚煜,冉晓旻.基于频繁模式挖掘的中文关键词提取算法[J].太赫兹科学与电子信息学报,2015,13(2):279-284.
9刘宝超,崔荣一.基于最大Jaccard相似度的互激励实体验证算法[J].延边大学学报（自然科学版）,2015,41(1):42-45. 被引量：1
10张兵,汤进,罗斌.基于超链接和DOM结构树的网页标题实时抽取方法[J].计算机与现代化,2015(8):84-88. 被引量：2

1镜花水月.聊天朋友圈两不误激活微信的多窗口切换功能[J].电脑爱好者,2015,0(13):64-64.
2董耀伟.基于ASP的网上商城的设计与实现[J].中国电子商务,2012(21):24-24.
3董忠,尤良方.用Java实现网页新闻的自动更换[J].天水师范学院学报,2002,22(2):36-38.
4谷歌增强搜索功能[J].天津中学生,2009(11):32-32.
5宋鑫莹,赵铁军.网络信息抽取技术分析与比较[J].智能计算机与应用,2013,3(5):24-27. 被引量：3
6史西兵,王浩鸣.隐马尔可夫模型解决信息抽取问题的仿真研究[J].计算机仿真,2010,27(5):132-135. 被引量：5
7李珍,田学东.PDF文件信息的抽取与分析[J].计算机应用,2003,23(12):145-147. 被引量：21
8王毅.基于web的信息抽取方法研究[J].科技与生活,2010(13):11-11.
9李剑,陈海建.基于Web Services和插件架构的新闻中心平台的设计[J].微型机与应用,2012,31(23):14-17. 被引量：1
10俞琰.基于隐马尔可夫模型的招聘网络信息抽取[J].自动化技术与应用,2008,27(10):58-61.

计算机工程

2010年第7期

浏览历史

内容加载中请稍等...

含有语义特征的网页新闻自动抽取被引量：5

参考文献5

二级参考文献16

共引文献11

同被引文献48

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

含有语义特征的网页新闻自动抽取 被引量：5

参考文献5

二级参考文献16

共引文献11

同被引文献48

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

含有语义特征的网页新闻自动抽取被引量：5