基于熵的新闻网页抽取方法的研究被引量：2

An Entropy-Based Approach for News Article Extraction from Web Page

下载PDF

导出

摘要为了减少或根除新闻网站中大量非主题信息的干扰,提出一种新闻网页抽取方法,采用基于熵的计算和DOM树的知识,从新闻网页中抽取主题文档和相关链接。 In this paper,an approach for news article extraction from Web page is proposed and this approach applies information theory to DOM tree. Experiment on several news Web sites shows that it is practical.

作者朱红灿龙朝阳

机构地区湘潭大学管理学院

出处《现代图书情报技术》 CSSCI 北大核心 2007年第4期48-51,共4页 New Technology of Library and Information Service

关键词熵信息抽取信息块 DOM Entropy Information extraction Informative block DOM

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1Kao H Y,Ho J M,Chen M S. WISDOM:Web Intrap age Informative Structure Mining Based on Document Object Model. IEEE Tansactions on Knowledge and Data Engineering : 2005,17 ( 5 ) : 614 - 630
2瞿有利,于浩,徐国伟,西野文人.Web页面信息块的自动分割[J].中文信息学报,2004,18(1):6-13. 被引量：10
3张敏,高剑峰,马少平.基于链接描述文本及其上下文的Web信息检索[J].计算机研究与发展,2004,41(1):221-226. 被引量：22

二级参考文献16

1[1]Line Eikvil, Information Extraction from World Wide Web- A Survey[M], Report No. 945, Norwegian Computing Center, ISBN 82-539-0429-0, July, 1999.
2[2]Chia-Hui Chang, Shao-Chen Lui , IEPAD: Information Extraction Based on Pattern Discovery [C], Proceedings of the Tenth International World Wide Web Conference, Hong Kong , May 2001. http:// www10.org/ cdrom/ papers/223/.
3[3]Embley D.W., Jiang Y.S., Ng Y.K., Record-Boundary Discovery in Web Documents[C], Proceedings of SIGMOD, Philadelphia, USA, 1999.
4[4]Morrison, D.R. Journal of ACM [J], 15:514-534.
5[5]E. Ukkonen. On-line construction of suffix-tree[J], algorithmica,14:249-60,1995.
6[1]R Botafogo, E Rivlin, B Shneiderman. Structural analysis of hypertext: Identifying hierarchies and useful metrics. ACM Trans on Information System, 1992, 10(2): 142～180
7[2]J Carriere, R Kazman. WebQuery: Searching and visualizing the Web through connectivity. The 6th Int'l WWW Conf (WWW6), Santa Clara, 1997
8[3]Jon M Kleinberg. Authoritative sources in a hyperlinked environment. The 9th Annual ACM-SIAM Symp on Discrete Algorithms, California, 1997
9[4]K Bharat, M R Henzinger. Improved algorithms for topic distillation in a hyperlinked environment. The 21st Int'l ACM SIGIR Conf on Research and Development in Information Retrieval (SIGIR 98), Melbourne, 1998
10[5]S Brin, L Page. The anatomy of a large-scale hypertextual web search engine. The 7th Int'l WWW Conf (WWW7), Brisbane, Australia, 1998

共引文献30

1靳从.基于有向图的版面逻辑顺序确定方法研究[J].微计算机信息,2008,24(12):292-293. 被引量：1
2苏铓,史国振,李凤华,申莹,黄琼,王苗苗.细粒度超媒体描述模型及其使用机制[J].通信学报,2013,34(S1):223-229. 被引量：1
3贾娟,陈堃銶,周东浩.图文互斥版面中文字阅读顺序的确定[J].中文信息学报,2005,19(5):67-75. 被引量：1
4张志昌,张宇,高立琦,袁新成,胡晓光,刘挺,李生.2005年863信息检索评测哈尔滨工业大学信息检索研究室技术报告[J].中文信息学报,2006,20(B03):83-90.
5张娜,张化祥.基于超链接和内容相关度的检索算法[J].计算机应用,2006,26(5):1171-1173. 被引量：6
6吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
7吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
8宋玲玲,李村合.基于链接结构分析的Web信息检索方法研究[J].现代情报,2007,27(2):133-135. 被引量：7
9张泊平,张得喜.基于网页结构相关性的隐马尔可夫预取技术研究[J].计算机与数字工程,2007,35(5):88-90.
10张泊平,王睿.基于网页结构相关性的个性化推荐技术研究[J].许昌学院学报,2007,26(5):90-94. 被引量：1

同被引文献22

1王胜,朱明.基于最大熵马尔可夫模型的地址信息抽取[J].计算机工程与应用,2005,41(21):192-194. 被引量：7
2姜柄圭,张秦龙,谌贻荣,常宝宝.面向机器辅助翻译的汉语语块自动抽取研究[J].中文信息学报,2007,21(1):9-16. 被引量：12
3贺智平,徐学洲,李爱玲.一种基于信息熵的Web页面主题信息抽取方法[J].计算机工程与应用,2007,43(4):164-166. 被引量：6
4李慧,沈洁,张舒,顾天竺,吴颜,陈晓红.基于页面分块与信息熵的评论发现及抽取[J].计算机应用研究,2007,24(2):269-271. 被引量：4
5赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
6罗永莲,秦振吉.新闻网页主题内容提取方法研究[J].微计算机应用,2007,28(5):556-560. 被引量：5
7Hung-Yu Kao, Jan-Ming Ho, Ming-Syan Chen. WISDOM: Web Intrap age informative structure mining based on document object model[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(5):614-630.
8Zheng S Y, Song R H, Wen J R. Template-independent News Extraction Based on Visual Consistency[C]. In: Proceedings of the AAAI'07, Vancouver, Canada. 2007.
9王文生,谢能付,基于Web的农业信息自动抽取方法研究[C].见:全闰农业信息分析理论与方法学术研讨会.2007:77-83.
10郑德权,张迪,赵铁军,于浩.Blog网页分类与识别技术研究[J].通信学报,2007,28(12):156-160. 被引量：6

引证文献2

1朱红灿,陈能华,周永红.计算Web页面信息熵的方法[J].计算机工程与设计,2010,31(1):114-117. 被引量：1
2李湘东,霍亚勇,黄莉.图书网页的自动识别及书目信息抽取研究[J].现代图书情报技术,2014(4):71-77. 被引量：3

二级引证文献4

1李晨,朱世伟,赵燕清,于俊凤.基于MapReduce的网络爬虫设计与实现[J].山东科学,2015,28(2):101-107. 被引量：1
2刘宝超,崔荣一.基于最大Jaccard相似度的互激励实体验证算法[J].延边大学学报（自然科学版）,2015,41(1):42-45. 被引量：1
3赵峰涛.基于视觉的图书馆在架错序图书自动识别技术应用研究[J].电子设计工程,2018,26(22):147-150. 被引量：3
4黄莉峥,刘嘉勇,郑荣锋,李孟铭.一种基于暗网的威胁情报主动获取框架[J].信息安全研究,2020,6(2):131-138. 被引量：7

1陈建彪.面向领域的Web信息自动抽取技术研究[J].计算机光盘软件与应用,2012,15(24):59-60.
2徐建民.基于主题文档的分析方法及其应用(英文)[J].河北大学学报（自然科学版）,2002,22(4):377-380.
3张敏.信息抽取技术在网页中的应用[J].中国城市经济,2011(20):150-151.
4徐铁,耿佳宁.网页信息抽取方法的研究[J].信息技术,2009,33(4):112-115. 被引量：4
5罗超然,王纯,廖建新.新闻网页内容抽取模块的设计与实现[J].电信技术,2014(5):85-87. 被引量：1
6邓垦,胡勇.基于DOM树的通用论坛抽取技术[J].网络安全技术与应用,2015(1):20-20. 被引量：1
7王志,吴卫东,熊洛,邹小虎.Web测试与链路瓶颈分析系统设计与实现[J].微计算机信息,2011,27(5):149-151.
8孙建红,耿爱丽,郭文峰.智能导库工具研究与实现[J].中国高校科技,2006(S3):197-198.
9高永平.基于脚本代码和局部数据匹配的网页抽取研究[J].计算机光盘软件与应用,2014,17(15):124-124.
10陈巧灵,廖祥文,魏晶晶,陈国龙.基于DOM树层次特征的多记录网页抽取[J].模式识别与人工智能,2015,28(2):125-131. 被引量：6

现代图书情报技术

2007年第4期

浏览历史

内容加载中请稍等...

基于熵的新闻网页抽取方法的研究被引量：2

参考文献3

二级参考文献16

共引文献30

同被引文献22

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于熵的新闻网页抽取方法的研究 被引量：2

参考文献3

二级参考文献16

共引文献30

同被引文献22

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于熵的新闻网页抽取方法的研究被引量：2