基于模板化的Blog信息抽取被引量：5

Blog information extraction based on template

下载PDF

导出

摘要 Blog(博客)可以称为在线个人日志。作为一种新兴的媒体,Blog目前已经成为一种在Web上表达个人观点和情感的一种非常流行的方式。那么如何从Blog中快速准确地抽取有用的信息(话题发布时间、话题题目、话题内容、评论内容等)就成为了Blog应用中一个非常重要的步骤。提出了一种基于模板化的Blog信息抽取方法,该方法通过分析Blog网站的HTML源代码,然后提取出网站的模板,并根据该模板对Blog网页进行信息抽取。对来自国内10个著名博客网站进行模板的提取,并对这10个网站中的7374个Blog网页进行了实验,实验结果表明,该方法能根据提取出的模板快速、准确地对Blog网页进行信息抽取。 Blog is called online personal diaries.Being a kind of rising media,Blog has become a prevalent way to express personal opinions and emotions on Web.So how to extract useful information （topic posting date,topic title,topic content,comments, etc.） from Blogs has become an imporiant step in Blogs＇ application.This paper presents an approach of Blog information extraction based on template.This approach generates templates of Blog web sites by analyzing source codes,and it then extracts Blog web pages according to these templates.In this paper,templates of 10 famous Blog web sites are extracted,and experiment results on a set of 7 374 web pages from these 10 web sites show that this approach can extracted information from Blogs rapidly and exactly according to the templates.

作者时达明林鸿飞赵晶

机构地区大连理工大学计算机科学与工程系

出处《计算机工程与应用》 CSCD 北大核心 2008年第9期156-158,177,共4页 Computer Engineering and Applications

基金国家自然科学基金(the National Natural Science Foundation of China under Grant No.60373095 No.60673039) 国家高技术研究发展计划(863)(the National High-Tech Research and Development Plan of China under Grant No.2006AA01Z151)

关键词博客信息抽取模板 Blog information extraction template

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2Mishne G,Glance N.Leave a reply:an analysis of weblog comments[C]//Third Annual Workshop on the Weblogging Ecosystem, Edinburgh, Scotland, May 2006.
3Oka M,Abe H,Kato K.Extracting topics from weblogs through frequency segments[C]//Proceedings of the WWW06 Workshop on Web Intelligence, 2006.
4国内八大著各中文博客系统横向评测[EB/OL].(2006-02-21),http://tech.sina.com.cn/s/2006-02-21/1503847398.shtml.
5HTML parser[EB/OL].[2006-09-17].http://htmlparser.sourceforge.net/.

二级参考文献4

1荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101

共引文献69

1王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
2郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
3许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11
4刘晨曦,吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报（自然科学版）,2007,25(2):149-152. 被引量：8
5冯少卿,都云程.网页结构模板生成新方法研究[J].北京机械工业学院学报,2007,22(3):15-19. 被引量：2
6张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
7时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[J].计算机工程,2007,33(19):276-278. 被引量：17
8王建冬,王继民,田飞佳.一种基于内容规则的网页去噪算法[J].现代图书情报技术,2008(3):51-54. 被引量：4
9万乐,左万利,高金.基于主题的网页噪音去除机制[J].计算机工程与设计,2008,29(8):2072-2074. 被引量：8
10孙桂煌,刘发升.基于正文特征的网页正文信息提取方法[J].现代计算机,2008,14(9):34-38. 被引量：5

同被引文献54

1杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
4张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
5车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
6许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
7胡水星.基于模糊理论的网络课程评价系统设计与实现[J].电化教育研究,2006,27(6):52-55. 被引量：28
8黄勇,李玉华.数据挖掘在《大学物理》网络教学中的应用[J].计算机技术与发展,2006,16(11):175-178. 被引量：2
9赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
10刘迁,焦慧,贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究,2007,24(7):6-9. 被引量：41

引证文献5

1王满,徐朝军.网络课程资源自动量化评价研究[J].现代图书情报技术,2010(1):88-93. 被引量：7
2陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22
3来建梅,曹慧,马金刚.中医药领域信息抽取技术的研究与应用[J].山东科学,2011,24(6):88-91. 被引量：2
4李嘉,徐前,王梓,陈钊.基于语义的林产品贸易Web信息抽取算法[J].计算机工程与应用,2014,50(19):199-204. 被引量：1
5E CHANG.Implementation of a weblog extraction system with an improved template extraction technique[J].Chinese Journal of Library and Information Science,2013(1):52-63.

二级引证文献32

1毕艳芳,郑雯译,秦鸿.重点学科网络原生数字资源导航平台建设[J].图书情报工作,2011,55(S2):96-98. 被引量：4
2来建梅,曹慧,马金刚.中医药领域信息抽取技术的研究与应用[J].山东科学,2011,24(6):88-91. 被引量：2
3蒋琴琴,宫哲,辛阳.基于HTML Parser的BBS信息抽取系统的设计与实现[J].自动化技术与应用,2012,31(1):32-37. 被引量：4
4曲郁生.基于网络信息计量学的网络课程评价方法的研究[J].成都电子机械高等专科学校学报,2012,15(1):57-60.
5张彩月.基于网页结构的WEB信息抽取系统设计[J].计算机光盘软件与应用,2012,15(6):155-157.
6胡人月,姚逸.中医药信息学的应用研究概述[J].大众科技,2012,14(8):162-163.
7陈建彪.面向领域的Web信息自动抽取技术研究[J].计算机光盘软件与应用,2012,15(24):59-60.
8王嘉琦,徐朝军,李艺.基于LDA模型的社交网站自动量化评价研究[J].现代图书情报技术,2013(3):58-64. 被引量：1
9胡坚.CIPP支持的高职共享型教学资源库质量评价模式研究[J].中国电子商务,2013(22):151-152.
10张奇,郝志峰,温雯,蔡瑞初.基于互信息度量的Web信息抽取[J].计算机应用与软件,2013,30(12):15-18. 被引量：5

1Google推出支持手机的博客服务[J].电脑爱好者,2004(11):22-22.
2daigua.揭秘百度新宠儿百度空间[J].计算机应用文摘,2006,22(20):84-84.
3刘仕勇.做个潇洒UU Blogger[J].互联网天地,2005(10):40-40.
4张婷.RSS阅读选择适合你的新闻阅读方式[J].新电脑,2005(10):158-163. 被引量：1
5李江卫.使用Outlook和IE时无法查看源文件[J].个人电脑,2004,10(10):385-386.
6金华.HTML源代码即指即现[J].电脑爱好者,2003(1):89-89.
7王峥,佟志强.虚拟现实系统中实现真实感影像的一种方法[J].现代电影技术,2007(8):25-28.
8韦泉芳.浅谈网络舆情的现状与引导[J].科技风,2014(5):182-182.
9陈曦.移动流媒体的兴起[J].记者摇篮,2005(8):34-34. 被引量：3
10畅所欲言尽在掌握打造自己的Blog网站[J].新电脑,2006,30(9):176-179.

计算机工程与应用

2008年第9期

浏览历史

内容加载中请稍等...

基于模板化的Blog信息抽取被引量：5

参考文献5

二级参考文献4

共引文献69

同被引文献54

引证文献5

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于模板化的Blog信息抽取 被引量：5

参考文献5

二级参考文献4

共引文献69

同被引文献54

引证文献5

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于模板化的Blog信息抽取被引量：5