基于网页格式信息量的博客文章和评论抽取模型被引量：15

Extraction Model Based on Web Format Information Quantity in Blog Post and Comment Extraction

下载PDF

导出

摘要从信息论的角度出发,提出了一个基于网页格式信息量的博客文章和评论抽取模型.首先,结合网页视觉上的位置信息和文本的有效信息来定位网页正文.其次,利用博客网页中的格式信息作为信息单元并计算每个信息块所包含的格式信息量,通过计算最小切分位置信息量来切分正文中的文章和评论.该模型具有与语言无关的特点,因此具有一定的通用性.实验结果表明,该模型在博客正文定位和正文切分方面达到了较高的精确率. Based on the information theory, this paper presents a model based on Web format information quantity in blog information extraction. First, the vision information in blog Web page and the effective text information are combined to locate the main text which represents the theme of the blog Web page. Second, the format information ofblog Web page is used to calculate the information quantity of each block and the minimal separating information quantity of separate position is used to detect the boundary of posts and comments in the main text. This model is language insensitive and can be used in a lot of blogs which are written in different natural languages. Experimental results show that this method achieves high precision in locating main text and separating the post and comment.

作者曹冬林廖祥文许洪波白硕

机构地区中国科学院计算技术研究所网络科学与技术研究部中国科学院研究生院厦门大学智能科学系

出处《软件学报》 EI CSCD 北大核心 2009年第5期1282-1291,共10页 Journal of Software

基金国家重点基础研究发展计划(973)Nos.2004CB318109,2007CB311100 国家高技术研究发展计划(863)No.2007AA01Z441~~

关键词博客信息抽取最小正文子树有效信息率网页格式信息视觉信息切分位置信息量 blog information extraction, minimal main text subtree effective information ratio Web format information vision information information quantity of separate position

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1郑家恒,王兴义,李飞.信息抽取模式自动生成方法的研究[J].中文信息学报,2004,18(1):48-54. 被引量：22

二级参考文献5

1[1]Ellen Riloff. Automatically Constructing a Dictionary for Information Extraction Tasks[C]. In: Proceedings of the Eleventh National Conference on Artificial Intelligence, 811-816. AAAI Press/ The MIT Press, 1993.
2[2]Stephen Soderland, David Fisher, Jonathan Aseltine, and Wendy Lehnert. CRYSTAL: Inducing a conceptual dictionary[C]. In: Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence, 1314-1319, 1995.
3[3]Ellen Riloff. Automatically Generating Extraction Patterns from Untagged Text[C]. In: Proceedings of Thirteenth National Conference on Artificial Intelligence (AAAI-96), 1044-1049. 1996.
4[4]Ellen Riloff, Rosie Jones. Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping[C]. In: Proceedings of the Sixteenth National Conference on Artificial Intelligence (AAAI-99), Orlando FL. 1999.
5[5]Roman Yangarber, Ralph Grishman, Pasi Tapanainen and Silja Huttunen. Unsupervised Discovery of Scenario-Level Patterns for Information Extraction[C]. In: Proceedings of Sixth Applied Natural Language Processing Conference (ANLP-2000), 282-289, Seattle WA. 2000.

共引文献21

1袁毓林.用动词的论元结构跟事件模板相匹配——一种由动词驱动的信息抽取方法[J].中文信息学报,2005,19(5):37-43. 被引量：22
2郑家恒,菅小艳.农作物信息抽取系统的设计与实现[J].计算机工程,2006,32(7):197-198. 被引量：5
3奚斌,钱龙华,周国栋,朱巧明,钱培德.语言学组合特征在语义关系抽取中的应用[J].中文信息学报,2008,22(3):44-49. 被引量：16
4许威,赵克,亿珍珍.一个确定汉语句子主干的递归模型[J].航空计算技术,2008,38(4):66-69. 被引量：1
5贾美英,杨炳儒,郑德权,曹鸿强,杨靖,张练.基于模式匹配的军事演习情报信息抽取[J].现代图书情报技术,2009(9):70-75. 被引量：4
6吕国英,冯艳,李茹.基于CFN的教材内容提要信息抽取研究[J].山西大学学报（自然科学版）,2010,33(1):71-76. 被引量：1
7高文利.基于本体的军备情报抽取系统的设计与实现[J].现代图书情报技术,2010(1):83-87. 被引量：2
8郭俊荣,杨捧,王紫薇.一种基于信息粒度的信息检索优化方法[J].计算机仿真,2010,27(8):153-156. 被引量：1
9Yi Junkai Tang Shuo Li Hui.Data Recovery Based on Intelligent Pattern Matching[J].China Communications,2010,7(6):107-111. 被引量：1
10屈赟,杨捧,张文静.基于信息粒度的主题相似性信息检索[J].河北农业大学学报,2011,34(1):114-118.

同被引文献134

1杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
4张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
5于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
6朱德利.Web2．0的技术特点和信息传播思想[J].现代情报,2005,25(12):74-76. 被引量：51
7朱永盛,武港山.基于Web的新闻信息抽取[J].计算机工程,2006,32(10):74-76. 被引量：11
8李明,张为群.基于标记树的WEB页面净化技术研究[J].西南师范大学学报（自然科学版）,2006,31(5):128-131. 被引量：3
9林科锵,左志宏,林琳.Web表格信息抽取的研究[J].通讯和计算机（中英文版）,2005,2(8):27-31. 被引量：1
10张瑞,李石君.网上表格数据到XML的自动转换[J].计算机工程与应用,2007,43(2):190-192. 被引量：5

引证文献15

1余伟.基于本体的微博客用户行为模型研究[J].广东技术师范学院学报,2010,31(6):27-30. 被引量：6
2张艳.一个RSS级别的网页主题内容抽取方法与系统[J].图书情报工作,2010,54(14):107-110.
3曾广朴,陶维安.基于信息量的Web表格信息抽取方法[J].西南师范大学学报（自然科学版）,2010,35(4):159-163. 被引量：2
4陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22
5范纯龙,夏佳,肖昕,吕红伟,徐蕾.基于功能语义单元的博客评论抽取技术[J].计算机应用,2011,31(9):2417-2420. 被引量：3
6梁正友,欧杰,俞闽敏.基于图文有效信息量的网页正文定位[J].计算机工程,2011,37(23):276-278. 被引量：2
7张玉峰,何超.基于Web评论挖掘的动态竞争情报分析研究(下)——算法设计与实验分析[J].情报理论与实践,2012,35(7):47-50. 被引量：4
8李志义,沈之锐.基于自然标注的网页信息抽取研究[J].情报学报,2013,32(8):853-859. 被引量：4
9向程冠,熊世桓.一种基于特征树的Web碎片信息抽取算法[J].兰州理工大学学报,2014,40(1):104-107. 被引量：3
10李湘东,霍亚勇,黄莉.图书网页的自动识别及书目信息抽取研究[J].现代图书情报技术,2014(4):71-77. 被引量：3

二级引证文献67

1王浩.彩色图像视觉目标区域轨迹点跟踪方法[J].周口师范学院学报,2020(2):129-133.
2来建梅,曹慧,马金刚.中医药领域信息抽取技术的研究与应用[J].山东科学,2011,24(6):88-91. 被引量：2
3蒋琴琴,宫哲,辛阳.基于HTML Parser的BBS信息抽取系统的设计与实现[J].自动化技术与应用,2012,31(1):32-37. 被引量：4
4王荷琴.微博的营销价值探索[J].宁波广播电视大学学报,2012,10(1):4-6. 被引量：3
5张彩月.基于网页结构的WEB信息抽取系统设计[J].计算机光盘软件与应用,2012,15(6):155-157.
6任沁,刘伟.本体技术在用户兴趣建模中的应用研究[J].信息系统工程,2012,25(5):108-109. 被引量：5
7张玉峰,何超.基于Web评论挖掘的动态竞争情报分析研究(下)——算法设计与实验分析[J].情报理论与实践,2012,35(7):47-50. 被引量：4
8陈建彪.面向领域的Web信息自动抽取技术研究[J].计算机光盘软件与应用,2012,15(24):59-60.
9孙安龙,王佳佳.酒店企业微博营销效果影响因素与策略[J].郑州航空工业管理学院学报,2013,31(3):78-84. 被引量：12
10周建,汤进,罗斌.基于DOM结构树的网页正文信息分段方法[J].计算机与现代化,2013(10):229-232. 被引量：2

1詹茂森.基于社会计算的个性化推荐系统的设计[J].电脑知识与技术,2013,9(12X):8222-8224. 被引量：1
2杨永敏,樊继壮,赵杰.基于超熵和模糊集理论的带钢表面缺陷分割[J].光学精密工程,2011,19(7):1651-1658. 被引量：13
3曾广朴,陶维安.基于信息量的Web表格信息抽取方法[J].西南师范大学学报（自然科学版）,2010,35(4):159-163. 被引量：2
4李荣荣,寇建涛,董刚,唐良瑞.面向智慧园区的RFID系统信息安全认证方案[J].电信科学,2016,32(2):164-169. 被引量：4
5欧亚梅.网页设计中的视觉节省研究[J].武汉工程职业技术学院学报,2012,24(4):36-39. 被引量：2
6吕文静.浅析网页视觉设计[J].郑州铁路职业技术学院学报,2011,23(3):31-33.
7封硕,赵捧未,施水才.基于RSS的分布式博客搜索引擎的研究[J].情报杂志,2007,26(8):96-97. 被引量：6
8王浩.新一代博客搜索引擎的开发[J].黑龙江科技信息,2008(11):51-51.
9李少年,吴良刚.基于邻域信息熵度量数值属性快速约简算法[J].计算机工程与科学,2016,38(2):350-355. 被引量：7
10李雷,张兴,张明德,孙小菡.具有安全间隔和通用参数的OBS突发装配算法[J].应用科学学报,2005,23(6):563-567. 被引量：2

软件学报

2009年第5期

浏览历史

内容加载中请稍等...

基于网页格式信息量的博客文章和评论抽取模型被引量：15

参考文献1

二级参考文献5

共引文献21

同被引文献134

引证文献15

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

基于网页格式信息量的博客文章和评论抽取模型 被引量：15

参考文献1

二级参考文献5

共引文献21

同被引文献134

引证文献15

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

基于网页格式信息量的博客文章和评论抽取模型被引量：15