-
题名一种Web评论自动抽取方法
被引量:12
- 1
-
-
作者
刘伟
严华梁
肖建国
曾建勋
-
机构
中国科学技术信息研究所
北京大学计算机科学技术研究所
-
出处
《软件学报》
EI
CSCD
北大核心
2010年第12期3220-3236,共17页
-
基金
国家高技术研究发展计划(863)No.2008AA01Z421
中国博士后科学基金Nos.20080440256,200902014~~
-
文摘
Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致性严重影响了评论记录在DOM树和视觉上的相似性;其次,评论内容在DOM树中是一棵复杂的子树,而且彼此之间在DOM树中的结构相差巨大.为了解决这两个问题,提出了一种完整的解决方案,使用多种技术来实现对用户评论内容的抽取.抽取过程分为两个步骤,基于深度加权的树相似性算法评论记录首先从网页中抽取出来,然后通过比较DOM树中节点的一致性,将纯粹的用户评论内容从评论记录中抽取出来.在多个新闻网站和论坛网站上的实验结果表明,该方法可以达到较高的准确度和效率.
-
关键词
Web用户评论
结构化数据记录
WEB数据抽取
-
Keywords
Web user review
structured data record
Web data extraction
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种统一的Web新闻对象自动抽取方法
被引量:4
- 2
-
-
作者
刘伟
严华梁
-
机构
中国科学技术信息研究所
北京大学计算机科学技术研究所
-
出处
《计算机工程》
CAS
CSCD
2012年第11期167-169,共3页
-
基金
国家"863"计划基金资助项目(2008AA01Z421)
中国科学技术信息研究所预研基金资助项目(YY-201103)
-
文摘
提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板。
-
关键词
WEB数据抽取
视觉特征
序列标注
网页模板
新闻属性
新闻对象
-
Keywords
Web data extraction
visual feature
sequence tagging
Web page template
news attribute
news object
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-