-
题名基于SVM和扩展条件随机场的Web实体活动抽取
被引量:15
- 1
-
-
作者
张传岩
洪晓光
彭朝晖
李庆忠
-
机构
山东大学计算机科学与技术学院
-
出处
《软件学报》
EI
CSCD
北大核心
2012年第10期2612-2627,共16页
-
基金
国家自然科学基金(61003051)
国家科技支撑计划(2009BAH44B02)
+1 种基金
山东省自然科学基金(2009ZRB019RW)
山东省科技攻关计划(2010GGX10108)
-
文摘
在传统信息抽取的基础上,研究Web实体活动抽取,基于格语法对实体活动进行了形式化定义,并提出一种基于SVM(supported vector machine)和扩展条件随机场的Web实体活动抽取方法,能够从Web上准确地抽取实体的活动信息.首先,为了避免人工标注训练数据的繁重工作,提出一种基于启发式规则的训练数据生成算法,将语义角色标注的训练数据集转化为适合Web实体活动抽取的训练数据集,分别训练支持向量机分类器和扩展条件随机场.在抽取过程中,通过分类器获得包含实体活动的语句,然后利用扩展条件随机场对传统条件随机场中不能利用的标签频率特征和关系特征建模,标注自然语句中的待抽取信息,提高标注的准确率.通过多领域的实验,其结果表明,所提出的抽取方法能够较好地适用于Web实体活动抽取.
-
关键词
信息抽取
格语法
实体活动
支持向量机
扩展条件随机场
-
Keywords
information extraction
case grammar
entity activity
support vector machine
extended condition random fields
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-