-
题名采用开放语料库的跨领域模式自动获取
被引量:1
- 1
-
-
作者
曾兴杰
李芳
张冬茉
-
机构
上海交通大学计算机系
-
出处
《计算机仿真》
CSCD
2005年第4期259-263,293,共6页
-
文摘
信息抽取模式的自动获取不仅能极大地减少所需的工作量,而且对于信息抽取系统的可扩充性和可移植性都至关重要。该文提出的采用开放语料库的跨领域模式自动获取方法是采用开放的训练语料库来自动生成领域无关的抽取模式,借助模式和实例之间的二元性,不断获取新的语料对系统进行训练,从而克服以往训练语料库规模较小的缺点。该方法尽可能减少了领域相关性,领域移植的代价很小。由于采用开放语料,该文提出了一种通过机器学习使用统计模型来自动选取用于模式生成和评价的正反实例的方法。根据在投资领域的测试结果,该方法获得了较好的效果,模式抽取的平均查准率达到92%,平均召回率达到42.4%。
-
关键词
模式自动获取
开放语料库
跨领域
模式和实例的二元性
统计判断模型
正反实例判断
-
Keywords
Pattern acquisition
Dynamic training corpus
Domain portable
Duality between patterns and instances
Statistical model
Machine lea rning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-