摘要
直推式支持向量机是一种直接从已知样本出发对特定的未知样本进行识别的分类技术。在分析直推式支持向量机分类原理的基础上,提出一种基于直推式支持向量机的Web信息抽取方法,直接从分类的角度抽取Web信息。只需要提供少量标记样本就可以实现对大量未标注样本的分类标注,从而以分类的方式完成Web数据抽取任务。实验结果表明,使用这种方法进行Web信息抽取是有效性。
Transductive Support Vector Machines(TSVM) classify the new data vector based on the information only related to this data vector.This paper proposes a Web information extraction method based on TSVM and extract Web information with the classify angle.It needs far less tagged samples to carry out classify mark a lot of untagged samples and complete Web information extraction by classified way.The results show that TSVM can be used in Web information extraction.
出处
《计算机工程与应用》
CSCD
北大核心
2009年第2期147-149,共3页
Computer Engineering and Applications
关键词
WEB信息抽取
分类学习
直推式支持向量机
Web information extraction
classification learning
Transductive Support Vector Machine(TSVM)