期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于差异性评估对Co-training文本分类算法的改进
被引量:
4
1
作者
唐焕玲
林正奎
鲁明羽
《电子学报》
EI
CAS
CSCD
北大核心
2008年第B12期138-143,共6页
Co-training算法要求两个特征视图满足一致性和独立性假设,但是,许多实际应用中不存自然的划分且满足这种假设的两个视图,且直接评估两个视图的独立性有一定的难度.分析Co-training的理论假设,本文把寻找两个满足一致性和独立性特征视...
Co-training算法要求两个特征视图满足一致性和独立性假设,但是,许多实际应用中不存自然的划分且满足这种假设的两个视图,且直接评估两个视图的独立性有一定的难度.分析Co-training的理论假设,本文把寻找两个满足一致性和独立性特征视图的目标,转变成寻找两个既满足一定的正确性,又存在较大的差异性的两个基分类器的问题.首先利用特征评估函数建立多个特征视图,每个特征视图包含足够的信息训练生成一个基分类器,然后通过评估基分类器之间的差异性间接评估二者的独立性,选择两个满足一定的正确性和差异性比较大的基分类器协同训练.根据每个视图上采用的分类算法是否相同,提出了两种改进算法TV-SC和TV-DC.实验表明改进的TV-SC和TV-DC算法明显优于基于随机分割特征视图的Co-Rnd算法,而且TV-DC算法的分类效果要优于TV-SC算法.
展开更多
关键词
半监督文本分类
CO-TRAINING
特征视图
差异性评估
标注
文本
未标注
文本
下载PDF
职称材料
一种利用近邻和信息熵的主动文本标注方法
被引量:
4
2
作者
朱岩
景丽萍
于剑
《计算机研究与发展》
EI
CSCD
北大核心
2012年第6期1306-1312,共7页
由于大规模标注文本数据费时费力,利用少量标注样本和大量未标注样本的半监督文本分类发展迅速.在半监督文本分类中,少量标注样本主要用来初始化分类模型,其合理性将影响最终分类模型的性能.为了使标注样本尽可能吻合原始数据的分布,提...
由于大规模标注文本数据费时费力,利用少量标注样本和大量未标注样本的半监督文本分类发展迅速.在半监督文本分类中,少量标注样本主要用来初始化分类模型,其合理性将影响最终分类模型的性能.为了使标注样本尽可能吻合原始数据的分布,提出一种避开选择已标注样本的K近邻来抽取下一组候选标注样本的方法,使得分布在不同区域的样本有更多的标注机会.在此基础上,为了获得更多的类别信息,在候选标注样本中选择信息熵最大的样本作为最终的标注样本.真实文本数据上的实验表明了提出方法的有效性.
展开更多
关键词
半监督文本分类
主动学习
近邻
信息熵
标注方法
下载PDF
职称材料
题名
基于差异性评估对Co-training文本分类算法的改进
被引量:
4
1
作者
唐焕玲
林正奎
鲁明羽
机构
大连海事大学信息科学技术学院
烟台职业学院计算机与信息工程系
出处
《电子学报》
EI
CAS
CSCD
北大核心
2008年第B12期138-143,共6页
基金
国家自然科学基金(No.60773084,J0724003,60603023)
教育部博士点基金(No.20070151009)
文摘
Co-training算法要求两个特征视图满足一致性和独立性假设,但是,许多实际应用中不存自然的划分且满足这种假设的两个视图,且直接评估两个视图的独立性有一定的难度.分析Co-training的理论假设,本文把寻找两个满足一致性和独立性特征视图的目标,转变成寻找两个既满足一定的正确性,又存在较大的差异性的两个基分类器的问题.首先利用特征评估函数建立多个特征视图,每个特征视图包含足够的信息训练生成一个基分类器,然后通过评估基分类器之间的差异性间接评估二者的独立性,选择两个满足一定的正确性和差异性比较大的基分类器协同训练.根据每个视图上采用的分类算法是否相同,提出了两种改进算法TV-SC和TV-DC.实验表明改进的TV-SC和TV-DC算法明显优于基于随机分割特征视图的Co-Rnd算法,而且TV-DC算法的分类效果要优于TV-SC算法.
关键词
半监督文本分类
CO-TRAINING
特征视图
差异性评估
标注
文本
未标注
文本
Keywords
semi-supervised text categorization
Co-training
features views
diversity measures
labeled documents
unlabeled documents
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
一种利用近邻和信息熵的主动文本标注方法
被引量:
4
2
作者
朱岩
景丽萍
于剑
机构
北京交通大学计算机科学系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2012年第6期1306-1312,共7页
基金
中央高校基金科研业务费专项资金项目(2009YJS026)
北京交通大学优秀博士生科技创新基金项目(141097522)
+2 种基金
国家自然科学基金项目(0905028
90820013
60875031)
文摘
由于大规模标注文本数据费时费力,利用少量标注样本和大量未标注样本的半监督文本分类发展迅速.在半监督文本分类中,少量标注样本主要用来初始化分类模型,其合理性将影响最终分类模型的性能.为了使标注样本尽可能吻合原始数据的分布,提出一种避开选择已标注样本的K近邻来抽取下一组候选标注样本的方法,使得分布在不同区域的样本有更多的标注机会.在此基础上,为了获得更多的类别信息,在候选标注样本中选择信息熵最大的样本作为最终的标注样本.真实文本数据上的实验表明了提出方法的有效性.
关键词
半监督文本分类
主动学习
近邻
信息熵
标注方法
Keywords
semi-supervised text classification
active learning
nearest neighbor
informationentropy
labeling strategy
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于差异性评估对Co-training文本分类算法的改进
唐焕玲
林正奎
鲁明羽
《电子学报》
EI
CAS
CSCD
北大核心
2008
4
下载PDF
职称材料
2
一种利用近邻和信息熵的主动文本标注方法
朱岩
景丽萍
于剑
《计算机研究与发展》
EI
CSCD
北大核心
2012
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部