期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
基于图的Co-Training网页分类 被引量:9
1
作者 侯翠琴 焦李成 《电子学报》 EI CAS CSCD 北大核心 2009年第10期2173-2180,2219,共9页
本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithmfor web page classification),简称GCo-training,并从理论上证明了... 本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithmfor web page classification),简称GCo-training,并从理论上证明了算法的有效性.GCo-training在Co-training算法框架下,迭代地学习一个基于由超链接信息构造的图的半监督分类器和一个基于文本特征的Bayes分类器.基于图的半监督分类器只利用少量的标记数据,通过挖掘数据间大量的关系信息就可达到比较高的预测精度,可为Bayes分类器提供大量的标记信息;反过来学习大量标记信息后的Bayes分类器也可为基于图的分类器提供有效信息.迭代过程中,二者互相帮助,不断提高各自的性能,而后Bayes分类器可以用来预测大量未见数据的类别.在Web→KB数据集上的实验结果表明,与利用文本特征和锚文本特征的Co-training算法和基于EM的Bayes算法相比,GCo-training算法性能优越. 展开更多
关键词 半监督 co-training 归纳式 网页分类
下载PDF
基于差异性评估对Co-training文本分类算法的改进 被引量:4
2
作者 唐焕玲 林正奎 鲁明羽 《电子学报》 EI CAS CSCD 北大核心 2008年第B12期138-143,共6页
Co-training算法要求两个特征视图满足一致性和独立性假设,但是,许多实际应用中不存自然的划分且满足这种假设的两个视图,且直接评估两个视图的独立性有一定的难度.分析Co-training的理论假设,本文把寻找两个满足一致性和独立性特征视... Co-training算法要求两个特征视图满足一致性和独立性假设,但是,许多实际应用中不存自然的划分且满足这种假设的两个视图,且直接评估两个视图的独立性有一定的难度.分析Co-training的理论假设,本文把寻找两个满足一致性和独立性特征视图的目标,转变成寻找两个既满足一定的正确性,又存在较大的差异性的两个基分类器的问题.首先利用特征评估函数建立多个特征视图,每个特征视图包含足够的信息训练生成一个基分类器,然后通过评估基分类器之间的差异性间接评估二者的独立性,选择两个满足一定的正确性和差异性比较大的基分类器协同训练.根据每个视图上采用的分类算法是否相同,提出了两种改进算法TV-SC和TV-DC.实验表明改进的TV-SC和TV-DC算法明显优于基于随机分割特征视图的Co-Rnd算法,而且TV-DC算法的分类效果要优于TV-SC算法. 展开更多
关键词 半监督文本分类 co-training 特征视图 差异性评估 标注文本 未标注文本
下载PDF
基于Co-training的用户属性预测研究
3
作者 金玉 王霞 +2 位作者 琚生根 孙界平 刘玉娇 《四川大学学报(工程科学版)》 CSCD 北大核心 2017年第S2期179-185,共7页
针对当前基于第三方应用数据进行用户属性预测算法研究,其较少考虑应用前台实际使用时长问题,由此,本文在应用的使用频率及使用时长的基础上,构造了应用前台均使用时长特征,该特征能进一步刻画用户对应用的兴趣度;同时,为充分利用大量... 针对当前基于第三方应用数据进行用户属性预测算法研究,其较少考虑应用前台实际使用时长问题,由此,本文在应用的使用频率及使用时长的基础上,构造了应用前台均使用时长特征,该特征能进一步刻画用户对应用的兴趣度;同时,为充分利用大量未标注数据,从多角度特征对用户属性进行预测,由此本文采用了Co-training框架,该框架包含两个均由栈式自编码器与神经网络相结合的网络结构。实验过程中,对于栈式自编码算法,先利用未标注的数据对网络进行参数初始化,使得网络参数处于一个较优的位置,再利用有标注的数据,采用基于准确率的梯度下降算法,对网络参数进行更新,最终达到收敛。实验结果表明,本文算法在准确率、召回率、F1值上均有所提高。 展开更多
关键词 用户属性 co-training 栈式自编码 梯度下降算法
下载PDF
半监督学习的Co-training算法研究 被引量:1
4
作者 刘蓉 《电脑编程技巧与维护》 2010年第14期4-5,共2页
介绍一种基于半监督学习的协同训练(Co-training)分类算法,当可用的训练样本比较少时,使用传统的方法进行分类,如决策树分类,将无法得到用户满意的结果,而且它们需要大量的标记样本。事实上,获取有标签的样本的代价是相当昂贵的。于是,... 介绍一种基于半监督学习的协同训练(Co-training)分类算法,当可用的训练样本比较少时,使用传统的方法进行分类,如决策树分类,将无法得到用户满意的结果,而且它们需要大量的标记样本。事实上,获取有标签的样本的代价是相当昂贵的。于是,使用较少的已标记样本和大量的无标记样本进行协同训练的半监督学习,成为研究者首选。 展开更多
关键词 半监督学习 协同训练(co-training) 分类
下载PDF
基于样本条件价值改进的Co-training算法 被引量:4
5
作者 程圣军 刘家锋 +1 位作者 黄庆成 唐降龙 《自动化学报》 EI CSCD 北大核心 2013年第10期1665-1673,共9页
Co-training是一种主流的半监督学习算法.该算法中两视图下的分类器通过迭代的方式,互为对方从无标记样本集中挑选新增样本,以更新对方训练集.Co-training以分类器的后验概率输出作为新增样本的挑选策略,该策略忽略了样本对于当前分类... Co-training是一种主流的半监督学习算法.该算法中两视图下的分类器通过迭代的方式,互为对方从无标记样本集中挑选新增样本,以更新对方训练集.Co-training以分类器的后验概率输出作为新增样本的挑选策略,该策略忽略了样本对于当前分类器的价值.针对该问题,本文提出一种改进的Co-training式算法—CVCOT(Conditional value-based co-training),即采用基于样本条件价值的挑选策略来优化Co-training.通过定义无标记样本的条件价值,各视图下的分类器以样本条件价值为依据来挑选新增样本,以此更新训练集.该策略既可保证新增样本的标记可靠性,又能优先将价值较高的富信息样本补充到训练集中,可以有效地优化分类器.在UCI数据集和网页分类应用上的实验结果表明:CVCOT具有较好的分类性能和学习效率. 展开更多
关键词 机器学习 半监督学习 co-training 富信息样本 条件价值
下载PDF
Co-training机器学习方法在中文组块识别中的应用 被引量:8
6
作者 刘世岳 李珩 +1 位作者 张俐 姚天顺 《中文信息学报》 CSCD 北大核心 2005年第3期73-79,共7页
采用半指导机器学习方法co training实现中文组块识别。首先明确了中文组块的定义,co training算法的形式化定义。文中提出了基于一致性的co training选取方法将增益的隐马尔可夫模型(TransductiveHMM)和基于转换规则的分类器(fnTBL)组... 采用半指导机器学习方法co training实现中文组块识别。首先明确了中文组块的定义,co training算法的形式化定义。文中提出了基于一致性的co training选取方法将增益的隐马尔可夫模型(TransductiveHMM)和基于转换规则的分类器(fnTBL)组合成一个分类体系,并与自我训练方法进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识别,实验结果要比单纯使用小规模的树库语料有所提高,F值分别达到了85 34%和83 4 1% ,分别提高了2 13%和7 2 1%。 展开更多
关键词 计算机应用 中文信息处理 co-training算法 中文组块 分类器
下载PDF
用于在线产品评论质量分析的Co-training算法 被引量:6
7
作者 靳健 季平 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第3期289-295,共7页
在线评论广泛存在于电子商务网站平台,其中包含着客户对产品的评价及偏好.高效分析在线评论数据并满足客户需求,对许多谋求立足于竞争激烈的国际化市场的企业来说至关重要.但因在线评论的质量不一,使得如何分析在线评论的质量成为一项... 在线评论广泛存在于电子商务网站平台,其中包含着客户对产品的评价及偏好.高效分析在线评论数据并满足客户需求,对许多谋求立足于竞争激烈的国际化市场的企业来说至关重要.但因在线评论的质量不一,使得如何分析在线评论的质量成为一项重要工作.从两个方面提取特征对在线评论进行描述,并构建了一种Co-training算法来判断评论的质量.通过对比实验验证了该算法相对于单一分类算法的优势. 展开更多
关键词 数据质量 co-training算法 在线产品评论 评论质量 文本挖掘 产品设计
下载PDF
基于Co-training训练CRF模型的评价对象识别 被引量:1
8
作者 张彩琴 王素格 乔磊 《计算机应用与软件》 CSCD 北大核心 2013年第9期32-34,56,共4页
评价对象是指某段评论中评价词语所修饰的对象或对象的属性。为了识别评论中的评价对象,提出基于Co-training的训练CRF模型方法。该方法首先人工标注少量的原始数据集,使用Co-training方式对未标注数据进行自动识别,以扩大已标注训练数... 评价对象是指某段评论中评价词语所修饰的对象或对象的属性。为了识别评论中的评价对象,提出基于Co-training的训练CRF模型方法。该方法首先人工标注少量的原始数据集,使用Co-training方式对未标注数据进行自动识别,以扩大已标注训练数据。通过原始标注数据集和Co-training方式标注数据集,训练CRF模型。在汽车领域中,对待标注汽车评论语料中评价对象识别的精确率为67.483%,召回率为67.832%。 展开更多
关键词 CRF模型 评价对象 特征模板 co-training
下载PDF
Feature selection for co-training 被引量:2
9
作者 李国正 刘天羽 《Journal of Shanghai University(English Edition)》 CAS 2008年第1期47-51,共5页
Co-training is a semi-supervised learning method, which employs two complementary learners to label the unlabeled data for each other and to predict the test sample together. Previous studies show that redundant infor... Co-training is a semi-supervised learning method, which employs two complementary learners to label the unlabeled data for each other and to predict the test sample together. Previous studies show that redundant information can help improve the ratio of prediction accuracy between semi-supervised learning methods and supervised learning methods. However, redundant information often practically hurts the performance of learning machines. This paper investigates what redundant features have effect on the semi-supervised learning methods, e.g. co-training, and how to remove the redundant features as well as the irrelevant features. Here, FESCOT (feature selection for co-training) is proposed to improve the generalization performance of co-training with feature selection. Experimental results on artificial and real world data sets show that FESCOT helps to remove irrelevant and redundant features that hurt the performance of the co-training method. 展开更多
关键词 feature selection semi-supervised learning co-training
下载PDF
Minimax entropy-based co-training for fault diagnosis of blast furnace 被引量:1
10
作者 Dali Gao Chunjie Yang +2 位作者 Bo Yang Yu Chen Ruilong Deng 《Chinese Journal of Chemical Engineering》 SCIE EI CAS CSCD 2023年第7期231-239,共9页
Due to the problems of few fault samples and large data fluctuations in the blast furnace(BF)ironmaking process,some transfer learning-based fault diagnosis methods are proposed.The vast majority of such methods perfo... Due to the problems of few fault samples and large data fluctuations in the blast furnace(BF)ironmaking process,some transfer learning-based fault diagnosis methods are proposed.The vast majority of such methods perform distribution adaptation by reducing the distance between data distributions and applying a classifier to generate pseudo-labels for self-training.However,since the training data is dominated by labeled source domain data,such classifiers tend to be weak classifiers in the target domain.In addition,the features generated after domain adaptation are likely to be at the decision boundary,resulting in a loss of classification performance.Hence,we propose a novel method called minimax entropy-based co-training(MMEC)that adversarially optimizes a transferable fault diagnosis model for the BF.The structure of MMEC includes a dual-view feature extractor,followed by two classifiers that compute the feature's cosine similarity to representative vector of each class.Knowledge transfer is achieved by alternately increasing and decreasing the entropy of unlabeled target samples with the classifier and the feature extractor,respectively.Transfer BF fault diagnosis experiments show that our method improves accuracy by about 5%over state-of-the-art methods. 展开更多
关键词 co-training Fault diagnosis Blast furnace Minimax entropy Transfer learning
下载PDF
Semi-supervised LIBS quantitative analysis method based on co-training regression model with selection of effective unlabeled samples 被引量:1
11
作者 Xiaomeng LI Huili LU +1 位作者 Jianhong YANG Fu CHANG 《Plasma Science and Technology》 SCIE EI CAS CSCD 2019年第3期114-124,共11页
The accuracy of laser-induced breakdown spectroscopy(LIBS) quantitative method is greatly dependent on the amount of certified standard samples used for training. However, in practical applications, only limited stand... The accuracy of laser-induced breakdown spectroscopy(LIBS) quantitative method is greatly dependent on the amount of certified standard samples used for training. However, in practical applications, only limited standard samples with labeled certified concentrations are available. A novel semi-supervised LIBS quantitative analysis method is proposed, based on co-training regression model with selection of effective unlabeled samples. The main idea of the proposed method is to obtain better regression performance by adding effective unlabeled samples in semisupervised learning. First, effective unlabeled samples are selected according to the testing samples by Euclidean metric. Two original regression models based on least squares support vector machine with different parameters are trained by the labeled samples separately, and then the effective unlabeled samples predicted by the two models are used to enlarge the training dataset based on labeling confidence estimation. The final predictions of the proposed method on the testing samples will be determined by weighted combinations of the predictions of two updated regression models. Chromium concentration analysis experiments of 23 certified standard high-alloy steel samples were carried out, in which 5 samples with labeled concentrations and 11 unlabeled samples were used to train the regression models and the remaining 7 samples were used for testing. With the numbers of effective unlabeled samples increasing, the root mean square error of the proposed method went down from 1.80% to 0.84% and the relative prediction error was reduced from 9.15% to 4.04%. 展开更多
关键词 LIBS EFFECTIVE unlabeled samples co-training SEMI-SUPERVISED LABELING CONFIDENCE estimation
下载PDF
Recognition of Chinese Organization Name Using Co-training
12
作者 柯逍 李绍滋 陈锦秀 《Journal of Donghua University(English Edition)》 EI CAS 2010年第2期193-198,共6页
Chinese organization name recognition is hard and important in natural language processing. To reduce tagged corpus and use untagged corpus,we presented combing Co-training with support vector machines (SVM) and condi... Chinese organization name recognition is hard and important in natural language processing. To reduce tagged corpus and use untagged corpus,we presented combing Co-training with support vector machines (SVM) and conditional random fields (CRF) to improve recognition results. Based on principles of uncorrelated and compatible,we constructed different classifiers from different views within SVM or CRF alone and combination of these two models. And we modified a heuristic untagged samples selection algorithm to reduce time complexity. Experimental results show that under the same tagged data,Co-training has 10% F-measure higher than using SVM or CRF alone; under the same F-measure,Co-training saves at most 70% of tagged data to achieve the same performance. 展开更多
关键词 co-training named entity recognition conditional random fields CRF) support vector machines (SVM)
下载PDF
基于K-means算法的Co-trainning的研究
13
作者 李恋 柴豪森 徐浩 《电脑知识与技术》 2020年第32期216-217,共2页
在Co-trainning算法中通过两个训练集互相校正来达成分类,这里两个训练集所用的特征集对结果影响很大,选取两个好的特征集也就可以使Co-trainning算法结果更优。K-means算法是一种聚类算法,在对K-means算法研究和实现时,设计并实验将K-m... 在Co-trainning算法中通过两个训练集互相校正来达成分类,这里两个训练集所用的特征集对结果影响很大,选取两个好的特征集也就可以使Co-trainning算法结果更优。K-means算法是一种聚类算法,在对K-means算法研究和实现时,设计并实验将K-means算法思想运用到Co-trainning算法特征集选取上,效果较好。 展开更多
关键词 K-MEANS算法 co-trainning算法
下载PDF
永久型Windows Rootkit检测技术 被引量:1
14
作者 王全民 于佳耕 +1 位作者 赵彤 韩红英 《计算机工程》 CAS CSCD 北大核心 2008年第18期70-71,74,共3页
永久型Rootkit可以长期隐秘在系统中,并隐藏恶意代码,威胁计算机的安全。该文应用cross-view方法构建监控系统,采用文件系统过滤驱动与钩挂系统服务分析系统行为,判定系统是否已被装入永久型WindowsRootkit,并完成对经典Rootkit-hackerd... 永久型Rootkit可以长期隐秘在系统中,并隐藏恶意代码,威胁计算机的安全。该文应用cross-view方法构建监控系统,采用文件系统过滤驱动与钩挂系统服务分析系统行为,判定系统是否已被装入永久型WindowsRootkit,并完成对经典Rootkit-hackerdefender及它所保护的恶意程序的检测。由于该检测技术使用底层驱动监测,不依赖特征码,因此对内核级和将来出现的Rootkit具有良好的检测效果。 展开更多
关键词 监控系统 永久型Rootkit cross-view方法
下载PDF
基于情感标签的极性分类 被引量:4
15
作者 周孟 朱福喜 《电子学报》 EI CAS CSCD 北大核心 2017年第4期1018-1024,共7页
情感极性分析是文本挖掘中一种非常重要的技术.然而在不同领域中,很多情感极性分类系统存在分类精度低和缺少大量标注数据的缺陷.针对这些问题,提出了一种基于情感标签的极性分类方法.首先通过所有文本建立Sentiment-Topic模型,抽取出... 情感极性分析是文本挖掘中一种非常重要的技术.然而在不同领域中,很多情感极性分类系统存在分类精度低和缺少大量标注数据的缺陷.针对这些问题,提出了一种基于情感标签的极性分类方法.首先通过所有文本建立Sentiment-Topic模型,抽取出文本的情感标签;然后利用情感标签将文本划分为两个子文本,并通过Co-training算法对子文本进行分类;最后合并两个子文本的分类结果,并确定文本的情感极性.实验结果表明该方法具有较高的分类精度,而且不需要大量的分类样本. 展开更多
关键词 极性分类 情感标签 半监督学习 co-training学习
下载PDF
基于多视图的文本聚类改进方法 被引量:3
16
作者 王卫红 李樊 金凌剑 《浙江工业大学学报》 CAS 北大核心 2021年第1期1-8,共8页
近年来,随着自然语言处理技术的发展,聚类技术在文本处理领域中的作用愈发凸显。目前,国内多视图文本聚类的相关研究进展仍处于起步阶段,通常运用的聚类方法是基于文本的单一领域来展现特定方面的聚类情况,但越来越多的文本聚类研究从... 近年来,随着自然语言处理技术的发展,聚类技术在文本处理领域中的作用愈发凸显。目前,国内多视图文本聚类的相关研究进展仍处于起步阶段,通常运用的聚类方法是基于文本的单一领域来展现特定方面的聚类情况,但越来越多的文本聚类研究从单视图向多视图的方向转变。提出了一种以LDA主题模型和TF-WIDF特征提取算法作为特征向量组,基于谱聚类的改进型多视图半监督文本聚类方法。该方法基于半监督的协同训练(Co-training)算法,通过对协同训练算法中的文本标记方式进行改进,实现无监督性质的多视图协同训练算法。实验结果表明:改进算法相较于传统单视图文本聚类算法,很大程度上避免了单视图算法的偶然性和局限性,提高了文章整体聚类的准确度。 展开更多
关键词 文本聚类 LDA TF-WIDF co-training 谱聚类
下载PDF
协同半监督的构造性学习方法 被引量:1
17
作者 李萍 吴涛 《计算机工程与应用》 CSCD 北大核心 2015年第3期129-132,207,共5页
利用构造性学习(CML)算法训练分类器需要大量已标记样本,然而获取大量已标记的样本较为困难。为此,提出了一种协同半监督的构造性学习算法。将已标记样本等分为三个训练集,分别使用构造性学习算法训练三个单分类器,以共同投票的方式对... 利用构造性学习(CML)算法训练分类器需要大量已标记样本,然而获取大量已标记的样本较为困难。为此,提出了一种协同半监督的构造性学习算法。将已标记样本等分为三个训练集,分别使用构造性学习算法训练三个单分类器,以共同投票的方式对未标记样本进行标记,从而依次扩充三个单分类器训练集直到不能再扩充为止。将三个训练集合并训练出最终的分类器。选取UCI数据集进行实验,结果表明,与CML算法、Tri-CML算法、NB算法及Tri-NB相比,该方法的分类更为有效。 展开更多
关键词 半监督学习 构造性机器学习 co-training算法 tri-training算法 覆盖算法
下载PDF
基于协同训练的意图分类优化方法 被引量:4
18
作者 邱云飞 刘聪 《现代情报》 CSSCI 2019年第5期57-63,73,共8页
[目的/意义]针对单纯使用统计自然语言处理技术对社交网络上产生的短文本数据进行意向分类时存在的特征稀疏、语义模糊和标记数据不足等问题,提出了一种融合心理语言学信息的Co-training意图分类方法。[方法/过程]首先,为丰富语义信息,... [目的/意义]针对单纯使用统计自然语言处理技术对社交网络上产生的短文本数据进行意向分类时存在的特征稀疏、语义模糊和标记数据不足等问题,提出了一种融合心理语言学信息的Co-training意图分类方法。[方法/过程]首先,为丰富语义信息,在提取文本特征的同时融合带有情感倾向的心理语言学线索对特征维度进行扩展。其次,针对标记数据有限的问题,在模型训练阶段使用半监督集成法对两种机器学习分类方法(基于事件内容表达分类器与情感事件表达分类器)进行协同训练(Co-training)。最后,采用置信度乘积的投票制进行分类。[结论/结果]实验结果表明融入心理语言学信息的语料再经过协同训练的分类效果更优。 展开更多
关键词 社交网络 意图分类 心理语言学 协同训练(co-training)
下载PDF
半监督学习研究与应用 被引量:2
19
作者 刘蓉 李红艳 《软件导刊》 2010年第8期6-7,共2页
半监督学习问题在现实社会和数据挖掘中得到运用广泛,半监督学习的理论研究成果部分已经应用于实际问题。首先对于半监督学习进行概述,介绍半监督学习方法的几个思路,给出半监督学习的理论研究和实际应用中的一些问题,然后描述半监督学... 半监督学习问题在现实社会和数据挖掘中得到运用广泛,半监督学习的理论研究成果部分已经应用于实际问题。首先对于半监督学习进行概述,介绍半监督学习方法的几个思路,给出半监督学习的理论研究和实际应用中的一些问题,然后描述半监督学习的几个常用算法,最后阐述半监督学习方法的实际应用。 展开更多
关键词 半监督学习 数据挖掘 co-training SELF-TRAINING
下载PDF
基于SVDD的半监督入侵检测研究 被引量:6
20
作者 严岳松 倪桂强 +2 位作者 缪志敏 潘志松 汪肇强 《微电子学与计算机》 CSCD 北大核心 2009年第10期128-130,共3页
提出了一种基于SVDD的半监督入侵检测算法.该算法利用少量有标记正常网络数据建立两个SVDD分类器,通过相互学习来挖掘未标记数据中的隐含信息,扩大有标记正常网络数据的数量.再利用所有已标记正常网络数据用不同的单分类方法建立多个单... 提出了一种基于SVDD的半监督入侵检测算法.该算法利用少量有标记正常网络数据建立两个SVDD分类器,通过相互学习来挖掘未标记数据中的隐含信息,扩大有标记正常网络数据的数量.再利用所有已标记正常网络数据用不同的单分类方法建立多个单类分类器,通过集成学习的方法得到最终的分类器.实验表明,该算法具有良好的识别性能. 展开更多
关键词 入侵检测 半监督学习 集成学习 co-training 单类分类器
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部