期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
基于可信度的投票法 被引量:8
1
作者 燕继坤 郑辉 +1 位作者 王艳 曾立君 《计算机学报》 EI CSCD 北大核心 2005年第8期1308-1313,共6页
可信度投票法不仅使用了基分类器输出的类别,还使用了输出的可信度.推导了该方法训练错误率的界以及期望错误率的界.发现为了最小化期望错误率的界,应该使用错误独立的基分类器,如果基分类器的错误率不是很高,这个界以指数级速度随着基... 可信度投票法不仅使用了基分类器输出的类别,还使用了输出的可信度.推导了该方法训练错误率的界以及期望错误率的界.发现为了最小化期望错误率的界,应该使用错误独立的基分类器,如果基分类器的错误率不是很高,这个界以指数级速度随着基分类器错误率的降低而降低,而且这个界随着投票次数的增加也会下降.在最小化训练错误率的界的意义下,得到了一种权值分配方法.把这个方法应用于一种Bagging算法:AB,得到了综合分类算法CAB.使用UCI机器学习数据集中的数据,通过实验验证了CAB的有效性. 展开更多
关键词 机器学习 综合分类 可信度投票法 错误率的界 BAGGING
下载PDF
样本错误加权的支持向量数据描述 被引量:3
2
作者 燕继坤 王勇 +1 位作者 曹春霞 郑辉 《计算机工程》 EI CAS CSCD 北大核心 2005年第2期24-26,共3页
数据描述只使用目标集训练样本获得关于目标集的描述,支持向量数据描述(SVDD)是一种有效的数据描述方法。样本错误加权的SVDD(WSVDD)推广了SVDD,对每个训练样本的错误赋予不同的权值,可以精细地控制训练样本对超球面边界的影响。用UCI... 数据描述只使用目标集训练样本获得关于目标集的描述,支持向量数据描述(SVDD)是一种有效的数据描述方法。样本错误加权的SVDD(WSVDD)推广了SVDD,对每个训练样本的错误赋予不同的权值,可以精细地控制训练样本对超球面边界的影响。用UCI机器学习数据集的两个数据和图标分类的实验验证了WSVDD的有效性。 展开更多
关键词 训练样本 支持向量 数据描述 机器学习 图标 加权 数据集 错误 集训 个数
下载PDF
变形网格及其在图像识别中的应用 被引量:4
3
作者 燕继坤 张震 郑辉 《电子与信息学报》 EI CSCD 北大核心 2004年第8期1183-1189,共7页
网格特征是图像识别中一类重要特征,而变形模板对于复杂的图像识别问题如字符识别、数字识别、图标识别等表现出很好的性能,但变形模板很费时.该文针对网格特征提出了变形网格,并分析了变形模板与变形网格之间的近似等价性.所提方法对... 网格特征是图像识别中一类重要特征,而变形模板对于复杂的图像识别问题如字符识别、数字识别、图标识别等表现出很好的性能,但变形模板很费时.该文针对网格特征提出了变形网格,并分析了变形模板与变形网格之间的近似等价性.所提方法对网格进行变形而不是对图像变形,因而速度比变形模板快得多,而且性能相差不大.把这种方法分别应用于图标识别和脱机手写汉字识别.图标识别实验中变形模板使识别率提高了7.5%,而变形网格使识别率提高了7.3%.手写汉字识别实验中变形模板使识别率提高了6.1%,而变形网格使识别率提高了5.8%.考虑到变形网格比变形模板快得多,所以这种方法是有优势的. 展开更多
关键词 图像识别 变形模板 变形冈格 图标识别 汉字识别
下载PDF
相似文本的快速搜索 被引量:1
4
作者 燕继坤 郑辉 席建民 《计算机工程》 CAS CSCD 北大核心 2004年第15期22-23,71,共3页
相似文本的快速搜索是大规模文本处理需要解决的基本问题。从两方面改进了Udi的相似文本搜索方法,通过Hash把集合映射成ID,从而得到更快的集合比较算法,重新定义了相似关系,能够减少误判,同时对有固定格式的文本也有更好的效果。
关键词 大规模文本处理 相似文本搜索 复制检测
下载PDF
低质量文档图像中图标的定位
5
作者 燕继坤 席建民 +1 位作者 周密 郑辉 《计算机研究与发展》 EI CSCD 北大核心 2004年第7期1226-1231,共6页
针对二值图像提出了基于金字塔模型的目标定位方法 ,该方法适合于构成目标的连通区互相之间距离较小 ,而与其他连通区之间距离较大的情形 首先生成图像的金字塔模型 ,构成目标的连通区会在金字塔模型的某一层合并为一个连通区 ,根据金... 针对二值图像提出了基于金字塔模型的目标定位方法 ,该方法适合于构成目标的连通区互相之间距离较小 ,而与其他连通区之间距离较大的情形 首先生成图像的金字塔模型 ,构成目标的连通区会在金字塔模型的某一层合并为一个连通区 ,根据金字塔模型各层中连通区的指示在原始图像中确定一块区域 ,用C4 5作粗分类 ,再用模板匹配判定是否含有目标 把这种方法应用于低质量文档图像中图标的定位 用含 30 0个图标的图标库进行实验 ,得到 88 7%的定位查全率 ,70 4 2 展开更多
关键词 目标定位 图标定位 金字塔模型 C4.5
下载PDF
一种自适应的视频帧中字幕检测定位方法 被引量:5
6
作者 王勇 燕继坤 郑辉 《计算机应用》 CSCD 北大核心 2004年第1期134-135,139,共3页
视频帧中的字幕往往包含当前视频的高层语意内容 ,对视频内容的自动理解、索引和检索有重要意义。文中提出了一种视频帧中字幕的自适应检测定位方法 ,与以往根据经验设定阈值的方法相比 ,该方法简单 ,对视频帧的复杂变化的适应能力更强 ... 视频帧中的字幕往往包含当前视频的高层语意内容 ,对视频内容的自动理解、索引和检索有重要意义。文中提出了一种视频帧中字幕的自适应检测定位方法 ,与以往根据经验设定阈值的方法相比 ,该方法简单 ,对视频帧的复杂变化的适应能力更强 ,检测定位更快速、准确。大量实验结果显示该方法是有效的。 展开更多
关键词 视频 字幕 文字检测 文字定位 边缘检测
下载PDF
少数类的集成学习 被引量:1
7
作者 潘志松 燕继坤 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2009年第4期520-526,共7页
传统机器学习中研究的分类问题通常假定各类别是平衡的,但在很多场合各类别的出现概率相差很大,而且很多应用中需要区分重要而稀少的少数类。本文比较了3种基于AdaBoost集成学习方法,并推导出他们的精度几何平均(GMA)的下界。分析表明:... 传统机器学习中研究的分类问题通常假定各类别是平衡的,但在很多场合各类别的出现概率相差很大,而且很多应用中需要区分重要而稀少的少数类。本文比较了3种基于AdaBoost集成学习方法,并推导出他们的精度几何平均(GMA)的下界。分析表明:类别越不平衡,这3种方法越难以通过提高基分类器准确率来提高GMA。在此结论的基础上,以Bagging为基础提出了单边Bagging算法,该算法只对多数类抽样,而保留所有少数类,因而每轮的训练集是类别平衡的,并通过UC I数据集验证了其有效性。 展开更多
关键词 集成学习 不平衡类别 单边Bagging
下载PDF
基于相似性和新奇度从音乐中提取代表性摘录
8
作者 吕波 李建彬 +1 位作者 贺苏宁 燕继坤 《计算机应用》 CSCD 北大核心 2007年第3期740-742,共3页
提出了基于相似性和新奇度提取音乐代表性摘录的方法。最大化片段与整个作品的相似性来找到最相似的摘录,最大化片段的新奇度来找到意义最丰富的摘录,并把这两个参数结合起来寻找最具代表性的摘录,同时引入数学形态滤波对音频信号预处理... 提出了基于相似性和新奇度提取音乐代表性摘录的方法。最大化片段与整个作品的相似性来找到最相似的摘录,最大化片段的新奇度来找到意义最丰富的摘录,并把这两个参数结合起来寻找最具代表性的摘录,同时引入数学形态滤波对音频信号预处理,消除信号中的非主要分量。实验结果表明,该方法能够找到重要的最具代表性的摘录,并且对音乐源只作了很少的假设。 展开更多
关键词 自相似性 相似性矩阵 新奇度 代表性摘录
下载PDF
基于单边抽样的LPU
9
作者 沈蕾 石盛平 燕继坤 《计算机工程》 EI CAS CSCD 北大核心 2006年第23期216-217,223,共3页
提出结合单边抽样Bagging与LPU的基本思想对不平衡数据进行分类。主要步骤是:将未标注实例全标为反类,和正例一起训练单边抽样Bagging学习器,将得到的学习器对未标注实例分类得到可靠的反例(RN),再用正例和RN训练SSBagging学习器。使用R... 提出结合单边抽样Bagging与LPU的基本思想对不平衡数据进行分类。主要步骤是:将未标注实例全标为反类,和正例一起训练单边抽样Bagging学习器,将得到的学习器对未标注实例分类得到可靠的反例(RN),再用正例和RN训练SSBagging学习器。使用Rocchio和EM进行分类是Liu等提出的一种有代表性的LPU。比较了这种LPU和该文提出的方法,发现当数据的不平衡性很明显时,后者要优于前者。 展开更多
关键词 不平衡分类 未标注数据 BAGGING EM
下载PDF
单实例分类算法研究
10
作者 潘志松 燕继坤 +2 位作者 杨绪兵 缪志敏 陈斌 《南京理工大学学报》 EI CAS CSCD 北大核心 2009年第4期444-449,共6页
针对不平衡分类问题的极端情况,即用于训练的样本极少甚至只有一个实例,该文提出了一种单实例分类算法,这种方法使用球面作为分类面,在目标类的单实例在球内和反类尽量位于球面外的约束条件下,最大化该分类球面的半径,该方法能够有效地... 针对不平衡分类问题的极端情况,即用于训练的样本极少甚至只有一个实例,该文提出了一种单实例分类算法,这种方法使用球面作为分类面,在目标类的单实例在球内和反类尽量位于球面外的约束条件下,最大化该分类球面的半径,该方法能够有效地处理线性可分的数据分布。当输入样本分布结构呈高度非线性时,该算法通过核映射将低维输入空间中的非线性可分问题变换为高维特征空间中可能的线性可分问题,并以内积形式刻画,最终在特征空间上通过核技巧获得原问题的解决。通过对标准数据集和实际数据集的实验,验证了单实例分类算法在处理数据不平衡问题上的有效性。 展开更多
关键词 单实例 核方法 分类 支持向量
下载PDF
基于标签语义相似的动态多标签文本分类算法 被引量:10
11
作者 姚佳奇 徐正国 +2 位作者 燕继坤 熊钢 李智翔 《计算机工程与应用》 CSCD 北大核心 2020年第19期94-98,共5页
针对标签随着时间变化的动态多标签文本分类问题,提出了一种基于标签语义相似的动态多标签文本分类算法。该算法在训练阶段,首先按照标签固定训练得到一个基于卷积神经网络的多标签文本分类器,然后以该分类器的倒数第二层的输出为文本... 针对标签随着时间变化的动态多标签文本分类问题,提出了一种基于标签语义相似的动态多标签文本分类算法。该算法在训练阶段,首先按照标签固定训练得到一个基于卷积神经网络的多标签文本分类器,然后以该分类器的倒数第二层的输出为文本的特征向量。由于该特征向量是在有标签训练得到的,因而相对于基于字符串即文本内容而言,该特征向量含有标签语义信息。在测试阶段,将测试文档输入训练阶段的多标签文本分类器获取相应的特征向量,然后计算相似性,同时乘以时间衰减因子修正,使得时间越近的文本具有较高的相似性。最后,采用最近邻算法分类。实验结果表明,该算法在处理动态多标签文本分类问题上具有较优的性能。 展开更多
关键词 动态多标签 文本分类 神经网络 标签语义相似
下载PDF
WPLoss:面向类别不平衡数据的加权成对损失 被引量:6
12
作者 姚佳奇 徐正国 +1 位作者 燕继坤 王科人 《计算机应用研究》 CSCD 北大核心 2021年第3期702-704,709,共4页
类别不平衡数据是指不同类别的样本数目差异很大,AUC(area under the ROC curve)是衡量不平衡数据分类器性能的一个重要指标,由于AUC不可微,研究者提出了众多替代成对损失函数优化AUC。成对损失的样本对数目为正负样本数目的乘积,大量... 类别不平衡数据是指不同类别的样本数目差异很大,AUC(area under the ROC curve)是衡量不平衡数据分类器性能的一个重要指标,由于AUC不可微,研究者提出了众多替代成对损失函数优化AUC。成对损失的样本对数目为正负样本数目的乘积,大量成对损失较小的正负样本对影响了分类器的性能。针对这一问题,提出了一种加权的成对损失函数WPLoss,通过赋予成对损失较大的正负样本对更高的损失权重,减少大量成对损失较小的正负样本对的影响,进而提升分类器的性能。在20newsgroup和Reuters-21578数据集上的实验结果验证了WPLoss的有效性,表明WPLoss能够提升面向不平衡数据的分类器性能。 展开更多
关键词 不平衡分类 加权成对损失 AUC优化
下载PDF
基于AdaBoost的文本隐写分析 被引量:4
13
作者 眭新光 沈蕾 +1 位作者 燕继坤 朱中梁 《通信学报》 EI CSCD 北大核心 2007年第12期136-140,146,共6页
通过对自然文本统计模型和特性的分析,指出隐藏消息后可能对文本统计特性带来的变化,并提出了基于AdaBoost的通用检测算法。抽取文本的5个基本统计特征量为分类特征,对自然文本和载密文本进行有效分类检测。实验证明该算法具有较好的适... 通过对自然文本统计模型和特性的分析,指出隐藏消息后可能对文本统计特性带来的变化,并提出了基于AdaBoost的通用检测算法。抽取文本的5个基本统计特征量为分类特征,对自然文本和载密文本进行有效分类检测。实验证明该算法具有较好的适用性和可靠性。 展开更多
关键词 隐写分析 文本 统计特征量 ADABOOST
下载PDF
ITU-TSG16研究进展
14
作者 燕继坤 《电信技术研究》 2011年第3期52-54,共3页
ITu—T第16研究组(ITU-TSG16)主要开展话带调制、编码,下一代网络,泛在传感器网,多媒体编码、传输及终端等方面的标准化工作。2010年7月19日至2010年7月30日,ITU—T第16研究组2009至2012研究周期的第三次会议在日内瓦召开,会议... ITu—T第16研究组(ITU-TSG16)主要开展话带调制、编码,下一代网络,泛在传感器网,多媒体编码、传输及终端等方面的标准化工作。2010年7月19日至2010年7月30日,ITU—T第16研究组2009至2012研究周期的第三次会议在日内瓦召开,会议有关情况如下。 展开更多
关键词 多媒体编码 下一代网络 传感器网 ITU 日内瓦 ITU 话带 终端
下载PDF
GCN-PU:基于图卷积网络的PU文本分类算法 被引量:3
15
作者 姚佳奇 徐正国 +1 位作者 燕继坤 王科人 《计算机工程与应用》 CSCD 北大核心 2021年第11期162-167,共6页
针对PU(Positive and Unlabeled)文本分类问题,提出了一种基于图卷积网络的PU文本分类算法(GCNPU),基本思想是给未标注样本加以不同的损失权重。将未标注样本全部视为负类样本,用以训练基于卷积神经网络的文本分类器;取卷积神经网络的... 针对PU(Positive and Unlabeled)文本分类问题,提出了一种基于图卷积网络的PU文本分类算法(GCNPU),基本思想是给未标注样本加以不同的损失权重。将未标注样本全部视为负类样本,用以训练基于卷积神经网络的文本分类器;取卷积神经网络的倒数第二层的向量为文本的特征向量,以及对应的类别概率,作为图卷积网络的输入;利用图卷积网络得出的类别概率计算每个未标注样本的损失权重,重新训练文本分类器。不断重复上述三个步骤,直到算法参数稳定。在公开数据集20newsgroup上的实验结果表明,GCN-PU算法优于现有的方法,尤其在正类样本较少的情况下。 展开更多
关键词 卷积神经网络 图卷积网络 损失权重 PU文本分类
下载PDF
基于Simhash的协议数据高频相似序列提取算法 被引量:2
16
作者 黄学波 徐正国 燕继坤 《计算机工程与应用》 CSCD 北大核心 2020年第16期199-203,共5页
在网络协议特征提取问题中,已有的基于频率统计和序列比对等算法在时间效率和准确率上有一定缺陷,因此提出了一种基于Simhash的高频相似序列提取方法。针对传统的Simhash算法一般用于文本处理领域的问题,根据二进制序列的特点将协议数... 在网络协议特征提取问题中,已有的基于频率统计和序列比对等算法在时间效率和准确率上有一定缺陷,因此提出了一种基于Simhash的高频相似序列提取方法。针对传统的Simhash算法一般用于文本处理领域的问题,根据二进制序列的特点将协议数据进行“分词”处理,并采用了减少哈希结果长度、降低比较次数等方法进一步提高算法效率,最终使Simhash适合于高频相似序列提取问题。实验结果表明,该算法的平均覆盖率达到74.28%,并且在此准确率的条件下时间效率较高。 展开更多
关键词 协议分析 二进制序列 Simhash 高频相似序列
下载PDF
基于多示例学习的语音内容分类算法 被引量:1
17
作者 许薇 姚佳奇 +1 位作者 燕继坤 欧阳喜 《信息工程大学学报》 2020年第6期674-679,共6页
多示例学习为语音内容分类提供了一种新思路。提出将语音内容分类任务转化为多示例学习问题,首先通过音素识别器将语音转化为音素序列,其次对音素序列进行tri-phone建模并分割成多个片段,然后对片段进行特征提取,最后使用基于支持向量... 多示例学习为语音内容分类提供了一种新思路。提出将语音内容分类任务转化为多示例学习问题,首先通过音素识别器将语音转化为音素序列,其次对音素序列进行tri-phone建模并分割成多个片段,然后对片段进行特征提取,最后使用基于支持向量机和卷积神经网络的多示例学习算法对语音内容进行分类。在真实数据集上的实验结果显示,相比于非多示例学习方法,多示例学习技术的引入使平均准确率和F1值得到明显提升。 展开更多
关键词 多示例学习 语音内容分类 音素 支持向量机 卷积神经网络
下载PDF
基于预训练模型的多示例语音内容分类
18
作者 张建宜 姚佳奇 +2 位作者 褚衍杰 燕继坤 梁杰 《信息工程大学学报》 2022年第2期141-147,共7页
语音内容分类主要用于对大批量信号进行自动处理,并基于用户的兴趣选择语音文件。据此提出了一种新的分类方法,在多示例学习框架下,使用无监督语音表示学习对大规模未标记数据进行预训练,得到用于提取语音深层表示的预训练模型,提取的... 语音内容分类主要用于对大批量信号进行自动处理,并基于用户的兴趣选择语音文件。据此提出了一种新的分类方法,在多示例学习框架下,使用无监督语音表示学习对大规模未标记数据进行预训练,得到用于提取语音深层表示的预训练模型,提取的语音表示作为下游分类器的输入。真实语音数据集上的实验结果表明,多示例学习在处理语音分类问题上具有优势,提出的方法能够提高分类的效果,在平均准确率指标上优于3种基线方法。 展开更多
关键词 语音内容分类 多示例学习 预训练模型 无监督语音表示学习
下载PDF
文本与轨迹交叉检索技术
19
作者 张明波 王兴斌 燕继坤 《电信技术研究》 2011年第3期8-18,35,共12页
运动目标观测的信息一般用文本、轨迹数据等不同格式的数据来表达。随着数据量迅速增加,对这些数据进行综合分析越来越困难。针对该问题,文章提出了文本和轨迹数据的交叉检索技术。该技术实现了跨文本与轨迹的相关检索,提供了一种统... 运动目标观测的信息一般用文本、轨迹数据等不同格式的数据来表达。随着数据量迅速增加,对这些数据进行综合分析越来越困难。针对该问题,文章提出了文本和轨迹数据的交叉检索技术。该技术实现了跨文本与轨迹的相关检索,提供了一种统一管理海量文本数据与轨迹数据的手段,可为数据综合分析与利用提供有力支撑。 展开更多
关键词 交叉检索 文本检索 相似性轨迹检索 统一向量空间
下载PDF
基于空间密度的文档图像图标检测和定位技术
20
作者 李爱斌 沈蕾 燕继坤 《电信技术研究》 2008年第4期19-22,共4页
针对二值文档图像提出了基于空间密度的图标检测和定位技术。对文档图像进行分块后,根据本文介绍的3种类型函数分别计算分块区域内象素的空间密度,此过程遍历整个二值图像文档后可以计算出3个最大值,作为图标检测和定位的基本依据。... 针对二值文档图像提出了基于空间密度的图标检测和定位技术。对文档图像进行分块后,根据本文介绍的3种类型函数分别计算分块区域内象素的空间密度,此过程遍历整个二值图像文档后可以计算出3个最大值,作为图标检测和定位的基本依据。该方法不需要训练数据,可以适用于任何图标类型。实验证明,本文方法较为有效,并已在实际工程中应用,取得了很好的效果。 展开更多
关键词 图标检测 图标定位 空间密度 密度分布函数
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部