题名 文本分类中的特征选择方法
被引量:11
1
作者
程泽凯
陆小艺
机构
安徽工业大学计算机学院
广西师范大学计算机科学学院
广西师范大学计算机科学学院
出处
《安徽工业大学学报(自然科学版)》
CAS
2004年第3期220-224,共5页
文摘
文本分类是数据挖掘的一个重要的研究方向,用机器学习方法进行特征选择对文本分类起关键作用。结合的工作,本文从文本的特征表示、特征选择等方面加以阐述,综合了已有和最新的各种基于评估函数的特征选择的方法,评价了它们的优缺点和适用范围。
关键词
文本分类
特征选择
评估函数
Keywords
text categorization
feature selection
evaluate function
分类号
TP39
[自动化与计算机技术—计算机应用技术]
题名 基于节点相似度的社团发现算法
被引量:3
2
作者
程泽凯
张佳玉
机构
安徽工业大学计算机学院
出处
《计算机工程与设计》
CSCD
北大核心
2014年第5期1688-1693,共6页
基金
国家自然科学基金项目(61003311)
安徽高校省级自然科学研究基金项目(KJ2011A039)
文摘
对现有的社会网络社团发现算法进行研究,发现存在算法时间复杂度高、准确率低和没有充分利用节点属性信息等问题,提出了一种基于节点相似度的社团发现算法以解决这些问题。综合考虑图的拓扑结构和节点属性信息,结合构造属性扩展图的思想和基于结构情境相似度的思想得到节点的相似度,利用改进的K-means算法对所有节点进行聚类得到社团结构。编程实验结果表明,使用该算法得到的社团准确率较高,算法的时间复杂度为线性的,在带属性的数据集上和不带属性的数据集上的测试结果均验证了算法的有效性。
关键词
社会网络
社团发现
图的拓扑结构
节点属性
属性扩展图
结构化相似度
Keywords
social network
community detection
topological structure
node attribute
attribute augmented graph
structural similarity
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 用Matlab语言实现BNC
被引量:3
3
作者
程泽凯
林士敏
机构
广西师范大学计算机科学系
出处
《安徽工业大学学报(自然科学版)》
CAS
2004年第4期324-327,共4页
文摘
分类技术是数据采掘的基础与核心,建构分类器是分类技术的关键,利用贝叶斯网络可以构造出分类性能较好的分类器。基于BN Toolkit(BNT)软件包利用Matlab语言实现了两种贝叶斯网络分类器(BNC)。分别基于GS算法和K2算法学习分类器结构。用UCI(University of california in Irvine)上下载的标准数据集验证所建构的BNC,实验结果表明所建构BNC的分类准确率高于文献中所列的NBC和TANC结果,从而表明所建立分类器的有效性和正确性。最后列出了进一步要做的工作。
关键词
贝叶斯网络
贝叶斯网络分类器
MATLAB应用
数据采掘
Keywords
Bayesian networks
Bayesian networks classifier, Matlab application
data mining
分类号
TP39
[自动化与计算机技术—计算机应用技术]
题名 一种新的RoboCup阵型分析方法
被引量:2
4
作者
程泽凯
凌兆龙
秦锋
机构
安徽工业大学计算机科学与技术学院
出处
《苏州科技学院学报(自然科学版)》
CAS
2016年第2期41-44,50,共5页
基金
安徽省自然科学研究重大项目(KJ2014ZD05)
文摘
在RoboCup仿真2D中,目前的阵型编辑工具fedit2无法从全局和对比的角度去分析球员在整个球场不同区域的位置排列。对此,提出了一种新型阵型分析方法。该方法使用数据挖掘的思想从RoboCup阵型文件中分别提取出球和每个球员的位置数据,结合Delaunay三角网络理论进行建模,通过分析对比得出阵型背后的信息。分析结论应用在球队阵型设计和决策中,并在RoboCup世界杯及中国公开赛上证明了其有效性。
关键词
ROBOCUP
阵型
fedit2
数据挖掘
Delaunay三角网络
Keywords
RoboCup
formation
fedit2
data mining
Delaunay Triangulation
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于TAN结构的启发式贝叶斯网络结构学习算法
被引量:4
5
作者
程泽凯
机构
安徽工业大学计算机学院
出处
《计算机技术与发展》
2007年第8期61-63,共3页
基金
安徽省教育厅自然科学项目(2006KJ061B)
文摘
贝叶斯网络结构学习是个NP难题。一种有效且准确性较高的学习算法是K2算法。但K2算法要确定结点次序,在无先验信息时受到很大限制。提出了一种启发式结构学习G算法,该算法以学习树扩展朴素贝叶斯TAN结构作为启发式信息,由该启发式信息生成结点次序,再用K2算法生成贝叶斯网络结构。实验结果表明,G算法可以解决无先验信息时确定结点次序的问题。所添加的弧比较简洁,网络结构比TAN结构更加合理。
关键词
贝叶斯网络
树扩展朴素贝叶斯结构
结构学习
启发式
Keywords
Bayesian networks
TAN structure
structure leaming
heuristic
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
TP39
[自动化与计算机技术—计算机应用技术]
题名 基于密度峰值聚类的阵型识别算法
被引量:3
6
作者
程泽凯
陈梅
秦锋
机构
安徽工业大学计算机科学与技术学院
出处
《常州工学院学报》
2016年第2期38-42,共5页
基金
安徽省教育厅
财政厅局级高校自然科学研究重大项目(KJ2014ZD05)
文摘
针对RoboCup2D足球仿真中阵型识别问题,提出了使用一种基于密度峰值聚类的机器学习算法来识别阵型。该算法是根据坐标点与坐标点之间的距离计算与第i个点之间的距离小于截断距离的个数,并对个数进行顺序排列,寻找被低密度区域分离的高密度区域,得到聚类中心。算法核心是对聚类中心的刻画以及数据的选取。聚类中心本身的密度大,被密度均不超过它的邻居所包围,与其他密度更大的数据点之间的"距离"相对更大。对有效数据进行聚类的仿真结果表明,该算法将数据聚类成3类,通过阵型读取显示文件证实了聚类结果的正确性,同时也印证了对球队中前锋、中锋、后卫的区域的定义。
关键词
RoboCup2D
阵型
密度峰值聚类
机器学习
Keywords
RoboCup2D
formation
clustering based on density peaks
machine learning
分类号
TP3-0
[自动化与计算机技术—计算机科学与技术]
题名 TANC-BIC结构学习算法
被引量:2
7
作者
程泽凯
林士敏
机构
广西师范大学计算机科学系
出处
《微机发展》
2004年第11期10-12,共3页
基金
清华大学智能技术与系统国家重点实验室开放课题资助(99002)
文摘
树扩展朴素贝叶斯分类器(TANC)是应用较广的一种贝叶斯分类器。TANC的分类性能优于朴素贝叶斯分类器(NBC)。现有的TANC结构学习算法是基于相关性分析的,采用互信息测度。贝叶斯信息测度(BIC)在基于打分和搜索的贝叶斯网络结构学习中取得了成功,文中用BIC测度来衡量属性结点之间的相关性,提出了一种新的TANC-BIC结构学习算法。在MBNC实验平台上编程实现了TANC-BIC算法,用分类准确率衡量算法的性能。实验结果表明,TANC-BIC算法是有效的。
关键词
贝叶斯分类器
树扩展朴素贝叶斯分类器
贝叶斯信息标准测度
结构学习
Keywords
Bayesian classifier
TANC
BIC
structure learning
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 基于语义网的旅行代理研究
8
作者
程泽凯
许建国
秦锋
刘凯
机构
安徽工业大学
出处
《计算机技术与发展》
2010年第11期201-204,共4页
基金
安徽省自然科学重点资助项目(KJ2007A051)
文摘
随着旅游信息的快速增长,旅游质量已不能满足旅游者的要求。为提高旅游者的旅游质量,文中给出一种旅行代理的方法。根据软件代理的思想提出了旅行代理,简述旅行代理的概念和作用,描述语义网架构和本体概念,通过本体构建工具Protégé来构建旅游领域本体库,研究语义网环境下旅行代理的意义。但是由于时间等诸多原因,研究内容尚处于基础性的阶段,进一步遵照标准应用本体技术,创建实用、可靠的基于语义网的旅行代理系统,还有待进一步工作。
关键词
语义网
旅行代理
本体
Keywords
semantic Web
travel agent
ontology
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 TANC-BIC结构学习算法的改进
9
作者
程泽凯
秦锋
徐浩
机构
安徽工业大学计算机学院
出处
《计算机技术与发展》
2006年第5期44-46,共3页
基金
安徽省高等学校青年教师资助项目(2005JQ1079)
文摘
基于概率的贝叶斯分类器以其简单的结构和良好的性能受到重视,树扩展朴素贝叶斯分类器TANC应用较广。用TANC-BIC结构学习算法构建的分类器取得了成功,但TANC-BIC结构学习算法未考虑类节点的情况。文中提出了一种新的结构学习TANC-CBIC算法。并在贝叶斯分类器实验平台MBNC上编程实现。实验结果表明,改进算法分类准确率要高于由TANC-BIC和TANC-CMI结构学习算法构建的分类器,TANC-CBIC结构学习算法是有效的。
关键词
树扩展朴素贝叶斯分类器
贝叶斯信息标准测度
结构学习
数据采掘
Keywords
TANC
BIC
structure - learning
data mining
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 基于因子分析的RoboCup中场球员跑位研究
10
作者
程泽凯
聂亮
秦锋
机构
安徽工业大学计算机科学与技术学院
出处
《计算机科学与技术汇刊(中英文版)》
2015年第1期12-19,共8页
基金
基金项目:受国家自然科学基金项目(61300059)和安徽高校省级自然科学研究基金项目(KJ2014ZD05)支助.
文摘
为了深入研究中场球员的跑位对比赛胜负的影响,提出了基于因子分析的评价方法。该方法通过解析比赛日志文件,建立因子分析模型,并计算双方中场球员跑位的综合评价得分。实验结果表明,该方法所推测出的球队排名与近几年RoboCup仿真比赛的排名大致吻合,并且通过对综合评价得分与比赛胜负得分差绘制散点图,可以发现,综合评价得分较大的球队获胜的概率也较大。理论结合实际后得出,对中场球员活动的区域来说,本方中场侧翼位置的跑位对比赛胜负的影响最大。
关键词
中场球员跑位
因子分析
日志文件
综合评价得分
散点图
方差贡献率
Keywords
Midfielders' Positioning
Factor Analysis
Log Files
Comprehensive Evaluation Score
Scatter Diagram
VarianceContribution
分类号
TP
[自动化与计算机技术]
题名 基于属性加权的朴素贝叶斯分类算法
被引量:48
11
作者
秦锋
任诗流
程泽凯
罗慧
机构
安徽工业大学计算机学院
出处
《计算机工程与应用》
CSCD
北大核心
2008年第6期107-109,共3页
基金
安徽省教育厅自然科学研究重点项目(the Grand Research Project of Department of Education of Anhui Province
Chinaunder Grant No.KJ2007A051)
+1 种基金
安徽省教育厅自然科学研究项目(the Research Project of Department of Education of Anhui Province
Chinaunder Grant No.2006KJ061B)。
文摘
朴素贝叶斯分类是一种简单而高效的方法,但是它的属性独立性假设,影响了它的分类性能。通过放松朴素贝叶斯假设可以增强其分类效果,但通常会导致计算代价大幅提高。提出了属性加权朴素贝叶斯算法,该算法通过属性加权来提高朴素贝叶斯分类器性能,加权参数直接从训练数据中学习得到。权值可以看作是计算某个类的后验概率时,某属性取值对该类别的影响程度。实验结果表明,该算法可行而且有效。
关键词
分类
朴素贝叶斯
独立性假设
属性加权
Keywords
classification
Na'ive Bayes
independence hypothesis
attribute weighted
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于贝叶斯网络的电信客户流失预测分析
被引量:13
12
作者
叶进
程泽凯
林士敏
机构
桂林电子工业学院通信与信息工程系
广西师范大学计算机科学系
出处
《计算机工程与应用》
CSCD
北大核心
2005年第14期212-214,共3页
基金
清华大学智能技术与系统国家重点实验室开放课题资助(编号:99002)
文摘
电信客户流失分析常用的数据挖掘方法有自动聚类、决策树和人工神经网络,它们是采用数据本身来训练模型的,没有利用先验知识。电信客户流失是由客户心理、服务质量和对手竞争等诸多复杂的因素造成的,利用这些已有的先验知识,可以提高预测的精度。该文根据先验知识选取分析变量,采集样本数据,通过贝叶斯网络的结构学习和参数学习,建立客户流失模型并进行客户流失趋势预测,取得了比标准数据集更准确的结果,该结果和决策树方法的预测结果相比还具有较大的优势,说明贝叶斯网络是分析客户流失等不确定性问题的有效工具。
关键词
数据挖掘
机器学习
贝叶斯网络
贝叶斯方法
客户流失预测
Keywords
data mining,machine learning,Bayesian network,Bayesian approach,forecast of customer churn
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 基于ICA方法的朴素贝叶斯分类器
被引量:7
13
作者
秦锋
任诗流
程泽凯
罗慧
机构
安徽工业大学计算机学院
出处
《计算机工程与设计》
CSCD
北大核心
2007年第20期4873-4874,4877,共3页
基金
安徽省教育厅自然科学重点基金项目(KJ2007A051)
安徽省教育厅自然科研基金项目(2006KJ061B)
文摘
朴素贝叶斯分类器是一种简单而高效的分类器,但需要属性独立性假设,无法表示现实世界中属性之间的依赖关系,影响了其分类性能。利用独立分量分析提升朴素贝叶斯分类性能,把样本投影到由独立分量所确定的特征空间,提高了朴素贝叶斯分类器的分类性能。实验结果表明,这种基于独立分量分析的朴素贝叶斯分类器具有良好的性能。
关键词
独立分量分析
朴素贝叶斯
分类
属性独立
相关性
Keywords
independent component analysis
naive Bayes
classfication
attribute independent
correlation
分类号
TP182
[自动化与计算机技术—控制理论与控制工程]
题名 网络工程专业人才培养与教学模式改革研究
被引量:17
14
作者
袁志祥
秦锋
郑啸
程泽凯
赵娟
机构
安徽工业大学计算机学院
出处
《计算机教育》
2010年第5期70-73,共4页
基金
安徽省教育厅重点教学研究项目"网络工程专业的人才培养模式及其课程体系设置研究"(2007jyxm054)
安徽工业大学教学研究项目(2005jg30)
文摘
本文分析了目前我国网络工程专业人才培养现状,介绍了我校网络工程专业以培养基础扎实、知识面宽、实践能力强、具有创新精神的高素质应用型人才为目标,以市场需求为导向,以"一个目标、三个层次"为人才定位,以网络系统设计、专业课程不间断、实践训练不间断3条主线为主的课程体系及具有特色的网络工程专业培养方案。
关键词
人才培养方案
课程体系
实践环节
网络工程专业
Keywords
personnel training program
curricular system
practice section
network engineering
分类号
G642
[文化科学—高等教育学]
题名 二类分类器的ROC曲线生成算法
被引量:32
15
作者
邹洪侠
秦锋
程泽凯
王晓宇
机构
安徽工业大学计算机学院
出处
《计算机技术与发展》
2009年第6期109-112,共4页
基金
安徽省自然科学研究重点项目(KJ2007A051)
安徽省自然科学研究项目(2006KJ061B)
文摘
ROC曲线分析技术越来越多地被应用在机器学习和数据挖掘领域中,用来全面度量分类器的性能。ROC曲线分析是对分类器性能的二维描述,它对类分布和不同错误分类代价不敏感,但直观、可理解等特性使它在类分布未知的领域和代价敏感学习中变得越来越重要。准确高效地绘制出分类器的ROC曲线是使用ROC曲线分析技术及其AUC方法全面度量分类器性能的基础,也是进行代价敏感学习的关键。文中将从理论和具体实现两方面分别对二类分类器的ROC曲线生成算法及绘制ROC曲线的具体过程做详细阐述,基于MBNC实验平台,使用MATLAB语言构建该算法,进而比较不同分类器在不同类分布下的分类性能。通过观察实验结果可知,提出的ROC曲线生成算法准确可行,符合实际。
关键词
分类器评估
ROC曲线
MATLAB
Keywords
classifier appraisal
ROC curve
MATLAB
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 贝叶斯网络的发展与展望
被引量:11
16
作者
王理冬
汪光阳
程泽凯
朱孝宇
机构
安徽工业大学计算机学院
出处
《安徽工业大学学报(自然科学版)》
CAS
2006年第2期195-198,共4页
文摘
目前贝叶斯网络在各种领域得到了广泛的应用。对贝叶斯网络进行了综合性的概述,回顾了贝叶斯网络的发展历史,并对该网络当前研究的领域进行了分析和论述。
关键词
贝叶斯网络
概率分布
变量
Keywords
Bayesian networks
probability distribution
variable
分类号
TP317
[自动化与计算机技术—计算机软件与理论]
题名 分类器性能评价标准研究
被引量:26
17
作者
秦锋
杨波
程泽凯
机构
安徽工业大学计算机学院
出处
《计算机技术与发展》
2006年第10期85-88,共4页
基金
安徽省教育厅自然科学研究项目(2005KJ0702006KJ061B)
文摘
在数据挖掘领域中,不同分类器建立的模型性能不尽相同。对分类器性能的评价是选择优秀分类器的基础。为了更好地对分类器性能进行评估,文中对分类器性能评价标准进行了研究。分析了传统分类器性能评价标准在应用时存在的一些问题,重点介绍了ROC曲线(the Receiver Operating Characteristic curve)和AUC(the area under the ROC curve)评价方法,并剖析了它们的优缺点。对比分析表明,ROC曲线和AUC方法虽然存在着一定的不足,但是在分类器性能评价中所表现出的诱人性质使其必定具有广阔的应用前景。
关键词
分类
性能评价
ROC
AUC
Keywords
classification
performance measure
ROC
AUC
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 一种新的基于AUC的多类分类评估方法
被引量:4
18
作者
秦锋
罗慧
程泽凯
任诗流
机构
安徽工业大学计算机学院
出处
《计算机工程与应用》
CSCD
北大核心
2008年第5期194-196,共3页
基金
安徽省教育厅自然科学研究重点项目(the Grand Research Project of Department of Education of Anhui Province
China under GrantNo.KJ2007A051)
+1 种基金
安徽省教育厅自然科学研究项目(the Research Project of Department of Education of Anhui Province
China underGrant No.2006KJ061B)
文摘
基于ROC曲线分析的AUC方法最初用于评估二类分类,不能直接解决多类别的评估,如何有效地将其推广到多类别评估中是研究的热点问题。首先介绍一种基于一对多方法的多类别AUC评估方法F-AUC,在此基础上根据二叉树的构造思想提出一种新的多类别评估方法B-AUC。该方法在MBNC实验平台上编程实现,并和F-AUC方法进行比较和分析,结果表明该方法是可行的,在评估效果和速度效果上有良好的性能。
关键词
分类评估
二类分类
多类分类
二叉树
Keywords
classified appraisal
two-elassifier:multiple-elassifier:binarv tree
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于偏最小二乘法的RoboCup传球研究
被引量:4
19
作者
秦锋
田杰
程泽凯
机构
安徽工业大学计算机学院
出处
《计算机工程》
CAS
CSCD
2014年第9期275-279,共5页
基金
安徽高校省级自然科学研究基金资助项目(KJ2011A039)
文摘
传球动作是RoboCup仿真足球比赛得以进行的纽带,进球并赢得比赛是球队的最终目标,分析传球与比赛胜负的关系,采用数据挖掘的思想,用C语言程序解析仿真比赛日志文件的方法来收集所需的传球数据,基于距离将传球分为5种类型,以5种类型的传球作为解释变量,以比分作为因变量,采用偏最小二乘法搭建数学模型,用SIMCA-P软件进行仿真实验,并采用相关图形进行分析与说明。在包含解释变量72.8%、因变量74.4%信息量的情况下,5个解释变量对因变量的投影重要性指标值分别为0.081 14,0.996 66,1.028 9,1.088 06,1.325 73。实验结果表明,对传球来说,长传球对比赛胜负的影响最大。
关键词
多智能体系统
日志文件
数学建模
偏最小二乘法
回归分析
多重共线性
Keywords
Multi-Agent System(MAS)
log file
mathematical modeling
Partial Least Square(PLS)
regression analysis
multi-collinearity
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 多标签分类器准确性评估方法的研究
被引量:9
20
作者
秦锋
黄俊
程泽凯
杨帆
机构
安徽工业大学计算机学院
出处
《计算机技术与发展》
2010年第1期46-49,共4页
基金
安徽省自然科学重点资助项目(KJ2007A051)
文摘
分类是数据挖掘领域研究的核心技术之一,分类器性能评估方法也是众多学者的研究热点之一。以往的分类器性能评估方法一般针对于单标签数据集,对于多标签问题并未涉及。文中主要针对多标签分类问题中的单实例情况,提出了一种多标签分类器准确性评估方法(EMOSIML)。该方法的思路是:如果分类器对一个多标签对象预测的类别标签是其属于的多个类别标签中的任何一个,则分类结果都是正确的。该方法用C#编程实现,并对朴素贝叶斯分类器进行分类器性能评估实验,实验结果表明,EMOSIML评估方法较传统的准确率评估方法更合理。
关键词
准确率评估
分类器评估
二类分类
多标签分类
Keywords
accurate assessment
classifier assessment
binary classify
multi label classify
分类号
TP311
[自动化与计算机技术—计算机软件与理论]