-
题名基于PLSA主题模型的多标记文本分类
被引量:5
- 1
-
-
作者
蒋铭初
潘志松
尤峻
-
机构
解放军理工大学指挥信息系统学院
-
出处
《数据采集与处理》
CSCD
北大核心
2016年第3期541-547,共7页
-
基金
国家自然科学基金(61473149)资助项目
-
文摘
为解决多标记文本分类时文本标记关系不明确以及特征维数过大的问题,提出了基于概率隐语义分析(Probabilistic latent semantic analysis,PLSA)模型的多标记假设重用文本分类算法。该方法首先将训练样本通过PLSA模型映射到隐语义空间,以文本的主题分布表示一篇文本,在去噪的同时可以大大降低数据维度。在此基础上利用多标记假设重用算法(Multi-label algorithm of hypothesis reuse,MAHR)进行分类,由于经过PLSA降维后的特征组本身就具有语义信息,因此算法能够精确地挖掘出多标记之间的关系并用于训练基分类器,从而避免了人为输入标记关系的缺陷。实验验证了该方法能够充分利用PLSA降维得到的语义信息来改善多标记文本分类的性能。
-
关键词
文本分类
多标记学习
概率隐语义分析
多标记假设重用算法
-
Keywords
Key words: text classification
multi-label learning
probabilistic latent semantic analysis (PLSA)
multi-label algorithm of hypothesis reuse (MAHR)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名两重稀疏约束的多标记社团分类算法
被引量:1
- 2
-
-
作者
李娜
潘志松
任义强
李国朋
蒋铭初
-
机构
中国人民解放军理工大学指挥信息系统学院
中国电子科技集团公司第三十二研究所
西门子电力自动化有限公司
西安通信学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2017年第6期959-971,共13页
-
基金
国家自然科学基金No.61473149~~
-
文摘
在多标记研究中,对于标记间相关性的利用已经越来越广泛,从而标记关系的展示就很有必要。相对以往的研究而言,由于多标记数据的高维特征,在训练过程中极为繁琐耗时,稀疏优化就尤为关键;同时标记相关性的内涵没有经过深入挖掘,因此如何更方便有效地进行多标记分类以及研究所有标记之间的相关性显得尤为必要。提出了一种基于两重稀疏约束的多标记社团分类算法,该算法首先将?_1/?_2正则化应用到多标记数据的稀疏表示过程,为后面的研究提供便利条件;其次在多标记关系基础上应用基于?_1范数正则化的社团发现算法,有效地对标记进行社团划分,直观展示出标记关系的内涵。实验证明该方法能够快速、准确地进行多标记分类,并且能够准确展示标记关系。
-
关键词
多标记
标记关系
非负矩阵分解(NMF)
.1/.2范数
.1范数
-
Keywords
multi-label
label relation
non-negative matrix factorization (NMF)
.1/.2 -norm
.1 -norm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于在线特征选择的网络流异常检测
被引量:2
- 3
-
-
作者
莫小勇
潘志松
邱俊洋
余亚军
蒋铭初
-
机构
解放军理工大学指挥信息系统学院
-
出处
《山东大学学报(工学版)》
CAS
北大核心
2016年第4期21-27,33,共8页
-
基金
国家自然科学基金资助项目(61473149)
-
文摘
针对传统批处理特征选择方法处理大规模骨干网数据流存在时间和空间的限制,提出基于在线特征选择(online feature selection,OFS)的网络流异常检测方法,该方法将在线思想融入线性分类模型,在特征选择过程中,首先使用在线梯度下降法更新分类器,并将其限制在L1球内,然后用截断函数控制特征选择的数量。研究结果表明,提出的方法能充分利用网络流的时序性特点,同时减少检测时间且准确率和批处理方法相近,能满足网络流异常检测的实时性要求,为网络流分类和异常检测提供一种全新的思路。
-
关键词
网络流
在线特征选择
批处理
时序性
异常检测
-
Keywords
network traffic
online feature selection
batch learning
time-sequence
anomaly detection
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-