-
题名基于潜在语义分析的中文文本层次分类技术
被引量:15
- 1
-
-
作者
王怡
盖杰
武港山
王继成
-
机构
南京大学软件新技术国家重点实验室南京大学计算机系
-
出处
《计算机应用研究》
CSCD
北大核心
2004年第8期151-154,165,共5页
-
基金
国家自然科学基金资助项目 (6 0 0 730 30 )
国家"86 3"计划基金资助项目 (2 0 0 2AA1170 10 10 )
-
文摘
从网络文本自动分类的需求出发 ,针对基于VSM模型的分类处理中词条无关假设和词条维度过高等问题 ,对基于类中心向量的分类方法进行了改进。利用LSA分析中的SVD分解获得Web文档的语义特征向量 ,并在此基础上进行分类处理 ,在不损害分类精度的同时提高了分类及其后处理速度 ,并设计实现了一个原型系统。
-
关键词
潜在语义分析
类重心分类
向量空间模型
文本分类
特征向量
-
Keywords
Latent Semantic Analysis(LSA)
Text Categorization Based on Category Centroid
Vector Space Model
Text Categorization
Eigenvector
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名距离函数分类法在垃圾邮件过滤中的应用
被引量:1
- 2
-
-
作者
林琛
李弼程
-
机构
解放军信息工程大学信息工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2007年第2期322-323,447,共3页
-
基金
河南省教育厅基金项目(sp200303099)
-
文摘
为了得到实用性强的垃圾邮件过滤方法,将距离函数分类法首次引入到垃圾邮件过滤中。在通用邮件语料库上进行测试,并与目前过滤性能较好的KNN算法进行比较,实验结果显示距离函数分类法中的类中心向量法不适合用于垃圾邮件的过滤,而类重心向量法在保持较高过滤性能的同时,具有训练和过滤速度快的优点,是一种理想实用的垃圾邮件过滤方法。
-
关键词
垃圾邮件
分类
距离函数
类重心向量
垃圾邮件过滤
-
Keywords
spain, categorization
distance function
category centroid
spam filtering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一个基于反馈的信息过滤系统的设计与实现
被引量:9
- 3
-
-
作者
毛颖
王继成
周源远
张福炎
-
机构
南京大学计算机科学与技术系
-
出处
《情报学报》
CSSCI
北大核心
2003年第5期539-544,共6页
-
基金
国家自然科学基金,国家高技术研究发展计划(863计划)
-
文摘
随着互联网上信息的迅速增长,信息过滤技术得到越来越广泛的应用.本文论述了一个基于反馈的内容信息过滤系统的设计和实现.它采用向量空间模型,使用类重心分类算法来形成用户兴趣文件,采用余弦算法比较待过滤文档和用户兴趣文件的相似度,并使用Rocchio反馈模型来重建用户兴趣文件.实验表明,本文提出的策略和方法是切实可行的.
-
关键词
信息过滤系统
网络信息管理
“用户兴趣文件”
类重心分类算法
余弦算法
ROCCHIO
反馈模型
向量模型
-
分类号
G203
[文化科学—传播学]
G250.73
[文化科学—图书馆学]
-
-
题名基于信息粒度原理的垃圾邮件过滤方法
被引量:2
- 4
-
-
作者
盛亮
李弼程
林琛
-
机构
信息工程大学信息工程学院
-
出处
《信息工程大学学报》
2007年第1期15-17,52,共4页
-
文摘
信息粒度原理是一种从多个角度来精确描述对象的物理学方法。本文将信息粒度的原理应用到垃圾邮件的过滤中,提出了一种基于信息粒度原理的垃圾邮件过滤方法。通过对原始样本空间更精细的划分来实现对邮件类别的更准确描述。本文在Ling-Spam语料库上进行了试验,结果表明,新方法具有较高的分类精度和良好的处理速度。
-
关键词
信息粒度
垃圾邮件过滤
类重心向量
-
Keywords
information granularity
spam filtering
category centroid vector
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名KNN算法与其改进算法的性能比较
被引量:5
- 5
-
-
作者
宋毅飞
周剑秋
-
机构
武汉工程大学计算机科学与工程学院
-
出处
《机电产品开发与创新》
2017年第2期60-63,共4页
-
文摘
K最临近算法(简称KNN算法)是一种无参数的分类与统计方法,是数据挖掘分类技术中最简单的方法之一。KNN算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。还有一种简化的算法称为类重心法,即将训练集中每类样本的重心求出,然后判别位置样本点与各类重心的距离,未知样本点距哪一类重心距离最近,位置样本就属于哪一类。
-
关键词
KNN
数据挖掘
类重心
分类
-
Keywords
KNN
data mining
center of gravity
classification
-
分类号
TP392
[自动化与计算机技术—计算机应用技术]
-
-
题名潜艇指挥员心理测评项目探讨
被引量:3
- 6
-
-
作者
周永垒
张侃
-
机构
中国科学院心理研究所
-
出处
《人类工效学》
2006年第1期43-45,53,共4页
-
文摘
潜艇指挥员的心理选拔首先需要确定选拔测评的项目。经过大量的问卷调查和访谈等方法,拟定了潜艇指挥员选拔测评的主要项目;通过对50名被试对项目的具体施测,然后用层次重心聚类统计分析,结合与再测分析结果的拟合度检验,结果表明,潜艇指挥员的心理测评项目主要有10类,这种建构符合心理测量学的要求,具有一定的实践和理论意义。
-
关键词
潜艇指挥员
心理测评项目
重心聚类法
拟合度检验
-
分类号
TB18
[一般工业技术]
E0-051
[军事—军事理论]
-
-
题名论皖东地区经济区划及空间结构与过程模式
- 7
-
-
作者
李文蕙
-
机构
滁州师范专科学校企管系
-
出处
《滁州学院学报》
2000年第1期42-44,共3页
-
文摘
运用多元分析的聚类方法和空间过程演化规律,探讨皖东地区经济区划的战略规划和发展模式,为振兴地方经济,发展皖东地区提出科学理论依据和规划设想。
-
关键词
重心聚类
经济区划
空间发展过程模式
职能地域一体化
-
分类号
F127
[经济管理—世界经济]
-
-
题名我国铁路煤炭运输概况及影响因素浅析
被引量:1
- 8
-
-
作者
蔡盛洁
李雪
-
机构
北京物资学院
-
出处
《中国市场》
2014年第35期145-148,152,共5页
-
文摘
我国铁路煤炭运输呈现西煤东输、北煤南运的格局,煤炭发送量和到达量与距离有关,并随着距离的增加而减少。各省煤炭发送量差距较大,煤炭到达量差距较小。从铁路煤炭发送量和到达量整体来看,可简单概括为生产影响发送量,经济影响到达量。
-
关键词
OD表
面板数据
重心系统聚类法
-
分类号
F532
[经济管理—产业经济]
-