-
题名基于链接信息的网页分类算法
被引量:1
- 1
-
-
作者
秦杰
闫付亮
朱海丰
司群
谢蕙
-
机构
河南工业大学粮食信息处理教育部重点实验室
-
出处
《微电子学与计算机》
CSCD
北大核心
2012年第6期108-112,共5页
-
基金
国家自然科学基金项目(60373003)
河南工业大学校琏金项目(2006BSO009)
-
文摘
为了提高网页文本分类的准确性.克服传统的文本分类算法易受网页中虚假、错误信息的影响.提出一种基于链接信息的网页分类算法.通过对K近邻方法的改进.利用当前网页与其父网页的链接信息对网页实沲分类,用空间向量表示待分类网页的父链接信息。在训练集合中找到K篇与该网页链接信息向量最相似的网页,计算该网页所属的类别,通过实验与传统文本分类算法进行了对比,验证了该方法的有效性.
-
关键词
网页分类
类别
K近邻方法
链接信息分类
-
Keywords
webpage classification
category
K-nearest Neighbor
link information classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于特征向量的改进DSC网页去重算法
被引量:1
- 2
-
-
作者
徐朝辉
赵淑梅
闫付亮
秦杰
-
机构
河南工业大学粮食信息处理教育部重点实验室
郑州铁路职业技术学院
-
出处
《科学技术与工程》
北大核心
2013年第8期2250-2253,共4页
-
基金
国家自然科学基金(60970022)资助
-
文摘
网页去重具有很重要的实际意义,也是信息检索领域近几年研究的热点。分析现有的网页去重算法,并对经典的DSC(digital syntactic clustering)网页去重算法进行改进。为每篇文档生成一个特征向量集合,用该特征向量集合筛选shin-gles;然后进行相似性比较。实验表明,该算法对重复网页判定具有很好的准确率和召回率。
-
关键词
搜索引擎
网页去重
特征项
shingle
-
Keywords
search engine duplicated Webpages detecting feature item shingle
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名一种改进的基于混沌理论的木马检测器生成算法
- 3
-
-
作者
秦杰
司群
颜会娟
闫付亮
-
机构
河南工业大学信息科学与工程学院
-
出处
《微电子学与计算机》
CSCD
北大核心
2012年第4期101-103,109,共4页
-
基金
国家自然科学基金项目(60970022)
河南工业大学校基金项目(2006BS009)
河南省财政厅粮食专项(ZX2011-25)
-
文摘
在分析现有应用于入侵检测系统中的检测器生成算法的基础上,提出了一种基于混沌理论的木马检测器生成算法,通过混沌的初值敏感性实现了广泛的搜索空间.结合加权欧式距离,并利用混沌的遍历特性产生了均匀的检测器集合.采用Microsoft visual 2008和Matlab进行仿真实验,结果表明,改进的算法能有效保持抗体的多样性,并具有较快的收敛速度.
-
关键词
混沌
木马
加权欧氏距离
检测器
-
Keywords
chaos
Trojan
weighted Euclidean distance
detector
-
分类号
TP309.2
[自动化与计算机技术—计算机系统结构]
-