期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
面向元信息分类的支持向量机改进技术 被引量:1
1
作者 丁军平 蔡皖东 《西安交通大学学报》 EI CAS CSCD 北大核心 2011年第8期37-42,共6页
针对传统元信息分类方法的准确率不能满足主动P2P网络监测模型要求的问题,提出了一种基于改进支持向量机算法的元信息分类方法.该方法首先通过在加权最小二乘支持向量机的基础上加入对数据偏斜的处理,解决了元信息分类时关键词特征稀疏... 针对传统元信息分类方法的准确率不能满足主动P2P网络监测模型要求的问题,提出了一种基于改进支持向量机算法的元信息分类方法.该方法首先通过在加权最小二乘支持向量机的基础上加入对数据偏斜的处理,解决了元信息分类时关键词特征稀疏和样本高度不均衡问题,在对元信息文件名进行分词时,加入了词条之间的组合关系处理,在进行特征向量表示时,加入了对词条权值和语义属性的处理,最后使用基于粗糙集的属性规约方法进行特征向量选择,有效地降低了特征向量维度.实验结果表明,与传统方法相比,所提方法在进行元信息分类时能够大幅度提高分类准确率,准确率可达到97.8%,完全能够满足主动P2P网络监测模型的要求. 展开更多
关键词 元信息分类 支持向量 特征向量表示 粗糙集
下载PDF
面向P2P特定信息的爬虫改进技术 被引量:3
2
作者 丁军平 蔡皖东 《计算机工程与应用》 CSCD 北大核心 2011年第29期23-26,共4页
针对现有主题爬虫技术在获取"元信息"时会抓取大量不相关网页的问题,对现有主题爬虫技术进行改进,加入了URL分类技术。该分类方法根据提供的URL样本信息,生成多个不相关URL关键词集合以及"元信息"URL关键词集合;对... 针对现有主题爬虫技术在获取"元信息"时会抓取大量不相关网页的问题,对现有主题爬虫技术进行改进,加入了URL分类技术。该分类方法根据提供的URL样本信息,生成多个不相关URL关键词集合以及"元信息"URL关键词集合;对集合中的关键词设置权限信息,设置集合的分类判断阈值;将URL使用特征向量表示,计算与关键词集合的距离,对URL进行分类;对算法性能进行了详细分析。实验结果表明,所提方法在进行"元信息"获取时,与传统主题爬虫技术相比能够大幅度提高效率,在相同时间内,"元信息"获取数量可增加96.21%,完全能够满足主动监测模型对网络爬虫的性能要求。 展开更多
关键词 “元信息”获取 主题爬虫技术 URL分类算法 特征向量表示 主动监测模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部