-
题名结合深度学习与词性标注的网页分类算法研究
被引量:2
- 1
-
-
作者
骆聪
王帅
-
机构
江南计算技术研究所
-
出处
《计算机技术与发展》
2018年第8期71-74,95,共5页
-
基金
国家核高基重大专项(2015ZX01040-201)
-
文摘
为了方便互联网用户高效地从海量网页中获取自己所需的信息,准确的网页分类技术越来越受到人们的重视。网页分类技术一般采用信息增益、互信息等进行特征选取,并使用k NN(k-nearest neighbor)、朴素贝叶斯(naive Bayes)和支持向量机(support vector machines)等进行分类。不同于传统的网页分类算法,结合深度学习的知识采用更深层次的方法进行特征提取。通过考虑网页HTML标签权重提取网页的内容,然后利用词性标注技术在剔除部分对网页分类贡献较小的词语的同时,也为区分能力高的名词赋予更高的权重,最后结合深度信念网络(deep belief network)进行特征提取和特征分类。实验结果表明,提出的网页分类算法具有和采用支持向量机相当的准确性,并且在使用词性标注技术后,网页分类结果的F1值又提升了3.35%。
-
关键词
网页分类
深度学习
html标签权重
词性标注
深度信念网络
-
Keywords
web page classification
deep learning
weight of html tags
part of speech tagging
deep belief network
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-