摘要
当前文本分类方法由于没有考虑页面之间相互关系,因而分类效率有限。鉴于此,受万有引力定律启发,提出基于万有引力定律和PageRank的页面分类方法。该方法的基本思路是通过分析页面之间的链接关系,将类属未知的页面划分到对其影响较大的一类。以上述分类方法为基础,构建了基于万有引力定律和PageRank的页面分类系统。该系统包括页面预处理、页面向量表示、页面分类以及分类结果评价等模块。真实数据集上的比较实验表明所提方法的有效性。
Atthough traditional web page classifiers perform well in practice, they don't take the link connections between web pages into consideration, and therefore, their classification efficiency can't be greatly improved. In view of this, a web page classification method based on the Law of Universal Gravitation and PageRank Algorithm, based on which, we constructs the web page classification system. Our system consists of pre-processing, web page representation, web page classification and performance measures components. Experiments on the authentic dataset verify the effectiveness of the proposed method.
出处
《情报科学》
CSSCI
北大核心
2015年第6期35-38,共4页
Information Science
基金
国家自然科学基金项目(61202311)
山西省高等学校科技创新项目(2014142)
全国教育信息技术研究十二五规划课题(146241697)
山西大学商务学院科研基金项目(XS2011005)