期刊文献+

Web文档中词语权重计算方法的改进 被引量:14

Improved approach to weighting terms in Web Text
下载PDF
导出
摘要 以向量空间模型作为Web文本的表示方法,对传统的TF*IDF公式进行了改进。首先,结合Web文本中HTML标签的修饰功能,体现了特征词在Web文本结构中的位置信息;其次,以广义信息论为理论基础,引入了基于二次熵的互信息作为权重计算公式的一项,体现了单词的类区分能力。实验验证了该方法的可行性和有效性。 This paper uses vector space model as the description of the Web text,analyses and improves the traditional formula TF*IDF.First,we explore the feature of the Web pages which are written in HTML and describe the situation information of the terms in Web text.Second,we use generalized information theory as the theory base to introduce the quadratic entropy mutual information into the formula.The experiment shows the feasibility and the validity of this method.
出处 《计算机工程与应用》 CSCD 北大核心 2007年第19期192-194,198,共4页 Computer Engineering and Applications
关键词 向量空间模型 WEB文本分类 权重调整 互信息 vector space model Web text classification weight adjustment mutual information
  • 相关文献

参考文献3

二级参考文献4

共引文献210

同被引文献112

引证文献14

二级引证文献247

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部