-
题名基于互信息的话题特征选择方法研究
被引量:4
- 1
-
-
作者
吴树芳
徐建民
朱杰
-
机构
河北大学管理学院
河北大学计算机科学与技术学院
中央司法警官学院信息管理系
-
出处
《情报杂志》
CSSCI
北大核心
2015年第4期160-164,共5页
-
基金
河北省自然科学基金项目"基于贝叶斯网络的话题识别和追踪方法研究"(编号:F2015201142)
河北省自然科学基金项目"基于本体的贝叶斯网络信息检索模型扩展"(编号:F2011201146)
-
文摘
特征选择是舆情监测系统构建的关键步骤之一,好的特征选择方法可以在降低系统时间消耗的同时,提高舆情监测的准确性。针对话题特征提取方法 ITF-IDF没有考虑类别信息的缺点,尝试将互信息用于话题特征提取,提出改进的互信息计算方法 CMI和DCMI。CMI方法融入了聚类思想,对新闻报道进行分组验证,DCMI在CM I的基础上,将时间信息量化为时间距离,实现特征互信息的动态更新。实验结果显示,DCM I的性能明显优于基本互信息方法和ITF-IDF方法。
-
关键词
互信息
话题
特征提取
cmi
dcmi
时间信息
-
Keywords
mutual information topic feature selection cmi dcmi time information
-
分类号
G350
[文化科学—情报学]
-