摘要
针对自然语言处理中普遍存在的特征缺失问题,提出了基于特征缺失补偿最大熵模型的文本分类方法。为避免数据稀疏时出现训练过适应,采用高斯先验平滑进行特征补偿,并提出基于条件最大熵计算增益和基于特征频数的混合特征选择方法。通过实验将本方法与中心法、最近邻、贝叶斯、SVM和平滑前的最大熵文本分类器进行了比较,实验结果表明基于特征缺失补偿最大熵模型分类器的综合性能超过以上算法。
出处
《情报杂志》
CSSCI
北大核心
2010年第5期141-143,147,共4页
Journal of Intelligence
基金
国家自然科学基金项目"移动电子商务支付模式及安全性能分析研究"(编号:70672092)
国家自然科学基金重大项目"面向服务的商务智能与知识管理方法研究"(编号:708890080)