为满足全国烟草生产经营管理一体化平台建设对行业信息分类与编码的需求,按照“流程、实体、服务”三类数字对象对信息系统进行解构,结合烟草行业业务实际情况,提出层级互信息聚类算法(Hierarchical Mutual Information Clustering,HMI...为满足全国烟草生产经营管理一体化平台建设对行业信息分类与编码的需求,按照“流程、实体、服务”三类数字对象对信息系统进行解构,结合烟草行业业务实际情况,提出层级互信息聚类算法(Hierarchical Mutual Information Clustering,HMIC),通过对文本数据进行自然语言处理,计算不同数字对象在不同分类层级的互信息,利用层次聚类算法对数字对象进行聚类,从而得到烟草行业信息分类,并在此基础上进行信息编码。将HMIC与常用聚类算法进行对比测试,结果表明:①所构建的HMIC模型的信息分类效果最好,其整体信息熵比使用欧氏距离的聚类算法降低约8.2%,比仅使用互信息矩阵的聚类算法降低约2.5%。②从信息量的角度对分类编码进行研究,能够更好地区分不同类别之间的差异,提高信息分类与编码的可用性。该技术可为指导信息系统项目全生命周期建设提供支持。展开更多
文摘为满足全国烟草生产经营管理一体化平台建设对行业信息分类与编码的需求,按照“流程、实体、服务”三类数字对象对信息系统进行解构,结合烟草行业业务实际情况,提出层级互信息聚类算法(Hierarchical Mutual Information Clustering,HMIC),通过对文本数据进行自然语言处理,计算不同数字对象在不同分类层级的互信息,利用层次聚类算法对数字对象进行聚类,从而得到烟草行业信息分类,并在此基础上进行信息编码。将HMIC与常用聚类算法进行对比测试,结果表明:①所构建的HMIC模型的信息分类效果最好,其整体信息熵比使用欧氏距离的聚类算法降低约8.2%,比仅使用互信息矩阵的聚类算法降低约2.5%。②从信息量的角度对分类编码进行研究,能够更好地区分不同类别之间的差异,提高信息分类与编码的可用性。该技术可为指导信息系统项目全生命周期建设提供支持。