摘要
在信息爆炸时代,其中存在大量的中文文本,并且文本之间存在层次关系,为了从中及时的获取有用的信息,需要进行有效的组织和管理。本文通过文本分类的方法,设计了“全路径+自底向上”的层次化分类规则,可以缓解自顶向下分类的阻塞,同时兼顾解决多标签和中间节点分类问题。首先使用BR方法即二元关系法把多标签转化为单标签统一处理,为除根节点外的每个节点构建一个二元分类器,使得可以在中间节点和叶子节点进行分类,然后利用节点及其祖先节点的关系从底向上对分类结果进行筛选过滤,以减少错分现象。实验表明采用该方法比常规自顶向下的方法在宏平均F1和微平均F1有3%到6%的提升。
出处
《电信技术研究》
2019年第2期16-21,共6页
Research on telecommunication technology