摘要
航行通告机器识别,对于规范化的代码处理相对简单,但对于自然语言处理起来相对困难。针对航行通告中类别多,数据分布不平衡,中英文混合等问题,提出基于word2vec文本向量化技术的文本分类方法,针对小样本数据采用smote算法对数据重采样,经过重采样后的数据选择使用XGBoost继承算法模型完成分类。由中航材导航技术公司提供的航行通告标签原始数据,经实验表明,能够有效规避样本数据分布极不平衡,分类数量过多的问题,同时模型的主要评价指标都有提高,包括模型的准确率、召回率及F1值。
出处
《电脑知识与技术》
2021年第11期206-209,共4页
Computer Knowledge and Technology