期刊文献+

航行通告中自然语言理解算法研究

下载PDF
导出
摘要 航行通告机器识别,对于规范化的代码处理相对简单,但对于自然语言处理起来相对困难。针对航行通告中类别多,数据分布不平衡,中英文混合等问题,提出基于word2vec文本向量化技术的文本分类方法,针对小样本数据采用smote算法对数据重采样,经过重采样后的数据选择使用XGBoost继承算法模型完成分类。由中航材导航技术公司提供的航行通告标签原始数据,经实验表明,能够有效规避样本数据分布极不平衡,分类数量过多的问题,同时模型的主要评价指标都有提高,包括模型的准确率、召回率及F1值。
出处 《电脑知识与技术》 2021年第11期206-209,共4页 Computer Knowledge and Technology
  • 相关文献

参考文献2

二级参考文献20

  • 1杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量:188
  • 2Frey B J,Dueek D.Clustering by passing messages between data points[J].Science,2007,315:972-976.
  • 3Frey B J,Dueck D.Response to comment on"clustering by passing messages between data points"[J].Science,2008,319.
  • 4Brusco M J,KShn H.Comment on"clustering by passing messages between data points"[J].Science.2008,319.
  • 5Calinski R,Harabasz J.A dendrite method for cluster analysis[J].Commun Statistics,1974,3:1-27.
  • 6Dimitriadou E,Dolnicar S,Weingessel A.An examination of indexes for determining the number of duster in binary data sets[J].Psychometrika,2002,67(1):137-160.
  • 7Kapp A V,Tibshirani R.Are clusters found in one dataset present in another dataset?[J].Biostatistics,2007,8(1):9-31.
  • 8Dudoit S,Fridlyand J.A prediction-based resampling method for estimating the number of clusters in a dataset[J].Genome Biology,2002.3(7):1-21.
  • 9Dembélé D,Kastner P.Fuzzy c-means method for clustering micoarray data[J].Bioinformatics,2003,19(8):973-980.
  • 10Medvedovie M,Yeung K Y,Burngamer R E.Bayesian mixture model based clustering of replicated microarray data[J].Bioinformatics.2004,20(8):1222-1232.

共引文献99

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部