摘要
本系统基于TF-IDF算法和朴素贝叶斯分类算法对轨道交通运行故障文本进行分类。TF-IDF由两部分组成。TF即词频。我们把原始数据转换为向量特征,目的是将事故文本中各个词的出现频率进行统计,并以此作为事故文本特征,根据统计的词条出现频率进行初步划分。而IDF指的是逆文本频率,通过这个值可以体现出一个词在全部的文本中出现的频率,如果一个词在较多的文本中出现,那么它的IDF值应该低,反之,若一个词在较少的文本中出现,那么它的IDF值应该高。因此,IDF值表示这个词的重要程度,通过对IDF值的计算,进而修正仅仅使用词频来表示的词频特征值。朴素贝叶斯分类算法是统计学的贝叶斯算法中最简单的一种,它在进行文本分类的时候只做了最原始、最简单的分辨。朴素贝叶斯要求特征之间相互独立并且每个特征的重要性是相同的。在应用实现铁路事故文本分类时,拥有在属性相关性较小时效果好,可处理多类别的分类问题的有点,其算法逻辑简单且易于实现。