-
题名基于隐马尔可夫模型的文本分类算法
被引量:8
- 1
-
-
作者
杨健
汪海航
-
机构
同济大学电子与信息工程学院
大理学院数学与计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2010年第9期2348-2350,2361,共4页
-
基金
上海市科委科技支撑计划项目(072712036)
-
文摘
自动文本分类领域近年来已经产生了若干成熟的分类算法,但这些算法主要基于概率统计模型,没有与文本自身的语法和语义建立起联系。提出了将隐马尔可夫序列分析模型(HMM)用于自动文本分类的算法,首先构造表示文档类别的特征词集合,并以文档类别的特征词序列作为不同HMM分类器的观察序列,而HMM的状态转换序列则隐含地表示了不同类别文档内容的形成演化过程。分类时,具有最大生成概率的HMM分类器类标即为测试文档的分类结果。该算法构造的分类器模型一定程度上体现了不同类别文档的语法和语义特征,并可以实现多类别的自动文本分类,分类效率较高。
-
关键词
文本分类
隐马尔可夫模型
信息增益
χ2检验
词频—反文档频率
-
Keywords
text classification
Hidden Markov Model ( HMM)
information gain
χ2 test
Term Frequency-Inverse Document Frequency ( TF-IDF)
-
分类号
TP182
[自动化与计算机技术—控制理论与控制工程]
-