-
题名扩展DPMM模型在短文本主题识别中的应用
- 1
-
-
作者
汪海波
-
机构
淮安信息职业技术学院计算机通信学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2014年第8期191-195,共5页
-
文摘
近年来,话题检测与追踪(TDT)得到广泛研究。然而,研究主要基于常规的新闻,扩展到短篇报道依然有问题。提出基于耿氏混合模型(DPMM)的话题识别方法,以统一的模型处理话题切分和TDT。介绍DPMM在话题识别中的应用以及讨论两种专门用来解决短篇报道的稀疏问题的方案。一个是算法流程,将话题识别的处理单元由单个短文本转为会话。另一个是扩展DPMM模型,当估算与已知的话题的关联词时考虑字的依赖。随后,通过同时处理话题切分和TDT来识别自发文本流的话题。DPMM模型的优势在于混合组件的数量不必提前确定,并且不需要话题数量与内容的前期准备,因此它更加适合流文本话题识别。实验结果表明,DPMM模型对处理短文本数据的话题识别是有效的。
-
关键词
话题识别
混合模型
扩展耿氏过程
流数据
静态短文本
-
Keywords
Topic recognition Mixture model Extended DPMM Data streams Static short text
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-