-
题名基于文本融合特征的突发事件子话题聚类研究
- 1
-
-
作者
芦子涵
郑中团
-
机构
上海工程技术大学数理与统计学院
-
出处
《智能计算机与应用》
2023年第10期45-51,55,共8页
-
基金
全国统计科学研究项目(2020LY080)。
-
文摘
突发事件具有突发性、公共性、传播范围广等特点,研究同一突发事件中更细粒度的子话题聚类,对舆情管控部门实现精准化管控具有重要意义。针对以往话题聚类方法忽略了同一事件下更细粒度的子话题聚类,且为了更有效地表达微博文本的语义信息,提出一种基于LDA文档-主题分布与Doc2Vec句向量融合的文本特征表示方法与文本相似度计算方法,应用Single-Pass增量聚类算法实现同一突发事件下子话题聚类,并根据F1值与单一文本特征子话题聚类实验结果进行对比。结果表明,本文方法子话题聚类效果更佳,F1值为72.4%,表明该方法能够有效地表达文本特征,进而提高子话题聚类的准确度。
-
关键词
突发事件
子话题聚类
文本特征
LDA主题模型
Doc2Vec模型
-
Keywords
emergency
sub-topic clustering
text features
LDA topic model
Doc2Vec model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名融合内容与时间特征的中文新闻子话题聚类
被引量:5
- 2
-
-
作者
仲兆满
李存华
戴红伟
刘宗田
-
机构
淮海工学院计算机工程学院
上海大学计算机工程与科学学院
-
出处
《计算机科学与探索》
CSCD
2013年第4期368-376,共9页
-
基金
国家自然科学基金No.60975033
连云港市自然科学基金No.CG1121~~
-
文摘
子话题是对话题的再次划分,是比话题粒度更细的新兴研究方向,子话题的聚类是话题内部演化关系分析的基础。提出了融合内容特征和时间特征的中文新闻子话题聚类方法,重点分析了子话题内容特征的表现规律,研究了子话题特征词的权重计算和降维方法。选取5个话题的18个子话题进行了实验,结果表明,所提方法的性能与已有的子话题聚类方法相比有显著提高。
-
关键词
话题演化
子话题聚类
内容特征
时间特征
-
Keywords
topic evolution
subtopic clustering
content features
time features
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-