-
题名基于LDA的中文文本相似度计算
被引量:23
- 1
-
-
作者
孙昌年
郑诚
夏青松
-
机构
安徽大学计算机科学与技术学院
教育部计算智能与信号处理重点实验室
-
出处
《计算机技术与发展》
2013年第1期217-220,共4页
-
基金
安徽省自然科学基金(06060716)
安徽大学研究生学术创新研究(YQH090047)
-
文摘
传统基于TF-IDF的向量空间模型的文本相似度计算存在高维、数据稀疏、缺乏语义和维度未归一等问题,基于其上的语义扩展的TF-IDF向量空间模型中部分解决了语义问题,但是其基于词典的词语相似度计算限制了其应用范围。提出了一种基于潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)的文本相似度计算方法,LDA模型可以在没有词典的情况下解决上述所有问题,通过吉比斯抽样方法将文本建模到主题空间,然后使用JS(Jensen-Shannon)距离来计算文本相似度。通过聚类实验表明该方法取得了较高的F值。
-
关键词
向量空间模型
文本相似度
自然语言处理
潜在狄里克雷分配
主题模型
-
Keywords
vector space model
text similarity
natural language processing
latent Dirichlet allocation
topic model
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于主题聚簇评价的论坛热点话题挖掘
被引量:5
- 2
-
-
作者
江浩
陈兴蜀
杜敏
-
机构
四川大学计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2013年第11期3071-3075,共5页
-
基金
国家科技支撑计划课题项目(2012BAH18B05)
-
文摘
热点话题挖掘是舆情监控的重要技术基础。针对现有的论坛热点话题挖掘方法没有解决数据中词汇噪声较多且热度评价方式单一的问题,提出一种基于主题聚簇评价的热点话题挖掘方法。采用潜在狄里克雷分配主题模型对论坛文本数据建模,对映射到主题空间的文档集去除主题噪声后用优化聚类中心选择的K-means++算法进行聚类,最后从主题突发度、主题纯净度和聚簇关注度三个方面对聚簇进行评价。通过实验分析得出主题噪声阈值设置为0.75,聚类中心数设置为50时,可以使聚类质量与聚类速度达到最优。真实数据集上的测试结果表明该方法可以有效地将聚簇按出现热点话题的可能性排序。最后设计了热点话题的展示方法。
-
关键词
潜在狄里克雷分配
主题模型
K—means++聚类
聚簇评价
热点话题
-
Keywords
Latent Dirichlet Allocation (LDA)
topic model
K-means + + clustering
cluster evaluation
hot topic
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于检索结果排序的伪相关反馈
被引量:1
- 3
-
-
作者
闫蓉
高光来
-
机构
内蒙古大学计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2016年第8期2099-2102,2143,共5页
-
基金
国家自然科学基金资助项目(61263037)
内蒙古自然科学基金资助项目(2014BS0604
2014MS0603)~~
-
文摘
针对传统伪相关反馈(PRF)算法扩展源质量不高使得检索效果不佳的问题,提出一种基于检索结果的排序模型(REM)。首先,该模型从初检结果中选择排名靠前的文档作为伪相关文档集;然后,以用户查询意图与伪相关文档集中各文档的相关度最大化、并且各文档之间相似性最小化作为排序原则,将伪相关文档集中各文档进行重排序;最后,将排序后排名靠前的文档作为扩展源进行二次反馈。实验结果表明,与两种传统伪反馈方法相比,该排序模型能获得与用户查询意图相关的反馈文档,可有效地提高检索效果。
-
关键词
伪相关反馈
潜在狄里克雷分配
主题模型
查询扩展
-
Keywords
Pseudo Relevance Feedback (PRF)
Latent Dirichlet Allocation (LDA)
topic model
query expansion
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-