期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
面向复杂主题建模的流式层次狄里克雷过程 被引量:6
1
作者 韩忠明 张梦玫 +2 位作者 李梦琪 段大高 陈谊 《计算机学报》 EI CSCD 北大核心 2019年第7期1539-1552,共14页
互联网已经成为真实事件信息的主要来源.针对互联网海量新闻语料的主题挖掘是新闻事件的组织和追踪任务中关键的一环.主题模型已被广泛应用于挖掘和分析新闻等文本语料,LDA(Latent Dirichlet Allocation)是最常见的主题模型,然而现有基... 互联网已经成为真实事件信息的主要来源.针对互联网海量新闻语料的主题挖掘是新闻事件的组织和追踪任务中关键的一环.主题模型已被广泛应用于挖掘和分析新闻等文本语料,LDA(Latent Dirichlet Allocation)是最常见的主题模型,然而现有基于LDA的方法没有考虑到主题之间的层次关系,且需要预先提供主题个数.作为LDA模型的扩展,层次狄里克雷过程(Hierarchical Dirichlet Process,HDP)是非参数贝叶斯主题模型,HDP能够自动确定主题个数.对于具有层次等特性的复杂主题,HDP难以挖掘出隐式层次结构,且容易产生噪音主题.为了解决这个问题,该文提出了基于HDP改进的非参数贝叶斯模型:流式层次狄里利克雷过程(Flow Hierarchical Dirichlet Process,FHDP),FHDP通过在HDP模型中加入流动操作,加强了对主题之间的同属领域信息的利用,以便于更好的对主题进行层次分析.利用加入了流动操作的中国连锁餐馆模型(Chinese Restaurant Franchise,CRF)对数据进行建模,设计相应的马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)采样方法,以推导FHDP模型的分布参数分布.FHDP的主要贡献在于:(1)对含有层次关系的主题建模时,减少了无意义信息.解决了HDP得到主题不明确的问题,扩大了HDP的应用领域;(2)由于在FHDP中加强了对主题隐含领域信息的利用,主题的层次关系变得更加明确.为了客观衡量FHDP和HDP的性能差异,利用模拟和真实数据进行了大量实验.实验表明,在轮廓系数、主题覆盖度、单字对数似然等指标上,FHDP模型明显优于HDP模型。 展开更多
关键词 层次里克过程 主题模型 非参数贝叶斯模型 马尔可夫蒙特卡罗 流式层次里克过程
下载PDF
基于隐含狄列克雷分配分类特征扩展的微博广告过滤方法 被引量:4
2
作者 邢金彪 崔超远 +1 位作者 孙丙宇 宋良图 《计算机应用》 CSCD 北大核心 2016年第8期2257-2261,共5页
传统的微博广告过滤方法忽略了微博广告文本的数据稀疏性、语义信息和广告背景领域特征等因素的影响。针对这些问题,提出一种基于隐含狄列克雷分配(LDA)分类特征扩展的广告过滤方法。首先,将微博分为正常微博和广告型微博,并分别构建LD... 传统的微博广告过滤方法忽略了微博广告文本的数据稀疏性、语义信息和广告背景领域特征等因素的影响。针对这些问题,提出一种基于隐含狄列克雷分配(LDA)分类特征扩展的广告过滤方法。首先,将微博分为正常微博和广告型微博,并分别构建LDA主题模型预测短文本对应的主题分布,将主题中的词作为特征扩展的基础;其次,在特征扩展时结合文本类别信息提取背景领域特征,以降低其对文本分类的影响;最后,将扩展后的特征向量作为分类器的输入,根据支持向量机(SVM)的分类结果过滤广告。实验结果表明,与现有的仅基于短文本分类的过滤方法相比,其准确率平均提升4个百分点。因此,该方法能有效扩展文本特征,并降低背景领域特征的影响,更适用于数据量较大的微博广告过滤。 展开更多
关键词 广告过滤 隐含列克分配 短文本分类 支持向量机 特征扩展
下载PDF
基于LDA主题模型的短文本分类方法 被引量:77
3
作者 张志飞 苗夺谦 高灿 《计算机应用》 CSCD 北大核心 2013年第6期1587-1590,共4页
针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题,一方面区分相同词的上下文,降低权重;另一方面关联不同词以减少稀疏性,增加权重。采用K近邻方法对自动抓取的网... 针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题,一方面区分相同词的上下文,降低权重;另一方面关联不同词以减少稀疏性,增加权重。采用K近邻方法对自动抓取的网易页面标题数据进行分类,实验表明新方法在分类性能上比传统的向量空间模型和基于主题的相似性度量分别高5%和2.5%左右。 展开更多
关键词 短文本 分类 K近邻 相似度 隐含列克分配
下载PDF
基于LDA的中文文本相似度计算 被引量:23
4
作者 孙昌年 郑诚 夏青松 《计算机技术与发展》 2013年第1期217-220,共4页
传统基于TF-IDF的向量空间模型的文本相似度计算存在高维、数据稀疏、缺乏语义和维度未归一等问题,基于其上的语义扩展的TF-IDF向量空间模型中部分解决了语义问题,但是其基于词典的词语相似度计算限制了其应用范围。提出了一种基于潜在... 传统基于TF-IDF的向量空间模型的文本相似度计算存在高维、数据稀疏、缺乏语义和维度未归一等问题,基于其上的语义扩展的TF-IDF向量空间模型中部分解决了语义问题,但是其基于词典的词语相似度计算限制了其应用范围。提出了一种基于潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)的文本相似度计算方法,LDA模型可以在没有词典的情况下解决上述所有问题,通过吉比斯抽样方法将文本建模到主题空间,然后使用JS(Jensen-Shannon)距离来计算文本相似度。通过聚类实验表明该方法取得了较高的F值。 展开更多
关键词 向量空间模型 文本相似度 自然语言处理 潜在里克分配 主题模型
下载PDF
基于主题聚簇评价的论坛热点话题挖掘 被引量:5
5
作者 江浩 陈兴蜀 杜敏 《计算机应用》 CSCD 北大核心 2013年第11期3071-3075,共5页
热点话题挖掘是舆情监控的重要技术基础。针对现有的论坛热点话题挖掘方法没有解决数据中词汇噪声较多且热度评价方式单一的问题,提出一种基于主题聚簇评价的热点话题挖掘方法。采用潜在狄里克雷分配主题模型对论坛文本数据建模,对映射... 热点话题挖掘是舆情监控的重要技术基础。针对现有的论坛热点话题挖掘方法没有解决数据中词汇噪声较多且热度评价方式单一的问题,提出一种基于主题聚簇评价的热点话题挖掘方法。采用潜在狄里克雷分配主题模型对论坛文本数据建模,对映射到主题空间的文档集去除主题噪声后用优化聚类中心选择的K-means++算法进行聚类,最后从主题突发度、主题纯净度和聚簇关注度三个方面对聚簇进行评价。通过实验分析得出主题噪声阈值设置为0.75,聚类中心数设置为50时,可以使聚类质量与聚类速度达到最优。真实数据集上的测试结果表明该方法可以有效地将聚簇按出现热点话题的可能性排序。最后设计了热点话题的展示方法。 展开更多
关键词 潜在里克分配 主题模型 K—means++聚类 聚簇评价 热点话题
下载PDF
基于改进HLDA的前沿主题挖掘方法研究 被引量:5
6
作者 林晗 汤珊红 +1 位作者 高强 程佳军 《情报理论与实践》 CSSCI 北大核心 2022年第11期188-194,共7页
[目的/意义]识别和把握研究前沿具有现实价值,目前基础性知识工具中,主题模型因其独特的优越性而具有较为广泛的应用,为专家研判提供了辅助和支撑。[方法/过程]文章针对LDA的拓展模型HLDA展开研究,在方法核心过程nCRP中引入了文本相似... [目的/意义]识别和把握研究前沿具有现实价值,目前基础性知识工具中,主题模型因其独特的优越性而具有较为广泛的应用,为专家研判提供了辅助和支撑。[方法/过程]文章针对LDA的拓展模型HLDA展开研究,在方法核心过程nCRP中引入了文本相似度因子,并构造了数据集用于实证研究。[结果/结论]实验证明改进HLDA相较原始HLDA方法有了较大提升,并在不同程度上超越了现有的多种主题方法和引用网络方法,运用在前沿主题识别中具有较高准确性与可靠性。 展开更多
关键词 层次隐含狄里克雷分配 研究前沿 主题挖掘 自然语言处理 文本聚类
下载PDF
基于LDA-BiLSTM模型的高校网络舆情监测方法及实证 被引量:11
7
作者 陆敬筠 胡舜奕 俞建光 《情报理论与实践》 CSSCI 北大核心 2020年第11期156-161,共6页
[目的/意义]高校网络舆情能够反映学生的思想动态。实时甄别高校网络信息内容,监测潜在舆情,对于合理引导学生思想、维护高校形象具有重要意义。[方法/过程]提出基于LDA-BiLSTM模型的高校网络舆情监测方法,以高校百度贴吧为数据源,提取... [目的/意义]高校网络舆情能够反映学生的思想动态。实时甄别高校网络信息内容,监测潜在舆情,对于合理引导学生思想、维护高校形象具有重要意义。[方法/过程]提出基于LDA-BiLSTM模型的高校网络舆情监测方法,以高校百度贴吧为数据源,提取数据中的热门主题,获取热门主题下回复文本的情感极性,分析其潜在舆情。[结果/结论]结果表明,此方法能够获取高校贴吧热门主题及其情感极性,监测潜在舆情,为高校网络舆情管理提供有效方法和模型。 展开更多
关键词 高校学生 网络舆情 隐含里克分布 长短时记忆网络 舆情监测
下载PDF
基于检索结果排序的伪相关反馈 被引量:1
8
作者 闫蓉 高光来 《计算机应用》 CSCD 北大核心 2016年第8期2099-2102,2143,共5页
针对传统伪相关反馈(PRF)算法扩展源质量不高使得检索效果不佳的问题,提出一种基于检索结果的排序模型(REM)。首先,该模型从初检结果中选择排名靠前的文档作为伪相关文档集;然后,以用户查询意图与伪相关文档集中各文档的相关度最大化、... 针对传统伪相关反馈(PRF)算法扩展源质量不高使得检索效果不佳的问题,提出一种基于检索结果的排序模型(REM)。首先,该模型从初检结果中选择排名靠前的文档作为伪相关文档集;然后,以用户查询意图与伪相关文档集中各文档的相关度最大化、并且各文档之间相似性最小化作为排序原则,将伪相关文档集中各文档进行重排序;最后,将排序后排名靠前的文档作为扩展源进行二次反馈。实验结果表明,与两种传统伪反馈方法相比,该排序模型能获得与用户查询意图相关的反馈文档,可有效地提高检索效果。 展开更多
关键词 伪相关反馈 潜在里克分配 主题模型 查询扩展
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部