期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
隐主题模型下产品评论观点的凝聚与量化 被引量:9
1
作者 聂卉 《情报学报》 CSSCI CSCD 北大核心 2017年第6期565-573,共9页
随着电子商务应用的不断深入,用户评论大量涌现,质量堪忧。本研究的目标,是从纷繁杂乱的海量商品用户评论中有效凝练出有价值内容,最大程度地发挥其商业应用价值。论文从信息凝练与整合的视角对用户评论汇总问题展开探索。面向中文领域... 随着电子商务应用的不断深入,用户评论大量涌现,质量堪忧。本研究的目标,是从纷繁杂乱的海量商品用户评论中有效凝练出有价值内容,最大程度地发挥其商业应用价值。论文从信息凝练与整合的视角对用户评论汇总问题展开探索。面向中文领域,重点研究了基于用户观点的产品主题特征汇聚以及用户观点量化两个核心问题,提出并构建了基于特征序列描述的观点聚类模型Opinion_LDA,实现了基于主题模型的用户观点的自动聚类,同时利用依存句法分析及词法修饰关系对用户评价观点进行了量化。算法的效果及实现策略通过了系统实验的评测和检验。从应用的角度,完成了基于用户观点的商品"在线口碑"的信息凝聚以及产品性能的全方位汇总。 展开更多
关键词 隐主题模型 评论挖掘 网络口碑 评论汇总
下载PDF
基于隐主题马尔科夫模型的多特征自动文摘 被引量:4
2
作者 刘江鸣 徐金安 张玉洁 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第1期187-193,共7页
基于隐主题马尔科夫模型,消除LDA主题模型的主题独立假设,使得文摘生成过程中充分利用文章的结构信息,并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下,从单文档扩展到多文档的自动文摘策略,最终搭建完善的自动... 基于隐主题马尔科夫模型,消除LDA主题模型的主题独立假设,使得文摘生成过程中充分利用文章的结构信息,并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下,从单文档扩展到多文档的自动文摘策略,最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性,所实现的自动文摘系统ROUGE值有明显提高。 展开更多
关键词 主题马尔科夫模型 多特征 多文档自动文摘
下载PDF
基于隐主题分析的中文微博话题发现 被引量:19
3
作者 史剑虹 陈兴蜀 王文贤 《计算机应用研究》 CSCD 北大核心 2014年第3期700-704,共5页
针对高维、稀疏的中文微博数据,提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点,选取出不同时间窗口中具有较高新闻价值的微博文本;再利用隐主题模型挖掘微博内容中隐含的主题信息,并在此基础上进行文本聚类;最后使用频繁... 针对高维、稀疏的中文微博数据,提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点,选取出不同时间窗口中具有较高新闻价值的微博文本;再利用隐主题模型挖掘微博内容中隐含的主题信息,并在此基础上进行文本聚类;最后使用频繁项集挖掘技术获取话题关键词集合。该算法能够较好地实现对中文微博数据的降维与话题发现。真实的微博数据集实验结果验证了该方法的有效性。 展开更多
关键词 中文微博 话题发现 隐主题模型 文本聚类 频繁项集挖掘
下载PDF
国家高新技术产业开发区生物医药产业政策主题挖掘及量化评价研究 被引量:8
4
作者 乔晗 徐俐颖 +2 位作者 李旭 李树祥 褚淑贞 《中国药房》 CAS 北大核心 2020年第22期2689-2694,共6页
目的:为我国生物医药产业发展提供参考。方法:收集2010年1月-2019年12月我国全部169家国家高新技术产业开发区(以下简称"国家高新区")官方网站上发布的政策文件,从中筛选出专门针对生物医药产业方面的政策以及全部产业政策中... 目的:为我国生物医药产业发展提供参考。方法:收集2010年1月-2019年12月我国全部169家国家高新技术产业开发区(以下简称"国家高新区")官方网站上发布的政策文件,从中筛选出专门针对生物医药产业方面的政策以及全部产业政策中提及生物医药产业发展的政策,采用Excel 2019软件进行政策信息的汇总分析;使用Gensim包完成政策文本的预处理并构建隐合狄利克雷分布(LDA)主题模型,实现对政策文本中潜在语义信息的提取与分析。结果:共收集到相关政策文本518件,其中有效词汇共58617个,高频词汇包括项目、人才、支持、补贴、创新等;提取出8个主题,按主题强度排序依次为技术创新、人才建设、融资支持、项目金融支持、税收优惠、资源引领、出口贸易、中小企业建设,强度分别为0.299、0.168、0.134、0.116、0.113、0.063、0.058、0.049。结论:国家高新区生物医药产业政策以技术创新、人才建设和融资支持为主,缺乏对中小企业建设、资源引领、出口贸易的关注。今后国家高新区对生物医药产业的政策支持及体系建设应重点完善政策激励措施,平衡各领域政策运用比例;鼓励企业扩大海外市场,学习海外先进技术,加强科研等领域的多边合作;配套相应的政策以增进企业间的交流合作,发挥龙头企业和名牌产品的带动作用,促进中小企业发展。 展开更多
关键词 合狄利克雷分布主题模型 国家高新技术产业开发区 生物医药产业 政策 主题挖掘 量化评价
下载PDF
基于隐主题分析和文本聚类的微博客中新闻话题的发现 被引量:67
5
作者 路荣 项亮 +1 位作者 刘明荣 杨青 《模式识别与人工智能》 EI CSCD 北大核心 2012年第3期382-387,共6页
提出一种在大规模微博客短文本数据集上发现新闻话题的方法.利用隐主题分析技术,解决短文本相似度度量的问题.在每个时间窗口内,根据新闻的特点选取出最有可能谈论新闻事件的微博客文本,然后用两层的K均值和层次聚类的混合聚类方法,对... 提出一种在大规模微博客短文本数据集上发现新闻话题的方法.利用隐主题分析技术,解决短文本相似度度量的问题.在每个时间窗口内,根据新闻的特点选取出最有可能谈论新闻事件的微博客文本,然后用两层的K均值和层次聚类的混合聚类方法,对这个时间窗口内的那些最有可能谈论新闻事件的微博文本进行聚类,从而检测出新闻话题.此方法能较好地解决微博客短文本的数据稀疏性及数据量巨大的问题.实验证明该算法的有效性. 展开更多
关键词 微博客 短文本 隐主题模型 话题发现 混合聚类
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部