融合词向量特征的双词主题模型被引量：7

Biterm topic model with word vector features

下载PDF

导出

摘要针对短文本中固有的文本内容稀疏和上下文信息匮乏等问题,在双词主题模型(BTM)的基础上提出一种融合词向量特征的双词主题模型LF-BTM。该模型引入潜在特征模型以利用丰富的词向量信息弥补内容稀疏,在改进的生成过程中每个双词的词汇的生成受到主题—词汇多项分布和潜在特征模型的共同影响。模型中的参数通过吉布斯采样算法进行估计。在真实的短文本数据集上的实验结果表明,该模型能结合外部通用的大规模语料库上已训练好的词向量挖掘出语义一致性显著提升的主题。 To solve the problem of content sparsity and lack of context information existed inherently in short texts, this paper proposed a biterm topic model （BTM） incorporating word vector features LF-BTM based on BTM. This model introuded latent feature model which utilized its abundant word vector information to offset the data sparsity. Generation of words in each biterm was influenced jointly by topic-word multinomial distribution and latent features model in the improved generative process. Parameters in the model could be learned by of Gibbs sampling method. Experimental results on real-world short texts datasets demonstrate that the model can integrate word vectors trained from external general large-scale corpora to produce significant improvements on topic coherence.

作者刘良选黄梦醒

机构地区海南大学信息科学技术学院

出处《计算机应用研究》 CSCD 北大核心 2017年第7期2055-2058,共4页 Application Research of Computers

基金国家自然科学基金资助项目(61462022)

关键词主题模型潜在狄利克雷分配短文本双词主题模型词向量吉布斯采样 topic model latent Dirichlet allocation short texts biterm topic model word vector Gibbs sampling

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献62

1陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
2徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：236
3刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012,39(2):8-13. 被引量：99
4王李冬,魏宝刚,袁杰.基于概率主题模型的文档聚类[J].电子学报,2012,40(11):2346-2350. 被引量：24
5王功辉,黄奇,秦超,杨呈中.本体构建中的语义分析方法研究[J].图书情报工作,2013,57(7):106-111. 被引量：13
6柴变芳,贾彩燕,于剑,傅玥.融合内容和链接的网络结构发现概率模型综述[J].小型微型计算机系统,2013,34(11):2524-2528. 被引量：2
7杨美荣,邵洪雨,史建锋,肖玲诺.改进的领域本体概念相似度计算模型研究[J].情报科学,2014,32(5):72-77. 被引量：7
8王小林,王东,杨思春,邰伟鹏,郑啸.基于《知网》的词语语义相似度算法[J].计算机工程,2014,40(12):177-181. 被引量：16
9冶忠林,杨燕,贾真,尹红风.基于语义扩展的短问题分类[J].计算机应用,2015,35(3):792-796. 被引量：16
10吕超镇,姬东鸿,吴飞飞.基于LDA特征扩展的短文本分类[J].计算机工程与应用,2015,51(4):123-127. 被引量：49

引证文献7

1王景田,杨赴云,张月英.单胺氧化酶抑制剂及其相互作用[J].中国药学杂志,2000,35(5):351-353. 被引量：16
2何喜军,马珊,武玉英.基于本体和SAO结构的线上技术供需信息语义匹配研究[J].情报科学,2018,36(11):95-100. 被引量：18
3黄贤英,谢晋,龙姝言.融合词向量及BTM模型的问题分类方法[J].计算机工程与设计,2019,40(2):384-388. 被引量：8
4黄佳佳,李鹏伟,彭敏,谢倩倩,徐超.基于深度学习的主题模型研究[J].计算机学报,2020,43(5):827-855. 被引量：46
5胡玉兰,赵青杉,牛永洁,陈莉.基于分层Attention机制的Bi-GRU中文文本分类模型[J].长春师范大学学报,2021,40(2):39-45. 被引量：1
6韩亚楠,刘建伟,罗雄麟.概率主题模型综述[J].计算机学报,2021,44(6):1095-1139. 被引量：39
7卫红敏.基于有监督双词主题模型的短文本分类方法[J].现代信息科技,2024,8(10):56-59.

二级引证文献124

1张季,康乐乐,李博.移动应用评论挖掘研究综述[J].知识管理论坛,2021(6):339-350. 被引量：2
2胡丰林,丁晓娟,杨成,李增智,樊美珍.一种白僵菌中MAO抑制剂的分离纯化和结构鉴定[J].菌物学报,2006,25(2):273-277. 被引量：7
3吴洪,黄真珠,陈秀娟,黄增平,郑勇.肼基单胺氧化酶抑制剂活性与电子结构构效关系的计算分析[J].中国生物化学与分子生物学报,2007,23(11):959-962. 被引量：1
4龙项,李浩,湛延风,冯默.中西药物相互作用探讨[J].中国中西医结合杂志,2009,29(5):457-460. 被引量：23
5左申存.探讨中心摆药过程中存在的问题和改进方向[J].安徽医药,2009,13(11):1434-1435. 被引量：5
6冯超英,陈点点.单胺氧化酶抑制剂与药物及食物间的相互作用及其配伍[J].临床误诊误治,2010,23(4):384-385. 被引量：8
7刘江,张小琴,韩隽,刘俊彪,黄锋,马彬彬,王宇光.香豆素类荧光探针在检测方面的研究进展[J].浙江化工,2010,41(9):27-31. 被引量：6
8王景田,杨赴云,张月英.单胺氧化酶抑制剂及其相互作用[J].中国药学杂志,2000,35(5):351-353. 被引量：16
9魏宏强,康瑞,李爱玲,赵秀娟.阿立哌唑辅助氟伏沙明治疗强迫障碍的临床观察[J].中国医学创新,2013,10(11):7-9. 被引量：3
10裴英,杨中铎,李志忠,舒宗美,师音.药用植物内生真菌的分离及其次生代谢产物生物活性研究[J].中国食品工业,2013(12):64-66.

1卢静.基于嵌入式的图像检索系统的设计和实现[J].技术与市场,2016,23(5):185-186.
2袁俊.Web数据挖掘及在电子商务中的应用探析[J].中国科技博览,2011(7):275-276. 被引量：1
3毛斐巧,陈海鹏.一种基于赋权制的新型选课系统[J].中国教育技术装备,2014,0(22):40-43.
4张世雄,于锁利.提高LF机编译类程序运行速度的方法[J].黑龙江大学自然科学学报,1990,7(3):55-59.
5PlC16F（LF）178X：MCU[J].世界电子元器件,2012(5):31-31.
6倪悦,范玉顺.基于着色Petri网的语义Web服务组合形式化验证[J].清华大学学报（自然科学版）,2010,50(5):714-717. 被引量：12
7蔡勇智.未登录词识别算法的改进[J].福建电脑,2006,22(3):116-117. 被引量：4
8许日滨.实现异构多机系统任务分布的最小适应算法[J].计算机学报,1997,20(10):889-893. 被引量：2
9牛濛.Skyline在多成本偏好查询中的相关算法与应用介绍[J].信息与电脑（理论版）,2013,0(4):177-180.
10辛日华.语义剪枝系统研究[J].内蒙古师范大学学报（自然科学汉文版）,2014,43(1):106-109.

计算机应用研究

2017年第7期

浏览历史

内容加载中请稍等...

融合词向量特征的双词主题模型被引量：7

同被引文献62

引证文献7

二级引证文献124

相关作者

相关机构

相关主题

浏览历史

融合词向量特征的双词主题模型 被引量：7

同被引文献62

引证文献7

二级引证文献124

相关作者

相关机构

相关主题

浏览历史

融合词向量特征的双词主题模型被引量：7