融合主题与语言模型的蒙古文信息检索方法研究被引量：6

Mongolian information retrieval method based on topic model and language model

下载PDF

导出

摘要为了从日益丰富的蒙古文信息中快速准确地检索用户需求的主题信息,提出了一种融合LDA主题模型与语言模型的方法。该方法首先对蒙古文文本建立一元和二元语言模型,得到文本的语言概率分布;然后基于LDA建立主题模型,利用吉普斯抽样方法计算模型的参数,挖掘得到文档隐含的主题概率分布;最后,计算出文档主题分布与语言分布的线性组合概率分布,以此分布来计算文档主题与查询关键词之间的相似度,返回与查询关键词主题最相关的文档。语言模型充分利用蒙古文语法特征,而主题模型LDA又具有良好的潜在语义挖掘及主题发现的泛化学习能力,从而结合两种方法更好地实现蒙古文文档的主题语义检索,提高检索准确性。实验结果表明,融合LDA与语言模型的方法相比单一模型体现主题语义方面取得了较好的效果。 Aiming at the retrieval semantic information in Mongolian, this paper proposed a new method combined topic model latent dirichlet allocation（LDA） and language model. This method modeled Mongolian documents with LDA and language model, estimated parameters with Gibbs sampling and represented probability of word, it could mine the hidden relationship between the different topics and the words from documents, got the topic distribution and computed the similarity or keywords topics. Finally,it returned to the most relevant documents with topics. Experimental results show that the method has a higher performance in topic semantic compared with one sole model.

作者斯日古楞林民田长波 Siriguleng Lin Min Tian Changbo(College of Computer ＆ Information Engineering, Inner Mongolia Normal University, Hohhot 010022, China)

机构地区内蒙古师范大学计算机与信息工程学院

出处《计算机应用研究》 CSCD 北大核心 2016年第12期3676-3680,共5页 Application Research of Computers

基金国家自然科学基金资助项目(61562068) 内蒙古自然科学基金资助项目(2013MS0912) 内蒙古自治区教育部人文社会科学研究项目(13YJAZH080)

关键词蒙古文语言模型主题模型 GIBBS采样信息检索 Mongolian language model topic model Gibbs sampling information retrieval

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1李进华,周朴雄.基于统计语言模型的信息检索演进探析[J].图书情报知识,2010,27(3):51-61. 被引量：4
2张俊林,孙乐,孙玉芳.基于主题语言模型的中文信息检索系统研究[J].中文信息学报,2005,19(3):14-20. 被引量：4
3王灿辉,张敏,马少平.自然语言处理在信息检索中的应用综述[J].中文信息学报,2007,21(2):35-45. 被引量：50
4石晶,李万龙.基于LDA模型的主题词抽取方法[J].计算机工程,2010,36(19):81-83. 被引量：47
5徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：236
6刘启华.基于LDA的文本语义检索模型[J].情报科学,2014,32(8):38-43. 被引量：8
7卜质琼,郑波尽.基于LDA模型的Ad hoc信息检索方法研究[J].计算机应用研究,2015,32(5):1369-1372. 被引量：8

二级参考文献193

1苏祺,昝红英,胡景贺,项锟.词性标注对信息检索系统性能的影响[J].中文信息学报,2005,19(2):58-65. 被引量：8
2赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
3金澎,刘毅,王树梅.汉语分词对中文搜索引擎检索性能的影响[J].情报学报,2006,25(1):21-24. 被引量：6
4宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
5廖玲,文敦伟.基于改进向量空间模型的邮件分类[J].计算机与数字工程,2007,35(4):190-193. 被引量：3
6Sparck Jones, K., Walker, S., Robertson, S. E.. A probabilistic model of information retrieval, development and comparative experi- ments - part 1 and part 2. Information Processing and Management, 2000, 36(6):779-808 &809-840.
7J. Ponte, W. B. Croft. A language modeling approach to information retrieval, in Proceedings of the ACM SIGIR'98, New York, ACM, 1998:275-281.
8J. Lafferty, C. Zhai. Probabilistic relevance models based on document and query generation. [2009-04-20]. http: //www-2. cs.cmu. edu/- czhai/paper/Imir2003-probir. ps.
9曼宁 C.,许策 S.统计自然语言基础.苑春法,李庆中等译.北京:电子工业出版社,2005:200-215.
10Fei. Song , W. B. Croft. A general language model for information retrieval, in Proceedings of the 1999 ACM SIGIR Conference on Research and Development in Information Retrieval, USA, New York, ACM, 1999 : 279-280.

共引文献340

1李奕霖,周艳平.基于孪生网络和字词向量结合的文本相似度匹配[J].计算机系统应用,2022,31(10):295-302. 被引量：2
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3吴文海,孙磊,王国志,张霆.基于近义词分配的铁路接触网绝缘子识别与分类[J].电瓷避雷器,2020(1):156-160. 被引量：5
4郑婧,孙卫.国内自然语言处理技术研究与应用的状态[J].数字图书馆论坛,2008(7):27-31. 被引量：1
5刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
6文健,李舟军.基于聚类语言模型的生物文献检索技术研究[J].中文信息学报,2008,22(1):61-66. 被引量：3
7丁凡,王斌,白硕,刘宜轩,李亚楠.文档检索中句法信息的有效利用研究[J].中文信息学报,2008,22(4):66-74. 被引量：4
8徐磊.基于NLP的信息检索[J].黑龙江教育学院学报,2008,27(3):160-161. 被引量：3
9董燕举,蔡东风,白宇.面向事实性问题的答案选择技术研究综述[J].中文信息学报,2009,23(1):86-94.
10刘爽,孙光明,刘奕.基于数字水印的档案数据库安全策略研究[J].情报科学,2010,28(2):271-273. 被引量：2

同被引文献52

1李景,孟连生.构建知识本体方法体系的比较研究[J].现代图书情报技术,2004(7):17-22. 被引量：48
2李善平,尹奇韡,胡玉杰,郭鸣,付相君.本体论研究综述[J].计算机研究与发展,2004,41(7):1041-1052. 被引量：274
3姚红玉,刘粤钳.基于PLSA的智能学习支持系统[J].教育信息化,2005(11S):33-35. 被引量：1
4王萌,李春贵,唐培和,王晓荣.一种主题句发现的中文自动文摘研究[J].计算机工程,2007,33(8):180-181. 被引量：8
5李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
6郭建永,蔡勇,甄艳霞.基于文本聚类技术的主题发现[J].计算机工程与设计,2008,29(6):1426-1428. 被引量：15
7赵琦,张智雄,孙坦,许雁冬.主题发现技术方法研究[J].情报理论与实践,2009,32(4):104-108. 被引量：11
8张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：166
9王小华,徐宁,谌志群.基于共词分析的文本主题词聚类与主题发现[J].情报科学,2011,29(11):1621-1624. 被引量：34
10黄美璇.基于主题发现的舆情分析系统的设计与实现[J].北京联合大学学报,2012,26(1):33-36. 被引量：5

引证文献6

1黄玲,陈智铨,黄修志.活血化淤中药保胎10例观察[J].实用中医药杂志,2000,16(2):10-10. 被引量：2
2王燕鹏.基于文献计量的主题模型研究进展分析[J].科学观察,2017,12(5):9-20. 被引量：3
3牛亚男.具有词判别力学习能力的短文本聚类概率模型研究[J].计算机应用研究,2018,35(12):3569-3574. 被引量：3
4段维军.语音识别技术在多媒体信息检索中的应用仿真[J].计算机仿真,2019,36(7):331-334. 被引量：4
5李璐萍,赵小兵.基于文本聚类的主题发现方法研究综述[J].情报探索,2020(11):121-127. 被引量：10
6赵俊生,王鑫宇,尹玉洁,张林.基于蒙古语新闻领域本体的分布式检索方法[J].计算机工程与科学,2021,43(3):560-570.

二级引证文献22

1牟艳艳,徐莲薇.从“治未病”探讨胚胎停育的防治[J].北京中医药,2012,31(2):105-107. 被引量：4
2张丐卓.文本挖掘及其在信息内容安全中的应用[J].华北科技学院学报,2018,15(2):115-121. 被引量：2
3韩肖赟,侯再恩,孙绵.基于主题模型及其扩展的短文本算法评述[J].计算机应用与软件,2020,37(1):1-7. 被引量：3
4韩肖赟,侯再恩,孙绵.主题模型在短文本上的应用研究[J].计算机工程与科学,2020,42(1):144-152. 被引量：1
5黄佳佳,李鹏伟,彭敏,谢倩倩,徐超.基于深度学习的主题模型研究[J].计算机学报,2020,43(5):827-855. 被引量：46
6易红发.媒体议程对个人议程的影响研究——基于Twitter平台的大数据文本挖掘与主题建模的进路[J].新闻大学,2020(5):63-78. 被引量：7
7施永军,高祥斌.云环境下异常波动状态协作检测方法研究[J].计算机仿真,2020,37(9):390-394. 被引量：1
8张开生,赵小芬,王泽,宋帆.基于总体平均经验模态分解和一步式字典学习联合去噪的语音端点检测算法[J].科学技术与工程,2020,20(35):14536-14542. 被引量：3
9李娜.国际数字人文研究的演化路径与热点主题分析[J].图书馆,2021(5):59-67. 被引量：7
10赵洪凯,宋越,肖玉芝,冶忠林.在线教学的网络情感演化分析--以“停课不停学”为例[J].青海师范大学学报（自然科学版）,2021,37(1):26-36.

1斯日古楞,林民,田长波.基于LDA模型的蒙古文信息检索方法研究[J].内蒙古师范大学学报（自然科学汉文版）,2016,45(3):403-407. 被引量：3
2海泉.基于VisualFoxPro环境开发蒙古文信息检索系统的实现[J].中国科技信息,2010(18):120-121.
3吉普林携手Materialise推出首款3D打印塑料包[J].塑料制造,2014(4):35-35.
4巩政,关高娃.蒙古文停用词和英文停用词比较研究[J].中文信息学报,2011,25(4):35-38. 被引量：6
5李锋刚,梁钰,GAO Xiao-zhi,ZENGER Kai.基于LDA-wSVM模型的文本分类研究[J].计算机应用研究,2015,32(1):21-25. 被引量：29
6孟颍梅.吉普新切诺基[J].汽车驾驶员,2008(3):29-29.
7杨永平,布仁巴雅尔,金山.关于加快蒙古文信息化建设的思考——以内蒙古自治区为例[J].内蒙古科技与经济,2013(24):64-65. 被引量：1
8范道尔吉,白凤山,李红岩.基于单片机的蒙古文字输入及显示技术[J].内蒙古大学学报（自然科学版）,2006,37(6):689-693.
9Alestar Weever.吉普：燃料之争[J].汽车测试报告,2006(1):50-50.
10随车工具的制作[J].模型世界,2006(1):21-21.

计算机应用研究

2016年第12期

浏览历史

内容加载中请稍等...

融合主题与语言模型的蒙古文信息检索方法研究被引量：6

参考文献7

二级参考文献193

共引文献340

同被引文献52

引证文献6

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

融合主题与语言模型的蒙古文信息检索方法研究 被引量：6

参考文献7

二级参考文献193

共引文献340

同被引文献52

引证文献6

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

融合主题与语言模型的蒙古文信息检索方法研究被引量：6