-
题名多源信息融合的微博查询似然模型
被引量:3
- 1
-
-
作者
吴树芳
张雄涛
朱杰
-
机构
河北大学管理学院
北京科技大学东凌经济管理学院
中央司法警官学院信息管理系
-
出处
《图书情报工作》
CSSCI
北大核心
2020年第17期114-122,共9页
-
基金
国家社会科学基金项目"网络信息治理视域下社交网络不可信用户识别研究"(项目编号:17BTQ068)研究成果之一。
-
文摘
[目的/意义]查询似然模型存在零概率问题,融合多源信息对模型进行扩展,不仅可以解决零概率问题,还可以实现对全局信息的差异化处理,降低噪声。[方法/过程]通过LDA主题挖掘和历史微博兴趣挖掘,分别获取初始微博的主题相关信息和兴趣相关信息,并将二者与全局信息融合,用于改进初始微博的语言模型估计,从而得到扩展的微博查询似然模型。运用网络爬虫工具从新浪微博爬取数据,并通过实证研究验证扩展模型的有效性。[结果/结论]实验结果表明:与已有的查询似然模型扩展方法相比,新模型具有较好的检索性能。
-
关键词
多源信息
微博检索
查询似然模型
主题信息
作者兴趣
-
Keywords
multi-source information
microblog retrieval
query likelihood model
topic information
author interest
-
分类号
G254
[文化科学—图书馆学]
-
-
题名融合用户兴趣和混合估计的微博检索模型
被引量:4
- 2
-
-
作者
吴树芳
张雄涛
朱杰
-
机构
河北大学管理学院
天津大学管理与经济学部
中央司法警官学院信息管理系
-
出处
《情报学报》
CSSCI
CSCD
北大核心
2019年第4期411-419,共9页
-
基金
国家社会科学基金面上项目"网络信息治理视域下社交网络不可信用户识别研究"(17BTQ068)
-
文摘
随着移动互联技术的进一步发展,微博检索已成为微博服务的重要组成部分。考虑到微博检索与传统文本检索的不同,提出一个改进的微博检索模型。新模型对传统查询似然模型中的文档先验概率和文档语言模型估计进行了改进。在文档先验概率方面,通过量化用户对博文的兴趣获得用户的兴趣博文库,并在兴趣博文库的基础上计算微博先验概率,使得符合检索用户兴趣的微博具有较高的先验概率;在文档语言模型估计方面,混合内容及用户交互两方面信息获得微博的相关文档集,并将其作为平滑项实现对微博文档语言模型的混合估计,有效缓解了微博短文本的数据稀疏问题。实验采用从新浪微博爬取的真实数据对研究内容的有效性进行验证,结果表明与现有研究中较好的改进查询似然模型相比,新模型在P@15、P@30和MRR上均有一定提高。
-
关键词
微博检索
查询似然模型
用户兴趣
用户交互
混合估计
-
Keywords
microblog retrieval
query likelihood model
user interest
user interaction
mixed estimation
-
分类号
G354
[文化科学—情报学]
-
-
题名LDA单词图像表示的蒙古文古籍图像关键词检索方法
被引量:7
- 3
-
-
作者
白淑霞
鲍玉来
-
机构
内蒙古大学图书馆
-
出处
《现代情报》
CSSCI
北大核心
2017年第7期51-54,88,共5页
-
基金
国家自然科学基金项目"基于领域本体的蒙古文数字资源整合机制研究"(项目编号:71163029)
-
文摘
[目的 ]为了克服传统视觉词袋方法(Bag-of-Visual-Words)中忽略视觉单词间的空间关系和语义信息等问题。[方法 ]本文提出一种与视觉语言模型相结合的基于LDA主题模型,并采用查询似然模型实现检索。[结果 ]实验数据表明,本文所提出的基于LDA的表示方法可以高效、准确地解决蒙古文古籍的关键词检索问题。[结论 ]同时,该方法的性能比Bo VW方法有显著提高。
-
关键词
隐含狄利克雷分配(LDA)
主题模型
视觉语言模型
蒙古文古籍
关键词检索
查询似然模型
-
Keywords
latent dirichlet allocation (LDA)
topic model
visual language model
historical Mongolian documents
keyword spotting
query likelihood model
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名一种融合文本重要性的文本检索算法
被引量:2
- 4
-
-
作者
袁飞
王成良
文俊浩
-
机构
重庆大学计算机学院
重庆大学软件学院
-
出处
《计算机工程与应用》
CSCD
2014年第3期93-96,共4页
-
基金
重庆市科委自然科学基金资助项目(No.2010BB2244)
-
文摘
分析了查询似然模型,针对传统查询似然检索模型没有考虑文本间相关性的缺点,将链接模型引入到文本检索中,提出一个计算文本间相关性的DocRank算法。该算法通过计算两两文本间的相关性,构建一个文本矩阵,利用幂迭代法得到每个文本的优先度值,将其融合到查询似然检索模型中以准确定位所检索文本,实验结果验证了改进算法在文本检索中的有效性。
-
关键词
查询似然模型
链接模型
DocRank
文本矩阵
-
Keywords
query likelihood model
link model
DocRank
texts matrix
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-