-
题名基于统计主题模型的多粒度Web文档标注
被引量:1
- 1
-
-
作者
袁柳
张龙波
-
机构
陕西师范大学计算机科学学院
山东理工大学计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2010年第A12期3401-3406,共6页
-
基金
国家自然科学基金资助项目(60873196)
-
文摘
针对已有Web文档语义标注技术在标注完整性方面的缺陷,将潜在狄里克雷分配(LDA)模型用于对Web文档添加语义标注。考虑到Web文档具有明显的领域特征,在传统的LDA模型中嵌入领域信息,提出Domain-enable LDA模型,提高了标注结果的完整性并避免了对词汇主题的强制分配;同时在文档隐含主题和文档所在领域本体概念间建立关联,利用本体概念表达的语义对隐含主题进行准确的解释,使文档的语义清晰化,为文档检索提供有效帮助。根据LDA模型可为每个词汇分配隐含主题的特征,提出多粒度语义标注的概念。在20news-group和WebKB数据集上的实验证明了Domain-enable LDA模型的有效性,并指出对文档进行多粒度标注有助于有效处理不同类型查询。
-
关键词
统计主题模型
本体
语义标注
概念
信息检索
-
Keywords
statistical topical model
ontology
semantic annotation
concept
information retrieval
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于概率主题模型的标签预测
被引量:9
- 2
-
-
作者
袁柳
张龙波
-
机构
陕西师范大学计算机科学学院
山东理工大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2011年第7期175-180,共6页
-
基金
国家自然科学基金项目面向入侵检测的数据流挖掘研究(60873196)资助
-
文摘
充分利用用户自定义标签信息,是理解Web资源语义,提高Web应用智能程度的重要途径。针对资源标签分派中大量存在的信息不完整、不一致的现象,建立基于用户标记行为特征的概率主题模型,利用概率主题模型实现对标记信息不完整资源的标签预测。根据每个资源所对应的标签的统计特征,可产生不同形式的标签文档,通过分析标签文档所生成主题的性能,确定适合于特定数据集的标签文档形式;利用同一主题内词汇间的高度相关性,设计合理的预测标签排序方法,从而实现对标记信息不完整资源的标签预测以及标签语义不一致现象的检测。在数据集DeliciousT 140和Wiki10+上的测试表明,所提方法能有效实现标签预测,并可提高信息检索的性能。
-
关键词
标签系统
标签预测
统计主题模型
-
Keywords
Tagging system
Tag predication
Statistical topic model
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于主题模型的图片检索结果语义聚类
被引量:1
- 3
-
-
作者
廖晓锋
刘春年
龚花萍
-
机构
南昌大学信息工程学院信息管理系
-
出处
《电脑知识与技术》
2010年第12期9819-9821,9824,共4页
-
文摘
图片搜索引擎返回的结果列表中通常包含大量的相似及重复图片。用户需要花费大量的时间从结果列表中遴选所需的图片。如果能对检索结果进行语义聚类,则能为用户节省大量时间,并且节省页面空间以显示更多检索结果。近年来兴起的生成式统计主题模型在文本归纳及分类应用中得到良好应用。通过对图片抽取特征符,把图片表示为类似文本的词汇-文档模型,生成式统计主题模型在图像理解领域也得到广泛应用。文中对使用搜索引擎检索得到的图片进行特征符提取处理,然后通过统计主题模型的学习过程,获得低维的语义空间,然后在语义空间中进行聚类操作,实现将相似的图片归类的目的。实验证明了该方法的优良效果。
-
关键词
统计主题模型
图像特征符
语义聚类
图像检索
图像理解
-
Keywords
statistical topic model
image feature
semantic clustering
image retrieval
image understanding
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名标签时态特征分析及其在标签预测中的应用
被引量:3
- 4
-
-
作者
袁柳
张龙波
-
机构
陕西师范大学计算机科学学院
山东理工大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2012年第6期179-183,共5页
-
基金
国家自然科学基金项目(61003061)资助
-
文摘
标签作为用户生成的对资源的描述,反映了资源的语义和用户的兴趣。由于Web资源的动态性,标签数据相应地表现出较为明显的时态特征,已有相关研究中标签的时态特征却很少受到关注。针对这方面的不足,对标签数据的时态特征以及基于时态特征的标签间语义关联进行分析,并提出发现标签时态特征的时间段划分准则;为了评价标签时态特征的价值,以经典的统计主题模型为基础,提出新的模型用于分析数据时态特征对所生成主题的影响,并将其用于标签预测。在多个数据集上的测试验证了标签数据的时态特性及其对提高标签预测性能的影响。
-
关键词
标签
语义关联
时态
统计主题模型
-
Keywords
Tags
Semantic relation
Temporal
Statistical topic model
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-