期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于结点权重模型的XML片段检索策略 被引量:5
1
作者 刘德喜 万常选 +2 位作者 刘喜平 钟敏娟 江腾蛟 《计算机学报》 EI CSCD 北大核心 2013年第8期1729-1744,共16页
当用户向XML检索引擎提交查询后,返回的结果通常远远多于用户的期望,返回结果中难免有一些不相关的文档或结点.对于以文档为中心的XML文档集合,XML片段检索是根据用户的查询,从XML检索引擎返回的XML文档或结点中抽取出仅包含数百字节的... 当用户向XML检索引擎提交查询后,返回的结果通常远远多于用户的期望,返回结果中难免有一些不相关的文档或结点.对于以文档为中心的XML文档集合,XML片段检索是根据用户的查询,从XML检索引擎返回的XML文档或结点中抽取出仅包含数百字节的片段,用户可以通过该片段判断片段所在的XML文档或结点与查询的真实相关性,以决定是否有必要进一步阅读,从而有效地提高从XML文档中获取信息的效率.该文提出了基于结点权重模型的XML片段检索策略.该策略先利用结点权重模型ATG(平均主题概括强度)对XML文档集中的标签或路径设置权重,再将该权重用于BM25模型,得到BM25NW检索模型.在利用BM25NW检索出XML结点后,对结点中定长窗口进行评分,考察其是否适合作为片段内容.最后在保证信息冗余较小的条件下,选择得分较高的窗口内容组成片段返回给用户.INEX 2011片段检索任务上的评测结果显示,基于结点权重模型ATG的XML片段检索策略具有很强的竞争力,性能明显优于其它参赛系统. 展开更多
关键词 XML片段检索 结点模型 平均主题概括强度 窗口
下载PDF
基于改进主题模型方法的三级短视频用户画像的研究
2
作者 黄玉民 赵婵婵 《计算机科学》 CSCD 北大核心 2024年第S01期686-692,共7页
针对如何从海量短视频数据、用户数据、交互数据中快速抽象出精准的用户兴趣的问题,提出了基于主题模型的三级标签用户画像构建方法。基于主题构建方法,将融合的LDA和GSDMM主题模型所获取的视频主题词作为用户兴趣表达向量。首先,搭建了... 针对如何从海量短视频数据、用户数据、交互数据中快速抽象出精准的用户兴趣的问题,提出了基于主题模型的三级标签用户画像构建方法。基于主题构建方法,将融合的LDA和GSDMM主题模型所获取的视频主题词作为用户兴趣表达向量。首先,搭建了LDA过滤器,通过比对阈值剔除与主题无关的文本信息,缩小文本规模,降低非主要语料对于兴趣表达向量生成的影响。然后,提出结合语义信息和语境信息的特征词权重矩阵的构建方法,使用Bi-GRU神经网络计算词向量的上下文特征,并将其作为语境特征,使用TF-IDF算法计算出的词频权重作为语义特征,结合语境和语义特征扩充特征词含义。最后使用带有兴趣权重分配的GSDMM模型学习特征向量权重矩阵,实现用户兴趣标签生成和用户不同喜好程度影响下的兴趣权重修正。实验结果表明,该方法能够比较完备准确地表征用户画像,优于单一的主题构建方法,并且在聚类效果上表现出色。通过构建完备的用户画像,能够精准把握用户痛点,为后续个性化推荐提供服务。 展开更多
关键词 短视频 用户画像 主题分析模型 语义 语境
下载PDF
基于完全稀疏主题模型的多文档自动摘要 被引量:1
3
作者 邵洲 张晖 《计算机工程与设计》 CSCD 北大核心 2014年第3期1032-1036,共5页
为了解决稀疏情况下的自动文档摘要问题,将提出的完全稀疏主题模型引入到文档摘要中。根据模型中主题分布和主题的词汇分布,提出了该模型上的自动摘要算法。为了验证该方法的有效性,在DUC 2007数据集上使用ROUGE自动摘要评测工具进行评... 为了解决稀疏情况下的自动文档摘要问题,将提出的完全稀疏主题模型引入到文档摘要中。根据模型中主题分布和主题的词汇分布,提出了该模型上的自动摘要算法。为了验证该方法的有效性,在DUC 2007数据集上使用ROUGE自动摘要评测工具进行评测。通过与DUC 2007中专家摘要和对多种实验的比较,比较结果表明,该摘要方法在准确率上显著优于其它方法,同时在推断时间、方法的简单性等各个方面也都具有优势。 展开更多
关键词 完全稀疏主题模型 多文档摘要 稀疏性 句子计算 DUC 2007
下载PDF
基于单词等级和关联性语义多模态主题模型的社会事件分类
4
作者 薛峰 张涛 李书杰 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2022年第10期1477-1488,共12页
多媒体社会事件分类问题是多媒体研究领域中的热点问题.现有基于有监督主题模型的社会事件分类方法,未充分利用语料库(文本、视觉等模态)的内部语义信息,模型分类性能有待进一步提升.针对此问题,提出了一种融合单词等级和单词文档关联... 多媒体社会事件分类问题是多媒体研究领域中的热点问题.现有基于有监督主题模型的社会事件分类方法,未充分利用语料库(文本、视觉等模态)的内部语义信息,模型分类性能有待进一步提升.针对此问题,提出了一种融合单词等级和单词文档关联性语义的多模态监督主题模型(multi-modal supervised topic model based on word rank and relevance semantic weighting,DPRF-MMSTM),利用依存句法分析结果来划分文本模态单词对文档表征的贡献等级,挖掘出文本单词的等级语义;同时,考虑多模态单词的关联文档频数信息,用于单词文档关联性语义的提取;将2种语义融合到多模态单词的采样过程,实现基于有监督主题模型的社会事件分类.在多模态和单模态数据集上的对比实验表明,对比现有方法,DPRF-MMSTM模型在社会事件分类精度上分别提高了1.200%,1.630%,在主题一致性上分别提高了38.0%,8.5%. 展开更多
关键词 社会事件分类 主题模型 多模态 等级 关联性
下载PDF
基于BERT与Loc-Attention的文本情感分析模型 被引量:1
5
作者 何传鹏 黄勃 +3 位作者 周科亮 尹玲 王明胜 李佩佩 《传感器与微系统》 CSCD 北大核心 2023年第12期146-150,共5页
传统的情感分析方法由于没有关注文本相对于主题词的位置(Loc)关系,分类效果并不理想。提出一种基于BERT与LDA的Loc-注意力(Attention)的双向长短期记忆(Bi-LSTM)模型的文本情感分析方法——BL-LABL方法。使用LDA主题模型获得每个评论... 传统的情感分析方法由于没有关注文本相对于主题词的位置(Loc)关系,分类效果并不理想。提出一种基于BERT与LDA的Loc-注意力(Attention)的双向长短期记忆(Bi-LSTM)模型的文本情感分析方法——BL-LABL方法。使用LDA主题模型获得每个评论的主题及其词分布,将筛选出的主题词和原文本拼接输入到BERT模型,进行词向量训练,得到包含主题信息的文本词向量以及包含文本信息的主题词向量;利用Bi-LSTM网络,加入文本的位置权重,结合注意力权重最终得到的文本特征表示为两者的加权求和;最后,再利用SoftMax分类器获得文本的情感类别。通过在两种数据集上的实验表明,该模型与传统的注意力情感分类模型相比,有效地提高了分类性能。 展开更多
关键词 情感分析 主题模型 BERT模型 文本特征 位置 注意力
下载PDF
面向选煤厂领域知识图谱的数据分类方法
6
作者 赵欣 张树森 《选煤技术》 CAS 2024年第2期73-79,共7页
工业数据资源的开放共享是工业大数据产业发展的重要途径,选煤厂数据的自动分类有利于实现高效的数据管理。然而选煤厂数据纷繁复杂,数据之间存在交叉重叠和孤立无关联等问题,导致选煤厂数据缺乏标准化和规范化,制约了面向选煤厂智能化... 工业数据资源的开放共享是工业大数据产业发展的重要途径,选煤厂数据的自动分类有利于实现高效的数据管理。然而选煤厂数据纷繁复杂,数据之间存在交叉重叠和孤立无关联等问题,导致选煤厂数据缺乏标准化和规范化,制约了面向选煤厂智能化应用的发展。针对选煤厂结构化库表数据中标签数据少、数据交叉重叠等问题,提出一种基于知识图谱的选煤厂结构化库表数据自动分类算法。通过选煤厂领域的主题词列表构建了选煤厂领域知识图谱;以选煤厂领域知识图谱为基础,提出将KG-BERT分类模型用于非主题数据的扩展分类;基于TF-IDF的多主题权重判定模型,利用知识图谱的知识体系增强了文本分类的可控性和可解释性;结合选煤厂领域知识图谱、KG-BERT分类模型以及基于TF-IDF的主题权重判定模型,提出用基于多模型融合的分类模型来实现选煤厂结构化库表数据自动分类。实验数据均来自选煤厂结构化库表数据全量目录,可验证算法的有效性。对比实验表明:KG-BERT分类模型采用了BERT架构,具有一定的泛化能力,相较于CNN,RNN,LSTM模型能较好应对无主题情况下的文本分类任务;从训练数据集上看,KE数据集在模型上表现更好;基于多模型融合的分类模型在选煤厂领域结构化库表数据分类较单一模型具有更好的有效性和适用性。基于多模型融合的分类模型自动分类效果良好,有助于提升选煤厂数据管理效率,进一步挖掘选煤厂数据资源的潜在价值。 展开更多
关键词 数据分类 选煤厂结构化库表数据 知识图谱 KG-BERT分类模型 基于tf-idf的主题权重判定模型 模型融合 数据自动分类
下载PDF
融合LDA和TF-IWF的健康科普文章混合推荐方法研究 被引量:3
7
作者 周欢 张培颖 《图书馆研究》 2022年第3期26-35,共10页
为了帮助用户更有效率地求医问诊、减少医疗资源的浪费及促进在线健康平台发展,提出一种融合LDA和TF-IWF的健康科普文章混合推荐方法。首先,从在线健康社区获取用户提问文本及科普文章文本,对这些文本数据运用LDA主题模型进行建模,并结... 为了帮助用户更有效率地求医问诊、减少医疗资源的浪费及促进在线健康平台发展,提出一种融合LDA和TF-IWF的健康科普文章混合推荐方法。首先,从在线健康社区获取用户提问文本及科普文章文本,对这些文本数据运用LDA主题模型进行建模,并结合TF-IWF权重从海量的资源中找到用户需求主题及文章主题。然后,根据共同主题,采用协同过滤和基于内容的推荐算法生成基于用户的推荐列表和基于文章的推荐列表,对两个推荐列表的主题权重进行混合加权从而生成推荐结果,实现精准推荐和个性化推荐,提升在线健康社区用户健康素养,并减少医疗资源的浪费。实验结果表明,本研究采用的推荐方法可以降低数据维度及计算的复杂度,使权重取值更加合理化,具有较好的推荐效果。 展开更多
关键词 在线健康社区 科普文章推荐 LDA主题模型 TF-IWF
下载PDF
社会信息网络的演变和影响评估
8
作者 赵珮瑶 《电脑知识与技术》 2016年第8期46-48,共3页
针对社会信息网络演化和影响力的问题,该文分三步来解决问题:1)对信息传播与新闻判断;2)验证与预测;3)分析社会网络上信息对大众的影响。
关键词 新闻判定 媒介模型 染色模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部