期刊文献+
共找到285篇文章
< 1 2 15 >
每页显示 20 50 100
一种新的目标检测方法:Latent Dirichlet classification 被引量:3
1
作者 丁轶 郭乔进 李宁 《南京大学学报(自然科学版)》 CSCD 北大核心 2012年第2期214-220,共7页
图像目标检测的任务是通过对图像分块或者分区域提取特征,进行学习和分类,从而检测出目标在图像中的位置.基于潜在迪利克雷分布模型,提出一种应用于目标检测的主题模型latentDirichlet classification(LDC),结合图像连续值局部特征和共... 图像目标检测的任务是通过对图像分块或者分区域提取特征,进行学习和分类,从而检测出目标在图像中的位置.基于潜在迪利克雷分布模型,提出一种应用于目标检测的主题模型latentDirichlet classification(LDC),结合图像连续值局部特征和共生关系来进行目标检测.LDC模型将latentDirichlet allocation(LDA)生成的主题信息作为权重赋予样本,生成多份样本,然后利用多份样本训练多个分类器进行集成分类.实验结果表明利用LDC模型能有效提高检测精度. 展开更多
关键词 潜在迪利克雷分布 目标检测 变分推理 主题模型
下载PDF
Self-Adaptive Topic Model: A Solution to the Problem of "Rich Topics Get Richer" 被引量:1
2
作者 FANG Ying 《China Communications》 SCIE CSCD 2014年第12期35-43,共9页
The problem of "rich topics get richer"(RTGR) is popular to the topic models,which will bring the wrong topic distribution if the distributing process has not been intervened.In standard LDA(Latent Dirichlet... The problem of "rich topics get richer"(RTGR) is popular to the topic models,which will bring the wrong topic distribution if the distributing process has not been intervened.In standard LDA(Latent Dirichlet Allocation) model,each word in all the documents has the same statistical ability.In fact,the words have different impact towards different topics.Under the guidance of this thought,we extend ILDA(Infinite LDA) by considering the bias role of words to divide the topics.We propose a self-adaptive topic model to overcome the RTGR problem specifically.The model proposed in this paper is adapted to three questions:(1) the topic number is changeable with the collection of the documents,which is suitable for the dynamic data;(2) the words have discriminating attributes to topic distribution;(3) a selfadaptive method is used to realize the automatic re-sampling.To verify our model,we design a topic evolution analysis system which can realize the following functions:the topic classification in each cycle,the topic correlation in the adjacent cycles and the strength calculation of the sub topics in the order.The experiment both on NIPS corpus and our self-built news collections showed that the system could meet the given demand,the result was feasible. 展开更多
关键词 topic model infinite latent Dirichlet Allocation Dirichlet process topic evolution
下载PDF
Unsupervised Feature Selection for Latent Dirichlet Allocation 被引量:1
3
作者 徐蔚然 杜刚 +2 位作者 陈光 郭军 杨洁 《China Communications》 SCIE CSCD 2011年第5期54-62,共9页
As a generative model,Latent Dirichlet Allocation Model,which lacks optimization of topics' discrimination capability focuses on how to generate data,This paper aims to improve the discrimination capability throug... As a generative model,Latent Dirichlet Allocation Model,which lacks optimization of topics' discrimination capability focuses on how to generate data,This paper aims to improve the discrimination capability through unsupervised feature selection.Theoretical analysis shows that the discrimination capability of a topic is limited by the discrimination capability of its representative words.The discrimination capability of a word is approximated by the Information Gain of the word for topics,which is used to distinguish between "general word" and "special word" in LDA topics.Therefore,we add a constraint to the LDA objective function to let the "general words" only happen in "general topics" other than "special topics".Then a heuristic algorithm is presented to get the solution.Experiments show that this method can not only improve the information gain of topics,but also make the topics easier to understand by human. 展开更多
关键词 pattern recognition unsupervised feature selection latent Dirichlet Allocation general topic special topic
下载PDF
基于词嵌入的科研主题排序研究
4
作者 何东彬 陶莎 +1 位作者 任延昭 朱艳红 《北方工业大学学报》 2024年第1期136-149,共14页
为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实... 为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实际意义。针对上述问题,在已有研究基础上,基于词嵌入,提出一种新的多维度评估主题质量算法;针对科研文档的特点,利用语料库的统计特征对无意义主题距离评估方法进行优化,并最终将二者融合到一个统一的主题排序框架中。实验结果表明,本文提出的方法可以有效提高主题排序整体效果,能够识别出非重要和质量差的主题,主题排序的整体效果优于现有方法。 展开更多
关键词 主题模型 潜在狄利克雷分配(LDA) 主题排序 科研主题 词嵌入
下载PDF
考虑竞品信息的顾客满意度研究 被引量:1
5
作者 董亚男 秦思奇 +5 位作者 相宇晗 王喆 唐维 祖丽胡玛尔 张娜 李玉鹏 《计算机集成制造系统》 EI CSCD 北大核心 2024年第9期3274-3287,共14页
产品研发的根本驱动力是实现顾客满意,少有研究结合竞品信息探究产品的顾客满意度。综合“比较问答”和“在线评论”等在线用户生成信息,提出一种考虑竞品信息的综合顾客满意度建模方法。首先,通过挖掘在线问答中的比较问题识别竞品,基... 产品研发的根本驱动力是实现顾客满意,少有研究结合竞品信息探究产品的顾客满意度。综合“比较问答”和“在线评论”等在线用户生成信息,提出一种考虑竞品信息的综合顾客满意度建模方法。首先,通过挖掘在线问答中的比较问题识别竞品,基于比较回答的情感分析计算产品间的比较得分,构建比较网络,利用PageRank算法计算竞争顾客满意度。其次,运用LDA主题提取和情感分析从在线评论中提取基础顾客满意度。最后,结合竞争满意度和基础满意度获得综合顾客满意度。以红米K50的顾客满意度测度为例进行了案例分析,结果表明,综合顾客满意度结果与销量数据高度一致,可为产品改进提供决策依据。 展开更多
关键词 顾客满意度 竞品 在线用户生成信息 情感分析 LDA主题提取
下载PDF
基于LDA主题模型的在途驾驶风格识别方法
6
作者 汪娇 刘锴 +2 位作者 栗慧哲 曹鹏 王秋玲 《中国安全科学学报》 CAS CSCD 北大核心 2024年第10期197-204,共8页
为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业... 为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业的场景感知层、模式层、操作层以及车辆状态层出发,将连续的轨迹时序数据阐述为驾驶行为语义理解词汇;其次,根据主题困惑度和主题一致性指标定义4类习惯性驾驶风格:稳定型、保守型、适中型以及激进型;最后,将每位驾驶员的在途驾驶风格识别为上述驾驶风格的概率组合。结果表明:所提出的在途驾驶风格识别方法考虑驾驶员在驾驶过程中的异质性和不一致性,能够解释同一驾驶员在不同驾驶环境下表现出差异化驾驶风格的现象,同时,有助于提高驾驶风格在途识别的全面性以及可理解性。 展开更多
关键词 潜在狄利克雷分配(LDA)主题模型 在途驾驶风格 轨迹数据 语义理解 驾驶行为
下载PDF
基于深度学习模型的煤矿安全隐患数据主题挖掘 被引量:1
7
作者 肖琪耀 贾宝山 +2 位作者 徐以诺 张茂薇 梁明辉 《中国安全生产科学技术》 CAS CSCD 北大核心 2024年第4期49-55,共7页
为了提高煤矿安全风险排查能力和监督能力,提出1种基于双向长短期记忆网络(BiLSTM)、条件随机场(CRF)和隐含狄利克雷分布(LDA)的模型。训练BiLSTM-CRF模型分词,采用困惑度-主题方差(perplexity-var)计算LDA模型最优主题数,构建BiLSTM-CR... 为了提高煤矿安全风险排查能力和监督能力,提出1种基于双向长短期记忆网络(BiLSTM)、条件随机场(CRF)和隐含狄利克雷分布(LDA)的模型。训练BiLSTM-CRF模型分词,采用困惑度-主题方差(perplexity-var)计算LDA模型最优主题数,构建BiLSTM-CRF-LDA模型挖掘内蒙古某煤矿安全隐患数据。研究结果表明:困惑度-主题方差指标能更准确地确定主题数;BiLSTM-CRF模型分词结果比jieba库更准确;BiLSTM-CRF-LDA模型能准确地挖掘出煤矿安全隐患类型、安全隐患空间分布和安全责任划分。研究结果可为煤矿安全风险排查与监督提供参考。 展开更多
关键词 煤矿安全隐患 BiLSTM CRF LDA 困惑度-主题方差
下载PDF
基于隐含狄利克雷分配模型的企业创新测量方法研究
8
作者 叶琴 蔡建峰 张秋韵 《科技进步与对策》 CSSCI 北大核心 2024年第2期90-98,共9页
如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利... 如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利克雷分配主题模型,开发一种新的测量企业创新的方法,并与当前主流方法进行比较。研究发现:①基于文本的企业创新测量方法既适用于专利和研发企业,也适用于非专利和非研发企业;②对于专利和研发企业而言,基于文本的企业创新与企业专利申请和研发支出显著相关;对于非专利和非研发企业而言,新测量方法能够有效识别企业利用新技术、开辟新市场等创新实践;③时间序列分析表明,基于文本分析的企业创新能够准确反映样本区间企业创新活动宏观趋势。 展开更多
关键词 隐含狄利克雷分配模型 企业创新 文本分析 主题模型 分析师报告
下载PDF
国外智慧旅游政策和理论的主题建模及趋势研究
9
作者 陈秋英 宋姗姗 《科技和产业》 2024年第5期56-64,共9页
为理清国外智慧旅游政策和理论的研究热点及趋势,通过LDA(隐含狄利克雷分布)主题模型得出4个政策主题、8个理论主题。分析发现“digital travel(数字旅游)”“intelligent travel(智能旅游)”“smart tourism standards(智慧旅游标准)... 为理清国外智慧旅游政策和理论的研究热点及趋势,通过LDA(隐含狄利克雷分布)主题模型得出4个政策主题、8个理论主题。分析发现“digital travel(数字旅游)”“intelligent travel(智能旅游)”“smart tourism standards(智慧旅游标准)”是政策文本重点内容。通过主题模型和知识图谱分析学术文本发现,智慧旅游“data mining (数据挖掘)”“smart tourism system(智慧旅游系统)”信息推荐功能日渐显著,游客行为满意度与智慧旅游城市的选择两者之间关系密切。针对研究结论提出强化智慧旅游工作绩效评估机制、完善标准化政策体系、加大政策扶持新力度等建议。 展开更多
关键词 智慧旅游 LDA(隐含狄利克雷分布)主题建模 CITESPACE 研究趋势
下载PDF
监督主题模型的临床文本挖掘和药效预测
10
作者 谢新平 裴洋洋 +1 位作者 姜晓东 王红强 《信息与电脑》 2024年第6期200-205,共6页
患者的临床文本隐含着个体与药效之间的密切联系。针对临床上抗癌药效精准性问题,基于有监督隐含狄利克雷分布(Supervised Latent Dirichlet Allocation,SLDA)构建了一种用于药效二分类预测新方法——伯努利-监督隐含狄利克雷分布(Berno... 患者的临床文本隐含着个体与药效之间的密切联系。针对临床上抗癌药效精准性问题,基于有监督隐含狄利克雷分布(Supervised Latent Dirichlet Allocation,SLDA)构建了一种用于药效二分类预测新方法——伯努利-监督隐含狄利克雷分布(Bernoulli-SLDA,B-SLDA),该模型获得患者临床文本的特征表示,学习到与对应药效标签的映射关系。实验结果表明,对比传统的特征提取方法,所提方法提高了抗肿瘤药物药效预测性能。 展开更多
关键词 监督主题模型 监督隐含狄利克雷分布(SLDA) 药效预测 文本分类
下载PDF
基于LDA与双向GRU的借阅主题热度预测
11
作者 陈志辉 吴克晴 +1 位作者 陈嘉超 秦泽豪 《软件导刊》 2024年第7期51-57,共7页
图书借阅主题分析能够挖掘读者借阅喜好和阅读规律,通过使用借阅主题热度预测模型能够预测读者借阅主题热度变化趋势,对图书馆开展阅读推广活动具有重要意义。为了解决图书借阅主题提取、主题热度预测问题,提出基于LDA与双向GRU神经网... 图书借阅主题分析能够挖掘读者借阅喜好和阅读规律,通过使用借阅主题热度预测模型能够预测读者借阅主题热度变化趋势,对图书馆开展阅读推广活动具有重要意义。为了解决图书借阅主题提取、主题热度预测问题,提出基于LDA与双向GRU神经网络的借阅主题热度预测模型。该算法通过LDA算法提取读者不同时间段中的借阅图书特征和借阅主题,在计算不同时间段借阅主题热度、构建借阅主题热度序列数据集的基础上,构造基于双向GRU神经网络的主题热度预测模型以预测未来主题热度变化趋势,并在厦门大学图书馆纸质文献借阅记录数据集上进行实验评估。实验结果表明,模型能准确获得借阅主题与关键词之间的关系,与机器学习等算法比较可知,该模型能有效降低借阅主题热度预测误差。 展开更多
关键词 热度预测 借阅主题发现 深度学习 双向门控循环单元 潜在狄利克雷分配
下载PDF
基于闭合式非相关知识发现的潜在跨学科合作研究主题识别——以情报学与计算机科学为例 被引量:25
12
作者 刘小慧 李长玲 +1 位作者 崔斌 刘婷 《情报理论与实践》 CSSCI 北大核心 2017年第9期71-76,共6页
[目的/意义]在跨学科现象日趋明显的背景下,为促进学科融合发展,为跨学科合作研究提供新思路,文章运用闭合式非相关知识发现方法,对两学科的潜在跨学科合作研究主题进行识别,并发现潜在主题的关联过程。[方法/过程]基于跨学科关键词共... [目的/意义]在跨学科现象日趋明显的背景下,为促进学科融合发展,为跨学科合作研究提供新思路,文章运用闭合式非相关知识发现方法,对两学科的潜在跨学科合作研究主题进行识别,并发现潜在主题的关联过程。[方法/过程]基于跨学科关键词共现网络,综合运用Ucinet和VBA,筛选距离矩阵中距离为2的关键词对作为潜在跨学科合作研究主题;定义主题跨学科合作潜力指数(TICPI)及其计算公式,计算主题的跨学科合作潜力;定义联系路径的可行性强度(PV)寻找合作主题的最佳联系路径。[结果/结论]在以情报学与计算机科学为例的实证研究中,发现两个学科存在间接联系的非相关跨学科合作主题及其最佳联系路径。 展开更多
关键词 潜在主题 跨学科研究 知识发现 主题识别
下载PDF
一种基于LDA主题模型的评论文本情感分类方法 被引量:8
13
作者 王伟 周咏梅 +2 位作者 阳爱民 周剑峰 林江豪 《数据采集与处理》 CSCD 北大核心 2017年第3期629-635,共7页
针对互联网出现的评论文本情感分析,引入潜在狄利克雷分布(Latent Dirichlet allocation,LDA)模型,提出一种分类方法。该分类方法结合情感词典,依据指定的情感单元搭配模式,提取情感信息,包括情感词和上、下文。使用主题模型发掘情感信... 针对互联网出现的评论文本情感分析,引入潜在狄利克雷分布(Latent Dirichlet allocation,LDA)模型,提出一种分类方法。该分类方法结合情感词典,依据指定的情感单元搭配模式,提取情感信息,包括情感词和上、下文。使用主题模型发掘情感信息中的关键特征,并融入到情感向量空间中。最后利用机器学习分类算法,实现中文评论文本的情感分类。实验结果表明,提出的方法有效降低了特征向量的维度,并且在文本情感分类上有很好的效果。 展开更多
关键词 评论文本 情感单元 潜在主题 情感分析 机器学习
下载PDF
基于LDA的社会化标签综合聚类方法 被引量:14
14
作者 李慧宗 胡学钢 +2 位作者 杨恒宇 林耀进 何伟 《情报学报》 CSSCI 北大核心 2015年第2期146-155,共10页
社会化标注系统产生了大量歧义的、不受控制的标签,不仅会降低用户的体验,而且会限制资源的利用效率。标签聚类能够把具有相近语义的标签聚集在一起,反映标签的潜在语义结构,从而有效缓解上述问题。传统的标签聚类方法通常只利用资... 社会化标注系统产生了大量歧义的、不受控制的标签,不仅会降低用户的体验,而且会限制资源的利用效率。标签聚类能够把具有相近语义的标签聚集在一起,反映标签的潜在语义结构,从而有效缓解上述问题。传统的标签聚类方法通常只利用资源的被标注信息进行聚类,由于忽略了用户的标注信息使得聚类结果不能表达准确的语义。本文提出一种基于LDA(Latent Dirichlet Allocation)模型的社会化标签综合聚类方法,该方法分别利用用户的标注信息和资源的被标注信息来建立主题学习模型,通过学习,获取基于用户的标签潜在主题和基于资源的标签潜在主题,综合标签在这两类主题上的概率分布结果,建立标签主题的二次学习模型,学习出标签的混合主题并在此基础上判定标签的聚类簇。与传统方法相比,本文的方法不仅可以有效地利用标签之间的语义关系,而且能够在一定程度上缓解传统标签聚类方法所面临的高维和稀疏性问题。实验结果表明,本文的方法具有较好的效果。 展开更多
关键词 社会化标注系统 标签聚类 潜在语义 主题模型
下载PDF
主题模型LDA的多文档自动文摘 被引量:23
15
作者 杨潇 马军 +2 位作者 杨同峰 杜言琦 邵海敏 《智能系统学报》 2010年第2期169-176,共8页
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型... 近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势. 展开更多
关键词 多文档自动文摘 句子分值计算 主题模型 LDA 主题数目
下载PDF
基于信息论的潜在概念获取与文本聚类 被引量:7
16
作者 李晓光 于戈 +1 位作者 王大玲 鲍玉斌 《软件学报》 EI CSCD 北大核心 2008年第9期2276-2284,共9页
针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用... 针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用以获得概念层次树以及在不同层次概念上的文本聚类结果,是一种双向软聚类方法.方法通过基于最短描述长度原则的概念选择方法,最终确定概念个数和对应的文本聚类结果.实验结果表明,所提出的方法优于基于词空间的文本聚类方法以及双向硬聚类方法. 展开更多
关键词 潜在概念 主题 文本聚类 信息论
下载PDF
一种面向主题的领域服务聚类方法 被引量:17
17
作者 李征 王健 +3 位作者 张能 李昭 何成万 何克清 《计算机研究与发展》 EI CSCD 北大核心 2014年第2期408-419,共12页
随着互联网上服务资源规模的快速增长,如何高效、准确地发现服务成为一个亟待解决的关键问题.服务聚类是促进服务发现的一种重要技术.但是,现有服务聚类方法只对单一类型的服务文档进行聚类,并且没有考虑服务的领域特性.针对该问题,在... 随着互联网上服务资源规模的快速增长,如何高效、准确地发现服务成为一个亟待解决的关键问题.服务聚类是促进服务发现的一种重要技术.但是,现有服务聚类方法只对单一类型的服务文档进行聚类,并且没有考虑服务的领域特性.针对该问题,在对服务进行领域分类的基础上,提出了一种基于概率、融合领域特性的服务聚类模型——领域服务聚类模型(domain service clustering model,DSCM),然后基于该模型提出了一种面向主题的服务聚类方法.最后通过ProgrammableWeb网站提供的真实服务集对提出的方法进行了验证.实验结果表明,该方法可以准确地对不同类型的服务文档进行聚类.与经典的潜在狄利克雷分配(latent Dirichlet allocation,LDA),K-means等方法相比,该方法在聚类纯度和F-measure指标上均具有更好的效果,从而为按需服务发现与服务组合提供更好的支持. 展开更多
关键词 服务聚类 潜在狄利克雷分配 主题 概率 特征降维
下载PDF
融合主题与语言模型的个性化标签推荐方法研究 被引量:3
18
作者 李慧 马小平 +1 位作者 胡云 施珺 《计算机科学》 CSCD 北大核心 2015年第8期70-74,共5页
随着Web的推广和普及,产生了越来越多的网络数据。广泛应用了标签系统,以便人们使用搜索技术来组织和使用这些信息。这些数据允许用户使用关键字(标签)注释资源,为传统的基于文本的信息检索提供了方案。为了支持用户选择正确的关键字,... 随着Web的推广和普及,产生了越来越多的网络数据。广泛应用了标签系统,以便人们使用搜索技术来组织和使用这些信息。这些数据允许用户使用关键字(标签)注释资源,为传统的基于文本的信息检索提供了方案。为了支持用户选择正确的关键字,标签推荐算法应运而生。提出了一种个性化标签推荐方法,该方法综合了用户的资源标签与标签概率模型。该模型利用了简单语言模型和隐含狄利克雷分配模型,并针对现实世界的大型数据集进行了大量实验。实验表明,该个性化方法改进了标签推荐算法,推荐结果优于传统方法。 展开更多
关键词 标签 推荐 主题 潜在主题模型 个性化
下载PDF
一种潜在特征同步学习和偏好引导的推荐方法 被引量:7
19
作者 李琳 朱阁 +2 位作者 解庆 苏畅 杨征路 《软件学报》 EI CSCD 北大核心 2019年第11期3382-3396,共15页
根据用户的历史评分数据为用户提供推荐的商品列表,是目前推荐系统研究的主流.研究者发现,随着用户参与度的不断提高,将反映用户偏好的评论文本与评分数据结合,可以进一步提高推荐的质量.提出了基于潜在特征同步学习和偏好引导的商品推... 根据用户的历史评分数据为用户提供推荐的商品列表,是目前推荐系统研究的主流.研究者发现,随着用户参与度的不断提高,将反映用户偏好的评论文本与评分数据结合,可以进一步提高推荐的质量.提出了基于潜在特征同步学习和偏好引导的商品推荐方法,将评论文本的主题与用户的“打分偏好”进行关联,同步学习用户评论文本的潜在主题、评分矩阵的用户潜在因子和商品潜在因子,并将潜在主题作为用户个人偏好引导来约束推荐方法对商品的预测打分.该方法对推荐质量的优化主要体现在两个方面:一是在评论文本的潜在主题和评分数据的两种潜在因子之间建立映射关系,同步求解主题模型和矩阵分解模型;二是将从评论文本中学习得到的潜在主题作为用户对商品的个性偏好引入到矩阵分解中,进一步优化推荐方法.在来自Amazon网站的28组真实数据集上进行实验,以均方误差为评价指标,与已有的模型进行了对比分析.实验结果表明,该方法有效减少了推荐误差,与已有的TopicMF方法相比,均方误差在数据子集上最大减少了3.32%,平均减少了0.92%. 展开更多
关键词 评论文本 评分数据 推荐系统 潜在主题 潜在因子
下载PDF
基于自然标注信息和隐含主题模型的无监督文本特征抽取 被引量:4
20
作者 饶高琦 于东 荀恩东 《中文信息学报》 CSCD 北大核心 2015年第6期141-149,共9页
术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现... 术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现了从未分词领域语料中无监督获得词语表的方法。通过优化和过滤,我们可以进一步获得了富含有术语信息和特征短语的高置信度特征词表。在对计算机科学等六类不同领域语料的实验中,该方法抽取的特征词表具有较好的文体区分度和领域区分度。 展开更多
关键词 自然标注信息 自然语块 隐含主题模型 领域特征 文体特征
下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部