期刊文献+
共找到239篇文章
< 1 2 12 >
每页显示 20 50 100
基于LDA模型和意象图式的产品隐喻设计方法研究
1
作者 侯士江 卫建君 +3 位作者 孙宇辰 鲁莹 王佳棋 廉博杰 《包装工程》 CAS 北大核心 2024年第16期138-149,170,共13页
目的为实现隐喻设计方法的喻体选择和隐喻转译,结合LDA模型和意象图式提出一种新型产品隐喻设计方法。方法应用LDA聚类分析始源域中事件的情绪体验,获取用户在始源域中的主题喻体。基于深度访谈和图式表征分析提取意象图式,并通过AHP评... 目的为实现隐喻设计方法的喻体选择和隐喻转译,结合LDA模型和意象图式提出一种新型产品隐喻设计方法。方法应用LDA聚类分析始源域中事件的情绪体验,获取用户在始源域中的主题喻体。基于深度访谈和图式表征分析提取意象图式,并通过AHP评价排序获取重要图式转译因子。将图式因子进行组合表述,联想产品相应功能特征,完成意象喻体到产品主体的转译。结果以减压产品为例进行设计实践,通过LDA聚类获取了感官放松、情感满足、体验良性发展、探索未知、无意识本能、体能释放六大主题与相应模态,以及与主题对应的图示因子,并以可视化桌面蓝牙音箱为设计载体,从视觉、听觉和触觉模态介入,结合图式联想完成了音乐播放、探索互动、自动休眠和情绪释放4个功能隐喻设计。利用加权算法对设计方案进行测试评估,验证了设计方法的合理性。结论从隐喻设计现状出发,探索了基于LDA模型和意象图式的产品隐喻设计方法并加以实践,验证理论与方法的可行性与有效性,为产品隐喻设计乃至其他情感价值类产品的设计研究提供了优质案例与借鉴。 展开更多
关键词 产品设计 隐喻设计 lda模型 意象图式
下载PDF
Semi-supervised Document Clustering Based on Latent Dirichlet Allocation (LDA) 被引量:2
2
作者 秦永彬 李解 +1 位作者 黄瑞章 李晶 《Journal of Donghua University(English Edition)》 EI CAS 2016年第5期685-688,共4页
To discover personalized document structure with the consideration of user preferences,user preferences were captured by limited amount of instance level constraints and given as interested and uninterested key terms.... To discover personalized document structure with the consideration of user preferences,user preferences were captured by limited amount of instance level constraints and given as interested and uninterested key terms.Develop a semi-supervised document clustering approach based on the latent Dirichlet allocation(LDA)model,namely,pLDA,guided by the user provided key terms.Propose a generalized Polya urn(GPU) model to integrate the user preferences to the document clustering process.A Gibbs sampler was investigated to infer the document collection structure.Experiments on real datasets were taken to explore the performance of pLDA.The results demonstrate that the pLDA approach is effective. 展开更多
关键词 latent dirichlet allocation(lda) semi-supervised learning document clustering
下载PDF
基于无监督LDA的水电工程施工安全事故致因分析 被引量:1
3
作者 陈述 孙孟文 +3 位作者 陈云 聂本武 李智 刘文濯 《中国安全科学学报》 CAS CSCD 北大核心 2023年第10期79-85,共7页
为实现水电工程施工安全事故报告中致因的智能挖掘,首先,利用Jieba库分词处理1206条事故分析报告,提出事故分析文本词频-逆文档频率(TF-IDF)关键词处理算法,确定词频权重并构建事故文本词向量;然后,基于TF-IDF特征,训练无监督隐含狄利... 为实现水电工程施工安全事故报告中致因的智能挖掘,首先,利用Jieba库分词处理1206条事故分析报告,提出事故分析文本词频-逆文档频率(TF-IDF)关键词处理算法,确定词频权重并构建事故文本词向量;然后,基于TF-IDF特征,训练无监督隐含狄利克雷分布(LDA)主题模型,提取事故主题及主题词;最后,对主题词进行社会网络分析,揭示事故要素间的潜在关系,智能输出水电工程施工安全事故成因。结果表明:LDA主题模型能快速挖掘出大量有效事故数据信息,并计算出安全意识、事故隐患、违章行为等5个事故主题。致因自动分析结果显示,违规违章操作、未掌握安全操作技术、材料设备问题、违反施工程序、作业环境条件不良是导致水电工程施工安全事故的最主要原因。加强施工人员的行为监管,提高事故主要致因的预防能力,有助于提升水电工程施工安全管控水平。 展开更多
关键词 水电工程 施工安全事故 无监督隐含狄利克雷分布(lda)主题模型 事故致因 社会网络分析 因子分析
下载PDF
基于LDA主题模型的湖泊公园生态系统文化服务公众感知研究 被引量:2
4
作者 张怡 裘鸿菲 《中国园林》 CSCD 北大核心 2023年第7期121-126,共6页
湖泊公园是城市蓝绿空间的重要类型之一,开展湖泊公园生态系统文化服务感知量化研究,对保护生态环境和提升游憩空间质量具有重要意义。以武汉市8个典型湖泊公园为研究对象,爬取公园网络评论数据,利用LDA主题模型挖掘潜在主题,结合社会... 湖泊公园是城市蓝绿空间的重要类型之一,开展湖泊公园生态系统文化服务感知量化研究,对保护生态环境和提升游憩空间质量具有重要意义。以武汉市8个典型湖泊公园为研究对象,爬取公园网络评论数据,利用LDA主题模型挖掘潜在主题,结合社会网络分析法和情感分析模型,并对比问卷调查结果,探讨湖泊公园生态系统文化服务感知差异。结果表明:湖泊公园生态系统文化服务公众感知维度有休闲娱乐、审美体验、运动健康、社交互动、历史文化和科普教育;主导服务类型是休闲娱乐和审美体验,而科普教育是最不易被感知的;公园可达性、周边文化建设、园内基础设施及自身特色是影响感知频率和满意度的主要因素;不同年龄段人群的使用需求和活动类型差异对感知满意度有一定影响。因此,未来湖泊公园的建设可在科普主题活动举办、特色湖泊文化景观、公园配套服务设施、生态环境治理等方面进一步完善,并关注多年龄段人群需求,从而提升公园服务品质。 展开更多
关键词 风景园林 生态系统文化服务 公众感知 lda主题模型 情感分析 湖泊公园
下载PDF
基于LDA模型的专利文本主题分析——以国内元宇宙领域为例 被引量:2
5
作者 陆振昇 马超 《科技和产业》 2023年第11期85-88,共4页
为了探究元宇宙作为新兴产业的热点,解决国内元宇宙领域研究重点不明确的问题,提出使用LDA主题模型的专利文本分析方法。将LDA主题模型运用到国内元宇宙领域相关专利文本分析中,结合人为判断和主题困惑度的方法,实现了对专利技术主题的... 为了探究元宇宙作为新兴产业的热点,解决国内元宇宙领域研究重点不明确的问题,提出使用LDA主题模型的专利文本分析方法。将LDA主题模型运用到国内元宇宙领域相关专利文本分析中,结合人为判断和主题困惑度的方法,实现了对专利技术主题的识别和划分。通过实验分析得出结论:人工智能、区块链、云计算等是当前中国元宇宙产业应用专利的热点技术;通过LDA主题模型分析国内元宇宙的专利文本,可以实现其技术热点主题的分类和细分判别,可以为未来的行业发展提供建议。 展开更多
关键词 lda主题模型 元宇宙 专利文本分析
下载PDF
基于LDA主题模型的杭州市公园季节性公共服务价值
6
作者 侯力丹 卢群 林帅君 《中国城市林业》 2023年第3期109-116,132,共9页
季节对公园的公共服务价值具有显著影响,明确游客对于公园季节性公共服务价值的关注度及态度有助于提高公园的服务质量。文章以“大众点评”上游客对杭州市公园的评价文本为研究对象,基于LDA主题模型对公园季节性公共服务价值属性及游... 季节对公园的公共服务价值具有显著影响,明确游客对于公园季节性公共服务价值的关注度及态度有助于提高公园的服务质量。文章以“大众点评”上游客对杭州市公园的评价文本为研究对象,基于LDA主题模型对公园季节性公共服务价值属性及游客的关注度进行研究,并利用SnowNLP对评价文本中游客的情感变化进行分析。结果表明:春季和秋季游客主要关注以自然风光为主的游赏价值,夏季游客对公园的功能服务价值具有最高的关注度,冬季公园的休闲娱乐价值是游客最在意的方面,此外,游客对于不同季节的公园的公共服务价值普遍给予较为积极的评价,其中游赏价值、功能服务价值和休闲娱乐价值对游客的情感具有显著的影响。因此,公园的建设与发展应充分考虑公共服务价值随季节的变化,并根据游客诉求进行灵活调整。 展开更多
关键词 潜在狄利克雷分布主题模型 网络文本 简体中文文本处理 季节性公共服务价值 杭州市公园
下载PDF
基于词嵌入的科研主题排序研究
7
作者 何东彬 陶莎 +1 位作者 任延昭 朱艳红 《北方工业大学学报》 2024年第1期136-149,共14页
为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实... 为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实际意义。针对上述问题,在已有研究基础上,基于词嵌入,提出一种新的多维度评估主题质量算法;针对科研文档的特点,利用语料库的统计特征对无意义主题距离评估方法进行优化,并最终将二者融合到一个统一的主题排序框架中。实验结果表明,本文提出的方法可以有效提高主题排序整体效果,能够识别出非重要和质量差的主题,主题排序的整体效果优于现有方法。 展开更多
关键词 主题模型 潜在狄利克雷分配(lda) 主题排序 科研主题 词嵌入
下载PDF
民航管制安全风险主题时空分布规律研究
8
作者 陈芳 温抗抗 +1 位作者 张亚博 邹汶倩 《安全与环境学报》 CAS CSCD 北大核心 2024年第2期587-595,共9页
为了探究民航管制安全风险的时空分布规律,基于潜在迪利克雷分布(Latent Dirichlet Allocation,LDA)主题模型识别出民航管制安全风险主题,定义民航管制安全风险主题强度的定量测度指标,运用全局空间自相关分析和冷热点分析对民航管制安... 为了探究民航管制安全风险的时空分布规律,基于潜在迪利克雷分布(Latent Dirichlet Allocation,LDA)主题模型识别出民航管制安全风险主题,定义民航管制安全风险主题强度的定量测度指标,运用全局空间自相关分析和冷热点分析对民航管制安全风险主题的时空分布规律进行研究。结果表明:利用LDA主题模型识别出“管制员指令错误风险”等10个管制安全风险主题;“管制员指令错误风险”主题存在较弱的全局空间自相关性,在2018—2021年,全局Moran’s I总体呈现波动增长的趋势;在2018—2021年,“管制员指令错误风险”主题强度高值聚集的区域由西南向东南转移,高值聚集区域数量变少,且不稳定,低值聚集区域发生转移并在2020年后保持稳定。通过全局空间自相关分析和冷热点分析确定了2018—2021年中国民航不同管制区域的管制安全风险的时空分布格局,为局方进行差异化的安全监管提供决策支持。 展开更多
关键词 安全工程 文本挖掘 时空分布规律 潜在迪利克雷分布(lda) 空间自相关 空中交通管制
下载PDF
基于LDA模型的音乐推荐算法 被引量:15
9
作者 李博 陈志刚 +1 位作者 黄瑞 郑祥云 《计算机工程》 CAS CSCD 北大核心 2016年第6期175-179,184,共6页
互联网的普及以及音乐资源的电子化使得人们可以更方便地获得音乐资源。但随着音乐库变得越来越大、资源越来越丰富,人们已经很难准确及时地找到自己喜欢的音乐。因此,对于音乐网站而言,需要一个合适的音乐推荐算法向用户推荐音乐。根... 互联网的普及以及音乐资源的电子化使得人们可以更方便地获得音乐资源。但随着音乐库变得越来越大、资源越来越丰富,人们已经很难准确及时地找到自己喜欢的音乐。因此,对于音乐网站而言,需要一个合适的音乐推荐算法向用户推荐音乐。根据已有的基于音频信息的音乐推荐以及协同过滤方法,分析用户的音乐试听数据以及下载数据,并结合Latent Dirichlet分配(LDA)主题挖掘模型,提出一种音乐推荐算法。实验结果表明,与基于用户的协同过滤算法以及基于项目的协同过滤算法相比,该算法可以更加高效地向用户推荐感兴趣的音乐。 展开更多
关键词 协同过滤 音乐推荐 主题挖掘 latent dirichlet分配模型 吉布斯抽样 基于lda模型的音乐推荐
下载PDF
一种改进的LDA主题模型 被引量:47
10
作者 张小平 周雪忠 +3 位作者 黄厚宽 冯奇 陈世波 焦宏官 《北京交通大学学报》 CAS CSCD 北大核心 2010年第2期111-114,共4页
由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关... 由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关性以及复杂度(Perplexity)值都降低,说明改进模型在主题表达和预测性能方面都有所提高. 展开更多
关键词 lda dirichlet分布 加权主题模型
下载PDF
基于Labeled-LDA模型的文本分类新算法 被引量:103
11
作者 李文波 孙乐 张大鲲 《计算机学报》 EI CSCD 北大核心 2008年第4期620-627,共8页
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题... LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷.与传统LDA模型的实验对比表明:基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能,在复旦大学中文语料库上micro-F1提高约5.7%,在英文语料库20newsgroup的comp子集上micro-F1提高约3%. 展开更多
关键词 文本分类 图模型 隐含狄利克雷分配 变分推断
下载PDF
基于LDA模型的文本分割 被引量:54
12
作者 石晶 胡明 +1 位作者 石鑫 戴国忠 《计算机学报》 EI CSCD 北大核心 2008年第10期1865-1873,共9页
文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用.基于LDA模型的文本分割以LDA为语料库及文本建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,获取词汇的概率分布,使隐藏于片段内的不同主题... 文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用.基于LDA模型的文本分割以LDA为语料库及文本建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,获取词汇的概率分布,使隐藏于片段内的不同主题与文本表面的字词建立联系.实验以汉语的整句作为基本块,尝试多种相似性度量手段及边界估计策略,其最佳结果表明二者的恰当结合可以使片段边界的识别错误率远远低于其它同类算法. 展开更多
关键词 文本分割 lda模型 相似性度量 边界识别
下载PDF
基于LDA主题模型的文本相似度计算 被引量:91
13
作者 王振振 何明 杜永萍 《计算机科学》 CSCD 北大核心 2013年第12期229-232,共4页
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏... LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。 展开更多
关键词 主题模型 lda 文本相似度 GIBBS抽样
下载PDF
基于LDA模型的文本分类研究 被引量:55
14
作者 姚全珠 宋志理 彭程 《计算机工程与应用》 CSCD 北大核心 2011年第13期150-153,共4页
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数... 针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。 展开更多
关键词 文本分类 潜在狄利克雷分配(lda)模型 GIBBS抽样 贝叶斯统计理论
下载PDF
基于权重微博链的改进LDA微博主题模型 被引量:9
15
作者 李鹏 于岩 +2 位作者 李英乐 李星 何赞园 《计算机应用研究》 CSCD 北大核心 2016年第7期2018-2021,共4页
社交网络尤其是微博中含有大量的短文本。短文本不同于传统的文本,其携带的语义特征信息密度低,很难对其进行准确的主题挖掘。针对这一问题,提出根据微博发布时间与原创、转发、评论微博等社交行为信息分配权重,使用背景知识丰富语义特... 社交网络尤其是微博中含有大量的短文本。短文本不同于传统的文本,其携带的语义特征信息密度低,很难对其进行准确的主题挖掘。针对这一问题,提出根据微博发布时间与原创、转发、评论微博等社交行为信息分配权重,使用背景知识丰富语义特征的微博链结构与基于此改进的LDA主题模型。实验结果表明,相比于标准的LDA模型,本模型的perplexity值更低,即具有较低的预测不确定度。 展开更多
关键词 短文本 主题挖掘 微博链 潜在狄利克雷分布 PERPLEXITY
下载PDF
一种词聚类LDA的商品特征提取算法 被引量:12
16
作者 彭云 万常选 +2 位作者 江腾蛟 刘德喜 刘喜平 《小型微型计算机系统》 CSCD 北大核心 2015年第7期1458-1463,共6页
商品评论中经常会使用一些词义近似或上下文相关的中低频词来描述商品特征,如何有效辨识这些中低频词是商品特征抽取的一个难点.由于缺乏先验知识,主题模型难以发现并抽取中低频特征词.提出基于词义相似度和上下文相关度相结合的词聚类... 商品评论中经常会使用一些词义近似或上下文相关的中低频词来描述商品特征,如何有效辨识这些中低频词是商品特征抽取的一个难点.由于缺乏先验知识,主题模型难以发现并抽取中低频特征词.提出基于词义相似度和上下文相关度相结合的词聚类度量算法,在此基础上构建了一种基于词聚类先验知识的潜在狄利克雷分配的商品主题特征提取模型.首先对词项按词义相似度、上下文相关度进行聚类;然后在商品主题特征抽取中引入词聚类因素作为权重影响因子,使得同一个聚类簇中的词项属于同一主题的概率增加.相关实验结果表明,本文提出的词聚类和特征提取算法具有较好的效果. 展开更多
关键词 词聚类 上下文相关 lda模型 特征提取
下载PDF
基于LDA模型的主题分析 被引量:34
17
作者 石晶 范猛 李万龙 《自动化学报》 EI CSCD 北大核心 2009年第12期1586-1592,共7页
在文本分割的基础上,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来,主题以词串的形式表示.为了分析准确,利用LDA(Latent dirichlet allocation)为语料库及文本建模,以Clarity度量块间相似性,并通过局部最小值识别片... 在文本分割的基础上,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来,主题以词串的形式表示.为了分析准确,利用LDA(Latent dirichlet allocation)为语料库及文本建模,以Clarity度量块间相似性,并通过局部最小值识别片段边界.依据词汇的香农信息提取片段主题词,采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘隐藏于字词表面之下的文本内涵.实验表明,文本分析的结果明显好于其他方法,可以为下一步文本推理的工作提供有价值的预处理. 展开更多
关键词 主题分析 lda模型 文本分割 GIBBS抽样
下载PDF
一种并行LDA主题模型建立方法研究 被引量:12
18
作者 王旭仁 姚叶鹏 +1 位作者 冉春风 何发镁 《北京理工大学学报》 EI CAS CSCD 北大核心 2013年第6期590-593,共4页
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行... 针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高. 展开更多
关键词 MapReduce架构 并行计算 潜在狄利克雷分布模型 主题建模
下载PDF
基于LDA的双通道在线主题演化模型 被引量:15
19
作者 曹建平 王晖 +2 位作者 夏友清 乔凤才 张鑫 《自动化学报》 EI CSCD 北大核心 2014年第12期2877-2886,共10页
网络舆情分析中需要处理大量时效性较强的文本数据流.针对在线时效性较强的文本数据流,提出基于LDA(Latent Dirichlet allocation)的双通道在线主题演化模型(Bi-path evolution online-LDA,BPE-OLDA),在下一时间片生成文本时考虑文本的... 网络舆情分析中需要处理大量时效性较强的文本数据流.针对在线时效性较强的文本数据流,提出基于LDA(Latent Dirichlet allocation)的双通道在线主题演化模型(Bi-path evolution online-LDA,BPE-OLDA),在下一时间片生成文本时考虑文本的内容遗传和强度遗传,很好地模拟了人在生成时效性较强的文本时的特征.估算模型参数时对Gibbs采样算法进行了简化,实验证明,使用简化后的在线Gibbs重采样算法,BPE-OLDA模型在提取时效性较强的文本数据流的主题方面具有明显的效果. 展开更多
关键词 时效性 强度遗传 GIBBS采样 lda模型
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:30
20
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-逆文本频率 词向量 隐含狄利克雷分布
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部