期刊文献+
共找到130篇文章
< 1 2 7 >
每页显示 20 50 100
Topic Model Based Text Similarity Measure for Chinese Judgment Document
1
作者 Yue Wang Jidong Ge +5 位作者 Yemao Zhou Yi Feng Chuanyi Li ZhongjinLi Xiaoyu Zhou Bin Luo 《国际计算机前沿大会会议论文集》 2017年第2期9-11,共3页
In the recent informatization of Chinese courts, the huge amount of law cases and judgment documents, which were digital stored,has provided a good foundation for the research of judicial big data and machine learning... In the recent informatization of Chinese courts, the huge amount of law cases and judgment documents, which were digital stored,has provided a good foundation for the research of judicial big data and machine learning. In this situation, some ideas about Chinese courts can reach automation or get better result through the research of machine learning, such as similar documents recommendation, workload evaluation based on similarity of judgement documents and prediction of possible relevant statutes. In trying to achieve all above mentioned, and also in face of the characteristics of Chinese judgement document, we propose a topic model based approach to measure the text similarity of Chinese judgement document, which is based on TF-IDF, Latent Dirichlet Allocation (LDA), Labeled Latent Dirichlet Allocation (LLDA) and other treatments. Combining with the characteristics of Chinese judgment document,we focus on the specific steps of approach, the preprocessing of corpus, the parameters choices of training and the evaluation of similarity measure result. Besides, implementing the approach for prediction of possible statutes and regarding the prediction accuracy as the evaluation metric, we designed experiments to demonstrate the reasonability of decisions in the process of design and the high performance of our approach on text similarity measure. The experiments also show the restriction of our approach which need to be focused in future work. 展开更多
关键词 CHINESE JUDGMENT documents Data science Machine learning Natural language processing text similarity TF-IDF TOPIC model LATENT DIRICHLET ALLOCATION Labeled LATENT DIRICHLET ALLOCATION
下载PDF
利用BERT和覆盖率机制改进的HiNT文本检索模型
2
作者 邸剑 刘骏华 曹锦纲 《智能系统学报》 CSCD 北大核心 2024年第3期719-727,共9页
为有效提升文本语义检索的准确度,本文针对当前文本检索模型衡量查询和文档的相关性时不能很好地解决文本歧义和一词多义等问题,提出一种基于改进的分层神经匹配模型(hierarchical neural matching model,HiNT)。该模型先对文档的各个... 为有效提升文本语义检索的准确度,本文针对当前文本检索模型衡量查询和文档的相关性时不能很好地解决文本歧义和一词多义等问题,提出一种基于改进的分层神经匹配模型(hierarchical neural matching model,HiNT)。该模型先对文档的各个段提取关键主题词,然后用基于变换器的双向编码器(bidirectional encoder representations from transformers,BERT)模型将其编码为多个稠密的语义向量,再利用引入覆盖率机制的局部匹配层进行处理,使模型可以根据文档的局部段级别粒度和全局文档级别粒度进行相关性计算,提高检索的准确率。本文提出的模型在MS MARCO和webtext2019zh数据集上与多个检索模型进行对比,取得了最优结果,验证了本文提出模型的有效性。 展开更多
关键词 基于变换器的双向编码器 分层神经匹配模型 覆盖率机制 文本检索 语义表示 特征提取 自然语言处理 相似度 多粒度
下载PDF
语义相似度与BERT模型融合的多标签文本自适应分类方法
3
作者 张红 《微型电脑应用》 2024年第3期49-52,共4页
针对文本搜索需求难以判断、文本难以分类的问题,研究语义相似度与双向语言编码器(BERT)模型融合的多标签文本自适应分类方法。先预处理文本并确定文本表示形式,基于信息增益理论提取并降维处理文本特征,依据语义相似度理论计算文本之... 针对文本搜索需求难以判断、文本难以分类的问题,研究语义相似度与双向语言编码器(BERT)模型融合的多标签文本自适应分类方法。先预处理文本并确定文本表示形式,基于信息增益理论提取并降维处理文本特征,依据语义相似度理论计算文本之间相似度,再引入BERT模型搭建多标签文本自适应分类框架,通过对抗训练获取模型最佳参数,将待分类文本输入至训练好文本分类BERT模型中,即可实现多标签文本的自适应分类。实验数据显示应用提出方法获得F 1参量大于给定最小限值,汉明损失参量HL小于给定最大限值,充分证实了提出方法文本分类效果较佳。 展开更多
关键词 BERT模型 多标签 语义相似度 文本分类
下载PDF
基于图文多模态融合的文档片段语义相似度判定算法
4
作者 潘媛 梁国迪 +1 位作者 邵馨叶 李芹 《电子设计工程》 2024年第3期106-109,114,共5页
为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现... 为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现基于图文多模态融合的文档片段标注。根据文本数据预处理条件,确定关键词权值指标,联合已知文档片段语义信息,求取相似性度量值的准确计算结果,完成文档片段语义相似度判定算法的设计。对比实验结果可知,在图文多模态融合技术的支持下,差异性赋值指标的平均值达到了1.0,对于网络主机而言,其在准确判别相似性文档片段语义信息方面的应用能力得到了保障。 展开更多
关键词 图文多模态融合 文档片段 语义相似度 词袋模型 关键词权值 差异性赋值
下载PDF
融合TextRank算法的中文短文本相似度计算 被引量:5
5
作者 卢佳伟 陈玮 尹钟 《电子科技》 2020年第10期51-56,共6页
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义... 传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。 展开更多
关键词 文本相似度 关键字提取 textRank算法 Bert 词向量技术 向量空间模型
下载PDF
基于高斯混合模型和自适应簇数的文本聚类
6
作者 程宏兵 王本安 +2 位作者 陈友荣 张旭东 吴前锋 《浙江工业大学学报》 北大核心 2023年第6期602-609,共8页
针对海量文本难以精准聚类问题,提出了一种基于高斯混合模型和自适应簇数的文本聚类算法(TCA)。首先,采用无意义符号去除、基于齐次马尔科夫假设的文本分词和停用词去除方法,实现数据分词和清洗;其次,提出权衡关键词频率和普适性的关键... 针对海量文本难以精准聚类问题,提出了一种基于高斯混合模型和自适应簇数的文本聚类算法(TCA)。首先,采用无意义符号去除、基于齐次马尔科夫假设的文本分词和停用词去除方法,实现数据分词和清洗;其次,提出权衡关键词频率和普适性的关键词权重,选择关键词和进行文本向量化;再次,在高斯混合模型的基础上,引入文本相似度,提出权衡条件概率和相似度的文本权重;最后,通过轮盘赌初始化聚类中心,更新多维高斯分布模型参数,实现分簇数量确定的文本聚类。同时,为了自适应文本分簇数量,在肘部法则的基础上确定最优分簇数量,从而提高聚类效果。仿真结果表明:TCA能自适应文本聚类数量和获得其分布,提高聚类的准确率和召回率,有助于更好地实现海量文本的精确聚类。 展开更多
关键词 文本聚类 高斯混合模型 自适应簇数 相似度 条件概率
下载PDF
基于混合机器学习模型的短文本语义相似性度量算法 被引量:2
7
作者 韩开旭 袁淑芳 《吉林大学学报(理学版)》 CAS 北大核心 2023年第4期909-914,共6页
为提高短文本语义相似性度量准确性,设计一种基于混合机器学习模型的短文本语义相似性度量算法.先对短文本实施预处理,基于混合机器学习模型构建短文本的字词向量模型,对短文本进行特征扩展;然后组合短文本的多样度量特征,对多样度量特... 为提高短文本语义相似性度量准确性,设计一种基于混合机器学习模型的短文本语义相似性度量算法.先对短文本实施预处理,基于混合机器学习模型构建短文本的字词向量模型,对短文本进行特征扩展;然后组合短文本的多样度量特征,对多样度量特征进行维度规约;最后通过构建一个集成学习模型,计算语义相似性结果,实现语义相似性的度量.使用“Quora Question Pairs”比赛数据集测试该方法的性能,测试结果表明,该方法的准确性较高,对数损失和度量均方差均较低,说明该方法的相似性度量准确性较高. 展开更多
关键词 混合机器学习模型 短文本 文本分词 语义相似性 卡方检验 相似性度量
下载PDF
继电保护定值模型建立及语义识别技术研究 被引量:2
8
作者 熊学海 万春竹 +2 位作者 杨波 赵凌 齐雪雯 《自动化技术与应用》 2023年第5期128-132,共5页
针对各厂家继电保护定值信息语义不标准,严重影响信息审核和应用的问题,提出基于知识图谱和文本相似度计算的继电保护定值信息智能识别模型。建立语义预处理、语义智能识别、定值信息知识图谱等模块。基于正则表达式处理字母、数字以及... 针对各厂家继电保护定值信息语义不标准,严重影响信息审核和应用的问题,提出基于知识图谱和文本相似度计算的继电保护定值信息智能识别模型。建立语义预处理、语义智能识别、定值信息知识图谱等模块。基于正则表达式处理字母、数字以及特殊符号不标准表述;通过文本相似度算法,计算待规范信息和规范信息间余弦值,判定两者间的相似程度;基于自然语言处理技术,建立继电保护标准语义信息知识网络。通过某地区继电保护定值信息验证,模型能够准确地标准化各厂家的定值信息。 展开更多
关键词 定值信息模型 文本识别 文本相似度计算
下载PDF
多维度下政务答复质量评价模型的构建与应用 被引量:1
9
作者 付饶 刘惠篮 《哈尔滨理工大学学报》 CAS 北大核心 2023年第4期65-76,共12页
随着智慧政务的深入发展,针对政务平台在答复群众留言的质量与效率方面产生的多方面问题,依据政务绩效评估理论,结合ALBERT(A Lite BERT)等算法,研究了政务答复的及时性、相关性、详尽性、信息强度、可解释性和规范性;并根据自编码器提... 随着智慧政务的深入发展,针对政务平台在答复群众留言的质量与效率方面产生的多方面问题,依据政务绩效评估理论,结合ALBERT(A Lite BERT)等算法,研究了政务答复的及时性、相关性、详尽性、信息强度、可解释性和规范性;并根据自编码器提取的潜在空间表征和熵权法确定的表征权重,构建政务答复质量的综合评价模型。对海关业务咨询的答复质量进行评价,其中各表征权重分别为0.098、0.436、0.466;归一化评分在0.2~0.4之间的答复最多,占比39.7%;模型对3000条随机选取的答复评分与人工评分的一致性程度为0.777,MSE为0.035,表明该模型能够反映真实的答复质量。 展开更多
关键词 质量评价模型 a lite BERT 文本相似度 词性标注 自编码器 熵权法
下载PDF
多特征融合的文本相似度方法
10
作者 邹丽强 何月顺 《现代电子技术》 2023年第11期103-108,共6页
通过从多方面考虑在自然语言处理中文本相似度的问题,从而提升文本相似度计算的准确性。提出一种多特征融合的文本相似度方法,该方法使用Jaro Distance编辑距离算法结合相同词计算文本结构相似度,使用长短时记忆网络的双塔模型算法计算... 通过从多方面考虑在自然语言处理中文本相似度的问题,从而提升文本相似度计算的准确性。提出一种多特征融合的文本相似度方法,该方法使用Jaro Distance编辑距离算法结合相同词计算文本结构相似度,使用长短时记忆网络的双塔模型算法计算文本语义相似度,使用融合多向量模型的双向长短时记忆网络的注意力算法计算文本相似度。考虑上述三种特征,通过线性加权调整模型的权重以避免其中任意一种方法计算出的相似度过大或者过小对最终的文本相似度造成不好的影响。以文本相似度的实验值与真实值的均方误差作为衡量标准,均方误差越小方法效果越好。实验结果表明,MFTM算法比WBLSA、MVBLSA算法的MSE值在SICK数据集上平均降低了5.4%、1.276%,因此,提出的算法在文本相似度计算上的效果更好。 展开更多
关键词 特征融合 文本相似度 改进编辑距离 长短时记忆网络 双塔模型 注意力机制
下载PDF
融合长短时序与文本分类的新闻推荐模型
11
作者 王曙燕 巩婧怡 《西安邮电大学学报》 2023年第3期82-87,共6页
为了更好地向用户准确推荐兴趣新闻,构建一种融合长短时序与文本分类的新闻推荐模型。根据用户兴趣随时间变化的特点,分别获取用户长短时序偏好。将用户长序时间聚类为时间簇,融合Bert模型和文档主题生成模型进行文本自动分类捕捉用户... 为了更好地向用户准确推荐兴趣新闻,构建一种融合长短时序与文本分类的新闻推荐模型。根据用户兴趣随时间变化的特点,分别获取用户长短时序偏好。将用户长序时间聚类为时间簇,融合Bert模型和文档主题生成模型进行文本自动分类捕捉用户兴趣分布,提取各时间簇兴趣分布获得长时序偏好。对用户短时序中的单个时间点兴趣进行词频分析,获得用户短时序偏好。最后融合长短时序偏好,使用余弦相似度算法获得近似偏好用户并推荐新闻。实验结果表明,所提模型相比基于增量协同过滤和潜在语义分析的混合推荐算法与基于用户行为的新闻推荐算法在精准率、召回率和和F值等方面均有提高,在一定程度上提升了推荐效果。 展开更多
关键词 新闻推荐 长短时序 文本分类 Bert模型 余弦相似度
下载PDF
基于LDA模型的文本分割 被引量:54
12
作者 石晶 胡明 +1 位作者 石鑫 戴国忠 《计算机学报》 EI CSCD 北大核心 2008年第10期1865-1873,共9页
文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用.基于LDA模型的文本分割以LDA为语料库及文本建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,获取词汇的概率分布,使隐藏于片段内的不同主题... 文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用.基于LDA模型的文本分割以LDA为语料库及文本建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,获取词汇的概率分布,使隐藏于片段内的不同主题与文本表面的字词建立联系.实验以汉语的整句作为基本块,尝试多种相似性度量手段及边界估计策略,其最佳结果表明二者的恰当结合可以使片段边界的识别错误率远远低于其它同类算法. 展开更多
关键词 文本分割 LDA模型 相似性度量 边界识别
下载PDF
基于LDA主题模型的文本相似度计算 被引量:91
13
作者 王振振 何明 杜永萍 《计算机科学》 CSCD 北大核心 2013年第12期229-232,共4页
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏... LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。 展开更多
关键词 主题模型 LDA 文本相似度 GIBBS抽样
下载PDF
语义分析与词频统计相结合的中文文本相似度量方法研究 被引量:42
14
作者 华秀丽 朱巧明 李培峰 《计算机应用研究》 CSCD 北大核心 2012年第3期833-836,共4页
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需... 基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。 展开更多
关键词 向量空间模型 语义分析 词频 概率分布 文本相似度
下载PDF
一种PST_LDA中文文本相似度计算方法 被引量:18
15
作者 张超 陈利 李琼 《计算机应用研究》 CSCD 北大核心 2016年第2期375-377,383,共4页
为了降低中文文本相似度计算方法的时间消耗、提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LD... 为了降低中文文本相似度计算方法的时间消耗、提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。将分离后的三个词集的LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在TanCorp-12数据集分别用LDA和PST_LDA方法进行中文文本相似度计算模拟实验。实验结果显示,PST_LDA方法不仅减少了建模时间消耗,同时在聚类准确率上有一定的提高。 展开更多
关键词 词性标注 LDA模型 PST_LDA模型 文本相似度计算
下载PDF
结合语义的特征权重计算方法研究 被引量:20
16
作者 任姚鹏 陈立潮 +1 位作者 张英俊 袁英 《计算机工程与设计》 CSCD 北大核心 2010年第10期2381-2383,2387,共4页
为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节——文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚... 为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节——文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚类的效果。传统的VSM特征权重计算方法——TF-IDF,没有考虑语义相似的词语在文本集中的分布情况,针对该问题,在基于"知网"的词语语义相似度分析基础上,提出了一种改进的TF-IDF权重计算方法。实验结果表明,该算法是有效可行的,且在一定程度上提高了文本聚类的查准率和查全率。 展开更多
关键词 文本聚类 向量空间模型 权重计算方法 词汇语义相似度 知网
下载PDF
一种新的句子相似度度量及其在文本自动摘要中的应用 被引量:34
17
作者 张奇 黄萱菁 吴立德 《中文信息学报》 CSCD 北大核心 2005年第2期93-99,共7页
本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的uni gram ,还考虑了bi gram和tri gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同... 本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的uni gram ,还考虑了bi gram和tri gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同时本文还提出了一种新的 ,利用句子间相似度以及句子的权重的抽句式文摘算法 ,在抽取出句子的同时也去掉了冗余。DUC2 0 0 3、DUC2 0 0 4 (DocumentUnderstandingConference 2 0 0 3,2 0 0 4 )的评测结果征明了方法的有效性。我们的系统在DUC2 0 0 4的评测中列第二位。 展开更多
关键词 计算机应用 中文信息处理 文本自动摘要 向量模型 相似度计算
下载PDF
中文短文本聚合模型研究 被引量:11
18
作者 刘震 陈晶 +2 位作者 郑建宾 华锦芝 肖淋峰 《软件学报》 EI CSCD 北大核心 2017年第10期2674-2692,共19页
中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通... 中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通过快速匹配和精细匹配两个关键步骤可以大幅度降低匹配的候选对数量,并保证匹配的精度.针对传统短文本相似度算法的不足,提出了一种新颖的广义Jaro-Winkler相似度算法,并从理论上分析了该算法的参数特性.通过对不同数据集上的商户信息数据进行聚合实验,结果表明,新算法与传统算法相比,在匹配准确率和稳定性上具有最优的性能. 展开更多
关键词 中文短文本 聚合模型 文本相似度 广义Jaro—Winkler算法 快速匹配 精细匹配
下载PDF
LDA模型在专利文本分类中的应用 被引量:41
19
作者 廖列法 勒孚刚 朱亚兰 《现代情报》 CSSCI 北大核心 2017年第3期35-39,共5页
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语... 对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。 展开更多
关键词 LDA 主题模型 专利文本分类 主题相似度
下载PDF
基于LDA模型的文本相似度研究 被引量:12
20
作者 陈攀 杨浩 +1 位作者 吕品 王海晖 《计算机技术与发展》 2016年第4期82-85,89,共5页
LDA主题模型是近年来提出的一种具有文本表示能力的非监督学习模型。考虑到传统主题模型在处理大规模文本时存在的局限性,文中提出一种基于LDA模型的文本相似度计算方法。利用LDA为语料库建模,通过Gibbs抽样间接估算模型参数,将文本表... LDA主题模型是近年来提出的一种具有文本表示能力的非监督学习模型。考虑到传统主题模型在处理大规模文本时存在的局限性,文中提出一种基于LDA模型的文本相似度计算方法。利用LDA为语料库建模,通过Gibbs抽样间接估算模型参数,将文本表示为固定隐含主题集上的概率分布,以此计算文本之间的相似度。最后将K-means算法作为文本相似度的评估指标。实验结果表明,与LSI模型相比,该方法能有效地提高文本相似度计算的准确性和文本聚类效果。 展开更多
关键词 文本挖掘 LDA模型 GIBBS抽样 文本相似度
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部