期刊文献+
共找到221篇文章
< 1 2 12 >
每页显示 20 50 100
Research on community detection algorithm based on site topic similarity and topology
1
作者 胡艺 Li Zhengmin +1 位作者 Chi Lejun Lin Jinxiu 《High Technology Letters》 EI CAS 2018年第2期189-195,共7页
Considering the deviation in content of community detection resulting from the low accuracy of resource relevance,an algorithm based on the topology of sites and the similarity between their topics is proposed. With t... Considering the deviation in content of community detection resulting from the low accuracy of resource relevance,an algorithm based on the topology of sites and the similarity between their topics is proposed. With topic content factors fully considered,this algorithm can search for topically similar site clusters on the premise of inter-site topology. The experimental results show that the algorithm can generate a more accurate result of detection in the real network. 展开更多
关键词 拓扑学 算法 地点 类似 社区 精确性 试验性 偏差
下载PDF
A New Generalized Similarity-Based Topic Distillation Algorithm
2
作者 ZHOU Hongfang DANG Xiaohui 《Wuhan University Journal of Natural Sciences》 CAS 2007年第5期789-792,共4页
The procedure of hypertext induced topic search based on a semantic relation model is analyzed, and the reason for the topic drift of HITS algorithm was found to prove that Web pages are projected to a wrong latent se... The procedure of hypertext induced topic search based on a semantic relation model is analyzed, and the reason for the topic drift of HITS algorithm was found to prove that Web pages are projected to a wrong latent semantic basis. A new concept-generalized similarity is introduced and, based on this, a new topic distillation algorithm GSTDA(generalized similarity based topic distillation algorithm) was presented to improve the quality of topic distillation. GSTDA was applied not only to avoid the topic drift, but also to explore relative topics to user query. The experimental results on 10 queries show that GSTDA reduces topic drift rate by 10% to 58% compared to that of HITS(hypertext induced topic search) algorithm, and discovers several relative topics to queries that have multiple meanings. 展开更多
关键词 generalized similarity hypertext induced topic search topic distillation topic drift
下载PDF
基于组合相似度动态聚类和词熵的网络话题在线检测
3
作者 郭慧 王亚楠 +2 位作者 王欣艳 魏艺泽 王养廷 《情报杂志》 北大核心 2024年第5期159-166,共8页
[研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题... [研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。 展开更多
关键词 网络话题 在线话题检测 增量式聚类 主题词提取 组合相似度 动态聚类算法 词熵
下载PDF
基于增量文本聚类算法的热点话题检测研究
4
作者 魏艺泽 郭慧 时晓旭 《华北科技学院学报》 2024年第1期76-81,124,共7页
针对传统TF-IDF方法提取文本特征时无法增量更新以及传统Single-Pass算法聚类准确率较低的问题,本文通过使用已有的语料库来设置IDF表并更新的方法,来减少TF-IDF计算时对语料库的依赖性,通过均值计算簇中心来提高Single-Pass算法在聚类... 针对传统TF-IDF方法提取文本特征时无法增量更新以及传统Single-Pass算法聚类准确率较低的问题,本文通过使用已有的语料库来设置IDF表并更新的方法,来减少TF-IDF计算时对语料库的依赖性,通过均值计算簇中心来提高Single-Pass算法在聚类时的准确率。利用各大平台获取的新冠肺炎新闻数据对模型进行验证。结果表明,该方法使得传统的TF-IDF提取关键词时可以增量更新,利用改进的Single-Pass算法使得综合评价指标提高了8.64%。相对于传统的Single-Pass算法,改进的Single-Pass算法只需要与一部分候选簇进行比较,有效地降低了比较次数,提高了聚类的准确性以及效率。 展开更多
关键词 Single-Pass 文本聚类 文本相似度 热点话题检测 TF-IDF
下载PDF
融合BTM与TextCNN的文本语义增强主题爬虫研究
5
作者 艾芳菊 尹虓寅 《软件导刊》 2024年第3期21-26,共6页
在拥有海量数据的信息时代,如何高效精准地检索到所需信息是一项巨大挑战,主题爬虫是获取某个特定领域信息的有效途径。通用的主题相似度计算通常是基于词粒度的特征表达,而忽略了文本整体的主题特征表达,会影响爬虫系统的查准率和查全... 在拥有海量数据的信息时代,如何高效精准地检索到所需信息是一项巨大挑战,主题爬虫是获取某个特定领域信息的有效途径。通用的主题相似度计算通常是基于词粒度的特征表达,而忽略了文本整体的主题特征表达,会影响爬虫系统的查准率和查全率。对此,提出融合BTM与TextCNN模型的主题爬虫,将内容主题判别模块当作文本分类问题研究,通过融合BTM得到的文本主题向量与Word2vec词向量以增强文本语义信息,利用卷积神经网络提升判别模块的精确度,弥补了传统卷积神经网络分类模型中文本特征表示不充分的问题。实验结果表明,在开源新闻文本分类数据集(THUCNews)和自定义爬取的真实论文数据集中,融合BTM与TextCNN模型在测试集中的平均分类精准率分别为93.7%和91.3%,比只采用TextCNN的平均分类精确率分别提升了0.6、1.3个百分点。 展开更多
关键词 主题爬虫 主题相似度 TextCNN BTM Word2vec
下载PDF
基于多模态相似融合的新闻视频故事分割算法
6
作者 吴培 周激流 《智能计算机与应用》 2024年第1期70-75,84,共7页
新闻视频数量的不断增加,为准确分割用户感兴趣的新闻视频,本文提出了一种基于多模态相似融合的新闻视频故事分割算法。首先,通过选定视频切割点获取候选新闻故事单元边界,将视频分成音频流和视频流;其次,选择静音区间为音频候选切分点... 新闻视频数量的不断增加,为准确分割用户感兴趣的新闻视频,本文提出了一种基于多模态相似融合的新闻视频故事分割算法。首先,通过选定视频切割点获取候选新闻故事单元边界,将视频分成音频流和视频流;其次,选择静音区间为音频候选切分点,主持人镜头帧和主题字幕帧作为视频候选切分点,根据候选切分点获得新闻故事基本单元,利用语义相似性分析各单元内容进行合并或独立分离,得到最终新闻故事;最后,采用人脸识别、YOLOv5来进行主题字幕检测、语义相似性合并或独立新闻故事基本单元,使得新闻故事边界划分更为准确。该新闻视频故事分割算法在《新闻联播》视频中查全率和查准率分别达到了97.17%和98.19%,为新闻视频导航、检索等应用提供辅助准备。 展开更多
关键词 新闻故事基本单元 主题字幕 人脸识别 YOLOv5 语义相似性
下载PDF
子话题及词汇关联视角下的新兴领域热点主题演化研究
7
作者 刘晋霞 侯倩倩 +2 位作者 杜静 柴福厚 张丽 《情报杂志》 北大核心 2023年第3期123-129,共7页
[研究目的]新兴领域由于发展时间不长,相关研究的文本量不够充足,先切分文本后关联主题的演化方法可能会导致各时间窗主题重复等问题,因此提出一种先整体识别热点,后切片分析演化的方法,解决新兴领域演化分析中文本量不足的问题。[研究... [研究目的]新兴领域由于发展时间不长,相关研究的文本量不够充足,先切分文本后关联主题的演化方法可能会导致各时间窗主题重复等问题,因此提出一种先整体识别热点,后切片分析演化的方法,解决新兴领域演化分析中文本量不足的问题。[研究方法]以制氢领域的核心中文期刊文献为数据源,通过构建指标体系先对整体语料库进行热点主题识别,再进行时间切片。对每个时间窗口的文本进行LDA主题抽取,并利用Word2Vec训练词向量,通过相似度计算进行热点主题的子话题关联及其主路径的词汇关联,从而分析各热点主题的结构演化和内容演化。[研究结论]绘制了各热点主题的结构演化图,并以热点主题光催化剂性能及其制备为例,揭示了其在各时间窗内的热点转移关系;同时绘制了其内容演化图,揭示了其各时间窗内的研究重点。实现了演化研究方面的精细化表达,为文本量不够充足的新兴领域演化分析提供了有效可行的思路。 展开更多
关键词 新兴领域 热点主题 相似度计算 切片演化 制氢 词汇关联
下载PDF
基于主路径分析的科技演化模式研究——以基因工程疫苗领域为例 被引量:1
8
作者 宋爱伟 刘心蕊 +2 位作者 孙昊宇 夏焕章 袁红梅 《科技管理研究》 北大核心 2023年第14期141-149,共9页
同时分析科学与技术在时间和内容上的互动关系可以具体揭示二者关联规律,但目前缺乏相关研究,同时难以发现领域内核心主题。鉴于此,提出一种识别科技演化模式的方法,利用搜索路径节点对算法分别对科学文献和专利文献提取全局主路径,通... 同时分析科学与技术在时间和内容上的互动关系可以具体揭示二者关联规律,但目前缺乏相关研究,同时难以发现领域内核心主题。鉴于此,提出一种识别科技演化模式的方法,利用搜索路径节点对算法分别对科学文献和专利文献提取全局主路径,通过潜在狄利克雷分配主题模型并结合专家意见进行文本挖掘,提取科学研究与技术研究的重点主题,并基于主路径分析结果分别形成科学文献和专利文献的发展路径时间轴,通过计算主题间余弦相似度来衡量相似主题;此外,对科学文献与专利文献的相似主题基于主题词共现词频进行连接,以桑基图的形式呈现,从主题的角度识别科学与技术的关系,探讨领域内科学与技术之间的互动模式,并在此基础上综合考量科学与技术价值、挖掘核心技术。基于基因工程疫苗领域的实证结果显示,该领域大体上呈现科学研究和技术应用相互促进的模式,基因工程的基础技术发展促使基因工程疫苗可以应用于多种疾病领域,特别是抗感染领域,mRNA疫苗是新的研究热点。 展开更多
关键词 科技演化 搜索路径节点对算法 主路径分析 主题识别 相似主题 核心技术 科学与技术互动模式
下载PDF
从现象句和判断句看主语与话题关系
9
作者 曹德和 《北华大学学报(社会科学版)》 2023年第4期11-21,150,151,共13页
主语与话题关系问题近年来业已成为汉语语法研究的老大难。根据日本学者的研究,现象句与判断句乃是直接对应于主语与话题的两种表达类型。文章以汉语中典型的现象句与判断句为窗口,就主语与话题的同异,从认知基础、语用功能、语法特征... 主语与话题关系问题近年来业已成为汉语语法研究的老大难。根据日本学者的研究,现象句与判断句乃是直接对应于主语与话题的两种表达类型。文章以汉语中典型的现象句与判断句为窗口,就主语与话题的同异,从认知基础、语用功能、语法特征等角度作了深入考察。在此基础上,文章对主语与话题关系的三种观点作了不无必要的再检讨,指出:“同一观”忽视陈述对象已知与未知的区别,“平行观”存在方法上的缺憾,“交叉观”较为符合实际;同时指出,话题特征实由语用要求所决定,没有丝毫迹象显示话题会最终放弃动态话语调节者身份而转变为静态句法成分。文章并就析句时如何正确反映话题与主语以及其他成分关系作了再讨论。基于主语与现象句、话题与判断句只是大体对应而非完全吻合,今后的有关研究除了需要充分利用现象句与判断句的窗口作用,还需加强对焦点前置句、儿歌句、谜语句的学术探讨。 展开更多
关键词 现象句 判断句 主语与话题同异 主语与话题关系
下载PDF
基于矩阵相似度的主题演化路径判别研究
10
作者 黄菡 王晓光 +1 位作者 何静 王宏宇 《情报学报》 CSCD 北大核心 2023年第11期1265-1275,共11页
研究主题演化对于厘清科学发展脉络和预测前沿趋势意义重大。对前后时段主题间的相似度进行计算以识别演化路径是研究主题演化的核心步骤。本文创新性地提出了基于矩阵相似度的主题演化路径判别方法。该方法以共词网络中研究主题的网络... 研究主题演化对于厘清科学发展脉络和预测前沿趋势意义重大。对前后时段主题间的相似度进行计算以识别演化路径是研究主题演化的核心步骤。本文创新性地提出了基于矩阵相似度的主题演化路径判别方法。该方法以共词网络中研究主题的网络结构为基础,在主题相似度计算时,考虑了研究主题在词及词间关系两个方面的相似性。在此基础上,本文构建了一套基于矩阵相似度的研究主题演化分析框架。通过引入分段线性表示法对数据进行时段划分以构建时序共词网络,在利用社区发现算法识别各时段共词网络中的主题社区后,通过计算主题新颖度、流行度、核心度、成熟度等多维度特征指标来表征研究主题类型,进一步通过矩阵相似度关联前后时段的研究主题以识别研究主题演化路径,最终通过桑基图和多维战略坐标图等形式对主题演化过程进行可视化。本文以图书情报领域为例开展实证分析,研究结果表明,本文方法能有效支撑学科领域内的研究主题演化分析,为辅助科研决策提供方法论支持。 展开更多
关键词 研究主题演化 矩阵相似度 共词网络 分段线性表示 多维指标
下载PDF
前沿技术识别与预测方法研究——基于专利主题相似网络与技术进化法则
11
作者 武川 王宏起 王珊珊 《中国科技论坛》 北大核心 2023年第4期34-42,共9页
前沿技术是高技术领域内具有指引性、先进性的核心技术,前沿技术的准确识别与预测对技术资源有效配置至关重要。从专利主题相似性的角度设计涵盖离群技术的前沿技术识别方法;引入TRIZ理论技术进化法则(九屏幕法)对未来前沿技术进行预测... 前沿技术是高技术领域内具有指引性、先进性的核心技术,前沿技术的准确识别与预测对技术资源有效配置至关重要。从专利主题相似性的角度设计涵盖离群技术的前沿技术识别方法;引入TRIZ理论技术进化法则(九屏幕法)对未来前沿技术进行预测,具体包含确定当前系统、识别技术进化点及延伸性预测3个过程;通过搜集2001—2021年石墨烯专利文本数据,对石墨烯前沿技术进行识别与预测。分析结果表明,本文设计的前沿技术识别方法可弥补传统识别方法完整性不足的问题,能够准确识别离群的非热点前沿技术。前沿技术延伸性预测结果对未来产业技术布局具有重要参考价值。 展开更多
关键词 前沿技术 专利主题相似网络 技术进化法则 技术识别 技术预测
下载PDF
SemreX:一种基于语义相似度的P2P覆盖网络 被引量:41
12
作者 陈汉华 金海 +3 位作者 宁小敏 袁平鹏 武浩 郭志鑫 《软件学报》 EI CSCD 北大核心 2006年第5期1170-1181,共12页
对等(peer-to-peer)网络的非集中结构、良好的自治性及容错性等特征,使其可能成为Internet上有效的信息共享模型.然而,内容定位问题仍然是大规模P2P网络中信息共享所面临的挑战.SemreX系统是一种P2P网络环境下的文献检索系统.针对Semre... 对等(peer-to-peer)网络的非集中结构、良好的自治性及容错性等特征,使其可能成为Internet上有效的信息共享模型.然而,内容定位问题仍然是大规模P2P网络中信息共享所面临的挑战.SemreX系统是一种P2P网络环境下的文献检索系统.针对SemreX系统,提出一种基于语义相似度的P2P拓扑管理和查询路由算法.仿真实验结果表明,语义拓扑能够有效地提高系统的搜索效率. 展开更多
关键词 SemreX P2P 语义相似度 ACM topic 语义覆盖网
下载PDF
使用关键词扩展的新闻文本自动摘要方法 被引量:13
13
作者 李峰 黄金柱 +1 位作者 李舟军 杨伟铭 《计算机科学与探索》 CSCD 北大核心 2016年第3期372-380,共9页
提出了使用关键词扩展的新闻文本自动摘要方法。该方法从大规模的语料中提取与输入文档相近主题的文本组成背景语料,并基于背景语料进行关键词的扩展,强化关键词对文摘句的指示作用,从而提高新闻文本摘要抽取质量。研究和实验表明,该方... 提出了使用关键词扩展的新闻文本自动摘要方法。该方法从大规模的语料中提取与输入文档相近主题的文本组成背景语料,并基于背景语料进行关键词的扩展,强化关键词对文摘句的指示作用,从而提高新闻文本摘要抽取质量。研究和实验表明,该方法在Rouge-1,Rouge-2评测中取得了优于基于关键词、基于TextRank和基于Manifold Ranking方法的结果。在研究中组织制定了100篇新闻文本的4份中文新闻文本标准评价集,研制了基于关键词扩展的中文新闻文本自动摘要系统,开发了面向中文的基于ROUGE原理的新闻文本摘要结果自动评测系统,初步实现了从理论到实践的转化。 展开更多
关键词 扩展 相近文本 自动摘要 图算法 系统实现
下载PDF
基于锚文本相似度的PageRank改进算法 被引量:14
14
作者 王钟斐 王彪 《计算机工程》 CAS CSCD 北大核心 2010年第24期258-260,共3页
分析搜索引擎Google的PageRank算法,给出其存在的3个问题及针对这3个问题提出的改进。结合锚文本相似度提出一种改进的PageRank算法,利用Nutch对传统PageRank算法和改进后的PageRank算法进行实验分析与比较。实验结果表明,改进的PageRan... 分析搜索引擎Google的PageRank算法,给出其存在的3个问题及针对这3个问题提出的改进。结合锚文本相似度提出一种改进的PageRank算法,利用Nutch对传统PageRank算法和改进后的PageRank算法进行实验分析与比较。实验结果表明,改进的PageRank算法提高了搜索结果的查准率,有利于减少主题漂移现象。 展开更多
关键词 PAGERANK算法 锚文本 相似度 主题漂移
下载PDF
基于连续段落相似度的主题划分算法 被引量:10
15
作者 傅间莲 陈群秀 《计算机应用》 CSCD 北大核心 2005年第9期2022-2024,共3页
主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。文中提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平... 主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。文中提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.4%,对单主题文章的主题划分准确率为99.1%。 展开更多
关键词 自动文摘 向量空间模型 段落相似度 主题划分
下载PDF
一种基于LDA模型的关键词抽取方法 被引量:15
16
作者 朱泽德 李淼 +2 位作者 张健 曾伟辉 曾新华 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第6期2142-2148,共7页
为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信... 为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信息排序和选择相邻词汇形成候选关键短语,再使用相似性排除隐含主题一致的冗余短语。此外,从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试,实验在1 040篇中文摘要及5 408个关键词构成的测试集上展开。结果表明,算法有效地提高文档关键词抽取的准确率与召回率。 展开更多
关键词 信息抽取 关键词抽取 LDA模型 主题相似性
下载PDF
基于主题相似度模型的TS-PageRank算法 被引量:23
17
作者 黄德才 戚华春 钱能 《小型微型计算机系统》 CSCD 北大核心 2007年第3期510-514,共5页
PageRank算法是著名搜索引擎Google的核心算法,但存在主题漂移的问题,致使搜索结果中存在过多与查询主题无关的网页.在分析PageRank算法及其有关改进算法的基础上,提出了基于虚拟文档的主题相似度模型和基于主题相似度模型的TS-PageRan... PageRank算法是著名搜索引擎Google的核心算法,但存在主题漂移的问题,致使搜索结果中存在过多与查询主题无关的网页.在分析PageRank算法及其有关改进算法的基础上,提出了基于虚拟文档的主题相似度模型和基于主题相似度模型的TS-PageRank算法框架.只要选择不同的相似度计算模型,就可以得到不同的TS-PageRank算法,形成一个网页排序算法簇.理论分析和数值仿真实验表明,该算法在不需要额外文本信息,也不增加算法时空复杂度的情况下,就能极大地减少主题漂移现象,从而提高查询效率和质量. 展开更多
关键词 链接分析 主题相似度 PAGERANK算法
下载PDF
基于句子相似度的文本主题句提取算法研究 被引量:12
18
作者 孔胜 王宇 《情报学报》 CSSCI 北大核心 2011年第6期605-609,共5页
文本主题提取是文本挖掘领域的重要研究内容,解决文本信息泛滥的重要手段。为了解决现有文本主题句提取中一些局部主题容易被忽略的问题,本文提出一种"先分割,再提取"的思想。首先将文本表示为句子的线性序列,句子表示为词的线性序列... 文本主题提取是文本挖掘领域的重要研究内容,解决文本信息泛滥的重要手段。为了解决现有文本主题句提取中一些局部主题容易被忽略的问题,本文提出一种"先分割,再提取"的思想。首先将文本表示为句子的线性序列,句子表示为词的线性序列,并对每个句子都预处理为含有实词的词汇链,然后基于知网(Hownet)计算相邻句子相似度。基于句子相似度,采用文本分割技术将文本分为多个关于子主题的句子包,通过句子关系图对这些句子包进行主题句提取。最后选用不同的语料库,设计进行了可接受性测试,实验结果验证该算法是可行、有效地。 展开更多
关键词 句子相似度 主题句提取 文本分割 句子关系图
下载PDF
基于K近邻的新话题热度预测算法 被引量:29
19
作者 聂恩伦 陈黎 +3 位作者 王亚强 秦湘清 金宇 于中华 《计算机科学》 CSCD 北大核心 2012年第B06期257-260,共4页
随着互联网的快速发展,网络舆情成为政府部门和企业以及社会大众关注的焦点,对网络舆情进行有效监管和正确引导是当前亟待解决的问题,话题热度预测是舆情监管和引导的基础。针对现有算法无法对新话题的热度进行有效预测的缺点,提出了一... 随着互联网的快速发展,网络舆情成为政府部门和企业以及社会大众关注的焦点,对网络舆情进行有效监管和正确引导是当前亟待解决的问题,话题热度预测是舆情监管和引导的基础。针对现有算法无法对新话题的热度进行有效预测的缺点,提出了一种基于K近邻的新话题热度预测算法。该算法利用与新话题相似的历史话题的点击数时间序列来对新话题的热度进行预测。实验结果表明,在允许相对误差分别低于10%、20%和30%的情况下,算法预测的前3天点击数的平均正确率分别为47.26%、61%和67.7%,点击数变化趋势平均正确率达到73.73%,这也说明了相似的话题在话题出现的初期具有近似的热度变化趋势。 展开更多
关键词 热度预测 新话题 K-近邻算法 话题相似性 网络舆情
下载PDF
基于LDA的多特征融合的短文本相似度计算 被引量:8
20
作者 张小川 余林峰 张宜浩 《计算机科学》 CSCD 北大核心 2018年第9期266-270,共5页
近年来,LDA(Latent Dirichlet Allocation)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征... 近年来,LDA(Latent Dirichlet Allocation)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征融合的短文本相似度算法。该方法融合了主题相似度因子ST(Similarity Topic)和词语共现度因子CW(Co-occurrence Words),建立了联合相似度模型以规约不同ST区间下CW对ST产生的约束或补充条件,并最终权衡了准确性更高的相似度结果。对改进后的算法进行文本聚类实验,结果表明改进后的算法在F度量值上取得了一定程度的提升。 展开更多
关键词 LDA 主题模型 短文本相似度 主题相似度 词语共现度
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部