期刊文献+
共找到234篇文章
< 1 2 12 >
每页显示 20 50 100
EXPLORATION OF THE LATENT RELATION BETWEEN CONTENT AND STYLE THROUGH JOURNALS ON THE TEXTS FROM BOOK~⑧ EDITED BY HUANG YUANSHEN ZHU ZHONGYI
1
作者 陈钦武 《阜阳师范学院学报(社会科学版)》 1997年第2期103-107,共5页
Writing style is the essential issue even at the early stage the beginners who learnto read and write have to confront.From the part-Notes on reading and writing beforethe part of exercises of each lesson in English B... Writing style is the essential issue even at the early stage the beginners who learnto read and write have to confront.From the part-Notes on reading and writing beforethe part of exercises of each lesson in English Book V-VⅢ we can come to see that the ed-itors attempt to mix the content(ideas)with the corresponding techniques.This is 展开更多
关键词 EDITED BY HUANG YUANSHEN ZHU ZHONGYI EXPLORATION OF THE latent RELATION BETWEEN CONTENT AND STYLE THROUGH JOURNALS ON THE textS FROM BOOK
下载PDF
民航管制安全风险主题时空分布规律研究
2
作者 陈芳 温抗抗 +1 位作者 张亚博 邹汶倩 《安全与环境学报》 CAS CSCD 北大核心 2024年第2期587-595,共9页
为了探究民航管制安全风险的时空分布规律,基于潜在迪利克雷分布(Latent Dirichlet Allocation,LDA)主题模型识别出民航管制安全风险主题,定义民航管制安全风险主题强度的定量测度指标,运用全局空间自相关分析和冷热点分析对民航管制安... 为了探究民航管制安全风险的时空分布规律,基于潜在迪利克雷分布(Latent Dirichlet Allocation,LDA)主题模型识别出民航管制安全风险主题,定义民航管制安全风险主题强度的定量测度指标,运用全局空间自相关分析和冷热点分析对民航管制安全风险主题的时空分布规律进行研究。结果表明:利用LDA主题模型识别出“管制员指令错误风险”等10个管制安全风险主题;“管制员指令错误风险”主题存在较弱的全局空间自相关性,在2018—2021年,全局Moran’s I总体呈现波动增长的趋势;在2018—2021年,“管制员指令错误风险”主题强度高值聚集的区域由西南向东南转移,高值聚集区域数量变少,且不稳定,低值聚集区域发生转移并在2020年后保持稳定。通过全局空间自相关分析和冷热点分析确定了2018—2021年中国民航不同管制区域的管制安全风险的时空分布格局,为局方进行差异化的安全监管提供决策支持。 展开更多
关键词 安全工程 文本挖掘 时空分布规律 潜在迪利克雷分布(LDA) 空间自相关 空中交通管制
下载PDF
一种融合语义特征的图卷积文本分类方法
3
作者 黎文杰 洪嘉伟 +1 位作者 魏艳辉 左亚尧 《计算机应用与软件》 北大核心 2024年第5期247-253,285,共8页
随着文本分类领域相关研究的推进,基于深度学习的文本分类方法成为了该领域的重要研究方向之一。深度学习模型因其强大的特征提取能力,在文本分类任务上有着颇为优越的表现。但由于文本数据的高维性和自然语言的语义复杂性,现有的深度... 随着文本分类领域相关研究的推进,基于深度学习的文本分类方法成为了该领域的重要研究方向之一。深度学习模型因其强大的特征提取能力,在文本分类任务上有着颇为优越的表现。但由于文本数据的高维性和自然语言的语义复杂性,现有的深度学习模型在复合语义信息的提取上仍有待进一步优化,其表现对文本分类效果产生不可忽视的影响。为此,该文提出一种基于LDA和GCN的文本分类模型LGCN。该模型利用LDA模型学习文档、单词和主题的关联信息,借助滑动窗口、PMI值计算等方式获取字符间的联系,采用TF-IDF得到单词和文档的联系,通过融合这些丰富的语义信息得到以节点形式构建的图,使用GCN模型学习图中语义信息并对图中文档节点进行分类从而完成文本分类任务。实验结果表明,在相同的数据集上,LGCN模型的文本分类效果优于LSTM等参照模型。 展开更多
关键词 图卷积神经网络 隐狄利克雷分布 文本分类
下载PDF
基于隐含狄利克雷分配模型的企业创新测量方法研究
4
作者 叶琴 蔡建峰 张秋韵 《科技进步与对策》 北大核心 2024年第2期90-98,共9页
如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利... 如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利克雷分配主题模型,开发一种新的测量企业创新的方法,并与当前主流方法进行比较。研究发现:①基于文本的企业创新测量方法既适用于专利和研发企业,也适用于非专利和非研发企业;②对于专利和研发企业而言,基于文本的企业创新与企业专利申请和研发支出显著相关;对于非专利和非研发企业而言,新测量方法能够有效识别企业利用新技术、开辟新市场等创新实践;③时间序列分析表明,基于文本分析的企业创新能够准确反映样本区间企业创新活动宏观趋势。 展开更多
关键词 隐含狄利克雷分配模型 企业创新 文本分析 主题模型 分析师报告
下载PDF
监督主题模型的临床文本挖掘和药效预测
5
作者 谢新平 裴洋洋 +1 位作者 姜晓东 王红强 《信息与电脑》 2024年第6期200-205,共6页
患者的临床文本隐含着个体与药效之间的密切联系。针对临床上抗癌药效精准性问题,基于有监督隐含狄利克雷分布(Supervised Latent Dirichlet Allocation,SLDA)构建了一种用于药效二分类预测新方法——伯努利-监督隐含狄利克雷分布(Berno... 患者的临床文本隐含着个体与药效之间的密切联系。针对临床上抗癌药效精准性问题,基于有监督隐含狄利克雷分布(Supervised Latent Dirichlet Allocation,SLDA)构建了一种用于药效二分类预测新方法——伯努利-监督隐含狄利克雷分布(Bernoulli-SLDA,B-SLDA),该模型获得患者临床文本的特征表示,学习到与对应药效标签的映射关系。实验结果表明,对比传统的特征提取方法,所提方法提高了抗肿瘤药物药效预测性能。 展开更多
关键词 监督主题模型 监督隐含狄利克雷分布(SLDA) 药效预测 文本分类
下载PDF
基于密度Canopy的评论文本主题识别方法 被引量:1
6
作者 刘滨 詹世源 +7 位作者 刘宇 雷晓雨 杨雨宽 陈伯轩 刘格格 高歆 皇甫佳悦 陈莉 《河北科技大学学报》 CAS 北大核心 2023年第5期493-501,共9页
融合Sentence-BERT和LDA的评论文本主题识别(SBERT-LDA)方法,将LDA的主题数作为K-means算法中的k值,导致算法可解释性较差、主题一致性较低。为了解决上述问题,提出基于密度Canopy的SBERT-LDA优化方法(SBERT-LDA-DC),利用密度Canopy改进... 融合Sentence-BERT和LDA的评论文本主题识别(SBERT-LDA)方法,将LDA的主题数作为K-means算法中的k值,导致算法可解释性较差、主题一致性较低。为了解决上述问题,提出基于密度Canopy的SBERT-LDA优化方法(SBERT-LDA-DC),利用密度Canopy改进Kmeans算法。实验结果表明,提出的方法在一致性指标上要优于使用K-means以及K-means++对特征向量聚类的同类方法;与SBERT-LDA方法相比,在1852条戏剧评论数据集上,一致性指标值提高了22.9%。因此,所提出的SBERT-LDA-DC方法是有效的,对产品或服务提供者更好地了解用户意见、完善自身产品或提升服务水平提供了新方法,具有较强的实际应用价值。 展开更多
关键词 自然语言处理 主题识别 评论文本 Sentence-BERT LDA
下载PDF
政策工具视域下我国省级数字经济政策文本的量化分析——基于LDA的主题社会网络分析 被引量:6
7
作者 陈美 孙瑞乾 《情报杂志》 北大核心 2023年第11期174-182,共9页
[研究目的]数字经济发展如火如荼,各地方政府纷纷颁布数字经济发展的地方法规和规范性文件。开展省级层面数字经济政策的研究,力图为我国数字经济发展和政策制定提供参考。[研究方法]基于政策工具理论,采用效词分析法,运用LDA主题模型,... [研究目的]数字经济发展如火如荼,各地方政府纷纷颁布数字经济发展的地方法规和规范性文件。开展省级层面数字经济政策的研究,力图为我国数字经济发展和政策制定提供参考。[研究方法]基于政策工具理论,采用效词分析法,运用LDA主题模型,对截至2022年12月现行有效的24个省份综合性政策文本进行无监督的机器学习分析,以厘清各政策文本隐含关系。同时,借助社会网络分析计算主题特征词的关联程度,从可视化层面佐证LDA模型结果。[研究结论]现有数字经济政策辐射社会各领域,既包括常规性发展重点,也关注新兴社会问题和现行制度漏洞,但存在对供给型政策工具依赖过多,导致政策工具使用比例失衡和“强制性”治理理念主导。为此,优化配置政策工具、避免政府为中心的公共政策范式、促进政策目标、执行与体系的良性耦合和转变政策监管态度成为我国省级层面数字经济政策的未来发展路径。 展开更多
关键词 数字经济 政策工具 政策文本 LDA主题模型 文本挖掘 社会网络分析
下载PDF
基于幂迭代-随机奇异值分解的潜在语义分析
8
作者 黄斯怡 陈兴荣 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期679-686,共8页
潜在语义分析通过挖掘文本与单词之间基于话题的关系,进行文本情感分类.潜在语义分析通过截断奇异值分解实现,传统截断奇异值需要求解大型矩阵的特征值和特征向量,存在时间复杂度高的问题.利用幂迭代-随机奇异值分解代替传统奇异值分解... 潜在语义分析通过挖掘文本与单词之间基于话题的关系,进行文本情感分类.潜在语义分析通过截断奇异值分解实现,传统截断奇异值需要求解大型矩阵的特征值和特征向量,存在时间复杂度高的问题.利用幂迭代-随机奇异值分解代替传统奇异值分解,提出一种矩阵分解效率更高的潜在语义分析算法.为了检验改进算法的性能,将其与四种分类算法组合,用于四个评论数据集的文本情感分类实验.结果显示,在保持原有较高分类准确率的基础上,改进的潜在语义分析算法的计算效率更高. 展开更多
关键词 文本情感分类 潜在语义分析 奇异值分解
下载PDF
基于主题模型的科技文献主题演化及优化方法研究综述
9
作者 于诗睿 李爱花 +2 位作者 林紫洛 陈逸菲 唐小利 《医学信息学杂志》 CAS 2023年第8期31-36,共6页
目的/意义梳理主题演化分析方法研究进展,改善科技文献主题识别和趋势研判效果,支撑文献信息服务,为未来深入研究和实践应用指明方向。方法/过程根据隐含狄利克雷分布主题模型的缺陷归纳其衍生模型,针对现有科技文献主题演化分析方法存... 目的/意义梳理主题演化分析方法研究进展,改善科技文献主题识别和趋势研判效果,支撑文献信息服务,为未来深入研究和实践应用指明方向。方法/过程根据隐含狄利克雷分布主题模型的缺陷归纳其衍生模型,针对现有科技文献主题演化分析方法存在的不足对相应改善方案进行总结,最后结合现有研究局限性提出展望。结果/结论通过全面调研,为主题演化研究提供启示和借鉴。 展开更多
关键词 主题模型 主题识别 主题演化 隐含狄利克雷分布主题模型 文本挖掘
下载PDF
融合评论文本与评分交互特征的推荐方法 被引量:1
10
作者 陈丽琼 范国庆 +1 位作者 毕晓钰 郭坤 《计算机工程与设计》 北大核心 2023年第2期393-399,共7页
为缓解协同过滤推荐算法中评分数据稀疏问题对推荐结果的影响,提出一种融合文本评论和用户评分交互的推荐算法。通过将用户和商品评论各自潜在主题向量与用户、商品的潜在因子向量进行融合并各自进行评分,经过动态线性加权融合做出整体... 为缓解协同过滤推荐算法中评分数据稀疏问题对推荐结果的影响,提出一种融合文本评论和用户评分交互的推荐算法。通过将用户和商品评论各自潜在主题向量与用户、商品的潜在因子向量进行融合并各自进行评分,经过动态线性加权融合做出整体评分预测。在公开的多组数据集上,以推荐结果的均方根误差(RMSE)和平均绝对误差(MAE)为评估指标进行实验验证。实验结果表明,提出算法可以更好地刻画用户偏好和商品特征,有效缓解了评论数据稀疏性影响,提高推荐结果的准确性。 展开更多
关键词 数据稀疏性 评论文本 评分数据 潜在因子 因子分解机 推荐系统 大数据
下载PDF
中美科技博弈背景下的卡脖子技术识别方法研究 被引量:2
11
作者 周磊 吕璐成 穆克亮 《情报杂志》 北大核心 2023年第8期69-76,共8页
[研究目的]利用美国商务部实体清单和商品管制清单公开信息,识别中方卡脖子技术群体、发现卡脖子技术的高区分度特征、揭示卡脖子技术蕴含的核心主题,以期为卡脖子企业及潜在高风险企业的可持续发展提供参考建议。[研究方法]提出卡脖子... [研究目的]利用美国商务部实体清单和商品管制清单公开信息,识别中方卡脖子技术群体、发现卡脖子技术的高区分度特征、揭示卡脖子技术蕴含的核心主题,以期为卡脖子企业及潜在高风险企业的可持续发展提供参考建议。[研究方法]提出卡脖子技术识别研究框架,首先计算实体清单收录企业的美国专利族与商品管制清单技术管制类别的文本相似性来识别卡脖子技术;其次,利用多种机器学习算法挖掘卡脖子技术的关键属性;最后,采用LDA建模提炼卡脖子技术主题及其演化规律。以2018-2021年实体清单新增中国内地企业为例进行实证研究。[研究结论]从191家中国集团企业受限时持有的17760件美国专利族中发现889件卡脖子技术;卡脖子技术的影响力、保护力度、市场前景、经营创效等属性均高于对照组;受专利中技术要素跨管制领域流动的影响,卡脖子技术蕴含的三大主题间具有明显的融合趋势。 展开更多
关键词 卡脖子技术 实体清单 商品管制清单 文本挖掘 机器学习 隐含狄利克雷分布
下载PDF
基于主题模型和情感分析的进口跨境电商顾客满意度评价研究 被引量:2
12
作者 邢丹 屈仁均 《科技和产业》 2023年第1期58-65,共8页
进口跨境电商已成为驱动国内消费增量的新业态,而顾客满意度的高低则是进口跨境电商提高留存率和转换率的关键。与此同时,海量的在线评论为商家提供了极具价值的信息,对其进行情感挖掘将有助于商家优化产品供给。为此,选择京东全球购个... 进口跨境电商已成为驱动国内消费增量的新业态,而顾客满意度的高低则是进口跨境电商提高留存率和转换率的关键。与此同时,海量的在线评论为商家提供了极具价值的信息,对其进行情感挖掘将有助于商家优化产品供给。为此,选择京东全球购个人护理产品作为研究对象,通过构建进口跨境电商顾客满意度综合评价模型,运用TF-IDF算法和文本聚类LDA主题模型等对评论文本内容进行分析和主题特征提取,并建立情感词典依次对顾客满意度各影响因素匹配赋值打分,以此来确定各项用户需求的重要度和产品及服务改进的优先级顺序。最终研究表明影响顾客满意度的各个因素综合得分排序从高到低为产品质量、物流服务质量、品牌信誉、感知价值、商家服务质量。 展开更多
关键词 进口跨境电商 潜在狄利克雷分布(LDA)主题模型 情感分析 顾客满意度评价 文本挖掘
下载PDF
轨道交通故障信息分类算法优化研究
13
作者 寇戈 侯玉茹 李德奎 《信息与电脑》 2023年第8期105-107,共3页
轨道交通故障信息记录冗杂,需要人力手工分类,导致隐患信息不能被挖掘。文章首先建立轨道交通故障信息语料库,其次向量化故障信息,使用K-means聚类算法进行分类,再次应用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型抽... 轨道交通故障信息记录冗杂,需要人力手工分类,导致隐患信息不能被挖掘。文章首先建立轨道交通故障信息语料库,其次向量化故障信息,使用K-means聚类算法进行分类,再次应用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型抽取主题,找出轨道交通的故障规律,最后建立基于文本识别的轨道交通故障信息分类流程和算法体系。 展开更多
关键词 文本识别 轨道交通故障记录 隐含狄利克雷分布(LDA) K-MEANS聚类
下载PDF
基于LDA主题模型的杭州市公园季节性公共服务价值
14
作者 侯力丹 卢群 林帅君 《中国城市林业》 2023年第3期109-116,132,共9页
季节对公园的公共服务价值具有显著影响,明确游客对于公园季节性公共服务价值的关注度及态度有助于提高公园的服务质量。文章以“大众点评”上游客对杭州市公园的评价文本为研究对象,基于LDA主题模型对公园季节性公共服务价值属性及游... 季节对公园的公共服务价值具有显著影响,明确游客对于公园季节性公共服务价值的关注度及态度有助于提高公园的服务质量。文章以“大众点评”上游客对杭州市公园的评价文本为研究对象,基于LDA主题模型对公园季节性公共服务价值属性及游客的关注度进行研究,并利用SnowNLP对评价文本中游客的情感变化进行分析。结果表明:春季和秋季游客主要关注以自然风光为主的游赏价值,夏季游客对公园的功能服务价值具有最高的关注度,冬季公园的休闲娱乐价值是游客最在意的方面,此外,游客对于不同季节的公园的公共服务价值普遍给予较为积极的评价,其中游赏价值、功能服务价值和休闲娱乐价值对游客的情感具有显著的影响。因此,公园的建设与发展应充分考虑公共服务价值随季节的变化,并根据游客诉求进行灵活调整。 展开更多
关键词 潜在狄利克雷分布主题模型 网络文本 简体中文文本处理 季节性公共服务价值 杭州市公园
下载PDF
基于信息论的潜在概念获取与文本聚类 被引量:7
15
作者 李晓光 于戈 +1 位作者 王大玲 鲍玉斌 《软件学报》 EI CSCD 北大核心 2008年第9期2276-2284,共9页
针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用... 针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用以获得概念层次树以及在不同层次概念上的文本聚类结果,是一种双向软聚类方法.方法通过基于最短描述长度原则的概念选择方法,最终确定概念个数和对应的文本聚类结果.实验结果表明,所提出的方法优于基于词空间的文本聚类方法以及双向硬聚类方法. 展开更多
关键词 潜在概念 主题 文本聚类 信息论
下载PDF
基于隐最大熵原理的汉语词义消歧方法 被引量:8
16
作者 张仰森 黄改娟 苏文杰 《中文信息学报》 CSCD 北大核心 2012年第3期72-78,共7页
该文针对最大熵原理只能利用上下文中的显性统计特征构建语言模型的特点,提出了采用隐最大熵原理构建汉语词义消歧模型的方法。在研究了《知网》中词语与义原之间的关系之后,把从训练语料获取的文本上下文中的词语搭配信息转换为义原搭... 该文针对最大熵原理只能利用上下文中的显性统计特征构建语言模型的特点,提出了采用隐最大熵原理构建汉语词义消歧模型的方法。在研究了《知网》中词语与义原之间的关系之后,把从训练语料获取的文本上下文中的词语搭配信息转换为义原搭配信息,实现了基于义原搭配信息的文本隐性语义特征提取方法。在结合传统的上下文特征后,应用隐最大熵原理进行文本中多义词的词义消歧。实验结果表明,采用文中所提方法对十个多义动词进行词义消歧,正确率提高了约4%。 展开更多
关键词 隐最大熵原理 文本隐性特征 义原搭配信息 词义消歧
下载PDF
基于共享背景主题的Labeled LDA模型 被引量:17
17
作者 江雨燕 李平 王清 《电子学报》 EI CAS CSCD 北大核心 2013年第9期1794-1799,共6页
隐藏狄利克雷分配(Latent Dirichlet Allocation,LDA)模型被广泛应用于文本分析、图像识别等领域.但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中.本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labe... 隐藏狄利克雷分配(Latent Dirichlet Allocation,LDA)模型被广泛应用于文本分析、图像识别等领域.但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中.本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labeled LDA模型(Shared Background Topics Labeled LDA,SBTL-LDA).在SBTL-LDA模型中每个标记除了存在若干个独享的局部主题外,还存在若干个共享的背景(Background)主题,这样可以有效分析不同标记所含主题之间的依赖关系,而文档标记被映射为局部主题和共享主题的组合,因此SBTL-LDA模型可以有效提升文档标记判别的准确性.同时SBTL-LDA模型还可以看成是一种半监督聚类模型,在对文档进行聚类分析的过程中模型可以有效的利用文档的标记信息提升文档聚类效果.实验证明SBTL-LDA模型能够有效解决PLDA模型中主题之间的相似性和依赖关系,具有良好的多标记判别能力,并且具有优于LDA、PLDA模型的文档聚类效果. 展开更多
关键词 隐藏狄利克雷分配 文本分析 多标记学习 半监督聚类
下载PDF
基于潜在语义索引的文本浏览机制 被引量:29
18
作者 林鸿飞 姚天顺 《中文信息学报》 CSCD 北大核心 2000年第5期49-56,共8页
文本浏览是伴随着因特网上日益增多的在线文本而出现的辅助阅读机制 ,本文给出了基于潜在语义索引的文本浏览机制。它吸取了潜在语义索引和概念标注的优点 ,利用潜在语义索引 ,减少词汇间的“斜交”现象 ,在语义空间上进行项与项、文本... 文本浏览是伴随着因特网上日益增多的在线文本而出现的辅助阅读机制 ,本文给出了基于潜在语义索引的文本浏览机制。它吸取了潜在语义索引和概念标注的优点 ,利用潜在语义索引 ,减少词汇间的“斜交”现象 ,在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算。利用概念词典将文本特征项按语义分类 ,给予层次分类以确定的含义。最后 ,实现以分层概念为基础的信息导航。 展开更多
关键词 文本浏览 潜在语义索引 概念标注 特征抽取
下载PDF
一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT 被引量:7
19
作者 戴新宇 田宝明 +1 位作者 周俊生 陈家骏 《电子学报》 EI CAS CSCD 北大核心 2008年第8期1626-1630,共5页
本文针对训练数据较少以及在基于图的分类算法中的文本表示问题,提出了一种基于潜在语义分析技术和直推式谱图算法的文本分类方法LSASGT,该方法将潜在语义分析技术和直推式谱图算法这两种基于谱分析理论的技术有机地结合在一起,对所有... 本文针对训练数据较少以及在基于图的分类算法中的文本表示问题,提出了一种基于潜在语义分析技术和直推式谱图算法的文本分类方法LSASGT,该方法将潜在语义分析技术和直推式谱图算法这两种基于谱分析理论的技术有机地结合在一起,对所有训练数据和测试数据进行统一建模,挖掘数据中潜在的多种结构信息.LSASGT引入潜在语义分析技术用于构造文本图表示模型,在能够反映人的分类标准的潜在语义特征空间中,描述文本之间的语义相关性;基于这样的文本表示,利用半监督的直推式谱图算法进行文本分类.在基准英文文本分类数据集Reuters21578和中文文本分类数据集Tan-Corp上的实验结果表明,本文给出的LSASGT文本分类方法获得了较好的分类结果. 展开更多
关键词 直推式谱图 潜在语义分析 文本分类 图构造
下载PDF
基于LDA主题模型的文本相似度计算 被引量:95
20
作者 王振振 何明 杜永萍 《计算机科学》 CSCD 北大核心 2013年第12期229-232,共4页
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏... LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。 展开更多
关键词 主题模型 LDA 文本相似度 GIBBS抽样
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部