期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
基于语义语法分析的中文语句困惑度评价 被引量:11
1
作者 何天文 王红 《计算机应用研究》 CSCD 北大核心 2017年第12期3538-3542,3546,共6页
目前用来评价机器翻译系统译文质量的方法主要有IBM提出的BLEU、TER和METEOR等方法,分别以词汇的重现率、译文与参考译文之间的编辑距离和语言学知识等特征作为评价依据,在判定中文句子的困惑度方面具有一定局限性。提出在依存语法分析... 目前用来评价机器翻译系统译文质量的方法主要有IBM提出的BLEU、TER和METEOR等方法,分别以词汇的重现率、译文与参考译文之间的编辑距离和语言学知识等特征作为评价依据,在判定中文句子的困惑度方面具有一定局限性。提出在依存语法分析的基础上,通过对中文句子及其句子主干的语法和语义两方面进行分析得出中文句子的困惑度。实验证明这种方法比通过译文加权改进后的BLEU方法准确率高出4%。 展开更多
关键词 困惑度 病句 语法 语义 机器翻译
下载PDF
基于困惑度数据挑选的半监督声学建模 被引量:2
2
作者 解传栋 郭武 《模式识别与人工智能》 EI CSCD 北大核心 2016年第6期542-547,共6页
针对资源稀少情况下小语种的声学建模问题,提出根据解码后文本的困惑度挑选无监督数据并重新训练声学模型的策略.使用少量精标数据训练得到一个初始种子模型后,解码大量无监督数据,计算解码后的文本与精标数据文本的困惑度,从中挑选与... 针对资源稀少情况下小语种的声学建模问题,提出根据解码后文本的困惑度挑选无监督数据并重新训练声学模型的策略.使用少量精标数据训练得到一个初始种子模型后,解码大量无监督数据,计算解码后的文本与精标数据文本的困惑度,从中挑选与精标数据相近的数据,再将这些数据与原有精标数据共同用于声学模型训练.为了提高解码的无监督数据的正确性,在基于深层神经网络的模型参数训练中,当最后一次模型参数更新时只使用精标数据修正网络参数.在NIST 2015年关键词识别比赛中Swahili语的VLLP识别任务上,相比其它方法,文中方法的识别率有一定提升. 展开更多
关键词 半监督训练 困惑度 深层神经网络(DNN)
下载PDF
基于交叉熵与困惑度的LDA-SVM主题研究 被引量:2
3
作者 薛佳奇 杨凡 《智能计算机与应用》 2019年第4期45-50,共6页
目前对于中文影视剧本的分类主要借助人工经验,具有成本高、效率低等特点.当前没有针对中文影视剧本主题自动分类的相关研究,本文将对主题提取进行研究,传统主题生成模型借助于文档和段落、段落和语句、语句和词的相似性,而忽略了文本... 目前对于中文影视剧本的分类主要借助人工经验,具有成本高、效率低等特点.当前没有针对中文影视剧本主题自动分类的相关研究,本文将对主题提取进行研究,传统主题生成模型借助于文档和段落、段落和语句、语句和词的相似性,而忽略了文本语句与语句之间的相似性.首先,采用ISOMAP方法降低样本集的向量空间维度;其次,提出交叉熵结合困惑度的算法模型,进而确定LDA需要提取的最优主题数目;最后,通过剧本-主题的方式,利用LDA算法挖掘剧本的隐含主题词,同时利用SVM对主题词做出进一步的分类. 展开更多
关键词 中文影视剧本 ISOMAP降维 LDA 交叉熵 困惑度 SVM
下载PDF
基于深度学习模型的煤矿安全隐患数据主题挖掘
4
作者 肖琪耀 贾宝山 +2 位作者 徐以诺 张茂薇 梁明辉 《中国安全生产科学技术》 CAS CSCD 北大核心 2024年第4期49-55,共7页
为了提高煤矿安全风险排查能力和监督能力,提出1种基于双向长短期记忆网络(BiLSTM)、条件随机场(CRF)和隐含狄利克雷分布(LDA)的模型。训练BiLSTM-CRF模型分词,采用困惑度-主题方差(perplexity-var)计算LDA模型最优主题数,构建BiLSTM-CR... 为了提高煤矿安全风险排查能力和监督能力,提出1种基于双向长短期记忆网络(BiLSTM)、条件随机场(CRF)和隐含狄利克雷分布(LDA)的模型。训练BiLSTM-CRF模型分词,采用困惑度-主题方差(perplexity-var)计算LDA模型最优主题数,构建BiLSTM-CRF-LDA模型挖掘内蒙古某煤矿安全隐患数据。研究结果表明:困惑度-主题方差指标能更准确地确定主题数;BiLSTM-CRF模型分词结果比jieba库更准确;BiLSTM-CRF-LDA模型能准确地挖掘出煤矿安全隐患类型、安全隐患空间分布和安全责任划分。研究结果可为煤矿安全风险排查与监督提供参考。 展开更多
关键词 煤矿安全隐患 BiLSTM CRF LDA 困惑度-主题方差
下载PDF
基于LDA模型的中国大气污染治理政策主题演进分析
5
作者 王源 翟广宇 《芜湖职业技术学院学报》 2024年第1期48-55,共8页
中国的大气污染治理政策自颁布伊始距今已有41年(1979—2019年),以此作为研究背景,将我国大气污染治理政策划分为三个时期。运用困惑度计算各个时期的主题数目,使用R软件构建隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型进... 中国的大气污染治理政策自颁布伊始距今已有41年(1979—2019年),以此作为研究背景,将我国大气污染治理政策划分为三个时期。运用困惑度计算各个时期的主题数目,使用R软件构建隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型进行主题标识及关键词强度的计算,研究发现政策内容由单一污染物、污染源主题演变为多污染物、污染源的治理主题;政策工具的主题演变体现了我国大气污染治理的多样化;重要事件驱动了我国大气污染治理政策的演变。 展开更多
关键词 大气污染 治理政策 困惑度 LDA模型
下载PDF
不同维度下维吾尔语N-gram语言模型性能分析 被引量:3
6
作者 毛丽旦.尼加提 古丽尼尕尔.买合木提 艾斯卡尔.艾木都拉 《现代电子技术》 北大核心 2019年第10期27-30,共4页
针对当前维吾尔语语言模型存在的语料库数据稀疏问题以及困惑度较高等问题,在SRILM和MITLM两种工具生成的2-gram,3-gram,…,9-gram语言模型做了对比实验,试图找出在一定规模的维吾尔语语料条件下使困惑度最低的N-gram语言模型。通过对... 针对当前维吾尔语语言模型存在的语料库数据稀疏问题以及困惑度较高等问题,在SRILM和MITLM两种工具生成的2-gram,3-gram,…,9-gram语言模型做了对比实验,试图找出在一定规模的维吾尔语语料条件下使困惑度最低的N-gram语言模型。通过对比分析最终得出结论,对于基于维吾尔语句子的N-gram模型,维度N取在介于3~5之间较宜,困惑度和计算复杂度等因素考虑N=3为较优。这一结论将有助于维吾尔语自然语言处理的发展。 展开更多
关键词 N-GRAM语言模型 性能分析 SRILM MITLM 困惑度 平滑算法 机器翻译
下载PDF
ChpoBERT:面向中文政策文本的预训练模型
7
作者 沈思 陈猛 +4 位作者 冯暑阳 许乾坤 刘江峰 王飞 王东波 《情报学报》 CSCD 北大核心 2023年第12期1487-1497,共11页
随着深度学习的迅速发展和领域数据的快速积累,领域化的预训练模型在知识组织和挖掘中发挥了越来越重要的支撑作用。面向海量的中文政策文本,结合相应的预训练策略构建中文政策文本预训练模型,不仅有助于提升中文政策文本智能化处理的水... 随着深度学习的迅速发展和领域数据的快速积累,领域化的预训练模型在知识组织和挖掘中发挥了越来越重要的支撑作用。面向海量的中文政策文本,结合相应的预训练策略构建中文政策文本预训练模型,不仅有助于提升中文政策文本智能化处理的水平,而且为政策文本数据驱动下的精细化和多维度分析与探究奠定了坚实的基础。面向国家级、省级和市级平台上的政策文本,通过自动抓取和人工辅助相结合的方式,在去除非政策文本的基础上,确定了131390份政策文本,总字数为305648206。面向所构建的中文政策文本语料库,基于BERT-base-Chinese和Chinese-RoBERTa-wwm-ext,本研究利用MLM(masked language model)和WWM(whole word masking)任务构建了中文政策文本预训练模型(ChpoBERT),并在Github上对该模型进行了开源。在困惑度评价指标和政策文本自动分词、词性自动标注、命名实体识别下游任务上,ChpoBERT系列模型均表现出了较优的性能,可为政策文本的智能知识挖掘提供领域化的基础计算资源支撑。 展开更多
关键词 BERT 预训练模型 政策文本 学习 困惑度
下载PDF
基于LDA模型的影评文本情感分析
8
作者 郭小磊 牛晓蕾 何丽清 《电脑与电信》 2023年第3期1-4,共4页
运用Python技术从豆瓣平台上获取影评数据,分析用户数据、城市分布等信息,运用LDA构建模型,训练模型,分析评估用户影评中的情感趋势,包括主题困惑度和主题一致性,分析结果有助于更好地了解不同地域观众的习惯、对影视作品的主观情感,对... 运用Python技术从豆瓣平台上获取影评数据,分析用户数据、城市分布等信息,运用LDA构建模型,训练模型,分析评估用户影评中的情感趋势,包括主题困惑度和主题一致性,分析结果有助于更好地了解不同地域观众的习惯、对影视作品的主观情感,对评估和调整电影市场项目具有一定的借鉴意义。 展开更多
关键词 LDA 文本情感 主题困惑度 主题一致性
下载PDF
一种基于LDA主题模型的话题发现方法 被引量:21
9
作者 郭蓝天 李扬 +2 位作者 慕德俊 杨涛 李哲 《西北工业大学学报》 EI CAS CSCD 北大核心 2016年第4期698-702,共5页
话题发现是提取热点话题并掌握其演化规律的关键技术之一。针对社交网络中海量短文本信息具有高维性导致主题模型难以处理以及主题分布不均导致主题不明确的问题,提出一种基于LDA(latent dirichlet allocation)主题模型的CBOW-LDA主题... 话题发现是提取热点话题并掌握其演化规律的关键技术之一。针对社交网络中海量短文本信息具有高维性导致主题模型难以处理以及主题分布不均导致主题不明确的问题,提出一种基于LDA(latent dirichlet allocation)主题模型的CBOW-LDA主题建模方法,通过引入基于CBOW(continuous bag-of-word)模型的词向量化方法对目标语料进行相似词的聚类,能够有效降低LDA模型输入文本的维度,并且使主题更明确。通过在真实数据集上计算分析,与现有基于词频权重的词向量化LDA方法相比,在相同主题词数情况下困惑度可降低约3%。 展开更多
关键词 词向量 LDA模型 话题发现 困惑度
下载PDF
作者主题演化模型及其在研究兴趣演化分析中的应用 被引量:24
10
作者 史庆伟 乔晓东 +1 位作者 徐硕 农国武 《情报学报》 CSSCI 北大核心 2013年第9期912-919,共8页
从海量科技文献中自动挖掘隐含主题、研究人员的研究兴趣及其演化规律是信息服务迈向知识服务需要解决的关键问题之一。目前的方法多从静态的角度分析文献主题、科研人员的研究兴趣,而演化分析的方法主要集中文档的内部特征,即文档内... 从海量科技文献中自动挖掘隐含主题、研究人员的研究兴趣及其演化规律是信息服务迈向知识服务需要解决的关键问题之一。目前的方法多从静态的角度分析文献主题、科研人员的研究兴趣,而演化分析的方法主要集中文档的内部特征,即文档内容本身,很少考虑作者等外部特征。基于此,本文在AT和ToT模型的基础上构建了作者主题演化(AToT)模型,并给出了一种估计AToT模型参数的吉布斯采样方法。该模型集成了AT和ToT模型的优势,不仅可以揭示科技文献中隐含的主题、作者的研究兴趣,而且可以挖掘研究兴趣随时间变化的规律。最后,以1740篇NIPS会议论文集作为实验数据,通过与AT模型的对比分析验证了AToT模型的可行性和有效性。 展开更多
关键词 主题模型 作者主题演化模型 研究兴趣演化分析 吉布斯采样 困惑度
下载PDF
科技文献中作者研究兴趣动态发现 被引量:13
11
作者 史庆伟 李艳妮 郭朋亮 《计算机应用》 CSCD 北大核心 2013年第11期3080-3083,共4页
针对挖掘大规模科技文献中作者、主题和时间及其关系的问题,考虑科技文献的内外部特征,提出了一个作者主题演化(AToT)模型。模型中文档表示为一定概率比例的主题混合体,每个主题对应一个词项上的多项分布和一个随时间变化的贝塔分布,主... 针对挖掘大规模科技文献中作者、主题和时间及其关系的问题,考虑科技文献的内外部特征,提出了一个作者主题演化(AToT)模型。模型中文档表示为一定概率比例的主题混合体,每个主题对应一个词项上的多项分布和一个随时间变化的贝塔分布,主题-词项分布不仅由文档中单词共现决定,同时受文档时间戳影响,每个作者也对应一个主题上的多项分布。主题-词项分布与作者-主题分布分别用来描述主题随时间变化的规律和作者研究兴趣的变化规律。采用吉布斯采样的方法,通过学习文档集可以获得模型的参数。在1700篇NIPS会议论文集上的实验结果显示,作者主题演化模型可以描述文档集中潜在的主题演化规律,动态发现作者研究兴趣的变化,可以预测与主题相关的作者,与作者主题模型相比计算困惑度更低。 展开更多
关键词 主题模型 时序分析 无监督学习 文本模型 困惑度
下载PDF
基于互信息的统计语言模型平滑技术 被引量:8
12
作者 黄永文 何中市 《中文信息学报》 CSCD 北大核心 2005年第4期46-51,共6页
数据平滑主要是用来解决统计语言模型在实际应用中数据稀疏问题。现有平滑技术虽然已有效地对数据稀疏问题进行了处理,但对已出现事件频率分布的合理性并没有作出有效的分析。本文则针对二元模型,提出了一种基于互信息的平滑技术,其基... 数据平滑主要是用来解决统计语言模型在实际应用中数据稀疏问题。现有平滑技术虽然已有效地对数据稀疏问题进行了处理,但对已出现事件频率分布的合理性并没有作出有效的分析。本文则针对二元模型,提出了一种基于互信息的平滑技术,其基本思想是根据模型中每个二元对的互信息的高低对其概率进行折扣或补偿,并用极小化困惑度原则体现了模型的合理性。实验结果表明该技术优于目前常用的Katz平滑技术。 展开更多
关键词 计算机应用 中文信息处理 统计语言模型 平滑技术 互信息 困惑度
下载PDF
一种新的中文词自动聚类算法 被引量:2
13
作者 孙静 朱杰 徐向华 《上海交通大学学报》 EI CAS CSCD 北大核心 2003年第z1期139-142,共4页
基于分类的统计语言模型是解决N-gram语言模型中数据稀疏问题的有效方法之一,词的自动聚类算法一直是一个难点.如何设计一种计算速度快、收敛性好的算法是关键.提出一种根据词的上下文环境,综合考虑语言模型的困惑度和词的相似度的自动... 基于分类的统计语言模型是解决N-gram语言模型中数据稀疏问题的有效方法之一,词的自动聚类算法一直是一个难点.如何设计一种计算速度快、收敛性好的算法是关键.提出一种根据词的上下文环境,综合考虑语言模型的困惑度和词的相似度的自动聚类算法.把词的自动聚类和提高基于分类的语言模型的性能联合起来考虑.实验结果表明,该算法执行效率高、聚类效果好. 展开更多
关键词 自动聚类 分类语言模型 困惑度 相似 算法
下载PDF
一个面向信息抽取的中文跨文本指代语料库 被引量:3
14
作者 赵知纬 钱龙华 周国栋 《中文信息学报》 CSCD 北大核心 2015年第1期57-66,共10页
跨文本指代(Cross Document Coreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库,因此该文在ACE 2005... 跨文本指代(Cross Document Coreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库,因此该文在ACE 2005语料库的基础上,采用自动生成和人工标注相结合的方法,构建了一个面向信息抽取的涵盖所有ACE实体类型的中文CDC语料库,并将该语料库公开发布,旨在促进中文跨文本指代消解研究的发展。同时,该文以该语料库为基础,分析了中文环境下跨文本指代现象的类型和特点,提出了用"多名困惑度"和"重名困惑度"两个指标来衡量跨文本指代消解任务的难度,为今后的跨文本指代消解研究提供一些启示。 展开更多
关键词 跨文本指代 信息抽取 语料库标注 困惑度
下载PDF
基于全局折扣的统计语言模型平滑技术 被引量:3
15
作者 黄永文 何中市 《重庆大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第8期51-55,共5页
数据平滑是用来解决统计语言模型在实际应用中遇到的数据稀疏问题.现有平滑技术利用不同的折扣和补偿策略来处理数据稀疏问题,在计算复杂性与合理性方面各有其优缺点.针对二元模型,笔者提出了一种基于全局折扣GD(GlobalDiscount)的平滑... 数据平滑是用来解决统计语言模型在实际应用中遇到的数据稀疏问题.现有平滑技术利用不同的折扣和补偿策略来处理数据稀疏问题,在计算复杂性与合理性方面各有其优缺点.针对二元模型,笔者提出了一种基于全局折扣GD(GlobalDiscount)的平滑技术,其基本思想是对模型中每个二元对的频率值都进行不同程度的折扣,并用低阶模型对零概率事件进行补偿,通过极小化困惑度原则体现了模型的合理性.实验结果表明该平滑技术优于目前常用的Katz平滑技术. 展开更多
关键词 统计语言模型 平滑技术 全局折扣 困惑度
下载PDF
面向专利分析的Patent Classification LDA模型 被引量:8
16
作者 陈亮 《情报学报》 CSSCI 北大核心 2016年第8期864-874,共11页
作为文本挖掘的热门技术,主题模型在专利分析上的应用日益增多,但由于常用作语料的专利摘要中存在科技术语繁多、同义词大量存在和文本长度较短等特点,导致使用传统主题模型如LDA所抽取主题晦涩难懂,技术指代不明,限制其进一步深入应用... 作为文本挖掘的热门技术,主题模型在专利分析上的应用日益增多,但由于常用作语料的专利摘要中存在科技术语繁多、同义词大量存在和文本长度较短等特点,导致使用传统主题模型如LDA所抽取主题晦涩难懂,技术指代不明,限制其进一步深入应用。对此,本文提出一种新的主题模型Patent Classification LDA,该模型结合专利分类体系以及专利所属分类号信息来协助主题抽取,以提高所抽取主题的可读性,进而推算出专利在专利分类体系上的概率分布。之后,本文给出一种估计该主题模型参数的吉布斯采样方法。最后,以硬盘磁头领域专利作为实验数据,验证了Patent Classification LDA的可行性和有效性。 展开更多
关键词 主题模型 专利分析 吉布斯采样 困惑度 硬盘驱动器
下载PDF
一种改进的基于记忆的自适应汉语语言模型 被引量:1
17
作者 张俊林 孙乐 孙玉芳 《中文信息学报》 CSCD 北大核心 2005年第1期8-13,共6页
基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性 ,但其假设过于简单 ,即认为一个在文章的前面部分出现过的词往往会在后面重复出现。通过对一些文本的观察分析 ,我们认为作者在书写文章的时候 ,除了常常使... 基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性 ,但其假设过于简单 ,即认为一个在文章的前面部分出现过的词往往会在后面重复出现。通过对一些文本的观察分析 ,我们认为作者在书写文章的时候 ,除了常常使用前文中出现过的词汇外 ,为了避免用词单调 ,还会在行文过程中使用前文出现过词汇的近义词或者同义词。另外 ,一篇文章总是围绕某个主题展开 ,所以在文章中出现的许多词汇往往在语义上有很大的相关性。我们对基于记忆的语言模型进行了扩展 ,利用汉语义类词典 ,将与缓存中所保留词汇语义上相近或者相关的词汇也引入缓存。实验表明这种改进在很大程度上提高了原有模型的性能 ,与n元语言模型相比困惑度下降了 4 0 1% ,有效地增强了语言模型的自适应性。 展开更多
关键词 人工智能 自然语言处理 语言模型 自适应 同义词词林 困惑度
下载PDF
基于上下文语义的甲骨文领域概念抽取算法的研究 被引量:1
18
作者 吴琴霞 高峰 刘永革 《科学技术与工程》 北大核心 2014年第26期255-258,共4页
本体构建的重点在于概念的抽取,针对甲骨文卜辞特有的特征和已有的领域概念抽取算法的缺陷,提出了一种基于上下文语义的甲骨文领域概念抽取算法。该算法针对传统的基于DR+DC的概念抽取算法的缺点进行改进,提出了基于上下文的概念间的相... 本体构建的重点在于概念的抽取,针对甲骨文卜辞特有的特征和已有的领域概念抽取算法的缺陷,提出了一种基于上下文语义的甲骨文领域概念抽取算法。该算法针对传统的基于DR+DC的概念抽取算法的缺点进行改进,提出了基于上下文的概念间的相似度的计算方法,并给出了基于语义的领域概念筛选算法。实验数据表明,该方法在准确率和召回率以及困惑度衰减比率都有较大的提高。 展开更多
关键词 语义 概念抽取 领域相关 领域一致 困惑度衰减比
下载PDF
多特征融合的兴趣点推荐算法 被引量:2
19
作者 涂飞 《智能系统学报》 CSCD 北大核心 2019年第4期779-786,共8页
基于位置社交网络的兴趣点推荐越来越受到工业界和学术界的关注。由于用户签到数据集的稀疏性以及签到地理位置的聚集性,使得目前的推荐算法效率普遍不高,特别是当用户外出到新的地点时,推荐效果更是急剧下降。因此本文提出了一种基于... 基于位置社交网络的兴趣点推荐越来越受到工业界和学术界的关注。由于用户签到数据集的稀疏性以及签到地理位置的聚集性,使得目前的推荐算法效率普遍不高,特别是当用户外出到新的地点时,推荐效果更是急剧下降。因此本文提出了一种基于用户区域内容主题的多特征联合推荐算法(UCRTM),以隐主题模型为基础,在统一的框架下利用隐含因子关联性融合了用户的偏好、兴趣点的内容以及兴趣点所属地理区域主题等信息来进行推荐,使得用户无论身处何地,都能获得理想的推荐服务。本文在两种真实的数据集上进行了实验,结果表明该方法不仅能够克服数据的稀疏性以及弱语义性等问题,而且与其他方法相比具有更高的推荐准确率。 展开更多
关键词 位置社交网络 兴趣点推荐 主题模型 困惑度 稀疏性 聚集性 协同过滤 特征融合
下载PDF
基于主题N元语法模型的科技报告主题分析 被引量:2
20
作者 安欣 徐硕 《农业图书情报》 2019年第6期21-30,共10页
作为科技情报的重要载体之一,科技报告可以反映科技发展的脉络,可以揭示科技前沿的动态,甚至可以洞察科技发展的趋势等。中国科技报告的开发利用研究目前主要集中在书本型科技报告或电子出版物的出版发行、数据库建设、服务方式和知识... 作为科技情报的重要载体之一,科技报告可以反映科技发展的脉络,可以揭示科技前沿的动态,甚至可以洞察科技发展的趋势等。中国科技报告的开发利用研究目前主要集中在书本型科技报告或电子出版物的出版发行、数据库建设、服务方式和知识产权等方面,在深度数据挖掘方面的研究工作相对较少。笔者尝试利用主题N元语法模型对科技报告进行领域深层主题分析,为了确定特定领域科技报告的主题数目,笔者借助动态规划的思想针对主题N元语法模型提出了困惑度的有效计算方法。最后,以肿瘤领域1344条科技报告为实验数据,揭示了以“分子机制/肿瘤细胞”和“系统生物学/关键方法”为代表的70个主题,验证了利用主题N元语法模型揭示科技报告领域深层主题的可行性和有效性。 展开更多
关键词 科技报告 主题N元语法模型 主题分析 困惑度 热力图
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部