[背景/意义]研究和对比不同主题建模方法在科学文献主题识别上的应用表现,对于合理选择使用主题建模技术开展科学文献主题挖掘具有重要意义。[方法/过程]通过构建中英文科学文献实验语料,选择3种主题建模方法(LDA、Top2vec、Bertopic)和...[背景/意义]研究和对比不同主题建模方法在科学文献主题识别上的应用表现,对于合理选择使用主题建模技术开展科学文献主题挖掘具有重要意义。[方法/过程]通过构建中英文科学文献实验语料,选择3种主题建模方法(LDA、Top2vec、Bertopic)和5种文本特征计算方法(Bag of Words、TFIDF、Doc2vec、MiniLM、SciBert)进行中英文科学文献主题建模实验,并对不同建模结果的主题多样性、主题一致性、主题稳定性和主题离散性指标进行对比分析。[结果/结论]不同建模工具的主题识别结果存在较大差异,其中LDA与Bertopic在英文和中文语料上识别出的主题中具有相似性关系的主题占比相对较高,但也仅为9.81%和7.46%;基于Doc2vec算法的Top2vec模型在主题多样性指标上的表现相对最优;基于文本预训练算法的Top2vec模型和Bertopic模型的主题稳定性和离散性指标优于传统主题建模方法。针对大语言模型技术的快速发展和广泛应用,加快推进科学文献预训练模型研发,并将之应用于科技情报业务实践是当前的重要研究方向。展开更多
目的使用文献计量学方法分析国内外小儿骨科多中心研究论文发表的现状及热点。方法检索中国知网(China National Knowledge Infrastructure,CNKI)、万方医学网、维普数据库和Web of Science(WOS)中的小儿骨科多中心研究相关中文及外文文...目的使用文献计量学方法分析国内外小儿骨科多中心研究论文发表的现状及热点。方法检索中国知网(China National Knowledge Infrastructure,CNKI)、万方医学网、维普数据库和Web of Science(WOS)中的小儿骨科多中心研究相关中文及外文文献,检索时限为2014年1月1日至2023年12月30日。采用Microsoft Excel和CiteSpace进行数据处理,对纳入文献的时间分布、期刊分布、机构分布、国家分布以及关键词等进行统计及可视化分析。结果共纳入文献846篇,其中外文文献716篇、中文文献130篇;美国发文量最高(387篇)。《中华小儿外科杂志》(15篇)和Journal of Pediatric Orthopaedics(119篇)分别是国内、国外刊登小儿骨科多中心研究论文最多的期刊。中文文献关键词主要被聚类为"儿童""外科手术""超声检查""三维成像""内固定器"5个簇;外文文献关键词主要聚类为developmental dysplasia of the hip,natural history,adult spinal deformity,avascular necrosis等13个关键词簇。关键词突现分析表明,当前国内研究的热点在于治疗结果、危险因素、超声检查等方面,国外研究的热点在于早发性脊柱侧凸、诊断、骨病学等方面。结论小儿骨科多中心研究近10年来主要关注点在于手术治疗、特殊疾病、预后结局和诊断等方面,美国在该领域发文最多,中国小儿骨科多中心研究逐渐获得国际认可,未来应继续加强多层次、全方位的科研合作,进一步提高小儿骨科多中心研究的质量。展开更多
揭示技术演化脉络是把握技术发展规律的前提,基于专利信息的主题挖掘是基于技术发展微观机制呈现宏观规律的重要研究内容,对技术超前布局和创新驱动实践具有重大意义。技术主题动态演化分析DPL-BMM(Dirichlet process biterm-based mixt...揭示技术演化脉络是把握技术发展规律的前提,基于专利信息的主题挖掘是基于技术发展微观机制呈现宏观规律的重要研究内容,对技术超前布局和创新驱动实践具有重大意义。技术主题动态演化分析DPL-BMM(Dirichlet process biterm-based mixture model with labelling)是一种附有标签的基于双项狄利克雷过程的混合模型,其突破了传统主题模型在进行主题识别时需固定主题数目的局限,通过增加技术主题表示模块使识别到的技术主题内容更加明确。本文以人工智能领域技术为例进行实证分析,研究结果表明,该方法对技术主题及其演化脉络展示具有实际应用价值。展开更多
文摘[背景/意义]研究和对比不同主题建模方法在科学文献主题识别上的应用表现,对于合理选择使用主题建模技术开展科学文献主题挖掘具有重要意义。[方法/过程]通过构建中英文科学文献实验语料,选择3种主题建模方法(LDA、Top2vec、Bertopic)和5种文本特征计算方法(Bag of Words、TFIDF、Doc2vec、MiniLM、SciBert)进行中英文科学文献主题建模实验,并对不同建模结果的主题多样性、主题一致性、主题稳定性和主题离散性指标进行对比分析。[结果/结论]不同建模工具的主题识别结果存在较大差异,其中LDA与Bertopic在英文和中文语料上识别出的主题中具有相似性关系的主题占比相对较高,但也仅为9.81%和7.46%;基于Doc2vec算法的Top2vec模型在主题多样性指标上的表现相对最优;基于文本预训练算法的Top2vec模型和Bertopic模型的主题稳定性和离散性指标优于传统主题建模方法。针对大语言模型技术的快速发展和广泛应用,加快推进科学文献预训练模型研发,并将之应用于科技情报业务实践是当前的重要研究方向。
文摘目的使用文献计量学方法分析国内外小儿骨科多中心研究论文发表的现状及热点。方法检索中国知网(China National Knowledge Infrastructure,CNKI)、万方医学网、维普数据库和Web of Science(WOS)中的小儿骨科多中心研究相关中文及外文文献,检索时限为2014年1月1日至2023年12月30日。采用Microsoft Excel和CiteSpace进行数据处理,对纳入文献的时间分布、期刊分布、机构分布、国家分布以及关键词等进行统计及可视化分析。结果共纳入文献846篇,其中外文文献716篇、中文文献130篇;美国发文量最高(387篇)。《中华小儿外科杂志》(15篇)和Journal of Pediatric Orthopaedics(119篇)分别是国内、国外刊登小儿骨科多中心研究论文最多的期刊。中文文献关键词主要被聚类为"儿童""外科手术""超声检查""三维成像""内固定器"5个簇;外文文献关键词主要聚类为developmental dysplasia of the hip,natural history,adult spinal deformity,avascular necrosis等13个关键词簇。关键词突现分析表明,当前国内研究的热点在于治疗结果、危险因素、超声检查等方面,国外研究的热点在于早发性脊柱侧凸、诊断、骨病学等方面。结论小儿骨科多中心研究近10年来主要关注点在于手术治疗、特殊疾病、预后结局和诊断等方面,美国在该领域发文最多,中国小儿骨科多中心研究逐渐获得国际认可,未来应继续加强多层次、全方位的科研合作,进一步提高小儿骨科多中心研究的质量。
文摘揭示技术演化脉络是把握技术发展规律的前提,基于专利信息的主题挖掘是基于技术发展微观机制呈现宏观规律的重要研究内容,对技术超前布局和创新驱动实践具有重大意义。技术主题动态演化分析DPL-BMM(Dirichlet process biterm-based mixture model with labelling)是一种附有标签的基于双项狄利克雷过程的混合模型,其突破了传统主题模型在进行主题识别时需固定主题数目的局限,通过增加技术主题表示模块使识别到的技术主题内容更加明确。本文以人工智能领域技术为例进行实证分析,研究结果表明,该方法对技术主题及其演化脉络展示具有实际应用价值。