-
题名医学文献主题新颖性探测方法对比分析
被引量:5
- 1
-
-
作者
陈斯斯
董立平
许丹
郭继军
-
机构
中国医科大学图书馆
-
出处
《中华医学图书情报杂志》
CAS
2018年第2期20-25,共6页
-
文摘
目的:探讨应用新颖性探测模型评估医学文献主题新颖性的可行性,对比分析2种新颖性探测方法(词重叠法和基于共词的逆文档频率量化法)的优劣。方法:选取生物医学领域8个研究主题,从Pub Med数据库收集文献,构建2种新颖性探测模型,结合文献主题新颖性的专家分析结果,利用ROC曲线及AUC值对2种新颖性探测模型的可行性进行评估。结果:词重叠法的新颖度计算结果波动幅度较大,能够更好地将文献内容间差异表现在数据上。基于ROC曲线及AUC值分析,词重叠法对于判断新颖文献具有一定准确性,基于共词特性的逆文档频率量化法对于判断新颖文献准确性较低。结论:两种新颖性探测方法得出的新颖度计算结果呈中度相关,二者的均值差异有统计学意义,前者的表现优于后者。
-
关键词
文献主题
新颖性探测
ROC曲线
可行性分析
-
Keywords
Subject of literature
Novelty detection
ROC curve
Feasibility analysis
-
分类号
G254.2
[文化科学—图书馆学]
-
-
题名三种信息粒度下的新颖性探测理论及其应用
被引量:2
- 2
-
-
作者
陈斯斯
董立平
许丹
刘春丽
郭继军
-
机构
中国医科大学图书馆
-
出处
《中华医学图书情报杂志》
CAS
2016年第11期16-19,共4页
-
文摘
根据信息粒度的大小,从文献集、文献、文献语句3个层面探究新颖性探测理论及其相关应用。3个层面的新颖性探测对于科研人员确定研究方向、评价文献以及阅读文献都具有实际的应用价值,是图书馆员实现图书馆从数据服务到知识服务转型的突破口。
-
关键词
新颖性探测
信息粒度
知识服务
-
Keywords
Novelty track
Information granularity
Knowledge service
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于自然语言词对法的文献主题新颖性探测研究
被引量:22
- 3
-
-
作者
许丹
徐爽
陈斯斯
韩爽
杨颖
郭继军
-
机构
中国医科大学图书馆
-
出处
《图书情报工作》
CSSCI
北大核心
2018年第8期130-138,共9页
-
基金
2017年度辽宁省高等学校基本科研项目“双一流”战略视野下高校ESI排名现状的计量分析与政策建议(项目编号:LQNR201707)
CALIS全国医学文献信息中心2018年科研基金项目“基于微信、微课等新媒体环境下医学高校图书馆多元素养培养模式研究”(项目编号:CALIS-2018-02-010)
CALIS全国医学文献信息中心2018年科研基金项目“大数据环境下基于突发监测的医学研究前沿发展趋势预测”(项目编号:CALIS-2018-02-001)研究成果之一
-
文摘
[目的/意义]提出一个全新的量化指标——文档主题新颖度,通过自然语言词对方法对文献主题内容的新颖性进行探测研究,并探讨其可行性和优缺点以及新颖度与F1000推荐文献和引文指标之间的关系。[方法/过程]以F1000为基础,选取hematology主题近一个月内推荐的文献,在Pubmed中查找并获取该推荐文献发表之前6个月内密切相关的文献,构成整个文献集。定义自然语言法新颖度的概念、计算公式并利用Oracle数据库PL/SQL语言进行编程,通过MetaMap软件提取自然语言词汇进行文献主题新颖度的运算。[结果/结论]自然语言法在文献主题新颖性探测的运算上具有一定的可行性;文档主题新颖度与F1000推荐文献、引用情况并非成等价关系,分属于科技论文评价的不同维度、不同范畴,不可一概而论。应将文档主题新颖度这一新指标与同行评议情况和文献计量学等其他相关论文评价指标结合起来对文献进行综合评价分析,选取优质文献给予推荐。
-
关键词
文献主题新颖性探测
自然语言词对
MetaMap
F1000
引文指标
-
Keywords
document theme novelty detection natural language pairs MetaMap F1000 citation index
-
分类号
G250
[文化科学—图书馆学]
-
-
题名主题词法和自然语言法探测文献主题新颖性对比分析
被引量:5
- 4
-
-
作者
许丹
徐爽
陈斯斯
杨颖
郭继军
-
机构
中国医科大学图书馆
-
出处
《中华医学图书情报杂志》
CAS
2019年第1期19-26,共8页
-
基金
2018年中国医科大学"青年骨干支持计划"(人文社科类)(A类)项目"供给侧改革背景下医学高校图书馆创新服务转型变革的思考与实践"(QGRA2018008)
2018年中国医科大学"青年骨干支持计划"(人文社科类)(A类)项目"基于突发检测的ESI世界前沿科学发展趋势预测"(QGRA2018009)
-
文摘
目的:对比分析主题词法和自然语言法计算结果的一致性和差异性,探讨两种方法的优缺点以及与F1000推荐文献的关系。方法:定义医学主题词词对法的文档主题新颖度概念,给出计算公式进行计算并进行对比分析。结果:主题词法计算了该文献集401篇文献中已标引的346篇文献的文档主题新颖度,平均新颖度值为0.8423;自然语言法计算了该文献集全部401篇文献的文档主题新颖度,平均新颖度值为0.8713。74.28%的文献经两种方法计算得到的新颖度差值在0.1以下。结论:主题词法和自然语言法可从文本层面计算文档主题新颖度,两者各有优势。自然语言法在计算范围和最新发表的文献方面要略优于主题词法,主题词法在揭示文章主旨含义和准确度方面,优于自然语言法。根据相关性比较,主题词法和自然语言法在计算文档主题新颖度方面一定程度上具有相对等效的价值。新颖度值越高,主题词法和自然语言法计算出的文档新颖度值分区越一致。主题词法文档主题新颖度与F1000得分弱相关,说明主题词法新颖度准确性更接近专家同行评议。
-
关键词
文献主题新颖性探测
文档主题新颖度
主题词法
自然语言法
F1000
对比分析
-
Keywords
Literature topic novelty detection
Literature topic novelty
MeSH
Natural language
F1000
Comparative analysis
-
分类号
G254.2
[文化科学—图书馆学]
R-058
[医药卫生]
-