-
题名基于万有引力模型的关键词自动抽取方法
被引量:1
- 1
-
-
作者
李欢
吕学强
李宝安
徐丽萍
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
北京城市系统工程研究中心
-
出处
《计算机工程与设计》
北大核心
2019年第4期1091-1098,共8页
-
基金
国家自然科学基金项目(61671070)
国家社会科学基金重大基金项目(15ZDB017)
+1 种基金
国家语委重大课题基金项目(ZDA125-26)
北京成像技术高精尖创新中心基金项目(BAICIT-2016003)
-
文摘
为解决传统万有引力模型因词语质量、词间距离度量不足导致关键词效果较差的问题,分别从词语质量表示和距离计算两方面对传统万有引力模型进行改进。提出基于词频-文档分布熵的方法构建通用词表,过滤候选词后,综合位置、词性、词长特征改进TF-IDF方法,计算词语外部重要性;构建共现网络图,通过计算词语关联度衡量单词内部重要性,融合内部重要性和外部重要性计算词语质量并赋予图节点差异化初始权重;在语义距离的基础上引入依存句法距离,计算词间引力作为边的权重,多次迭代后排序输出TopK个关键词。实验结果表明,该方法在3GPP技术规范和公开的SemEval2010、DUC2001数据集上较传统方法取得了更好的效果,验证了方法的有效性和通用性。
-
关键词
万有引力模型
词频-文档分布熵
关键词抽取
词语关联度
依存句法距离
-
Keywords
extraction
correlation degree
dependency syntax distance
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名面向叙词表更新的新术语分布特征研究
被引量:3
- 2
-
-
作者
雷晓
常春
刘伟
-
机构
中国科学技术信息研究所
-
出处
《图书情报工作》
CSSCI
北大核心
2019年第20期121-128,共8页
-
基金
国家社会科学基金项目“面向知识组织系统的新术语抽取研究”(项目编号:16BTQ087)
国家科技图书文献中心“下一代国家科技创新知识服务开放系统”先期研发任务课题“STKOS超级科技词表内容建设机制与发展研究(工学部分)”(项目编号:XQYF0101-2)研究成果之一
-
文摘
[目的/意义]为增强叙词表实用性,需要不断地将领域中出现的新术语更新到叙词表中,更新维护过程中,从时间及词频等角度对新术语分布特征进行探索研究,可以为新术语发现方法提供参考。[方法/过程]基于新术语相关特征,结合对应文档频率在时间点和时间段上的发展分布,通过相关统计分析,研究术语在不同成长时期的分布特征,尤其界定术语在开始期与成长期的分布差异。[结果/结论]实证分析表明新术语一般处于术语发展的成长期,当候选新术语保持正向增长趋势超过一定年限,可以认为该术语同时具有新颖性、时间持续性及术语性特征。基于该分布特征进行领域新术语的识别,结合词表编制专家的判断,该方法在新术语收录判断中具有较高的准确率,且能有效识别实际应用中占比较多的低频词。
-
关键词
叙词表更新
新术语
时间分布
文档词频分布
-
Keywords
thesaurus update
new terminology
time distribution
document frequency distribution
-
分类号
G254.2
[文化科学—图书馆学]
-