-
题名学术论文大纲中关键术语抽取方法研究
被引量:7
- 1
-
-
作者
何远标
乐小虬
张帆
-
机构
中国科学院国家科学图书馆
中国科学院大学
-
出处
《现代图书情报技术》
CSSCI
北大核心
2014年第3期73-79,共7页
-
基金
国家科技支撑计划子课题"基于文献知识网络的领域学术关系研究与示范"(项目编号:2011BAH10B06-04)的研究成果之一
-
文摘
【目的】针对学术论文大纲内容精炼、层次性的特点,研究从中抽取重要且具有实质意义术语的方法。【方法】结合语言学规则和术语词典从大纲各级标题中识别出候选术语集,然后根据术语间的句法依存关系计算tf-idf,并利用大纲结构量化术语层级特征,最后结合tf-idf与层级特征对候选术语进行排名,选择出关键术语。【结果】实验证明,该方法的候选术语识别F值达到89.57%,术语选择F值达到36.89%。【局限】采用的术语抽取规则不完备,且tf-idf计算过程中的权值设置仅使用经验值,导致未能达到最优效果。【结论】该方法能有效抽取大纲中的关键术语,适用于层级结构中的关键术语抽取。
-
关键词
候选术语识别
候选术语选择
句法依存关系
层级特征
-
Keywords
Candidate phrases identification Hierarchical feature Candidate phrases selection Syntactic dependencies
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-