摘要
在多年海量文献人工标引的数据基础上,采用互信息法(MI)、卡方检验法(Chi-Square)、最大似然估计法(MLE)等概率与数理统计方法计量分析关键词与《中国图书资料分类法》分类号的关联关系,构建适用于科技文献自动标引的关键词-分类号关联词表,并通过实际标引文献数据的封闭与开放测试分析其应用效果。
Based on years of massive manual indexing data, this paper constructs a natural language classification thesanrus with Mutual Information ( MI), Chi - Square ( X^2 ) and Maximum Likelihood Estimate (MLE) to analyze the corresponding relation between keywords and Chinese Library Classification Codes. The performances of the Keywords - Chinese Library Classification Codes Integrated Thesaurus used for automatic indexing of sci - tech literatures are tested by close and open testing.
出处
《现代图书情报技术》
CSSCI
北大核心
2013年第7期107-113,共7页
New Technology of Library and Information Service
基金
国家高技术研究发展计划(863计划)基金项目"以科技文献服务为主的搜索引擎研制"(项目编号:2011AA01A206)的研究成果之一
关键词
关键词-分类号关联词表
文献加工
自动标引
自动分类
Keywords -Chinese Library Classification Codes Integrated Thesaurus
Literature processing
Automatic indexing
Automatic categorization