摘要
文章提出一种基于多重过滤策略的科技文献自动标引方法,该方法不依赖于大规模训练语料,很容易作为处理模块嵌入到其他文本处理环节中,实验结果验证了方法的可行性。另外,还提出了一种基于二次文献的标引词评价方法。该方法虽然严重依赖于二次文献中给出的摘要和关键词的质量,但在人力和物力资源不足以支持建立一个高质量测试集的条件下是有价值的,制定更加合理有效的评测方案势在必行。
This paper proposes an automatic indexing method for scientific literatures based on multi-filtering strategies. The method does not rely on large-scale training corpus, and is easy to be embedded into the other text processing links as a processing module. The experimental results verify the feasibility of the method. Moreover, the paper proposes an evaluation method for index terms based on secondary literatures. Although the method relies heavily on the quality of the abstract and keywords of the secondary literature, it' s valuable under the conditions when the human and material resources are insufficient to support the establishment of a high quality test set. It' s imperative to formulate a more rational and efficient evaluation scheme.
出处
《情报理论与实践》
CSSCI
北大核心
2012年第12期98-100,110,共4页
Information Studies:Theory & Application
基金
中国科学技术信息研究所学科建设课题"自然语言处理"(项目编号:XK2011-6)
中国科学技术信息研究所重点工作课题"多语言信息获取关键技术研究与应用示范"(项目编号:ZD2011-3-3)
中国科学技术信息研究所科研项目预研资金(项目编号:YY-201121)支持
关键词
多重过滤
科技文献
自动标引
multi-filtering
S&T document
automatic indexing