摘要
避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词表自动标引技术中的词表构建、自动抽词、主题标引和自动分类等技术。并成功设计了新闻信息自动标引的实验系统 ,取得了较好的效果。
The paper proposed a technique of automatic word-extracting based on multiple vocabularties so as to avoid the technical difficulties of word-segmenting in Chinese.These vocabularies are as follows:stop-list,synonymous list,keyword list,thesaurus,concordance of keyword string VS class number,etc.,their function,construction and application are detailed.The paper introduces and evaluates the automatic indexing system of economic news of Xinhua News Agency.
出处
《情报学报》
CSSCI
北大核心
2002年第3期273-277,共5页
Journal of the China Society for Scientific and Technical Information
基金
国家社科基金资助
课题编号 :98BTQ0 0 7