期刊文献+

搜索引擎用短语词典建设 被引量:6

Constructing phrase dictionary for search engine
原文传递
导出
摘要 百度搜索引擎分词系统中的原短语库是由统计得出,含有大量噪音。委托北京大学计算语言学研究所进行了手工整理标注。为此设计了加工规范,对短语进行了严格的定义,制定了加工操作手册,并开展了手工工程,通过严格的控制保证标注的一致性。共整理短语119 984条,噪音短语比例约占7%。当前该短语词典已应用于百度搜索引擎中,对提高检索效果和减少索引空间都起到一定作用。 There are many phrase noises in the Baidu search engine system. These phrases are got by statistical method. So Baidu company consigns the computational linguistics institute of Peking University to purify them by hand. In order to complete the project, the processing specification is designed. After formal defining the concept of phrase and designing the operation manual, the language resource project is carried out. Many measures are used for guaranteeing the consistency. 119 986 phrases are tagged, and a...
出处 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1892-1895,共4页 Journal of Tsinghua University(Science and Technology)
基金 国家"八六三"高技术项目(2002AA117010-8) 国家自然科学基金资助项目(60203022)
关键词 搜索引擎 语言资源 短语词典 中文分词 标注 search engine language resource phrase dictionary Chinese segmentation tag
  • 相关文献

同被引文献33

引证文献6

二级引证文献21

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部