期刊文献+

基于搜索引擎的中文分词评估方法 被引量:5

Chinese Word Segmentation Evaluation Methodology Based on Web Search Engines
下载PDF
导出
摘要 中文分词的结果是影响搜索引擎中文检索结果质量的重要因素,能否准确有效的分词对提高搜索结果的相关性和用户满意度都至关重要。本文回顾和整理了中文分词评估所依靠的理论依据,同时建立了一套完整的基于搜索引擎中文分词评估方法。这套评估方法涵盖了评估样本的提取、评估人员选取、评估标准的制定、以及评估流程的设置等各个方面。实例分析的结果表明此方法是行之有效的。在此基础上,作者进一步对实验评估的结果进行了深入讨论,并提出了提高评估效果的几条建议,包括如何考虑评估人员背景、取舍评估项目等。 Chinese word segmentation is one of the determinants of result quality of Chinese search engines. Whether Chinese words are segmented effectively and correctly is vital to improving the relevance of the searching results and enhancing user satisfaction. The author first reviews the fundamental theories upon which Chinese segmentation evaluation methods are build, and then develops an integrated methodology measuring the quality of Chinese segmentation for web search engine. A set of methods and guidelines are proposed, addressing sampling issues, selection of evaluators, definition and selection of metrics, procedureof the evaluation, and etc. Then the methodology was applied in a real search engine evaluation in practice, and proved to be effective. The result of the evaluation was analyzed, and suggestions concerning evaluator screening and item rejection are provided, with the aim to get a better evaluation performance.
出处 《情报科学》 CSSCI 北大核心 2007年第1期108-112,共5页 Information Science
关键词 中文分词 搜索引擎 信息检索 评估方法 chinese word segmentation web search engine information retrieval evaluation methodology
  • 相关文献

参考文献10

  • 1汉语信息处理词汇01部分:基本术语(GB12200.1-90)[S].中国标准出版社,1991.1-2.
  • 2GB/T13715-92《信息处理用现代汉语分词规范》[S].中国标准出版社,1993.36-42.
  • 3梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1997,1(2):44-54.
  • 4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量:101
  • 5龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量:26
  • 6刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量:15
  • 7Ozmutlu H C,Spink A,Ozmutlu S.,Analysis of large data logs,an application of Poisson sampling on excite web queries[J].Information Processing and Management,2002,(38):473-490.
  • 8Palmer D,Burger J.,Chinese Word Segmentation and Informa2tion Retrieval[J].In:AAAI Symp.Cross Language Text and Speech Retrieval,1997.53-57.
  • 9Foo S,Li H,Chinese word segmentation and its effect on information retrieval[J].Information Processing and Management,2004,40(1):161-191.
  • 10金澎,刘毅,王树梅.汉语分词对中文搜索引擎检索性能的影响[J].情报学报,2006,25(1):21-24. 被引量:6

二级参考文献68

共引文献136

同被引文献56

引证文献5

二级引证文献22

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部