期刊文献+

全文检索搜索引擎中文信息处理技术研究 被引量:5

Research on the Chinese Information Processing Technique for Full-text Retrieval Search Engine
下载PDF
导出
摘要 本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。 This paper analyses the key techniques of full - text retrieval Chinese search engine, and puts forward a Chinese word segmentation method suited to full - text retrieval search engine. It not only enhances the accuracy of word segmentation but also recognizes unknown words. For vector space information retrieval model, this paper gives a term weighting formula that takes into account the import information such as the position, length and frequency of Chinese word in the Web text. And it quantizes the importance of word and expresses the importance of term in the Web text. In the end, the given segmentation algorithm is tested, and the results show that the method can improve the accuracy of word segmentation and satisfy the applied requirement.
出处 《情报科学》 CSSCI 北大核心 2006年第6期895-899,909,共6页 Information Science
关键词 全文检索 搜索引擎 中文分词 信息检索 full - text retrieval search engine Chinese word segmentation information retrieval
  • 相关文献

参考文献12

二级参考文献76

  • 1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量:83
  • 2黄祥喜.书面汉语自动分词的现状和问题[J].情报学报,1989,8(2):125-133. 被引量:11
  • 3骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量:28
  • 4王永成 等.中文信息处理技术及其基础[M].上海交通大学出版社,1993.92-110.
  • 5[7]黄青松.中文全文信息检索系统中索引项技术及分词系统的实现[C].昆明:云南省计算机学会通讯,2000.
  • 6[5]Yang Yiming. An Evaluation of Statistical Approaches to Text Categorization. Journal of Information Retrieval,1999,11(2):11~14
  • 7[7]Salton G,Buckley C.Term-weighing approaches in automatic text retrieval.Information Processing & Management,1988,24:513~523
  • 8BRIN S, Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine[ J/OL]. http://www-db. stanford.edu/- back-rub/google. html, 1997.
  • 9iProspect, iProspect' s Search Engine User Attitudes Survey Results[ DB/OL]. http://www.iprospect. com/, 2004.
  • 10Ed Greengrass. Information Retrieval: A Survey[J/OL]. http://www. csee. umbc. edu/cadip/, 2000.

共引文献199

同被引文献32

引证文献5

二级引证文献8

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部