期刊文献+

一种改进的中文分词在主题搜索中的应用 被引量:1

Application of an Improved Chinese Word Segmentation Technology in Topic Search
下载PDF
导出
摘要 主题搜索的核心内容是以中文分词为基础的内容匹配,而中文分词的准确性以及对未登记词的识别率问题仍是目前主题搜索的瓶颈.提出了一种改进最大匹配中文分词算法IMMM,通过词库预处理、未登录词处理和歧义消除等策略,并将主题分类和分词词典的存储相结合,构造了一个主题搜索系统.实验证明,改进后的算法较传统的搜索算法在搜索准确率方面有了较大的改进,系统整体搜索效率有明显提高. The topic search' s core is the contents of the match which is based on the Chinese word segmentation,but the Chinese word segmentation' s accuracy and unregistered word' s recognition is still the bottleneck of the topic search.This paper proposed an improved maximum matching of word segmentation algorithm IMMM.In improved algorithm designed thesaurus pretreatment,unknown word processing and disambiguation strategy,combined subject categories and sub-word dictionary storage,finally construct a topic search system.The algorithm results show that the improved algorithm is better than traditional algorithms,and the search accuracy rate has been greatly improved.The system's efficiency is improved.
出处 《郑州大学学报(工学版)》 CAS 北大核心 2014年第5期44-48,共5页 Journal of Zhengzhou University(Engineering Science)
基金 河北省高等学校科学技术研究青年基金项目(20111122)
关键词 最大匹配 主题搜索 词库 中文分词 maximum matching topic search thesaurus Chinese word segmentation
  • 相关文献

参考文献11

二级参考文献42

共引文献70

同被引文献10

引证文献1

二级引证文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部