期刊文献+

基于汉语拼音首字母索引的混合分词算法 被引量:1

Hybrid Segmentation Algorithm for Chinese Text Using First Pinyin Letter Index
下载PDF
导出
摘要 中文自动分词是web文本挖掘以及其它中文信息处理应用领域的基础.蓬勃发展的中文信息处理应用对分词技术提出了更高的要求.提出了一种新的分词算法FPLS,该算法用拼音首字母作为词语表一级索引,词语的字数为二级索引构造分词词典,采用双向匹配方法,并引入规则解决歧义切分问题.与现有的快速分词算法比较,该算法分词效率高且正确率高. Chinese automatic segmentation is the basis of web text mining and other Chinese information processing applications. Booming Chinese information processing applications put forward a higher requirement for Chinese automatic segmentation. This paper presents a new segmentation algorithm FPLS, which uses a dictionary with a first letter of the Pinyin as a first level index and words count as the secondary index structure. A bidirectional matching method and rules are employed to resolve ambiguity segmentation problem in the algorithm. Comparing with the existing algorithm,algorithm FPLS gets higher accuracy and efficiency.
出处 《计算机系统应用》 2016年第4期221-225,共5页 Computer Systems & Applications
基金 教育部社科基金(13YJAZH117) 国家社科基金(14BYY093)
关键词 中文分词 拼音索引 双向匹配 歧义切分 Chinese automatic segmentation Pinyin index bidirectional match ambiguity resolve
  • 相关文献

参考文献11

二级参考文献90

共引文献247

同被引文献12

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部