期刊文献+

藏语句子相似度算法的研究 被引量:14

Research on Similarity Algorithm Tibetan Sentences
下载PDF
导出
摘要 该文提出了一种藏语句子相似度的计算方法,即采用散列单词倒排索引和基于句长相似度粗选的算法,快速从语料库中筛选出候选句子的集合,散列单词倒排索引能够有效提高算法的查找速度;再采用基于词形和连续单词序列相似度的多策略精选算法,可以有效衡量两个藏语句子的相似程度。实验结果证明算法是有效的。 A method to compute the similarity of Tibetan sentences is proposed in this paper.This method takes advantage of the reverse index of a hashed vocabulary and the sentence length based coarse-selection algorithm toextract candidate sentences from the corpus rapidly.The reverse index of the hashed vocabulary promotes the searching speed effectively.The multi-strategy delicate selection algorithm adopting word shape based similarity and the continuous word sequence based similarity,which could effectively assess the similarity extent of two Tibetan sentences.The method is validated by the experiments.
作者 安见才让
出处 《中文信息学报》 CSCD 北大核心 2011年第4期110-114,121,共6页 Journal of Chinese Information Processing
基金 国家社会科学基金项目资助(08xyy006)
关键词 自然语言处理 语料库 连续单词序列 藏语 句子相似度 natural language processing corpus continuous word series Tibetan language sentence similarity
  • 相关文献

参考文献10

二级参考文献81

共引文献219

同被引文献75

引证文献14

二级引证文献15

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部