期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于词间关联度度量的维吾尔文本自动切分方法 被引量:2
1
作者 吐尔地.托合提 维尼拉.木沙江 艾斯卡尔.艾木都拉 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第1期155-164,共10页
提出一种基于词间关联度度量的维吾尔文本自动切分方法。该方法从大规模生语料库中自动获取维吾尔文单词Bi-gram及上下文语境信息,在充分考虑维吾尔文单词间结合规则的前提下,将相邻单词间的互信息、t-测试差及双词邻接对熵的线性融合... 提出一种基于词间关联度度量的维吾尔文本自动切分方法。该方法从大规模生语料库中自动获取维吾尔文单词Bi-gram及上下文语境信息,在充分考虑维吾尔文单词间结合规则的前提下,将相邻单词间的互信息、t-测试差及双词邻接对熵的线性融合作为组合统计量(dmd),度量文本中相邻单词之间的关联程度。以dmd度量的弱关联的词间位置作为切分点进行自动切分,得到语义及结构完整的词串,而不仅仅是以空格隔开的单词。在大规模文本语料上进行的测试表明,该方法的切分准确率达到88.21%。 展开更多
关键词 语义串 互信息 t-测试差 邻接对熵 单词结合规则
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部