期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
中文高频词串的抽取及其在语言模型中的应用
被引量:
2
1
作者
文娟
王小捷
《北京邮电大学学报》
EI
CAS
CSCD
北大核心
2009年第5期10-14,共5页
为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串(CFS)抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型.实验表明,基于CFS的语言模型能有效克服现有基于字和词的n元语...
为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串(CFS)抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型.实验表明,基于CFS的语言模型能有效克服现有基于字和词的n元语法模型长距离相依性能较差的缺陷;同时,在模型困惑度、音字转换正确率上均优于已有基于净频次的CFS语言模型.
展开更多
关键词
中文高频词串
字区分
度
字串切分度
N元模型
音字转换
下载PDF
职称材料
题名
中文高频词串的抽取及其在语言模型中的应用
被引量:
2
1
作者
文娟
王小捷
机构
北京邮电大学智能科学技术研究中心
出处
《北京邮电大学学报》
EI
CAS
CSCD
北大核心
2009年第5期10-14,共5页
基金
国家科技支撑计划项目(2007BAH05B02-04)
高等学校学科创新引智计划项目(B08004)
BUPT-Nokia合作项目
文摘
为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串(CFS)抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型.实验表明,基于CFS的语言模型能有效克服现有基于字和词的n元语法模型长距离相依性能较差的缺陷;同时,在模型困惑度、音字转换正确率上均优于已有基于净频次的CFS语言模型.
关键词
中文高频词串
字区分
度
字串切分度
N元模型
音字转换
Keywords
Chinese frequent string
character distinction degree
string segmentation degree
n-gram language model
pinyin-to-character conversion
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
中文高频词串的抽取及其在语言模型中的应用
文娟
王小捷
《北京邮电大学学报》
EI
CAS
CSCD
北大核心
2009
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部