期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于隐含狄利克雷分布的多语种文本的自动检测研究
1
作者 张巍 李雯 +1 位作者 陈丹 李增杰 《中国海洋大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第12期130-136,共7页
本文提出无监督的基于隐含狄利克雷分布(LDA)的潜在语义模型来处理多语种混合文本的语种鉴别问题。区别于一般的依据困惑度对模型进行筛选的方法,本文介绍一种基于最小描述长度(MDL)的新方法,用collapsed Gibbs Sampling(CGS)学习算法... 本文提出无监督的基于隐含狄利克雷分布(LDA)的潜在语义模型来处理多语种混合文本的语种鉴别问题。区别于一般的依据困惑度对模型进行筛选的方法,本文介绍一种基于最小描述长度(MDL)的新方法,用collapsed Gibbs Sampling(CGS)学习算法来训练得到相应的LDA模型。本文采用mitlm工具包生成N-gram计数文件并构建了用于多语种识别的字符级语言模型。之后本文使用了3种不同的语种鉴别系统与LDA模型做对比实验。实验选取ECI/MCI标准数据库中9种欧洲系语言进行鉴别实验,在没有任何标注的情况下,实现了较好的准确率和召回率结果。 展开更多
关键词 多语种识别 无监督 潜在狄利克莱分配 最小描述长度 Collapsed GIBBS抽样
下载PDF
基于N-Gram的文本语种识别研究 被引量:6
2
作者 王昊 李思舒 邓三鸿 《现代图书情报技术》 CSSCI 北大核心 2013年第4期54-61,共8页
基于N-Gram理论实现一个文本语种自动识别系统,对中文简体、中文繁体、英语、法语、德语、俄语和韩语等在互联网中广泛使用的语种的文本进行语种自动识别研究。研究实验分为多语种语料库训练和语种识别两个阶段,训练和测试文本均来自于... 基于N-Gram理论实现一个文本语种自动识别系统,对中文简体、中文繁体、英语、法语、德语、俄语和韩语等在互联网中广泛使用的语种的文本进行语种自动识别研究。研究实验分为多语种语料库训练和语种识别两个阶段,训练和测试文本均来自于开放式目录工程(ODP)。此外,将笔者开发的识别系统与另一基于N-Gram的语种识别程序TextCat进行对比分析。实验结果表明,该系统对中文简体、中文繁体、德语有较高且稳定的正确识别率,对俄语、法语、英语的正确识别率其次,对韩语识别容易受到汉语影响。 展开更多
关键词 N—Gram 多语种识别 语料库 文本分类
原文传递
汉语普通话的管辖音系学特征及提取方法
3
作者 刘娇蛟 贺前华 韦岗 《电子学报》 EI CAS CSCD 北大核心 2006年第10期1917-1919,共3页
语音识别中多采用音素作为识别单元,因其数量较多,对神经网络训练复杂度的要求高,在多语言语音识别中需要针对不同语言分别建立识别模块.然而,管辖音系学提出了适用于多语言的语音学特征.本文根据英语和汉语发音的相似性,确定汉语普通... 语音识别中多采用音素作为识别单元,因其数量较多,对神经网络训练复杂度的要求高,在多语言语音识别中需要针对不同语言分别建立识别模块.然而,管辖音系学提出了适用于多语言的语音学特征.本文根据英语和汉语发音的相似性,确定汉语普通话声韵母的GP特征表示形式,并应用神经网络实现特征提取.实验表明,GP特征同样可作为汉语语音的语音学特征. 展开更多
关键词 GP特征 特征提取 普通话 多语种识别
下载PDF
局域网与Internet信息资源整合 被引量:12
4
作者 胡忠红 王以群 龙颖 《情报科学》 CSSCI 北大核心 2002年第5期506-508,共3页
本文论述了综合运用文献自动标引、多语种自动识别、信息智能导航等技术进行局域网与 Internet信息资源的整合。以促进信息资源的有效利用 ,加强信息资源的深层处理 ,提高检索系统的性能和易用性 ,更好地实现网上信息资源的共建与共享。
关键词 局域网 INTERNET 信息资源整合 文献自动标引 多语种自动识别 信息智能导航
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部