期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于隐含狄利克雷分布的多语种文本的自动检测研究
1
作者
张巍
李雯
+1 位作者
陈丹
李增杰
《中国海洋大学学报(自然科学版)》
CAS
CSCD
北大核心
2017年第12期130-136,共7页
本文提出无监督的基于隐含狄利克雷分布(LDA)的潜在语义模型来处理多语种混合文本的语种鉴别问题。区别于一般的依据困惑度对模型进行筛选的方法,本文介绍一种基于最小描述长度(MDL)的新方法,用collapsed Gibbs Sampling(CGS)学习算法...
本文提出无监督的基于隐含狄利克雷分布(LDA)的潜在语义模型来处理多语种混合文本的语种鉴别问题。区别于一般的依据困惑度对模型进行筛选的方法,本文介绍一种基于最小描述长度(MDL)的新方法,用collapsed Gibbs Sampling(CGS)学习算法来训练得到相应的LDA模型。本文采用mitlm工具包生成N-gram计数文件并构建了用于多语种识别的字符级语言模型。之后本文使用了3种不同的语种鉴别系统与LDA模型做对比实验。实验选取ECI/MCI标准数据库中9种欧洲系语言进行鉴别实验,在没有任何标注的情况下,实现了较好的准确率和召回率结果。
展开更多
关键词
多语种识别
无监督
潜在狄利克莱分配
最小描述长度
Collapsed
GIBBS抽样
下载PDF
职称材料
基于N-Gram的文本语种识别研究
被引量:
6
2
作者
王昊
李思舒
邓三鸿
《现代图书情报技术》
CSSCI
北大核心
2013年第4期54-61,共8页
基于N-Gram理论实现一个文本语种自动识别系统,对中文简体、中文繁体、英语、法语、德语、俄语和韩语等在互联网中广泛使用的语种的文本进行语种自动识别研究。研究实验分为多语种语料库训练和语种识别两个阶段,训练和测试文本均来自于...
基于N-Gram理论实现一个文本语种自动识别系统,对中文简体、中文繁体、英语、法语、德语、俄语和韩语等在互联网中广泛使用的语种的文本进行语种自动识别研究。研究实验分为多语种语料库训练和语种识别两个阶段,训练和测试文本均来自于开放式目录工程(ODP)。此外,将笔者开发的识别系统与另一基于N-Gram的语种识别程序TextCat进行对比分析。实验结果表明,该系统对中文简体、中文繁体、德语有较高且稳定的正确识别率,对俄语、法语、英语的正确识别率其次,对韩语识别容易受到汉语影响。
展开更多
关键词
N—Gram
多语种识别
语料库
文本分类
原文传递
汉语普通话的管辖音系学特征及提取方法
3
作者
刘娇蛟
贺前华
韦岗
《电子学报》
EI
CAS
CSCD
北大核心
2006年第10期1917-1919,共3页
语音识别中多采用音素作为识别单元,因其数量较多,对神经网络训练复杂度的要求高,在多语言语音识别中需要针对不同语言分别建立识别模块.然而,管辖音系学提出了适用于多语言的语音学特征.本文根据英语和汉语发音的相似性,确定汉语普通...
语音识别中多采用音素作为识别单元,因其数量较多,对神经网络训练复杂度的要求高,在多语言语音识别中需要针对不同语言分别建立识别模块.然而,管辖音系学提出了适用于多语言的语音学特征.本文根据英语和汉语发音的相似性,确定汉语普通话声韵母的GP特征表示形式,并应用神经网络实现特征提取.实验表明,GP特征同样可作为汉语语音的语音学特征.
展开更多
关键词
GP特征
特征提取
普通话
多语种识别
下载PDF
职称材料
局域网与Internet信息资源整合
被引量:
12
4
作者
胡忠红
王以群
龙颖
《情报科学》
CSSCI
北大核心
2002年第5期506-508,共3页
本文论述了综合运用文献自动标引、多语种自动识别、信息智能导航等技术进行局域网与 Internet信息资源的整合。以促进信息资源的有效利用 ,加强信息资源的深层处理 ,提高检索系统的性能和易用性 ,更好地实现网上信息资源的共建与共享。
关键词
局域网
INTERNET
信息资源整合
文献自动标引
多语种
自动
识别
信息智能导航
下载PDF
职称材料
题名
基于隐含狄利克雷分布的多语种文本的自动检测研究
1
作者
张巍
李雯
陈丹
李增杰
机构
中国海洋大学信息科学与工程学院
出处
《中国海洋大学学报(自然科学版)》
CAS
CSCD
北大核心
2017年第12期130-136,共7页
基金
山东省自然科学基金项目(ZR2012FM016)资助~~
文摘
本文提出无监督的基于隐含狄利克雷分布(LDA)的潜在语义模型来处理多语种混合文本的语种鉴别问题。区别于一般的依据困惑度对模型进行筛选的方法,本文介绍一种基于最小描述长度(MDL)的新方法,用collapsed Gibbs Sampling(CGS)学习算法来训练得到相应的LDA模型。本文采用mitlm工具包生成N-gram计数文件并构建了用于多语种识别的字符级语言模型。之后本文使用了3种不同的语种鉴别系统与LDA模型做对比实验。实验选取ECI/MCI标准数据库中9种欧洲系语言进行鉴别实验,在没有任何标注的情况下,实现了较好的准确率和召回率结果。
关键词
多语种识别
无监督
潜在狄利克莱分配
最小描述长度
Collapsed
GIBBS抽样
Keywords
multilingual identification
unsupervised
LDA
MDL
Collapsed Gibbs sample
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于N-Gram的文本语种识别研究
被引量:
6
2
作者
王昊
李思舒
邓三鸿
机构
南京大学信息管理学院
出处
《现代图书情报技术》
CSSCI
北大核心
2013年第4期54-61,共8页
基金
国家863计划项目"以科技文献服务为主的搜索引擎研制"(项目编号:2011AA01A206)
南京大学文科青年创新团队培育项目"基于语义的知识管理系统模型研究"的研究成果之一
文摘
基于N-Gram理论实现一个文本语种自动识别系统,对中文简体、中文繁体、英语、法语、德语、俄语和韩语等在互联网中广泛使用的语种的文本进行语种自动识别研究。研究实验分为多语种语料库训练和语种识别两个阶段,训练和测试文本均来自于开放式目录工程(ODP)。此外,将笔者开发的识别系统与另一基于N-Gram的语种识别程序TextCat进行对比分析。实验结果表明,该系统对中文简体、中文繁体、德语有较高且稳定的正确识别率,对俄语、法语、英语的正确识别率其次,对韩语识别容易受到汉语影响。
关键词
N—Gram
多语种识别
语料库
文本分类
Keywords
N - Gram Language recognition Corpus Text classification
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
汉语普通话的管辖音系学特征及提取方法
3
作者
刘娇蛟
贺前华
韦岗
机构
华南理工大学电子与信息学院
出处
《电子学报》
EI
CAS
CSCD
北大核心
2006年第10期1917-1919,共3页
基金
国家自然科学基金(No.60572141)
广东省自然科学基金(No.36562)
文摘
语音识别中多采用音素作为识别单元,因其数量较多,对神经网络训练复杂度的要求高,在多语言语音识别中需要针对不同语言分别建立识别模块.然而,管辖音系学提出了适用于多语言的语音学特征.本文根据英语和汉语发音的相似性,确定汉语普通话声韵母的GP特征表示形式,并应用神经网络实现特征提取.实验表明,GP特征同样可作为汉语语音的语音学特征.
关键词
GP特征
特征提取
普通话
多语种识别
Keywords
GP features
feature extraction
mandarin
multi-speech recognition
分类号
TN912.3 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
局域网与Internet信息资源整合
被引量:
12
4
作者
胡忠红
王以群
龙颖
机构
南华大学
出处
《情报科学》
CSSCI
北大核心
2002年第5期506-508,共3页
基金
湖南省社会科学基金资助项目 ( 2 0 0 0 A0 96)
文摘
本文论述了综合运用文献自动标引、多语种自动识别、信息智能导航等技术进行局域网与 Internet信息资源的整合。以促进信息资源的有效利用 ,加强信息资源的深层处理 ,提高检索系统的性能和易用性 ,更好地实现网上信息资源的共建与共享。
关键词
局域网
INTERNET
信息资源整合
文献自动标引
多语种
自动
识别
信息智能导航
Keywords
Lan Internet Integrating the information resources
分类号
G250.73 [文化科学—图书馆学]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于隐含狄利克雷分布的多语种文本的自动检测研究
张巍
李雯
陈丹
李增杰
《中国海洋大学学报(自然科学版)》
CAS
CSCD
北大核心
2017
0
下载PDF
职称材料
2
基于N-Gram的文本语种识别研究
王昊
李思舒
邓三鸿
《现代图书情报技术》
CSSCI
北大核心
2013
6
原文传递
3
汉语普通话的管辖音系学特征及提取方法
刘娇蛟
贺前华
韦岗
《电子学报》
EI
CAS
CSCD
北大核心
2006
0
下载PDF
职称材料
4
局域网与Internet信息资源整合
胡忠红
王以群
龙颖
《情报科学》
CSSCI
北大核心
2002
12
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部