-
题名混合语料的新词识别算法设计
- 1
-
-
作者
余小燕
-
机构
福州大学数学与计算机科学学院
-
出处
《福建电脑》
2021年第4期1-5,共5页
-
基金
福建省中青年教师教育科研资助项目(No.JAT170102)资助。
-
文摘
随着全球化趋势和国际交流的日益频繁,语言之间的渗透与融合日渐增加,不同语种夹杂的表达方式在生活中也相当普遍,特别是在使用双语或多语的地区。作为一个多民族融合的国家,我国各地的方言与普通话夹杂的表达方式也不在少数。这种语言混用的现象造成了分词识别上的困难。本文收集了各种多语夹杂的相关语料,分析了多语夹杂的语言特征,在此基础上提出了以互信息(mutual information)和熵(entropy)过滤为基础的新词识别算法,有效提高了从混合语料中识别新词的精度。
-
关键词
混合语料
新词识别
互信息
熵
-
Keywords
Mixed Corpus
New Word Recognition
Mutual Information
Entropy
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于混合语料的无监督双语词典抽取
- 2
-
-
作者
韩梦凡
曹海龙
-
机构
哈尔滨工业大学计算学部机器智能与翻译实验室
-
出处
《智能计算机与应用》
2021年第8期164-166,共3页
-
文摘
双语词典抽取作为机器翻译的基础是自然语言处理领域的重要任务。由于不需要任何监督信息,无监督双语词典抽取方法逐渐成为研究热点。无监督方法依赖于不同语言词向量之间的同构性,但是目前却少有提升词向量同构性的方法。本文提出了一种基于混合语料的同构性增强方法来提升不同语言词向量之间同构性,进而提升双语词典性能。该方法在中英维基百科上的抽取词典的性能有明显的提升。
-
关键词
双语词典抽取
混合语料
同构性增强
-
Keywords
bilingual dictionary induction
mixed corpus
isomorphism enhancement
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名情感语音特征对语料库依赖性的统计分析
被引量:3
- 3
-
-
作者
孙颖
张雪英
-
机构
太原理工大学信息工程学院
-
出处
《噪声与振动控制》
CSCD
北大核心
2011年第4期132-136,共5页
-
基金
国家自然科学基金(No.61072087)
山西省自然科学基金(No.2010011020-1)
山西省研究生创新基金(No.20093010)
-
文摘
简述线性预测倒谱系数(LPCC)、Teager能量算子(TEO)、梅尔频率倒谱系数(MFCC)和过零峰值幅度(ZCPA)特征提取方法,并将这四种方法应用于情感识别。设计两种实验,第一种是使用TYUT和Berlin语料库的单语言实验,这种实验证明,以上四种特征在单一的语料库单一语言条件下均能够有效地表征语音的情感特征,其中MFCC特征对情感的识别率最高。第二种实验是混合语料库的单一语言实验。之前大多数关于情感特征的研究都是基于某一种语料库中某种特定语言的,但在实际中,说话人的背景环境总是多种多样。因此,对特征的混合语料库研究是有现实意义的。第二种实验证明这四种特征都是语料库依赖性的,其中ZCPA特征的识别率下降最少。
-
关键词
声学
信号处理
情感语音识别
语料库依赖性
情感特征
混合语料库
-
Keywords
acoustics
signal analysis
emotional speech recognition
database dependence
emotional features
merge-database
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名EM算法在神经机器翻译模型中的应用研究
被引量:3
- 4
-
-
作者
杨云
王全
-
机构
陕西科技大学电子信息与人工智能学院
-
出处
《计算机应用与软件》
北大核心
2020年第8期250-255,共6页
-
基金
国家自然科学基金项目(61601271)。
-
文摘
传统的机器翻译模型的性能受限于双语平行语料库的规模,仅使用单语数据的无监督机器翻译方法难以有效保证模型性能的稳定。针对该问题,提出一种联合EM算法的自动语料扩充方法。利用生成的单语料结合原数据集构建平行语料,进行模型的迭代训练。根据部分双语语料初始化预训练两个单向Transformer模型;通过联合EM算法进行模型优化;通过逐渐减少训练数据的翻译损失来迭代更新两个相对翻译任务上机器翻译模型。实验结果表明,基于单双语料混合的EM迭代训练方法相比使用全双语数据的监督机器翻译方法和仅使用单语数据的无监督机器翻译方法,在中英机器翻译任务上具有更好的表现。
-
关键词
语料扩充
EM算法
迭代训练
TRANSFORMER
语料混合
-
Keywords
Corpus expansion
EM algorithm
Iterative training
Transformer
Corpus mixing
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-