期刊文献+

基于语谱图的江西境内赣方言自动分区研究 被引量:4

Automatic Partition of Gan Dialect in Jiangxi Province Based on Spectrogram
下载PDF
导出
摘要 汉语方言分区研究是语言学的重要组成部分。鉴于传统基于词汇和语法的人工方言分区方法具有一定的主观性,该文研究了如何有效利用语音本身特征进行方言的自动分区。论文首先构建了江西省11个省辖市、91个下辖县级行政区的时长约1500分钟的1223条语音语料库,然后在传统的MFCC语音特征提取基础上,提出了基于CNN的自编码降维语谱图的深度学习特征提取模型,对降维后的语音特征分别采用k均值算法聚类、高斯混合聚类和层次聚类对方言自动分区。实验结果表明,新型语谱图特征的聚类性能度量内部指标DBI指数以及DI指数显著优于传统MFCC特征,维度为16时语谱图和MFCC下的拼接特征聚类效果与传统人工方言分区较为接近。 Chinese dialect partition is a vital issue in linguistics.In contrast to the traditional manual dialect partition according to the vocabulary and the grammar,this paper studies how to effectively use the features of speech itself to automatically partition the dialect.This paper first constructs 1,223 speech corpora of 1,500 minutes from the 11 municipalities and 91 county-level administrative regions in Jiangxi Province.Then a deep learning feature extraction model based on CNN self-encoding dimension reduction spectrogram has been put forward.The k-means clustering,Gaussian mixture clustering and hierarchical clustering are examined,respectively.The results revealed that,according to the cluster performance metrics DBI and DI index,the proposed language spectrogram features significantly outperform traditional MFCC features.Under the 16-dimension,the clustering effect of the concatenation of the spectrogram feature and the MFCC feature is found to be close to that of the traditional artificial dialect partition.
作者 颜为之 王明文 徐凡 但扬杰 罗健 YAN Weizhi;WANG Mingwen;XU Fan;DAN Yangjie;LUO Jian(School of Computer and Information Engineering,Jiangxi Normal University,Nanchang,Jiangxi 330022,China)
出处 《中文信息学报》 CSCD 北大核心 2021年第4期1-7,15,共8页 Journal of Chinese Information Processing
基金 国家自然科学基金(61876072,61772246) 江西省社科规划项目(18YY04) 江西省自然科学基金(20192ACBL21030)。
关键词 语谱图 聚类 赣方言 方言分区 spectrogram clustering Gan dialect dialect partition
  • 相关文献

参考文献22

二级参考文献153

共引文献277

同被引文献35

引证文献4

二级引证文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部