-
题名汉字简化中的字形复杂度统计特征稳定性研究
被引量:4
- 1
-
-
作者
黄伟
-
机构
北京语言大学计量语言学研究中心
-
出处
《语言文字应用》
CSSCI
北大核心
2021年第1期53-64,共12页
-
基金
北京市社会科学基金项目“现代汉字构形系统的复杂网络研究”(18YYC016)
北京语言大学项目“汉字字形复杂度计量研究”(中央高校基本科研业务费专项资金资助)(21YJ140005)
中青年学术骨干支持计划资助
-
文摘
汉字简化研究较多关注微观字形结构变化,由于缺乏有效测量手段,对构形系统与字形使用宏观规律的认识还不够全面。本文用笔画数定义字形复杂度,测量和比较字形复杂度及其动链在不同字符集与文本中的统计特征。研究发现,字形复杂度在构形系统与文本中的分布规律,及其动链的秩频分布与长度分布规律没有因字形简化而改变。字形复杂度统计特征的稳定性是汉字构形系统与汉语词长共同演化的结果。本文为汉字简化研究提供了一种客观的视角与量化研究操作方法。
-
关键词
字形复杂度
汉字简化
动链
分布规律
语言规划
-
Keywords
script complexity
simplification of Chinese characters structure
motif
distribution law
language planning
-
分类号
H124
[语言文字—汉语]
-
-
题名从线性位置看神经网络模型中语言规律的获得与表征
- 2
-
-
作者
张子豪
刘海涛
-
机构
北京语言大学计量语言学研究中心
浙江大学外国语学院
-
出处
《当代语言学》
北大核心
2023年第6期791-809,共19页
-
文摘
采用位置编码的Transformer语言模型,超越前代循环神经网络(RNN)语言模型,在各项语言任务中均表现优异,表明该系列模型通过对语料的学习获得了文本数据中的语言规律。相较于前代RNN语言模型,Transformer模型加入的线性位置编码机制,为模型充分利用语言数据中的涌现规律提供了新的路径。然而,语言规律表征形式的差异以及语言学传统研究中对词的线性位置研究的忽视,使得研究者未能关注到这一浅层特征中蕴含的规律。本文通过探索六种印欧语中功能词的线性位置分布,揭示了其中的规律性和高度可预测的分布模式,即功能词线性位置分布的句长稳定性、历时稳定性以及跨语言近义词线性位置分布的相似性,并探讨了这些规律的语言学意义。同时,本文通过对基于Transformer的神经网络语言模型注意力矩阵的研究,发现语言模型能够充分利用位置编码提供的位置信息,即掌握了线性位置分布中潜在的语言规律。研究也揭示了线性位置分布对于语言规律表征的价值。
-
关键词
线性位置分布
神经网络语言模型
TRANSFORMER
位置编码
语言规律
-
Keywords
linear position distribution
neural network language model
Transformer
linguisticregularity
-
分类号
H04
[语言文字—语言学]
-
-
题名威妥玛式拼音与《汉语拼音方案》的计量比较
被引量:1
- 3
-
-
作者
李孜
黄伟
-
机构
北京市第一〇一中学怀柔校区
北京语言大学计量语言学研究中心
-
出处
《语言规划学研究》
2020年第1期15-25,共11页
-
基金
国家语委语言文字科研项目优秀成果后期资助课题“拼写系统与文字系统计量研究”(HQ135-10)
北京语言大学“中青年学术骨干支持计划”的研究成果
-
文摘
本文整理了威妥玛式拼音中的音形对应关系,采用系统经济性、正字法不确定性、形素长度、形素载荷、字母使用度、正字法改革必要性等指标,定量描写了威妥玛式拼音在音形对应关系方面的特征,并与《汉语拼音方案》进行了比较。结果表明:威妥玛式拼音的系统经济性比《汉语拼音方案》低,正字法不确定性、形素长度、形素载荷、字母使用度与正字法改革的必要性都比《汉语拼音方案》高。《汉语拼音方案》在音形对应关系和系统整体优化方面比威妥玛式拼音有较好的改进。通过对转写文本的比较说明,《汉语拼音方案》比威妥玛式拼音具有更低的复杂程度和更好的拼写效率。
-
关键词
威妥玛拼音
汉语拼音方案
语言规划
音形关系
计量语言学
-
Keywords
Wade-Giles System
Scheme of Chinese Phonetic Alphabet(Pinyin)
language planning
phoneme-grapheme relation
quantitative linguistics
-
分类号
H125
[语言文字—汉语]
-