基于统计与词嵌入的近代汉语动量结构研究被引量：1

A Research on Verbal Classifiers Collocation in Pre-modern Chinese Based on Statistics and Word Embedding

下载PDF

导出

摘要文章以一个2.3亿字的历时语料库为平台,结合统计与词嵌入算法,定量考察近代汉语中13个动量词与动词的组合状况。以宏观视野,展现并解释近代汉语动量词的概貌与特征,服务于汉语史研究与量词教学。首先,综合统计与规则的方法,完成动量词自动识别、自动分词、动量词搭配的动词自动识别等预处理工作。其次,分时段测查各动量格式、各动量词的频率,发现动量词在文言、白话语体中的词频差异悬殊。最后,依照《同义词词林》的语义类体系,考察动量词所修饰的动词的优势和劣势语义类别,发现动词语义类与动词是否受动量词修饰之间,存在着一种非强制的、概率性的联系。 Based on a diachronic corpus with 230 million Chinese characters and combined with the statistical method and word embedding algorithm,this paper makes a quantitative study of 13 verbal classifiers in pre-modern Chinese language.From a macro perspective,this study shows and explains the general situation and characteristics of verbal classifiers in pre-modern Chinese,and tries to serve for the study of Chinese history and the teaching of quantifiers.Firstly,combined with statistical and regular methods,it finishes pre-processing work of the automatic recognition of verbal classifiers,word segmentation,and verbal classifiers collocation in pre-modern Chinese language.Secondly,it measures the frequency of various verbal classifiers,verbal classifiers’syntactic forms,and finds the differences in the word frequency of verbal classifiers in classical Chinese and vernacular Chinese.Finally,according to the lexical semantic system of Synonym Forest,it analyzes the advantage and disadvantage of semantic categories of verbs modified by verbal classifiers,and finds that there is a non-compulsory and probabilistic relationship between the semantic categories of verbs and whether the verbs are modified by passive quantifiers.

作者蒋彦廷潘雨婷杨乐 JIANG Yan-ting;PAN Yu-ting;YANG Le(Institute of Chinese Information Processing,Beijing Normal University,Beijing,100875,China;School of Chinese Language&Culture,Beijing Normal University,Beijing,100875,China;School of Statistics and Mathematics,Central University of Finance and Economics,Beijing,102206,China)

机构地区北京师范大学中文信息处理研究所北京师范大学汉语文化学院中央财经大学统计与数学学院

出处《西华大学学报（哲学社会科学版）》 2020年第2期23-32,共10页 Journal of Xihua University(Philosophy & Social Sciences)

基金国家语委“十三五”科研规划2018年度重点项目“面向国际编码的《说文》小篆线条定名定量与定序研究”(ZDI135-57)。

关键词动量词自动识别分词统计正则表达式词嵌入《同义词词林》 verbal classifiers automatic recognition word segmentation statistics regular expression word embedding Synonym Forest

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] H041 [语言文字—语言学]

引文网络
相关文献

参考文献9

1全昌勤,刘辉,何婷婷.基于统计模型的词语搭配自动获取方法的分析与比较[J].计算机应用研究,2005,22(9):55-57. 被引量：8
2杨剑桥.汉语动量词不产生于先秦说[J].语言研究,2009,29(2):22-26. 被引量：7
3周娟.动量词“番”“通”“气”的语义差异及其历时解释[J].宁夏大学学报（人文社会科学版）,2010,32(4):35-40. 被引量：2
4刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
5唐钰明.古汉语动量表示法探源[J].古汉语研究,1990(1):71-73. 被引量：33
6南北.动量短语相对于动词位置的历史演变[J].语文学刊（基础教育版）,2014,0(11):1-3. 被引量：1
7王绍新.从几个例词看唐代动量词的发展[J].古汉语研究,1997(2):40-46. 被引量：28
8李斌,刘雪扬.基于《汉语大词典》的汉语词汇历时演变计量研究[J].南京师大学报（社会科学版）,2018,0(5):152-160. 被引量：4
9方寅,张成福.动词与动量词搭配规律的认知分析[J].徐州师范大学学报（哲学社会科学版）,2007,33(2):60-64. 被引量：6

二级参考文献67

1李讷,石毓智.句子中心动词及其宾语之后谓词性成分的的变迁与量词语法化的动因[J].语言研究,1998(1):40-54. 被引量：33
2沈家煊.“有界”与“无界”[J].中国语文,1995(5):367-380. 被引量：973
3邵敬敏.动量词的语义分析及其与动词的选择关系[J].中国语文,1996(2):100-109. 被引量：175
4尉迟治平.计算机技术和汉语史研究[J].古汉语研究,2000(3):56-60. 被引量：19
5王寅.事件域认知模型及其解释力[J].现代外语,2005,28(1):17-26. 被引量：148
6郑桦.动量词的来源[J].宁夏大学学报（人文社会科学版）,2005,27(2):19-24. 被引量：18
7蒋宗霞.动量词的语义分类及组合关系[J].阜阳师范学院学报（社会科学版）,2006(3):50-52. 被引量：7
8蒋绍愚.汉语词义和词汇系统的历史演变初探——以“投”为例[J].北京大学学报（哲学社会科学版）,2006,43(4):84-105. 被引量：76
9H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999
10Zhang Huaping, Liu Qun, Zhang Hao, et al. Automatic recognition of Chinese unknown words recognition. First SIGHAN Workshop Attached with the 19th COLING, Taipei, 2002

共引文献269

1张明辉,闫语萌.现代汉语动量词研究综述[J].昭通学院学报,2023,45(1):99-105.
2刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：9
3魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：8
4谭文雯.《搜神记》数量结构研究[J].汉字文化,2024(9):41-44.
5陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
6尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
7李建平.唐五代动量词初探[J].中国石油大学胜利学院学报,2003,19(4):5-7. 被引量：8
8吴怀成.动量词与宾语的语序选择问题[J].汉语学报,2011(1):56-61. 被引量：7
9于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
10于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1

同被引文献4

1王兆胜.论林语堂的女性崇拜思想[J].社会科学战线,1998(1):138-147. 被引量：15
2郭运恒.林语堂女性观的复杂性——对女性的尊崇与对男性立场的维护[J].江汉论坛,2006(10):102-104. 被引量：9
3陈千里.“女性同情”背后的“男性本位”——林语堂小说“双姝”模式透析[J].南开学报（哲学社会科学版）,2013(2):92-99. 被引量：3
4董燕.林语堂女性观的独特性及其现代意义[J].求索,2017(7):124-129. 被引量：3

引证文献1

1白植坪.基于语料库的林语堂女性观研究[J].海外英语,2021(14):4-7. 被引量：1

二级引证文献1

1徐长勇.《京华烟云》中林语堂女性观的时代先进性研究[J].品位·经典,2022(20):21-22.

1温娅娜,袁梓梁,何咏宸,黄猛.基于Python爬虫技术的网页解析与数据获取研究[J].现代信息科技,2020,4(1):12-13. 被引量：15
2俞理明,王春燕.上古汉语“折”的语义-句法互动及其语义类别[J].古汉语研究,2020,0(1):35-40. 被引量：1
3熊伟,黄方方.基于统计数学理论的船舶航行流量预测[J].舰船科学技术,2019,0(24):34-36. 被引量：1
4许睿.《聊斋俚曲集》校勘记[J].青年文学家,2020,0(6):64-66.
5卢鹤扬,冯一苇,崔梅.类淋巴系统与中枢神经系统病变的相关性研究进展[J].中国临床神经科学,2020,28(1):78-84. 被引量：11
6石亮亮.关于对《金瓶梅词话》中“管情”与《醒世姻缘传》中“情管”的考察——以逆序现象为中心[J].青年文学家,2019,0(33):70-71.
7刘萍,张恩源,綦凯,郝智红,段雅彬.不同生产企业十八味诃子利尿丸质量评价研究[J].西部中医药,2019,32(12):28-32.
8魏兵卓,刘鑫,曹政,范海洲,杨刚.一种基于统计的二维航迹关联方法[J].空天防御,2020,3(1):93-98. 被引量：6
9田秀坤.原型范畴理论视域下俄语被动结构教学研究[J].东北亚外语研究,2019,7(4):62-67.
10岳师怡.基于多层级上下文信息的图像语义分割[J].激光与光电子学进展,2019,56(24):107-115. 被引量：6

西华大学学报（哲学社会科学版）

2020年第2期

浏览历史

内容加载中请稍等...

基于统计与词嵌入的近代汉语动量结构研究被引量：1

参考文献9

二级参考文献67

共引文献269

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于统计与词嵌入的近代汉语动量结构研究 被引量：1

参考文献9

二级参考文献67

共引文献269

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于统计与词嵌入的近代汉语动量结构研究被引量：1