摘要
词汇的时代特征能反应词汇在一个时代发展变化的规律。该文将先秦分为前春秋、春秋和战国三个时代,获取并研究这三个时代的时代独有词、时代特征词及时代发源词。该文提出两种自动判断先秦文献时代的方法,分别基于向量相似度和朴素贝叶斯分类器,在25种先秦文献上后者的分类性能更稳定。最后该文使用朴素贝叶斯分类器验证了《列子》并非成书于先秦。
Words’ property of times shows rules of how a word changes in a particular times.We divide the Pre-Qin times into three parts as Pre-Chunqiu,Chunqiu and Zhanguo.We find out and focus on three kinds of words which are only in a times,popular in a times and arised in a times.We also propose methods using VSM and Naive Bayes Classifier to decide the times of a text with which we experiment on 25texts of Pre-Qin.The latter one’s result turn out much better.With the same method we verified that Lie Zi is not written in Pre-Qin.
出处
《中文信息学报》
CSCD
北大核心
2013年第5期107-113,共7页
Journal of Chinese Information Processing
基金
国家社科基金资助项目(10CYY021、10&ZD117)
江苏省哲社重点研究基地课题资助项目(2010JDXM023)
南京大学计算机软件新技术国家重点实验室开放课题资助项目(KFKT2011B03)
中国博士后基金资助项目(2012M510178)
江苏省博士后基金资助项目(1101065C)
江苏高校优势学科建设工程
江苏省普通高校研究生科研创新计划项目(CXLX12_0357)