-
题名E研究中电子文献的层次化自动分类方法
被引量:1
- 1
-
-
作者
云健
江荻
潘悟云
-
机构
大连民族学院计算机科学与工程学院
上海师范大学语言研究所上海高校比较语言学e-研究院
中国社会科学院民族学与人类学研究所语音学与计算语言学重点实验室
-
出处
《计算机应用与软件》
CSCD
2009年第11期46-49,94,共5页
-
基金
国家社会科学基金重点项目(02AYY001)
国家自然科学基金项目(60173024)
上海市教育委员会E-研究院建设规划项目(E06012)。
-
文摘
E研究中学科交叉广泛存在,因此对多学科的电子文献进行自动分类非常必要。针对E研究中的电子文献特征维数较高的特点,以上海高校比较语言学E-研究院为例,提出了一种可逐层降低分类难度、分而治之的层次化自动分类方法。该方法首先利用不需要矩阵运算的几何分类算法对文本向量进行初步分类;然后,利用fisher的线性判别方法将向量投影一维特征空间;最后,在一维空间中运用NBayes决策进行平均错误率最小的文献分类。实验结果表明该分类方法具有较好的精确性和速度:在闭集测试和开集测试中,均获得了较高的分类准确率、召回率及F1值,文献分类平均耗时0.29 s。以上工作为E研究提供了智能化支持。
-
关键词
E研究
FISHER线性判别
NBayes决策
层次化自动分类
-
Keywords
E-research Fisher linear discriminant NBayes decision Hierarchical automatic classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
G255.75
[文化科学—图书馆学]
-
-
题名吴语形成的历史背景--兼论汉语南部方言的形成模式
被引量:31
- 2
-
-
作者
潘悟云
-
机构
上海师范大学语言研究所上海高校比较语言学e-研究院
-
出处
《方言》
CSSCI
北大核心
2009年第3期193-203,共11页
-
文摘
本文提出语言接触的两种重要的模式:海口模式与上海模式。上海模式的特点,是原住民具有文化强势,外来的移民人数虽然多,也要接受原住民的语言。海口模式的特点,是移民具有文化强势,他们的人数虽然少,但是语言强势迫使原住民接受他们的语言。原住民在学习移民语言的过程中形成了一种中介语,而且石化了,成为新的语言,由于人数的优势,反过来同化了目的语,也就是原来的海南闽语。吴语形成的历史就是海口模式加上海模式。
-
关键词
语言接触
海口模式
上海模式
中介语
石化
原始吴语
-
Keywords
language contact, Haikou model, Shanghai model, inter-language, fossilization, Proto-Wu
-
分类号
H17
[语言文字—汉语]
-
-
题名青海西宁方言的给予类双及物结构
被引量:14
- 3
-
-
作者
王双成
-
机构
上海师范大学语言研究所上海高校比较语言学e-研究院上海
-
出处
《方言》
CSSCI
北大核心
2011年第1期14-19,共6页
-
基金
教育部规划课题(项目编号:09XJA740005)
上海市重点学科建设项目(项目编号:S30402)的资助
-
文摘
本文主要讨论西宁方言给予类双及物结构的句法特点,并利用民族语材料讨论西宁方言和民族语的接触影响。
-
关键词
西宁方言
给予类双及物结构
语序类型
语言接触
-
Keywords
Xining dialect
giving-type ditransitive construction
word order type
language contact
-
分类号
H17
[语言文字—汉语]
-