-
题名英日语料库语义接受度对比研究
被引量:3
- 1
-
-
作者
杜家利
于屏方
-
机构
鲁东大学外国语学院汉语言文学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第24期146-149,共4页
-
基金
国家社会科学基金项目(No08BYY046)
山东省社会科学规划项目(No07CWXJ03)
-
文摘
基于语料库的语义接受度(SAS)研究是在线衡量文本理解程度的可行性方法。在大规模真实文本语料的基础上,利用赋值限域方法进行英日文本对照研究。并通过分析不同赋值区间对英日小说文本语义接受度进行解读。经过验证的语义接受度公式证明了文本理解与词汇密度(P1,P2)、词长(H)和句长(L)相关,即SAS=P2/[P1×0.4×(L+H)],而且不同的抽取率不会引起评价值的显著差异。此公式为文学研究者借助网络对电子文本进行理解度评价提供了理论支持。
-
关键词
文本
语料库
自然语言
语义接受度
信息检索
-
Keywords
text
corpus
natural language
semantic accessibility scale
information retrieval
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名日语文本语义接受度评价研究
被引量:2
- 2
-
-
作者
杜家利
于屏方
-
机构
鲁东大学外国语学院汉语言文学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第23期137-139,148,共4页
-
基金
国家社会科学基金项目(No.08BYY046)
教育部人文社会科学重点研究基地重大项目(No.06JJD740007)
山东省社会科学规划项目(No.07CWXJ03)
-
文摘
基于日语料库的粘着语文本语义接受度(SAS)研究分三步展开。首先提取『ゆきぐに』为分析文本,以等距离系统随机抽样方法取得6对比组。然后在屈折语SAS研究基础上提出适用于粘着语文本的词长定义,即百词所含5音拍及以上词数为超常用词量。最后得出结论:抽取间距由大变小引发抽取率(SR)由小变大的曲线变化;依次攀升的SR与围绕均值波动的SAS组图证明两者的非关联性,以实例验证了屈折语SAS评价公式对粘着语文本研究的可适用性。
-
关键词
粘着语
信息检索
语料库
语义接受度
抽取率
-
Keywords
agglutinative language
information processing
corpus
Semantic Accessibility Scale (SAS)
Sampling Ratio (SR)
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-