-
题名“v+n+n”结构的哈萨克语短语歧义分析与消解
- 1
-
-
作者
户冰心
古丽拉·阿东别克
祁卉
-
机构
新疆大学信息科学与工程学院
国家语言资源监测与研究中心少数民族语言分中心哈萨克/柯尔克孜语文基地
新疆多语种信息技术实验室
新疆大学人文学院
-
出处
《语言与翻译》
CSSCI
2014年第2期33-37,共5页
-
基金
国家自然科学基金(NO.61063025&NO.61363062)
-
文摘
在进行哈萨克语短语识别过程中,存在短语结构歧义的现象。本文通过研究大量的具有歧义的短语结构实例,分析了计算机处理过程中遇到的歧义问题。特别针对"v+n+n"这种最常见的歧义结构,基于哈萨克语语言自身特点,采用条件随机场(CRF)模型进行消歧。实验分析结果表明,该消歧策略可以有效消除歧义。
-
关键词
哈萨克语
短语识别
短语结构
歧义
条件随机场(CRF)模型
-
Keywords
the Kazakh language
phrase recognition
phrase structure
ambiguity
conditional random field (CRF) models.
-
分类号
H236
[语言文字—少数民族语言]
-
-
题名基于条件随机场的哈萨克语基本短语自动识别
被引量:3
- 2
-
-
作者
汪泱
古丽拉.阿东别克
户冰心
牛宁宁
-
机构
新疆大学信息科学与工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2014年第10期3602-3607,共6页
-
基金
国家自然科学基金项目(61063025
61363062)
-
文摘
为解决识别哈萨克语基本短语的问题,提出一种基于条件随机场模型的哈萨克语基本短语自动识别方法。利用基于贪心策略的特征模板自动选择算法,结合哈萨克语基本短语的特点,从众多上下文特征中选取出合适的特征;每次从备选特征模板中挑选出局部最优的特征模板项,加入到最终的特征模板中,进一步提高识别准确率。实验结果表明,该方法的识别准确率和召回率分别达到了89.01%和84.07%。
-
关键词
基本短语识别
条件随机场
特征模板自动选择
哈萨克语
贪心策略
-
Keywords
base phrase identification
conditional random fields
automatic selection of feature template
Kazakh
greedy strategy
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名哈萨克语“v+n+n”格式的歧义消解
- 3
-
-
作者
户冰心
古丽拉.阿东别克
祁卉
-
机构
新疆大学信息科学与工程学院
国家语言资源监测与研究中心少数民族语言分中心哈萨克和柯尔克孜语文基地
新疆多语种信息技术实验室
新疆大学人文学院
-
出处
《计算机工程》
CAS
CSCD
2014年第12期141-145,共5页
-
基金
国家自然科学基金资助项目(61063025)
-
文摘
通过研究大量包含歧义的短语实例,分析计算机处理过程中遇到的短语结构边界判定的歧义问题。针对"v+n+n"这种常见的歧义格式,采用条件随机场模型进行消歧。结合哈萨克语的语言特点,提出基于哈萨克语词尾的类别及位置信息来构建特征模板的方法。以新疆日报(哈语版)2008年30天的数据统计为实验语料,加入消歧策略后名词短语和动词短语的识别准确率分别达到87.23%和97.46%;召回率分别达到80.12%和95.80%。实验结果表明,将提取出的特征引入到条件随机场模型后,系统的准确率、召回率和F值均有所提高。
-
关键词
哈萨克语
自然语言处理
歧义
附加成分
条件随机场模型
模板
-
Keywords
Kazakh
natural language processing
ambiguity
additional component
conditional random field model
template
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-