-
题名词义标注语料库建设综述
被引量:17
- 1
-
-
作者
金澎
吴云芳
俞士汶
-
机构
北京大学计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2008年第3期16-23,共8页
-
基金
国家973计划资助项目(2004CB318102)
国家自然科学基金资助项目(60703063)
国家863计划资助项目(2007AA01Z198)
-
文摘
词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping策略在语料库建设方面的应用以及利用双语对齐语料库开展的相关研究。最后,针对词义标注语料库建设存在的问题提出自己的分析和思考。
-
关键词
计算机应用
中文信息处理
词义消歧
词义标注语料库
平行语料库
BOOTSTRAPPING
-
Keywords
computer application
Chinese information processing
word sense disambiguation
word sense annotated corpus
parallel corpus
bootstrapping
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名维吾尔语词义标注语料库管理系统的设计与实现
- 2
-
-
作者
杨勇
任鸽
-
机构
新疆师范大学计算机科学技术学院
-
出处
《电脑知识与技术》
2016年第1Z期13-14,共2页
-
基金
教育部人文社会科学研究青年基金项目(12XJJC740006)
-
文摘
随着信息技术的飞速发展,网络已成为世界上最大的信息库,也是信息获取和传播的重要途径。而一个理想的维吾尔语词义标注语料库至少应该具有数据量大、覆盖范围广、准确度高等特点。为了能够管理大规模的数据,并为用户分析和研究语言系统的规律提供了一个更方便、快捷的方式,本系统借助网络平台开发了一个管理维吾尔语词义标注语料库的管理系统,实现了维吾尔语词义标注语料库的智能化管理。为了使该系统的科学的分析与设计,采用UML进行建模分析与设计。
-
关键词
建模分析
维吾尔语词义标注语料库管理系统
UML
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-
-
题名词义消歧相关术语简介
被引量:1
- 3
-
-
作者
吴云芳
-
机构
北京大学计算语言学研究所
-
出处
《术语标准化与信息技术》
2010年第3期18-20,24,共4页
-
基金
国家自然科学基金项目(60703063)
国家社会科学基金项目(08CYY016)
-
文摘
词义消歧是计算语言学领域的基础性关键研究课题。本文介绍了与词义消歧相关的一些重要术语概念,包括词义消歧、词义区分、基于词典的词义消歧方法、有监督的词义消歧方法、词义标注语料库等。
-
关键词
词义消歧
词义区分
有监督的词义消歧方法
词义标注语料库
-
Keywords
word sense disambiguation
words sense discrimination
supervised disambiguation methods
sense annotated corpus
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名词义消歧研究:资源、方法与评测
被引量:7
- 4
-
-
作者
吴云芳
-
机构
北京大学
-
出处
《当代语言学》
CSSCI
北大核心
2009年第2期113-123,共11页
-
基金
国家自然科学基金项目(60703063)
国家社会科学基金项目(08CYY016)
+1 种基金
国家863高技术研究发展计划基金项目(2007AA01Z198)
国家973重点基础研究发展规划基金项目(2004CB318102)
-
文摘
词义消歧是计算语言学领域的基础性关键研究课题。本文从语言资源建设、词义消歧方法和国际语义评测三个方面概要地介绍了词义消歧研究的现状:语言资源建设主要介绍了语义词典构建和词义标注语料库建设;词义消歧方法重点介绍了有指导的机器学习方法;语义评测主要介绍了国际语义竞赛SemEval。以期了解词义消歧研究的前沿状态,促发从计算的角度来审视义项区分和词义描述,进而促进汉语词汇语义学的研究。
-
关键词
词义消歧
义项区分
词义标注语料库
有指导的机器学习方法
语义评测
-
Keywords
Chinese word sense disambiguation,sense discrimination,semantic annotation,supervised learning method,semantic evaluation
-
分类号
H030
[语言文字—语言学]
-