-
题名大规模现代汉语标注语料库的加工规范
被引量:30
- 1
-
-
作者
俞士汶
朱学锋
段慧明
-
机构
北京大学计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2000年第6期58-64,共7页
-
基金
富士通公司及北京大学 985项目
-
文摘
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上 ,又在实施另一项大型语言工程 ,即对大规模的现代汉语原始语料进行多级加工 ,目前的加工项目包括词语切分、词性标注 (包括动词和形容词的特殊用法 ) ,并标出专有名词以及短语型的地名、机构名称等等。规划中的语料库规模约为 2 70 0万字。现在已经完成了 1 40 0万字的任务 ,而且质量很高。要建成高质量的标注语料库 ,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。
-
关键词
现代汉语标注语料库
词语切分
词性标注
加工
-
Keywords
contemporary chinese tagged corpus
segmentation
part of speech tagging
the grammatical knowledge base of contemporary chinese
processing guidline
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名《现代汉语语法信息词典》的新进展
被引量:9
- 2
-
-
作者
俞士汶
朱学锋
王惠
-
机构
北京大学计算机系计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2001年第1期59-64,F003,共7页
-
基金
国家社科基金 !( 97@yy0 0 1-6)
国家自然科学基金! ( 69973 0 0 5)
+1 种基金
国家 973项目! (G 19980 3 0 50 7-4 )
北京大学985项目
-
文摘
:《现代汉语语法信息词典》是面向汉语信息处理的基本语言知识库。 1995年 11月底通过技术鉴定。 5年来 ,北大计算语言学研究所在应用、推广的同时 ,仍把重要的力量投入词典本身的发展。至目前为止 ,词典收词已由 5万条增加到 7.3万条 ,并且全部完成了归类 ;为了处理未定义词 ,还开发了一个全新的语素库 ;词语语法属性描述中的瑕疵得到了进一步的修正 ,新增了 2 0多个语法属性项目和大量的实例。
-
关键词
中文信息处理
语法属性描述
语言知识库
语素库
《现代汉语语法信息词典》
语法属性项目
-
Keywords
chinese information processing
contemporary chinese
grammatical attribute description
grammatical knowledge base
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语词的概率语法属性描述
被引量:6
- 3
-
-
作者
俞士汶
段慧明
朱学锋
-
机构
北京大学计算语言学研究所
-
出处
《语言文字应用》
CSSCI
北大核心
2001年第3期21-26,共6页
-
文摘
现代汉语词的语法属性研究”是中国国家哲学社会科学基金在“九五”期间支持的语言学科重大课题“信息处理用现代汉语词汇研究”中的一个子课题 ,本文首先介绍这个子课题的主要研究内容 ,即以《现代汉语语法信息词典》的己有成果为基础 ,以大规模真实语料的统计数据为依据 ,用概率值重新描述词的语法属性。然后介绍这个子课题已经取得的成果 。
-
关键词
现代汉语
词汇
词类
语法属性
概率语法属性描述
-
Keywords
contemporary chinese, lexicon, parts of speech, grammatical attribute of words, probable grammatical attribute description
-
分类号
H08
[语言文字—语言学]
-
-
题名综合型语言知识库及其前景
被引量:9
- 4
-
-
作者
俞士汶
穗志方
朱学锋
-
机构
北京大学计算语言学教育部重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2011年第6期12-20,共9页
-
基金
国家自然科学基金资助项目(60970083)
国家社会科学基金资助项目(09BYY032)
-
文摘
北京大学计算语言学研究所自1986年起,历时25年建成综合型语言知识库(CLKB)。CLKB包括6个语言知识库、10项规范与标准、基础软件工具集和4个应用系统,它们相互支撑,形成一个有机整体。CLKB的系列化的语言知识涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。尽管CLKB已形成阶段性成果,但它仍在发展中。该文重点介绍CLKB的语言知识库,也探讨其发展方向。
-
关键词
自然语言处理
计算语言学
语言工程
综合型语言知识库
现代汉语语法信息词典
-
Keywords
natural language processing
computational linguistics
language engineering
comprehensive language knowledge Base
grammatical knowledge-base of contemporary chinese
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名现代汉语名词语法属性的计量研究初探
被引量:2
- 5
-
-
作者
王萌
俞士汶
段慧明
孙薇薇
-
机构
北京大学计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2008年第5期22-29,38,共9页
-
基金
国家973课题资助项目(2004CB318102)
-
文摘
以《现代汉语语法信息词典》中语法属性的概率化描述为目标,基于1998年上半年《人民日报》标注语料,对名词语法属性的概率化进行了初步的实验研究。首先,考察了名词与数词、名词与量词搭配的相关属性,引进"分散度"概念,利用它对"数名"结构进行了定量分析;其次,考察了名词受不同量词修饰的分布情况。最后,把实验结果与《现代汉语语法信息词典》的相应属性进行了比照和分析,在属性概率化的同时也对其正确性进行了验证。
-
关键词
计算机应用
中文信息处理
现代汉语
现代汉语语法信息词典
概率语法属性描述
基本标注语料库
“数名”结构
“数量名”短语
-
Keywords
computer application
chinese information processing
contemporary chinese
the grammatical knowledge-base of contemporary chinese
description of probabilistic grammatical attribute^POS tagged corpus
"numeral- noun" structure
"numerallassifier-noun" phrase
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名《现汉》与《语法信息词典》词类对应分析
被引量:3
- 6
-
-
作者
邱立坤
赵慧
俞士汶
朱学锋
-
机构
鲁东大学文学院
北京大学计算语言学教育部重点实验室
语言能力协同创新中心
-
出处
《中文信息学报》
CSCD
北大核心
2017年第5期1-7,20,共8页
-
基金
国家自然科学基金(61572245)
国家重点基础研究发展计划(2014CB340504)
国家社会科学基金(15BYY094)
-
文摘
词类标注问题历来受到中文信息处理、汉语语法和词汇学界的共同关注,学者们已提出多种词类标记体系,彼此间存在较大差异,但迄今尚无人对大规模词类标注工程进行系统比较。该文以《现代汉语词典》第5版和《现代汉语语法信息词典》两个大型词典词类标注工程为比较对象,基于所提出的词类对应算法,自动找出两部词典词类标注上的差异,进而对形成差异的原因进行分析。分析结果表明,两部词典词类标注一致性较高(83.5%完全相同),而存在差异的地方可归结为三类主要原因:词类迁移;词类判断标准不一致;收录义项不同。
-
关键词
现代汉语词典
现代汉语语法信息词典
词类标注
词类对应
-
Keywords
Dictionary of contemporary chinese
grammatical knowledge-base Dictionary
part-of-speech annotation
part-of-speech correspondence
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名《汉语高频词语法信息词典》的研制
被引量:2
- 7
-
-
作者
朱学锋
张化瑞
段慧明
俞士汶
-
机构
北京大学计算语言学研究所
-
出处
《语言文字应用》
CSSCI
北大核心
2004年第3期98-104,共7页
-
基金
本项研究得到国家 973项目 (G19980 30 5 0 1A 0 1)
86 3计划 (2 0 0 1AA114 2 10
2 0 0 2AA1170 10 )的支持
-
文摘
北京大学计算语言学研究所自 2 0 0 3年 1月起承担了国家重点基础研究973项目《汉语高频词语法信息词典》的研制任务 ,至 2 0 0 3年 9月已完成。本文详细介绍《汉语高频词语法信息词典》
-
关键词
现代汉语语法信息词典
综合型语言知识库
-
Keywords
The grammatical Knowledge base of contemporary chinese
Comprehensive Language Knowledge base
-
分类号
H125.19
[语言文字—汉语]
-
-
题名词汇计量研究与常用词知识库建设
被引量:5
- 8
-
-
作者
俞士汶
朱学锋
-
机构
北京大学计算语言学研究所计算语言学教育部重点实验室
语言能力协同创新中心
-
出处
《中文信息学报》
CSCD
北大核心
2015年第3期16-20,共5页
-
基金
国家重点基础研究发展计划(2014CB340504)
国家自然科学基金(61272221
61170163)
-
文摘
面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。该文在评述汉语词汇计量研究的主要成果以后,提出一个汉语常用词知识库的建设任务,并给出常用词表的构造性定义、词表常用性的定量评价方法以及"部件词"的概念,最后介绍现代汉语常用词知识库的总体设计和已经做的工作。期望常用词知识库的建设能为汉语词汇语义学研究、为中文信息处理事业的发展做出贡献。
-
关键词
汉语常用词知识库
《中国语言生活状况报告》
综合型语言知识库
《现代汉语语法信息词典》
部件词
-
Keywords
knowledge base of chinese commonly used words
Language Situation in China
comprehensive lan-guage knowledge base
grammatical Knowledge base of contemporary chinese
component word
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名建设综合型语言知识库的理念与成果的价值
被引量:13
- 9
-
-
作者
俞士汶
-
机构
北京大学计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2007年第6期3-12,共10页
-
基金
国家973课题资助项目(2004CB318102)
-
文摘
积20余年之努力与锤炼,北京大学计算语言学研究所完成的一项科研成果"综合型语言知识库"于2007年2月通过了教育部组织的技术鉴定。鉴定结论认为"其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平"。本文在介绍以《现代汉语语法信息词典》为基础的综合型语言知识库的规模、构成、内容、品质和发展历程之后,陈述建设综合型语言知识库的理念,期望与读者分享在计算语言学和自然语言处理这一交叉学科领域内治学的心得与研发的经验。同时也对这项成果的应用实例进行分析,评估它的应用潜力,期望它在以汉语为核心的多语言信息处理事业的发展中起到铺路填坑或者投石问路的作用。
-
关键词
计算机应用
中文信息处理
综合型语言知识库
多语言信息处理
计算语言学
自然语言处理
现代汉语语
法信息词典
治学心得
-
Keywords
computer application
chinese information processing
comprehensive language knowledge-base
multilanguage information processing
computational linguistics
natural language processing
grammatical kvowledgebase of contemporary chinese
research experience
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名论现代汉语语法的特点
被引量:7
- 10
-
-
作者
安华林
-
机构
广东海洋大学文学院
-
出处
《信阳师范学院学报(哲学社会科学版)》
2008年第4期96-102,共7页
-
基金
教育部人文社会科学研究2007年度规划基金项目(07JA740017)
-
文摘
在以往对汉语语法特点探讨的基础上,文章认为现代汉语语法有三大根本特点:汉语是分析型语言,缺乏严格意义上的形态变化;汉语是重语用的语言,语法跟语境的关系密切;汉语是重韵律的语言,节律对句法结构有制约作用。三个特点的关系是"一体二用"。
-
关键词
现代汉语
语法特点
分析型语言
重语用
重韵律
-
Keywords
on". contemporary chinese language
grammatical characteristic
analytic language
stressing on pragmatics
stressing on meter
-
分类号
H146
[语言文字—汉语]
-
-
题名面向自然语言处理的机器词典的研制
被引量:2
- 11
-
-
作者
俞士汶
朱学锋
-
机构
北京大学计算语言学教育部重点实验室
北京大学计算语言学研究所
-
出处
《辞书研究》
2019年第2期22-30,I0001,共10页
-
基金
中国国家自然科学基金项目"汉语抽象意义表示关键技术研究"(项目编号61772278)的支持
-
文摘
北京大学计算语言学研究所积30余年之努力,研制了一部面向自然语言处理的机器词典,即《现代汉语语法信息词典》(以下简称GKB)。基于GKB,又衍生了一系列成果,进而集成为综合型语言知识库。文章扼要介绍GKB及相关成果,并总结从事大型语言工程的实践经验,期望这些经验不仅对语言工程的实践者,而且对探索学科交叉融合的学者都有参考价值。
-
关键词
自然语言处理
语言工程
现代汉语语法信息词典
综合型语言知识库
交叉学科
-
Keywords
natural language processing
language engineering
grammatical Knowledge Base of contemporary chinese
Comprehensive Language Knowledge Base
interdisciplinary
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名词义构成视角下的当代汉语词义演变类型研究
被引量:2
- 12
-
-
作者
郭伏良
白云霜
-
机构
河北大学国际交流与教育学院
保定学院中文系
-
出处
《苏州教育学院学报》
2011年第3期11-15,共5页
-
基金
河北省社会科学基金资助项目(HB08BYY005)
-
文摘
当代汉语词义演变在词义构成的三个方面都有体现。词汇意义方面主要为扩大和转移,缩小和虚化的情形较少;色彩意义方面表现为感情色彩的贬降或扬升、形象色彩的突显和强化、书面语体色彩的减弱与通用化;语法意义方面以转类为主,一些程度副词的新用法值得关注。
-
关键词
当代汉语
词汇意义
色彩意义
语法意义
词义演变
-
Keywords
contemporary chinese
lexical meaning
stylistic meaning
grammatical meaning
changes in word meaning
-
分类号
H136
[语言文字—汉语]
-
-
题名综合型语言知识库及其在语言教学中的应用
被引量:1
- 13
-
-
作者
俞士汶
朱学锋
-
机构
北京大学计算语言学教育部重点实验室
北京大学计算语言学研究所
-
出处
《北华大学学报(社会科学版)》
2014年第3期4-9,共6页
-
基金
国家973课题"融合三元空间的中文语言知识与世界知识获取和组织"(2014CB340504)
国家自然科学基金项目"汉语全文词义标注关键技术研究"(61272221)
"隐喻识别与理解的理论与方法研究"(61170163)的阶段性成果之一
-
文摘
自然语言处理研究的目标是让计算机学会理解和运用人类的自然语言,这就必须给计算机配备一个包含自然语言的词汇、句法、语义知识的语言知识库。北京大学计算语言学研究所(ICL/PKU)自1986年起,历时26年,研制出面向自然语言处理的"综合型语言知识库"。综合型语言知识库中的语言知识所具有的周遍性、格式化、显性化等特点,使得它能够在汉语语言教学领域发挥作用。
-
关键词
自然语言处理
计算语言学
现代汉语语法信息词典
综合型语言知识库
语言教学
-
Keywords
Natural language processing
Computational linguistics
grammatical knowledge-base of contemporary chinese
Comprehensive Language Knowledge Base
Language teaching
-
分类号
H087
[语言文字—语言学]
TP319
[自动化与计算机技术—计算机软件与理论]
-
-
题名计算语言学浅介
被引量:4
- 14
-
-
作者
俞士汶
朱学锋
-
机构
北京大学
-
出处
《术语标准化与信息技术》
2009年第3期34-39,共6页
-
基金
国家973课题(2004CB318102)
国家自然科学基金项目(60773173)支持
-
文摘
计算语言学是文理交叉的新兴学科,以自然语言(汉语、英语等)的计算机处理(包括分析和生成)为研究内容,其最高境界是自然语言的机器理解,从而在人机之间实现自然语言的交互。本文简单介绍计算语言学和自然语言处理的研究对象、内容和当前的主攻方向。语言知识库是支撑自然语言处理研究的重要基础。本文也介绍了作者及其同仁在语言知识库建设方面所作的努力。最后,展望了自然语言理解研究的前景。
-
关键词
计算语言学
自然语言处理
自然语言理解
语言知识库
现代汉语语法信息词典
-
Keywords
computational linguistics
natural language processing
natural language understanding
language knowledge-base
the grammatical knowledge-base of contemporary chinese
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名《现代汉语语法信息词典》的概率化改造及其应用
- 15
-
-
作者
吴林
张仰森
王璐
-
机构
北京信息科技大学智能信息处理研究所
-
出处
《北京信息科技大学学报(自然科学版)》
2011年第6期57-61,共5页
-
基金
国家自然科学基金资助项目(60873013
61070119)
+1 种基金
北京大学计算语言学教育部重点实验室开放课题基金项目(KLCL-1005)
北京市属市管高等学校人才强教计划资助项目(PHR201007131)
-
文摘
针对《现代汉语语法信息词典》不能准确描述真实语料的缺陷,设计了构建概率型语法信息词典名词库的存储结构,提出利用统计模型概率化词语属性的方法,建立完整的名词概率化语法信息词典,设计并实现了概率型语法词典应用于语法词典自纠错的算法,实验证明其具有自纠错能力。
-
关键词
语法信息词典
概率化
查错
纠错
-
Keywords
grammatical knowledge-base of contemporary chinese
probability
error-detecting
correction
-
分类号
TP317
[自动化与计算机技术—计算机软件与理论]
-
-
题名当代汉语词汇新义研究
- 16
-
-
作者
白云霜
赵艳平
杨立琴
-
机构
保定学院中文系
-
出处
《保定学院学报》
2017年第1期102-107,136,共7页
-
基金
河北省社会科学基金项目"21世纪汉语词汇新义研究"(HB16YY002)(课题组成员:白云霜
赵艳平
+1 种基金
杨立琴
王春光)
-
文摘
当代汉语词汇中出现了大量新义。新义在词汇意义、色彩意义和语法意义三个方面呈现出不同的特点。新义与原义的关系,在词汇意义方面表现为相含、相关、相合、相似和辗转;在色彩意义方面表现为色彩的一致与不一致;在语法意义方面,表现为词性的一致和不一致。新义的三个构成方面互相联系,互相影响,三者之间存在共变关系。词汇新义折射出当代社会的某些特征。
-
关键词
现代汉语
词汇新义
词汇意义
色彩意义
语法意义
-
Keywords
contemporary chinese
new sememes of words
word meaning
colour meaning
grammatical meaning
-
分类号
H136
[语言文字—汉语]
-
-
题名关于《现代汉语词典(第5版)》词类标注的说明
被引量:44
- 17
-
-
作者
徐枢
谭景春
-
机构
中国社会科学院语言研究所
-
出处
《中国语文》
CSSCI
北大核心
2006年第1期74-86,共13页
-
文摘
本文对《现汉》标注词类的有关问题作了较为详细的说明。全文分为三个部分。第一部分介绍《现汉》标注词类所采用的词类系统和各类词的语法特点;第二部分讨论词与非词的区分,指出《现汉》是在区分词与非词的基础上给单字条目和多字条目标注词类的,并对如何区分词与非词作了具体的说明;第三部分讨论疑难问题,就几个容易产生分歧的问题提出了处理办法和这样处理的理由。
-
关键词
《现代汉语词典》词类
词类标注
语法功能
语法意义
-
Keywords
The contemporary chinese Dictionary
part of speech
grammatical function
grammatical meaning
-
分类号
H164
[语言文字—汉语]
-
-
题名不一致性:《现代汉语词典》词类标注亟需解决的问题
被引量:1
- 18
-
-
作者
张俊
-
机构
肇庆学院外国语学院
-
出处
《外国语言文学》
2020年第3期290-304,共15页
-
文摘
通过对《现汉》自5版以来词类标注问题有关研究文献和第7版中部分具有语义对称关系的词条词类标注情况的考察发现,存在的主要问题有:1)兼类词数量和比例偏低;2)具有语义对称关系的词条词类标注不尽一致,甚至相互矛盾。《现汉》在词类标注方面之所以出现上述问题,其根本原因在于词类标注理论前后的不一致和词类标注实践与词类标注理论的不一致。词类既然是词在语法功能上的分类,而词的语法功能又是在使用中浮现出来的,那么在划分词类和判断兼类时不仅应坚持语法功能标准,在词类标注实践中还应始终贯彻这一标准,并通过基于语料库的使用模式调查如实反映词目词类信息,以尽可能确保词典词类标注的准确性、系统性和全面性。
-
关键词
一致性
《现代汉语词典》
词类
语法功能
兼类
-
Keywords
consistency
contemporary chinese Dictionary
part of speech
grammatical function
multi-category words
-
分类号
H0
[语言文字—语言学]
-