-
题名大规模现代汉语标注语料库的加工规范
被引量:30
- 1
-
-
作者
俞士汶
朱学锋
段慧明
-
机构
北京大学计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2000年第6期58-64,共7页
-
基金
富士通公司及北京大学 985项目
-
文摘
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上 ,又在实施另一项大型语言工程 ,即对大规模的现代汉语原始语料进行多级加工 ,目前的加工项目包括词语切分、词性标注 (包括动词和形容词的特殊用法 ) ,并标出专有名词以及短语型的地名、机构名称等等。规划中的语料库规模约为 2 70 0万字。现在已经完成了 1 40 0万字的任务 ,而且质量很高。要建成高质量的标注语料库 ,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。
-
关键词
现代汉语标注语料库
词语切分
词性标注
加工
-
Keywords
contemporary chinese tagged corpus
segmentation
part of speech tagging
the grammatical knowledge base of contemporary chinese
processing guidline
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名《现代汉语语法信息词典》的新进展
被引量:9
- 2
-
-
作者
俞士汶
朱学锋
王惠
-
机构
北京大学计算机系计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2001年第1期59-64,F003,共7页
-
基金
国家社科基金 !( 97@yy0 0 1-6)
国家自然科学基金! ( 69973 0 0 5)
+1 种基金
国家 973项目! (G 19980 3 0 50 7-4 )
北京大学985项目
-
文摘
:《现代汉语语法信息词典》是面向汉语信息处理的基本语言知识库。 1995年 11月底通过技术鉴定。 5年来 ,北大计算语言学研究所在应用、推广的同时 ,仍把重要的力量投入词典本身的发展。至目前为止 ,词典收词已由 5万条增加到 7.3万条 ,并且全部完成了归类 ;为了处理未定义词 ,还开发了一个全新的语素库 ;词语语法属性描述中的瑕疵得到了进一步的修正 ,新增了 2 0多个语法属性项目和大量的实例。
-
关键词
中文信息处理
语法属性描述
语言知识库
语素库
《现代汉语语法信息词典》
语法属性项目
-
Keywords
chinese information processing
contemporary chinese
grammatical attribute description
grammatical knowledge base
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名综合型语言知识库及其前景
被引量:9
- 3
-
-
作者
俞士汶
穗志方
朱学锋
-
机构
北京大学计算语言学教育部重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2011年第6期12-20,共9页
-
基金
国家自然科学基金资助项目(60970083)
国家社会科学基金资助项目(09BYY032)
-
文摘
北京大学计算语言学研究所自1986年起,历时25年建成综合型语言知识库(CLKB)。CLKB包括6个语言知识库、10项规范与标准、基础软件工具集和4个应用系统,它们相互支撑,形成一个有机整体。CLKB的系列化的语言知识涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。尽管CLKB已形成阶段性成果,但它仍在发展中。该文重点介绍CLKB的语言知识库,也探讨其发展方向。
-
关键词
自然语言处理
计算语言学
语言工程
综合型语言知识库
现代汉语语法信息词典
-
Keywords
natural language processing
computational linguistics
language engineering
comprehensive language knowledge base
grammatical knowledge-base of contemporary chinese
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名现代汉语名词语法属性的计量研究初探
被引量:2
- 4
-
-
作者
王萌
俞士汶
段慧明
孙薇薇
-
机构
北京大学计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2008年第5期22-29,38,共9页
-
基金
国家973课题资助项目(2004CB318102)
-
文摘
以《现代汉语语法信息词典》中语法属性的概率化描述为目标,基于1998年上半年《人民日报》标注语料,对名词语法属性的概率化进行了初步的实验研究。首先,考察了名词与数词、名词与量词搭配的相关属性,引进"分散度"概念,利用它对"数名"结构进行了定量分析;其次,考察了名词受不同量词修饰的分布情况。最后,把实验结果与《现代汉语语法信息词典》的相应属性进行了比照和分析,在属性概率化的同时也对其正确性进行了验证。
-
关键词
计算机应用
中文信息处理
现代汉语
现代汉语语法信息词典
概率语法属性描述
基本标注语料库
“数名”结构
“数量名”短语
-
Keywords
computer application
chinese information processing
contemporary chinese
the grammatical knowledge-base of contemporary chinese
description of probabilistic grammatical attribute^POS tagged corpus
"numeral- noun" structure
"numerallassifier-noun" phrase
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名词汇计量研究与常用词知识库建设
被引量:5
- 5
-
-
作者
俞士汶
朱学锋
-
机构
北京大学计算语言学研究所计算语言学教育部重点实验室
语言能力协同创新中心
-
出处
《中文信息学报》
CSCD
北大核心
2015年第3期16-20,共5页
-
基金
国家重点基础研究发展计划(2014CB340504)
国家自然科学基金(61272221
61170163)
-
文摘
面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。该文在评述汉语词汇计量研究的主要成果以后,提出一个汉语常用词知识库的建设任务,并给出常用词表的构造性定义、词表常用性的定量评价方法以及"部件词"的概念,最后介绍现代汉语常用词知识库的总体设计和已经做的工作。期望常用词知识库的建设能为汉语词汇语义学研究、为中文信息处理事业的发展做出贡献。
-
关键词
汉语常用词知识库
《中国语言生活状况报告》
综合型语言知识库
《现代汉语语法信息词典》
部件词
-
Keywords
knowledge base of chinese commonly used words
Language Situation in China
comprehensive lan-guage knowledge base
grammatical knowledge base of contemporary chinese
component word
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名《现汉》与《语法信息词典》词类对应分析
被引量:3
- 6
-
-
作者
邱立坤
赵慧
俞士汶
朱学锋
-
机构
鲁东大学文学院
北京大学计算语言学教育部重点实验室
语言能力协同创新中心
-
出处
《中文信息学报》
CSCD
北大核心
2017年第5期1-7,20,共8页
-
基金
国家自然科学基金(61572245)
国家重点基础研究发展计划(2014CB340504)
国家社会科学基金(15BYY094)
-
文摘
词类标注问题历来受到中文信息处理、汉语语法和词汇学界的共同关注,学者们已提出多种词类标记体系,彼此间存在较大差异,但迄今尚无人对大规模词类标注工程进行系统比较。该文以《现代汉语词典》第5版和《现代汉语语法信息词典》两个大型词典词类标注工程为比较对象,基于所提出的词类对应算法,自动找出两部词典词类标注上的差异,进而对形成差异的原因进行分析。分析结果表明,两部词典词类标注一致性较高(83.5%完全相同),而存在差异的地方可归结为三类主要原因:词类迁移;词类判断标准不一致;收录义项不同。
-
关键词
现代汉语词典
现代汉语语法信息词典
词类标注
词类对应
-
Keywords
Dictionary of contemporary chinese
grammatical knowledge-base Dictionary
part-of-speech annotation
part-of-speech correspondence
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名《汉语高频词语法信息词典》的研制
被引量:2
- 7
-
-
作者
朱学锋
张化瑞
段慧明
俞士汶
-
机构
北京大学计算语言学研究所
-
出处
《语言文字应用》
CSSCI
北大核心
2004年第3期98-104,共7页
-
基金
本项研究得到国家 973项目 (G19980 30 5 0 1A 0 1)
86 3计划 (2 0 0 1AA114 2 10
2 0 0 2AA1170 10 )的支持
-
文摘
北京大学计算语言学研究所自 2 0 0 3年 1月起承担了国家重点基础研究973项目《汉语高频词语法信息词典》的研制任务 ,至 2 0 0 3年 9月已完成。本文详细介绍《汉语高频词语法信息词典》
-
关键词
现代汉语语法信息词典
综合型语言知识库
-
Keywords
the grammatical knowledge base of contemporary chinese
Comprehensive Language knowledge base
-
分类号
H125.19
[语言文字—汉语]
-
-
题名建设综合型语言知识库的理念与成果的价值
被引量:13
- 8
-
-
作者
俞士汶
-
机构
北京大学计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2007年第6期3-12,共10页
-
基金
国家973课题资助项目(2004CB318102)
-
文摘
积20余年之努力与锤炼,北京大学计算语言学研究所完成的一项科研成果"综合型语言知识库"于2007年2月通过了教育部组织的技术鉴定。鉴定结论认为"其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平"。本文在介绍以《现代汉语语法信息词典》为基础的综合型语言知识库的规模、构成、内容、品质和发展历程之后,陈述建设综合型语言知识库的理念,期望与读者分享在计算语言学和自然语言处理这一交叉学科领域内治学的心得与研发的经验。同时也对这项成果的应用实例进行分析,评估它的应用潜力,期望它在以汉语为核心的多语言信息处理事业的发展中起到铺路填坑或者投石问路的作用。
-
关键词
计算机应用
中文信息处理
综合型语言知识库
多语言信息处理
计算语言学
自然语言处理
现代汉语语
法信息词典
治学心得
-
Keywords
computer application
chinese information processing
comprehensive language knowledge-base
multilanguage information processing
computational linguistics
natural language processing
grammatical kvowledgebase of contemporary chinese
research experience
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向自然语言处理的机器词典的研制
被引量:2
- 9
-
-
作者
俞士汶
朱学锋
-
机构
北京大学计算语言学教育部重点实验室
北京大学计算语言学研究所
-
出处
《辞书研究》
2019年第2期22-30,I0001,共10页
-
基金
中国国家自然科学基金项目"汉语抽象意义表示关键技术研究"(项目编号61772278)的支持
-
文摘
北京大学计算语言学研究所积30余年之努力,研制了一部面向自然语言处理的机器词典,即《现代汉语语法信息词典》(以下简称GKB)。基于GKB,又衍生了一系列成果,进而集成为综合型语言知识库。文章扼要介绍GKB及相关成果,并总结从事大型语言工程的实践经验,期望这些经验不仅对语言工程的实践者,而且对探索学科交叉融合的学者都有参考价值。
-
关键词
自然语言处理
语言工程
现代汉语语法信息词典
综合型语言知识库
交叉学科
-
Keywords
natural language processing
language engineering
grammatical knowledge base of contemporary chinese
Comprehensive Language knowledge base
interdisciplinary
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名综合型语言知识库及其在语言教学中的应用
被引量:1
- 10
-
-
作者
俞士汶
朱学锋
-
机构
北京大学计算语言学教育部重点实验室
北京大学计算语言学研究所
-
出处
《北华大学学报(社会科学版)》
2014年第3期4-9,共6页
-
基金
国家973课题"融合三元空间的中文语言知识与世界知识获取和组织"(2014CB340504)
国家自然科学基金项目"汉语全文词义标注关键技术研究"(61272221)
"隐喻识别与理解的理论与方法研究"(61170163)的阶段性成果之一
-
文摘
自然语言处理研究的目标是让计算机学会理解和运用人类的自然语言,这就必须给计算机配备一个包含自然语言的词汇、句法、语义知识的语言知识库。北京大学计算语言学研究所(ICL/PKU)自1986年起,历时26年,研制出面向自然语言处理的"综合型语言知识库"。综合型语言知识库中的语言知识所具有的周遍性、格式化、显性化等特点,使得它能够在汉语语言教学领域发挥作用。
-
关键词
自然语言处理
计算语言学
现代汉语语法信息词典
综合型语言知识库
语言教学
-
Keywords
Natural language processing
Computational linguistics
grammatical knowledge-base of contemporary chinese
Comprehensive Language knowledge base
Language teaching
-
分类号
H087
[语言文字—语言学]
TP319
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于SKCC与统计相结合的词语相似度计算方法
被引量:1
- 11
-
-
作者
张仰森
钟鼎
-
机构
北京信息科技大学智能信息处理研究所
-
出处
《北京信息科技大学学报(自然科学版)》
2012年第6期8-12,共5页
-
基金
国家自然科学基金项目(61070119)
北京市属市管高等学校人才强教计划资助项目(PHR201007131)
北京市教委专项(PXM2012-014224-000020)
-
文摘
介绍了一种全新的基于《现代汉语语义词典》(SKCC)的词语相似度计算方法,并在此基础上加入了基于统计的相似度计算方法,为语料的进一步处理提供了支持。
-
关键词
自然语言处理
现代汉语语义词典
相似度
-
Keywords
nature language processing
the semantic knowledge-base of contemporary chinese
similarity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名计算语言学浅介
被引量:4
- 12
-
-
作者
俞士汶
朱学锋
-
机构
北京大学
-
出处
《术语标准化与信息技术》
2009年第3期34-39,共6页
-
基金
国家973课题(2004CB318102)
国家自然科学基金项目(60773173)支持
-
文摘
计算语言学是文理交叉的新兴学科,以自然语言(汉语、英语等)的计算机处理(包括分析和生成)为研究内容,其最高境界是自然语言的机器理解,从而在人机之间实现自然语言的交互。本文简单介绍计算语言学和自然语言处理的研究对象、内容和当前的主攻方向。语言知识库是支撑自然语言处理研究的重要基础。本文也介绍了作者及其同仁在语言知识库建设方面所作的努力。最后,展望了自然语言理解研究的前景。
-
关键词
计算语言学
自然语言处理
自然语言理解
语言知识库
现代汉语语法信息词典
-
Keywords
computational linguistics
natural language processing
natural language understanding
language knowledge-base
the grammatical knowledge-base of contemporary chinese
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名《现代汉语语法信息词典》的概率化改造及其应用
- 13
-
-
作者
吴林
张仰森
王璐
-
机构
北京信息科技大学智能信息处理研究所
-
出处
《北京信息科技大学学报(自然科学版)》
2011年第6期57-61,共5页
-
基金
国家自然科学基金资助项目(60873013
61070119)
+1 种基金
北京大学计算语言学教育部重点实验室开放课题基金项目(KLCL-1005)
北京市属市管高等学校人才强教计划资助项目(PHR201007131)
-
文摘
针对《现代汉语语法信息词典》不能准确描述真实语料的缺陷,设计了构建概率型语法信息词典名词库的存储结构,提出利用统计模型概率化词语属性的方法,建立完整的名词概率化语法信息词典,设计并实现了概率型语法词典应用于语法词典自纠错的算法,实验证明其具有自纠错能力。
-
关键词
语法信息词典
概率化
查错
纠错
-
Keywords
grammatical knowledge-base of contemporary chinese
probability
error-detecting
correction
-
分类号
TP317
[自动化与计算机技术—计算机软件与理论]
-
-
题名现代汉语广义助词知识库构建与应用
被引量:2
- 14
-
-
作者
刘亮
-
机构
郑州大学
-
出处
《光盘技术》
2008年第4期14-16,共3页
-
文摘
从计算语言学的观点出发,根据目前已有的虚词研究成果以及对《人民日报》分词与词性标注语料中虚词用法规律的考察,着力构建现代汉语广义助词知识库,旨在为现代汉语助词用法的机器识别打下一定的数据基础。
-
关键词
现代汉语助词
语言知识库
规则库
语料库
-
Keywords
contemporary chinese auxiliary words
language knowledge base
rule base
corpus
-
分类号
H146
[语言文字—汉语]
-
-
题名《动词句法语义信息词典》知识体系及其检索界面
被引量:2
- 15
-
-
作者
袁毓林
曹宏
-
机构
澳门大学人文学院中国语言文学系
北京大学考古文博学院
-
出处
《中文信息学报》
CSCD
北大核心
2022年第8期29-36,45,共9页
-
基金
国家科技创新2030“新一代人工智能”重大项目(2020AAA0106701)
国家社会科学基金(18ZDA295)。
-
文摘
该文首先介绍《动词句法语义信息词典》的体系结构与理论背景;然后,介绍该词典所区分的8种动词小类及其定义;重点介绍该词典为动词所设置的22种语义角色及其定义,由这些语义角色的不同配置而造成的20来种句法格式及其例句,及其所考察的动词的9种主要的语法功能及其对于该词类的隶属度;最后,给出该词典的检索系统的界面截图,交代其相应的纸质版本的情况。
-
关键词
动词句法语义信息词典
动词小类
语义角色
句法格式
语法功能
-
Keywords
the Syntactic-Semantic knowledge-base of chinese Verbs(KB@verb)
sub-classes of verbs
semantic roles
syntactic formats
grammatical functions
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名语义互联国史百科的知识组织研究与实现
被引量:2
- 16
-
-
作者
雷枫
-
机构
中国社会科学院当代中国研究所
-
出处
《科研信息化技术与应用》
2015年第3期24-34,共11页
-
基金
中国社会科学院2014年创新项目"中华人民共和国史教育网"
-
文摘
本文针对国史学科知识特色,提出了构建国史本体的思路,构建了一个可供机器阅读和理解的国史语义知识库,并基于此对网络国史百科知识进行符合学科逻辑的有序化组织,实现了语义互联国史百科的构想,同时通过提供交互可视化智能检索,构建了一个智能历史知识学习平台。本项目的研究对于促进网络百科发展、提高知识服务水平具有重要意义。
-
关键词
中华人民共和国史
网络百科
学科本体
语义知识库
知识图谱
-
Keywords
contemporary chinese history
online encyclopedia
domain ontology
semantic knowledge base
knowledge graph
-
分类号
G250
[文化科学—图书馆学]
-