期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
大规模现代汉语标注语料库的加工规范 被引量:29
1
作者 俞士汶 朱学锋 段慧明 《中文信息学报》 CSCD 北大核心 2000年第6期58-64,共7页
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上 ,又在实施另一项大型语言工程 ,即对大规模的现代汉语原始语料进行多级加工 ,目前的加工项目包括词语切分、词性标注 (包括动词和形容词的特殊用法 ) ,并... 北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上 ,又在实施另一项大型语言工程 ,即对大规模的现代汉语原始语料进行多级加工 ,目前的加工项目包括词语切分、词性标注 (包括动词和形容词的特殊用法 ) ,并标出专有名词以及短语型的地名、机构名称等等。规划中的语料库规模约为 2 70 0万字。现在已经完成了 1 40 0万字的任务 ,而且质量很高。要建成高质量的标注语料库 ,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。 展开更多
关键词 现代汉语标注语料库 词语切分 词性标注 加工
下载PDF
《现代汉语语法信息词典》的新进展 被引量:9
2
作者 俞士汶 朱学锋 王惠 《中文信息学报》 CSCD 北大核心 2001年第1期59-64,F003,共7页
:《现代汉语语法信息词典》是面向汉语信息处理的基本语言知识库。 1995年 11月底通过技术鉴定。 5年来 ,北大计算语言学研究所在应用、推广的同时 ,仍把重要的力量投入词典本身的发展。至目前为止 ,词典收词已由 5万条增加到 7.3万条 ... :《现代汉语语法信息词典》是面向汉语信息处理的基本语言知识库。 1995年 11月底通过技术鉴定。 5年来 ,北大计算语言学研究所在应用、推广的同时 ,仍把重要的力量投入词典本身的发展。至目前为止 ,词典收词已由 5万条增加到 7.3万条 ,并且全部完成了归类 ;为了处理未定义词 ,还开发了一个全新的语素库 ;词语语法属性描述中的瑕疵得到了进一步的修正 ,新增了 2 0多个语法属性项目和大量的实例。 展开更多
关键词 中文信息处理 语法属性描述 语言知识库 语素库 《现代汉语语法信息词典》 语法属性项目
下载PDF
综合型语言知识库及其前景 被引量:8
3
作者 俞士汶 穗志方 朱学锋 《中文信息学报》 CSCD 北大核心 2011年第6期12-20,共9页
北京大学计算语言学研究所自1986年起,历时25年建成综合型语言知识库(CLKB)。CLKB包括6个语言知识库、10项规范与标准、基础软件工具集和4个应用系统,它们相互支撑,形成一个有机整体。CLKB的系列化的语言知识涵盖词、词组、句子、篇章... 北京大学计算语言学研究所自1986年起,历时25年建成综合型语言知识库(CLKB)。CLKB包括6个语言知识库、10项规范与标准、基础软件工具集和4个应用系统,它们相互支撑,形成一个有机整体。CLKB的系列化的语言知识涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。尽管CLKB已形成阶段性成果,但它仍在发展中。该文重点介绍CLKB的语言知识库,也探讨其发展方向。 展开更多
关键词 自然语言处理 计算语言学 语言工程 综合型语言知识库 现代汉语语法信息词典
下载PDF
现代汉语名词语法属性的计量研究初探 被引量:2
4
作者 王萌 俞士汶 +1 位作者 段慧明 孙薇薇 《中文信息学报》 CSCD 北大核心 2008年第5期22-29,38,共9页
以《现代汉语语法信息词典》中语法属性的概率化描述为目标,基于1998年上半年《人民日报》标注语料,对名词语法属性的概率化进行了初步的实验研究。首先,考察了名词与数词、名词与量词搭配的相关属性,引进"分散度"概念,利用它... 以《现代汉语语法信息词典》中语法属性的概率化描述为目标,基于1998年上半年《人民日报》标注语料,对名词语法属性的概率化进行了初步的实验研究。首先,考察了名词与数词、名词与量词搭配的相关属性,引进"分散度"概念,利用它对"数名"结构进行了定量分析;其次,考察了名词受不同量词修饰的分布情况。最后,把实验结果与《现代汉语语法信息词典》的相应属性进行了比照和分析,在属性概率化的同时也对其正确性进行了验证。 展开更多
关键词 计算机应用 中文信息处理 现代汉语 现代汉语语法信息词典 概率语法属性描述 基本标注语料库 “数名”结构 “数量名”短语
下载PDF
词汇计量研究与常用词知识库建设 被引量:5
5
作者 俞士汶 朱学锋 《中文信息学报》 CSCD 北大核心 2015年第3期16-20,共5页
面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。该文在评述汉语词汇计量研究的主要成果以后,提出一个汉语常用词知识库的建设任务,并给出常用词表的构造性定义、词表常用性的定量评价方法以及"部件词"的概念,... 面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。该文在评述汉语词汇计量研究的主要成果以后,提出一个汉语常用词知识库的建设任务,并给出常用词表的构造性定义、词表常用性的定量评价方法以及"部件词"的概念,最后介绍现代汉语常用词知识库的总体设计和已经做的工作。期望常用词知识库的建设能为汉语词汇语义学研究、为中文信息处理事业的发展做出贡献。 展开更多
关键词 汉语常用词知识库 《中国语言生活状况报告》 综合型语言知识库 《现代汉语语法信息词典》 部件词
下载PDF
《现汉》与《语法信息词典》词类对应分析 被引量:3
6
作者 邱立坤 赵慧 +1 位作者 俞士汶 朱学锋 《中文信息学报》 CSCD 北大核心 2017年第5期1-7,20,共8页
词类标注问题历来受到中文信息处理、汉语语法和词汇学界的共同关注,学者们已提出多种词类标记体系,彼此间存在较大差异,但迄今尚无人对大规模词类标注工程进行系统比较。该文以《现代汉语词典》第5版和《现代汉语语法信息词典》两个大... 词类标注问题历来受到中文信息处理、汉语语法和词汇学界的共同关注,学者们已提出多种词类标记体系,彼此间存在较大差异,但迄今尚无人对大规模词类标注工程进行系统比较。该文以《现代汉语词典》第5版和《现代汉语语法信息词典》两个大型词典词类标注工程为比较对象,基于所提出的词类对应算法,自动找出两部词典词类标注上的差异,进而对形成差异的原因进行分析。分析结果表明,两部词典词类标注一致性较高(83.5%完全相同),而存在差异的地方可归结为三类主要原因:词类迁移;词类判断标准不一致;收录义项不同。 展开更多
关键词 现代汉语词典 现代汉语语法信息词典 词类标注 词类对应
下载PDF
《汉语高频词语法信息词典》的研制 被引量:2
7
作者 朱学锋 张化瑞 +1 位作者 段慧明 俞士汶 《语言文字应用》 CSSCI 北大核心 2004年第3期98-104,共7页
北京大学计算语言学研究所自 2 0 0 3年 1月起承担了国家重点基础研究973项目《汉语高频词语法信息词典》的研制任务 ,至 2 0 0 3年 9月已完成。本文详细介绍《汉语高频词语法信息词典》
关键词 现代汉语语法信息词典 综合型语言知识库
下载PDF
建设综合型语言知识库的理念与成果的价值 被引量:12
8
作者 俞士汶 《中文信息学报》 CSCD 北大核心 2007年第6期3-12,共10页
积20余年之努力与锤炼,北京大学计算语言学研究所完成的一项科研成果"综合型语言知识库"于2007年2月通过了教育部组织的技术鉴定。鉴定结论认为"其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果... 积20余年之努力与锤炼,北京大学计算语言学研究所完成的一项科研成果"综合型语言知识库"于2007年2月通过了教育部组织的技术鉴定。鉴定结论认为"其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平"。本文在介绍以《现代汉语语法信息词典》为基础的综合型语言知识库的规模、构成、内容、品质和发展历程之后,陈述建设综合型语言知识库的理念,期望与读者分享在计算语言学和自然语言处理这一交叉学科领域内治学的心得与研发的经验。同时也对这项成果的应用实例进行分析,评估它的应用潜力,期望它在以汉语为核心的多语言信息处理事业的发展中起到铺路填坑或者投石问路的作用。 展开更多
关键词 计算机应用 中文信息处理 综合型语言知识库 多语言信息处理 计算语言学 自然语言处理 现代汉语语 法信息词典 治学心得
下载PDF
面向自然语言处理的机器词典的研制 被引量:2
9
作者 俞士汶 朱学锋 《辞书研究》 2019年第2期22-30,I0001,共10页
北京大学计算语言学研究所积30余年之努力,研制了一部面向自然语言处理的机器词典,即《现代汉语语法信息词典》(以下简称GKB)。基于GKB,又衍生了一系列成果,进而集成为综合型语言知识库。文章扼要介绍GKB及相关成果,并总结从事大型语言... 北京大学计算语言学研究所积30余年之努力,研制了一部面向自然语言处理的机器词典,即《现代汉语语法信息词典》(以下简称GKB)。基于GKB,又衍生了一系列成果,进而集成为综合型语言知识库。文章扼要介绍GKB及相关成果,并总结从事大型语言工程的实践经验,期望这些经验不仅对语言工程的实践者,而且对探索学科交叉融合的学者都有参考价值。 展开更多
关键词 自然语言处理 语言工程 现代汉语语法信息词典 综合型语言知识库 交叉学科
下载PDF
综合型语言知识库及其在语言教学中的应用 被引量:1
10
作者 俞士汶 朱学锋 《北华大学学报(社会科学版)》 2014年第3期4-9,共6页
自然语言处理研究的目标是让计算机学会理解和运用人类的自然语言,这就必须给计算机配备一个包含自然语言的词汇、句法、语义知识的语言知识库。北京大学计算语言学研究所(ICL/PKU)自1986年起,历时26年,研制出面向自然语言处理的"... 自然语言处理研究的目标是让计算机学会理解和运用人类的自然语言,这就必须给计算机配备一个包含自然语言的词汇、句法、语义知识的语言知识库。北京大学计算语言学研究所(ICL/PKU)自1986年起,历时26年,研制出面向自然语言处理的"综合型语言知识库"。综合型语言知识库中的语言知识所具有的周遍性、格式化、显性化等特点,使得它能够在汉语语言教学领域发挥作用。 展开更多
关键词 自然语言处理 计算语言学 现代汉语语法信息词典 综合型语言知识库 语言教学
下载PDF
基于SKCC与统计相结合的词语相似度计算方法 被引量:1
11
作者 张仰森 钟鼎 《北京信息科技大学学报(自然科学版)》 2012年第6期8-12,共5页
介绍了一种全新的基于《现代汉语语义词典》(SKCC)的词语相似度计算方法,并在此基础上加入了基于统计的相似度计算方法,为语料的进一步处理提供了支持。
关键词 自然语言处理 现代汉语语义词典 相似度
下载PDF
计算语言学浅介 被引量:3
12
作者 俞士汶 朱学锋 《术语标准化与信息技术》 2009年第3期34-39,共6页
计算语言学是文理交叉的新兴学科,以自然语言(汉语、英语等)的计算机处理(包括分析和生成)为研究内容,其最高境界是自然语言的机器理解,从而在人机之间实现自然语言的交互。本文简单介绍计算语言学和自然语言处理的研究对象、内容和当... 计算语言学是文理交叉的新兴学科,以自然语言(汉语、英语等)的计算机处理(包括分析和生成)为研究内容,其最高境界是自然语言的机器理解,从而在人机之间实现自然语言的交互。本文简单介绍计算语言学和自然语言处理的研究对象、内容和当前的主攻方向。语言知识库是支撑自然语言处理研究的重要基础。本文也介绍了作者及其同仁在语言知识库建设方面所作的努力。最后,展望了自然语言理解研究的前景。 展开更多
关键词 计算语言学 自然语言处理 自然语言理解 语言知识库 现代汉语语法信息词典
下载PDF
《现代汉语语法信息词典》的概率化改造及其应用
13
作者 吴林 张仰森 王璐 《北京信息科技大学学报(自然科学版)》 2011年第6期57-61,共5页
针对《现代汉语语法信息词典》不能准确描述真实语料的缺陷,设计了构建概率型语法信息词典名词库的存储结构,提出利用统计模型概率化词语属性的方法,建立完整的名词概率化语法信息词典,设计并实现了概率型语法词典应用于语法词典自纠错... 针对《现代汉语语法信息词典》不能准确描述真实语料的缺陷,设计了构建概率型语法信息词典名词库的存储结构,提出利用统计模型概率化词语属性的方法,建立完整的名词概率化语法信息词典,设计并实现了概率型语法词典应用于语法词典自纠错的算法,实验证明其具有自纠错能力。 展开更多
关键词 语法信息词典 概率化 查错 纠错
下载PDF
《动词句法语义信息词典》知识体系及其检索界面 被引量:1
14
作者 袁毓林 曹宏 《中文信息学报》 CSCD 北大核心 2022年第8期29-36,45,共9页
该文首先介绍《动词句法语义信息词典》的体系结构与理论背景;然后,介绍该词典所区分的8种动词小类及其定义;重点介绍该词典为动词所设置的22种语义角色及其定义,由这些语义角色的不同配置而造成的20来种句法格式及其例句,及其所考察的... 该文首先介绍《动词句法语义信息词典》的体系结构与理论背景;然后,介绍该词典所区分的8种动词小类及其定义;重点介绍该词典为动词所设置的22种语义角色及其定义,由这些语义角色的不同配置而造成的20来种句法格式及其例句,及其所考察的动词的9种主要的语法功能及其对于该词类的隶属度;最后,给出该词典的检索系统的界面截图,交代其相应的纸质版本的情况。 展开更多
关键词 动词句法语义信息词典 动词小类 语义角色 句法格式 语法功能
下载PDF
现代汉语广义助词知识库构建与应用 被引量:2
15
作者 刘亮 《光盘技术》 2008年第4期14-16,共3页
从计算语言学的观点出发,根据目前已有的虚词研究成果以及对《人民日报》分词与词性标注语料中虚词用法规律的考察,着力构建现代汉语广义助词知识库,旨在为现代汉语助词用法的机器识别打下一定的数据基础。
关键词 现代汉语助词 语言知识库 规则库 语料库
下载PDF
语义互联国史百科的知识组织研究与实现 被引量:2
16
作者 雷枫 《科研信息化技术与应用》 2015年第3期24-34,共11页
本文针对国史学科知识特色,提出了构建国史本体的思路,构建了一个可供机器阅读和理解的国史语义知识库,并基于此对网络国史百科知识进行符合学科逻辑的有序化组织,实现了语义互联国史百科的构想,同时通过提供交互可视化智能检索,构建了... 本文针对国史学科知识特色,提出了构建国史本体的思路,构建了一个可供机器阅读和理解的国史语义知识库,并基于此对网络国史百科知识进行符合学科逻辑的有序化组织,实现了语义互联国史百科的构想,同时通过提供交互可视化智能检索,构建了一个智能历史知识学习平台。本项目的研究对于促进网络百科发展、提高知识服务水平具有重要意义。 展开更多
关键词 中华人民共和国史 网络百科 学科本体 语义知识库 知识图谱
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部