期刊文献+
共找到146篇文章
< 1 2 8 >
每页显示 20 50 100
基于北京大学中文网库的语义角色分类 被引量:6
1
作者 杨敏 常宝宝 《中文信息学报》 CSCD 北大核心 2011年第2期3-8,共6页
语义角色标注的研究方法中使用最频繁的一类是基于特征工程,将任务转化成分类问题使用机器学习的方法来解决,几乎所有的有指导语义角色标注采用的标注语料都是宾州大学命题库标注体系。近年来,北京大学开发出一套新的标注语料—北京大... 语义角色标注的研究方法中使用最频繁的一类是基于特征工程,将任务转化成分类问题使用机器学习的方法来解决,几乎所有的有指导语义角色标注采用的标注语料都是宾州大学命题库标注体系。近年来,北京大学开发出一套新的标注语料—北京大学中文网库,该文的目的在于测试这类研究方法在新语料的效果,验证之前所使用的特征是否对标注语料具有依赖性。通过实验发现前人方法中的一些不足,尤其个别特征在北大网库上作用更关键。 展开更多
关键词 语义角色标注 北京大学中文网库 序列标注
下载PDF
汉语语义构词的资源建设与计算评估
2
作者 王悦 刘扬 +1 位作者 梁启亮 王涵思 《语言文字应用》 CSSCI 北大核心 2023年第4期105-117,共13页
汉语是一种意合型语言,汉语语素的构词方式及其规律是描述、理解词义的重要因素。关于语素构词的方式,语言学界有语法构词与语义构词这两种观点,其中,语义构词对语素间关系的表达更为深入。本文基于语言学视角,结合汉语构词特点,提出了... 汉语是一种意合型语言,汉语语素的构词方式及其规律是描述、理解词义的重要因素。关于语素构词的方式,语言学界有语法构词与语义构词这两种观点,其中,语义构词对语素间关系的表达更为深入。本文基于语言学视角,结合汉语构词特点,提出了一套面向计算的语义构词结构体系,通过随机森林自动标注与人工校验相结合的方式构建汉语语义构词知识库,并在词义生成的任务上对该资源进行计算评估。实验取得了良好的结果。基于语义构词知识库的词义生成BLEU值达25.07,较此前的语法构词提升了3.17%,初步验证了这种知识表示方法的有效性。该知识表示方法与资源建设将为人文领域和信息处理等应用提供新的思路与方案。 展开更多
关键词 汉语语素 汉语语义构词 资源建设 词义生成
下载PDF
中国计算语言学研究现状与展望 被引量:3
3
作者 耿立波 酆格斐 +1 位作者 詹卫东 杨亦鸣 《语言科学》 CSSCI 北大核心 2021年第5期491-499,共9页
“十三五”期间我国的计算语言学取得了长足的进步与发展,受到深度学习算法的推进,基础研究方面出现了较大突破,在语音识别、机器翻译、自动问答系统、知识资源建设、古文字和其他语种语言信息处理等应用方面也出现了很多重要成果。但... “十三五”期间我国的计算语言学取得了长足的进步与发展,受到深度学习算法的推进,基础研究方面出现了较大突破,在语音识别、机器翻译、自动问答系统、知识资源建设、古文字和其他语种语言信息处理等应用方面也出现了很多重要成果。但与世界先进水平相比,目前在很多领域内我们还只是处于跟跑阶段,并且深度学习算法的红利也已接近释放殆尽,在未来仍需要从算法基础架构、人脑语言的本质、深层语言理解等方面展开研究,发展机器语言能力等新兴方向,并积极开展复合型语言学人才的培养。 展开更多
关键词 计算语言学 深度学习 机器语言能力
下载PDF
自然语言处理评测数据集质量评估研究 被引量:3
4
作者 王诚文 董青秀 +3 位作者 穗志方 詹卫东 常宝宝 王海涛 《中文信息学报》 CSCD 北大核心 2023年第2期26-40,共15页
评测数据集是评测任务的载体,评测数据集的质量对评测任务的开展和评测指标的应用有着根本性的影响,因此对评测数据集的质量进行评估有着必要性和迫切性。该文在调研公开使用的自然语言处理主流数据集基础上,分析和总结了数据集中存在的... 评测数据集是评测任务的载体,评测数据集的质量对评测任务的开展和评测指标的应用有着根本性的影响,因此对评测数据集的质量进行评估有着必要性和迫切性。该文在调研公开使用的自然语言处理主流数据集基础上,分析和总结了数据集中存在的8类问题,并在参考人类考试及试卷质量评估的基础上,从信度、效度和难度出发,提出了数据集评估的相关指标和将计算性与操作性相结合的评估方法,旨在为自然语言处理评测数据集构造、选择和使用提供参考依据。 展开更多
关键词 自然语言处理 评测 数据集 质量评估
下载PDF
自然语言处理中主题模型的发展 被引量:237
5
作者 徐戈 王厚峰 《计算机学报》 EI CSCD 北大核心 2011年第8期1423-1436,共14页
主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者... 主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者从主题模型的起源隐性语义索引出发,对概率隐性语义索引以及LDA等在主题模型发展中的重要阶段性工作进行了介绍和分析,着重描述这些工作之间的关联性.LDA作为一个概率生成模型,很容易被扩展成其它形式的概率模型.作者对由LDA派生出的各种模型作了粗略分类,并选择了各类的代表性模型简单介绍.主题模型中最重要的两组参数分别是各主题下的词项概率分布和各文档的主题概率分布,作者对期望最大化算法在主题模型参数估计中的使用进行了分析,这有助于更深刻理解主题模型发展中各项工作的联系. 展开更多
关键词 自然语言处理 主题模型 隐性语义索引 LDA 期望最大化算法 GIBBS采样
下载PDF
综合型语言知识库及其前景 被引量:9
6
作者 俞士汶 穗志方 朱学锋 《中文信息学报》 CSCD 北大核心 2011年第6期12-20,共9页
北京大学计算语言学研究所自1986年起,历时25年建成综合型语言知识库(CLKB)。CLKB包括6个语言知识库、10项规范与标准、基础软件工具集和4个应用系统,它们相互支撑,形成一个有机整体。CLKB的系列化的语言知识涵盖词、词组、句子、篇章... 北京大学计算语言学研究所自1986年起,历时25年建成综合型语言知识库(CLKB)。CLKB包括6个语言知识库、10项规范与标准、基础软件工具集和4个应用系统,它们相互支撑,形成一个有机整体。CLKB的系列化的语言知识涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。尽管CLKB已形成阶段性成果,但它仍在发展中。该文重点介绍CLKB的语言知识库,也探讨其发展方向。 展开更多
关键词 自然语言处理 计算语言学 语言工程 综合型语言知识库 现代汉语语法信息词典
下载PDF
基于中文维基百科的词语语义相关度计算 被引量:9
7
作者 万富强 吴云芳 《中文信息学报》 CSCD 北大核心 2013年第6期31-37,109,共8页
语义相关度计算在信息检索、词义消歧、自动文摘、拼写校正等自然语言处理中均扮演着重要的角色。该文采用基于维基百科的显性语义分析方法计算汉语词语之间的语义相关度。基于中文维基百科,将词表示为带权重的概念向量,进而将词之间相... 语义相关度计算在信息检索、词义消歧、自动文摘、拼写校正等自然语言处理中均扮演着重要的角色。该文采用基于维基百科的显性语义分析方法计算汉语词语之间的语义相关度。基于中文维基百科,将词表示为带权重的概念向量,进而将词之间相关度的计算转化为相应的概念向量的比较。进一步,引入页面的先验概率,利用维基百科页面之间的链接信息对概念向量各分量的值进行修正。实验结果表明,使用该方法计算汉语语义相关度,与人工标注标准的斯皮尔曼等级相关系数可以达到0.52,显著改善了相关度计算的结果。 展开更多
关键词 语义相关度 显性语义分析 中文维基百科 先验概率 概念向量
下载PDF
基于大规模语料的汉语教学词表更新研究——以《汉语国际教育用音节汉字词汇等级划分》名词为例 被引量:3
8
作者 王治敏 俞士汶 《辞书研究》 2019年第5期64-74,122,123,共13页
文章利用2005-2009年这5年的《人民日报》和广播电视语料,重点考察了《汉语国际教育用音节汉字词汇等级划分》中的名词在大规模真实语料中的分布,通过设计统计时点连续分布的标准,成功过滤出过时的词汇,同时赋予《等级划分》中的名词以... 文章利用2005-2009年这5年的《人民日报》和广播电视语料,重点考察了《汉语国际教育用音节汉字词汇等级划分》中的名词在大规模真实语料中的分布,通过设计统计时点连续分布的标准,成功过滤出过时的词汇,同时赋予《等级划分》中的名词以常用度等各种统计特征,提供词语孰先孰后的证据,最后也提供了大规模语料中教学新词语的备选。文章的研究可为《等级划分》的旧词过滤、新词扩充、词语的等级划分提供新依据。 展开更多
关键词 教学词表 统计特征 统计时点 教材编写 词汇等级
下载PDF
面向自然语言处理的机器词典的研制 被引量:2
9
作者 俞士汶 朱学锋 《辞书研究》 2019年第2期22-30,I0001,共10页
北京大学计算语言学研究所积30余年之努力,研制了一部面向自然语言处理的机器词典,即《现代汉语语法信息词典》(以下简称GKB)。基于GKB,又衍生了一系列成果,进而集成为综合型语言知识库。文章扼要介绍GKB及相关成果,并总结从事大型语言... 北京大学计算语言学研究所积30余年之努力,研制了一部面向自然语言处理的机器词典,即《现代汉语语法信息词典》(以下简称GKB)。基于GKB,又衍生了一系列成果,进而集成为综合型语言知识库。文章扼要介绍GKB及相关成果,并总结从事大型语言工程的实践经验,期望这些经验不仅对语言工程的实践者,而且对探索学科交叉融合的学者都有参考价值。 展开更多
关键词 自然语言处理 语言工程 现代汉语语法信息词典 综合型语言知识库 交叉学科
下载PDF
综合型语言知识库及其在语言教学中的应用 被引量:1
10
作者 俞士汶 朱学锋 《北华大学学报(社会科学版)》 2014年第3期4-9,共6页
自然语言处理研究的目标是让计算机学会理解和运用人类的自然语言,这就必须给计算机配备一个包含自然语言的词汇、句法、语义知识的语言知识库。北京大学计算语言学研究所(ICL/PKU)自1986年起,历时26年,研制出面向自然语言处理的"... 自然语言处理研究的目标是让计算机学会理解和运用人类的自然语言,这就必须给计算机配备一个包含自然语言的词汇、句法、语义知识的语言知识库。北京大学计算语言学研究所(ICL/PKU)自1986年起,历时26年,研制出面向自然语言处理的"综合型语言知识库"。综合型语言知识库中的语言知识所具有的周遍性、格式化、显性化等特点,使得它能够在汉语语言教学领域发挥作用。 展开更多
关键词 自然语言处理 计算语言学 现代汉语语法信息词典 综合型语言知识库 语言教学
下载PDF
自然语言的自动分析与生成简介 被引量:5
11
作者 詹卫东 《术语标准化与信息技术》 2010年第4期33-42,共10页
自然语言的自动分析(理解)和生成构成了自然语言处理研究的全部内容。但这两个直觉上对称的任务在实际中却并没有平等的地位,前者受到更多的关注和讨论,后者的研究则相对薄弱。本文对自然语言自动分析和生成各自的目标、面临的问题,所... 自然语言的自动分析(理解)和生成构成了自然语言处理研究的全部内容。但这两个直觉上对称的任务在实际中却并没有平等的地位,前者受到更多的关注和讨论,后者的研究则相对薄弱。本文对自然语言自动分析和生成各自的目标、面临的问题,所采用的基本方法等做了概要的介绍,并对如何认识二者之间的关系做了初步的讨论。 展开更多
关键词 自然语言处理 句法分析 自然语言生成
下载PDF
面向语言能力提升的汉语成语知识库及其扩展
12
作者 俞士汶 罗鳯珠 +2 位作者 朱学锋 王雷 常宝宝 《西华大学学报(自然科学版)》 CAS 2015年第5期1-6,共6页
汉语成语知识库是北京大学计算语言学研究所研制的综合型语言知识库大家庭中的一名新成员,无论是对人还是机器的语言能力的提升,它都可以发挥作用。文章较详细地介绍汉语成语知识库的内容、构建理念和发展历程。将汉语成语知识库与台湾... 汉语成语知识库是北京大学计算语言学研究所研制的综合型语言知识库大家庭中的一名新成员,无论是对人还是机器的语言能力的提升,它都可以发挥作用。文章较详细地介绍汉语成语知识库的内容、构建理念和发展历程。将汉语成语知识库与台湾元智大学罗凤珠研制的诗词曲典故资料库相连接,2个知识库相得益彰。文章还提出了基于汉语成语知识库值得进一步研究的若干课题。 展开更多
关键词 !综合型语言知识库 语言能力 成语 成语知识库 典故资料库
下载PDF
语义成分、意义的结构及释义语言研究的价值
13
作者 朱彦 《辞书研究》 北大核心 2010年第6期13-26,共14页
语义成分是词义分解中的一个重要的概念,但语义成分究竟是什么东西,目前还没有清晰的认识。文章认为,语义成分是释义语言的组成成分,并由此出发,重新解释了语义成分的"普遍性"、"有限性"和"不可还原性",... 语义成分是词义分解中的一个重要的概念,但语义成分究竟是什么东西,目前还没有清晰的认识。文章认为,语义成分是释义语言的组成成分,并由此出发,重新解释了语义成分的"普遍性"、"有限性"和"不可还原性",确认了语义成分分析的相对性,提出从释义语的结构入手研究意义结构的新思路。文章把实义义位的结构概括为公式"实义义位-参照点(+区别特征)",并指出了该公式在词义研究中的价值,以及释义语言研究在词义研究中的根基性地位。 展开更多
关键词 语义成分 释义语言 意义的结构
下载PDF
自然语言处理评测中的问题与对策 被引量:10
14
作者 董青秀 穗志方 +1 位作者 詹卫东 常宝宝 《中文信息学报》 CSCD 北大核心 2021年第6期1-15,共15页
自然语言处理中的评测任务引导和推动着技术、模型和方法上的研究。近年来,新的评测数据集和评测任务不断被提出,与此同时,现有评测暴露的一系列问题也限制了自然语言处理技术的进步。该文从自然语言处理评测的概念、构成、发展和意义出... 自然语言处理中的评测任务引导和推动着技术、模型和方法上的研究。近年来,新的评测数据集和评测任务不断被提出,与此同时,现有评测暴露的一系列问题也限制了自然语言处理技术的进步。该文从自然语言处理评测的概念、构成、发展和意义出发,分类综述了主流自然语言处理评测的任务和特点,进而总结归纳了自然语言处理评测中的问题及其成因。最后,该文参照人类语言能力评测规范,提出类人机器语言能力评测的概念,并从信度、难度、效度三个方面提出了一系列类人机器语言能力评测的基本原则和实施设想,并对评测技术的未来发展进行了展望。 展开更多
关键词 自然语言处理评测 数据集偏差 评测指标
下载PDF
基于多特征的语义角色标注一致性计算方法研究 被引量:3
15
作者 柯永红 朱永福 +1 位作者 穗志方 俞士汶 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第3期475-480,共6页
综合语义角色标注语料的格式、标签结构、标签内容和用户可信度等多个特征,实现一种自动的语义角色标注一致性计算方法。实验证明,该方法对错误标注的召回率高,并且速度快,结果稳定,可以大幅度地提高语义角色标注一致性检查的效率。
关键词 语料库 多特征 一致性计算 语义角色标注
下载PDF
网络语言中构式的形成机制初探 被引量:8
16
作者 黄思思 詹卫东 《中文信息学报》 CSCD 北大核心 2017年第3期17-24,共8页
构式指整体意义无法从其组成部分简单加合出来的语言单位。该文以网络语言中的构式为考察对象,分析了网络语言中构式的浮现、扩散和固化的过程。网络语言中构式的浮现主要有语境赋义和错配成型两种机制。构式的扩散则可分为同范畴扩容... 构式指整体意义无法从其组成部分简单加合出来的语言单位。该文以网络语言中的构式为考察对象,分析了网络语言中构式的浮现、扩散和固化的过程。网络语言中构式的浮现主要有语境赋义和错配成型两种机制。构式的扩散则可分为同范畴扩容和跨范畴变异两种情况。构式的固化程度可以通过能产性、图式性和组合性三个维度进行衡量。最后该文总结了网络语言中构式化的三个特点。 展开更多
关键词 网络语言 构式 构式化 语言演化
下载PDF
基于语义构词的汉语词语语义相似度计算 被引量:3
17
作者 康司辰 刘扬 《中文信息学报》 CSCD 北大核心 2017年第1期94-101,111,共9页
汉语词语语义相似度计算,在中文信息处理的多种应用中扮演至关重要的角色。基于汉语字本位的思想,我们采用词类、构词结构、语素义等汉语语义构词知识,以"语素概念"为基础,计算汉语词语语义相似度。这种词义知识表示简单、直... 汉语词语语义相似度计算,在中文信息处理的多种应用中扮演至关重要的角色。基于汉语字本位的思想,我们采用词类、构词结构、语素义等汉语语义构词知识,以"语素概念"为基础,计算汉语词语语义相似度。这种词义知识表示简单、直观、易于拓展,计算模型简洁、易懂,采用了尽可能少的特征和参数。实验表明,该文方法在典型"取样词对"上的表现突出,其数值更符合人类的感性认知,且在全局数据上也表现出了合理的分布规律。 展开更多
关键词 词语语义相似度计算 语义构词 词义知识表示 语素概念
下载PDF
语言知识驱动的词嵌入向量的可解释性研究 被引量:2
18
作者 林星星 邱晓枫 +3 位作者 刘扬 虞梦夏 祁晶 康司辰 《中文信息学报》 CSCD 北大核心 2020年第8期1-9,共9页
神经网络语言模型应用广泛但可解释性较弱,其可解释性的一个重要而直接的方面表现为词嵌入向量的维度取值和语法语义等语言特征的关联状况。先前的可解释性工作集中于对语料库训得的词向量进行知识注入,以及基于训练和任务的算法性能分... 神经网络语言模型应用广泛但可解释性较弱,其可解释性的一个重要而直接的方面表现为词嵌入向量的维度取值和语法语义等语言特征的关联状况。先前的可解释性工作集中于对语料库训得的词向量进行知识注入,以及基于训练和任务的算法性能分析,对词嵌入向量和语言特征之间的关联缺乏直接的验证和探讨。该文应用基于语言知识库的伪语料法,通过控制注入语义特征,并对得到的词嵌入向量进行分析后取得了一些存在性的基础性结论:语义特征可以通过控制注入到词嵌入向量中;注入语义特征的词嵌入向量表现出很强的语义合成性,即上层概念可以由下层概念表示;语义特征的注入在词嵌入向量的所有维度上都有体现。 展开更多
关键词 可解释性 词嵌入向量 伪语料法
下载PDF
“综合型语言知识库”获国家科技进步奖二等奖
19
《语言文字应用》 CSSCI 北大核心 2012年第2期143-143,共1页
北京大学计算语言学研究所研制的综合型语言知识库(Comprehensive Language Knowledge Base,简称CLKB)继近几年连续获得政府部门和全国性学术团体的奖励之后,又获得2011年度国家科学技术进步奖二等奖(证书号:2011-J-220-2-02)。第... 北京大学计算语言学研究所研制的综合型语言知识库(Comprehensive Language Knowledge Base,简称CLKB)继近几年连续获得政府部门和全国性学术团体的奖励之后,又获得2011年度国家科学技术进步奖二等奖(证书号:2011-J-220-2-02)。第一完成人俞士汶教授参加了今年2月14日在北京举行的国家科学技术奖励大会。 展开更多
关键词 计算语言学 国家科技进步奖 知识库 综合型 国家科学技术奖励大会 国家科学技术进步奖 LANGUAGE 北京大学
下载PDF
“综合型语言知识库”获国家科技进步奖二等奖
20
《中文信息学报》 CSCD 北大核心 2012年第2期128-128,共1页
北京大学计算语言学研究所研制的综合型语言知识库(Comprehensive Language Knowledge Base,简称:CLKB)继近几年连续获得政府部门和全国性学术团体的奖励之后,更上一层楼,又获得2011年度国家科学技术进步奖二等奖(证书号:2011-J-22... 北京大学计算语言学研究所研制的综合型语言知识库(Comprehensive Language Knowledge Base,简称:CLKB)继近几年连续获得政府部门和全国性学术团体的奖励之后,更上一层楼,又获得2011年度国家科学技术进步奖二等奖(证书号:2011-J-220—2—02)。第一完成人俞士汶教授参加了今年2月14日在北京举行的国家科学技术奖励大会。 展开更多
关键词 语言知识库 国家科技进步奖 综合型 国家科学技术奖励大会 国家科学技术进步奖 北京大学 计算语言学 学术团体
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部