期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
计算人文视阈下的计算语言学:现状和范式
1
作者 柏晓鹏 《图书与情报》 北大核心 2023年第1期12-20,共9页
文章讨论计算人文视阈下计算语言学的定位问题,主要涉及三个问题:计算人文视阈下计算语言学的定位、研究范式,以及它与其他计算人文研究方向的关系。“计算人文”这一术语明确了数字人文的研究以计算技术解决人文学科的研究问题这一研... 文章讨论计算人文视阈下计算语言学的定位问题,主要涉及三个问题:计算人文视阈下计算语言学的定位、研究范式,以及它与其他计算人文研究方向的关系。“计算人文”这一术语明确了数字人文的研究以计算技术解决人文学科的研究问题这一研究范式。我们认为,当前计算语言学的工作显示出明显的工程特征,将语言作为数据进行处理,很少有回答语言学研究问题的工作。尽管很多学者认为计算语言学是语言学的研究方向之一,但目前并无很多利用计算技术来进行语言学研究的案例。因此,以文本可读性工作为例,提出一个利用计算技术进行语言学研究的计算语言学研究范式。研究认为,计算语言学在工作方式上与其他计算人文研究方向并无二致,应在统一的研究范式下工作;作为研究工具的计算语言学,则需要在有效性和可解释性间获得平衡,推动数字人文各分支领域的发展,这是计算语言学在“以人文为核心,以计算为工具”这一研究框架中的准确定位。 展开更多
关键词 计算语言学 计算人文 数字人文 语言学 自然语言处理
下载PDF
篇章结构特征对文本可读性的影响 被引量:2
2
作者 柏晓鹏 吉伶俐 《语言文字应用》 CSSCI 北大核心 2022年第3期62-72,共11页
本文采用计算语言学方法,使用文本自动分类模型考察篇章结构特征如何影响文本的可读性。本文设计了篇章标注规范和标注集,对“统编版语文教材语料库”进行篇章特征标注;然后抽取文本篇章特征,讨论其与文本可读性的相关关系;最后,使用支... 本文采用计算语言学方法,使用文本自动分类模型考察篇章结构特征如何影响文本的可读性。本文设计了篇章标注规范和标注集,对“统编版语文教材语料库”进行篇章特征标注;然后抽取文本篇章特征,讨论其与文本可读性的相关关系;最后,使用支撑向量机进行可读性自动分级实验,考察篇章特征对文本难度的预测能力。实验结果显示:篇章结构特征的加入能够明显提升文本分级的效果,与词汇语法特征的对比实验结果说明篇章特征对文本可读性有正面影响。本文的工作将文本可读性研究向篇章层面推进,为相关研究和应用提供了参考。 展开更多
关键词 文本可读性 篇章结构特征 分级阅读 文本自动分类 教材语料库
下载PDF
中文命题库的全局性语义角色标注及其对汉语研究的影响 被引量:1
3
作者 柏晓鹏 《语言科学》 CSSCI 北大核心 2017年第5期481-492,共12页
中文命题库(the Chinese Proposition Bank)是在中文树库(the Chinese Treebank)上标注语义角色的语料库。语义角色是语言学研究的重要内容之一,标注了语义角色的命题库不但提供了谓语动词(predicate verb)的论元结构(argument structur... 中文命题库(the Chinese Proposition Bank)是在中文树库(the Chinese Treebank)上标注语义角色的语料库。语义角色是语言学研究的重要内容之一,标注了语义角色的命题库不但提供了谓语动词(predicate verb)的论元结构(argument structure),也提供了可谓词(predicative verb)语义角色的句法实现方式,大规模的"词汇语义-句法结构"语料为相关语言学研究提供了大量的真实数据。目前语义角色是以基于特定谓语动词(predicate-specific)的方式进行定义并使用统一的标记进行标注,这个标注方式导致了语义角色标记意义在不同的动词论元结构中的不一致问题,导致在语义上我们无法对动词的论元结构的句法实现做更深入的理解和解释。为了改进这个问题,本文定义了一套全局性语义角色标记并标注到命题库中。结果显示,标注了全局性语义角色的中文命题库解决了语义角色不一致的问题,丰富了动词论元结构模式,并且使得我们可以更好的从语义上理解动词论元的句法表现。本文的工作不是对之前标注工作的否定,而是增加一层标注以形成完整的语义资源,提供了关于论元的语义角色和句法实现之关系的大规模真实数据,使得我们可以更加全面深入的认识动词论元结构的问题。 展开更多
关键词 语义角色标注 全局性语义角色 中文命题库 论元结构 语言资源
下载PDF
部编版小学语文教材语料库建设:目的和原则 被引量:3
4
作者 柏晓鹏 吉伶俐 《新疆教育学院学报》 2020年第1期11-17,共7页
语料库建设为语言教学带来了教学理念、教学方法和教学模式的变革。建立部编版小学语文教材语料库,对提高小学语文教学质量有一定意义。然而,现有语料库对中小学语文教学的辅助功能有限。文章重点介绍了部编版小学语文教材语料库的建设... 语料库建设为语言教学带来了教学理念、教学方法和教学模式的变革。建立部编版小学语文教材语料库,对提高小学语文教学质量有一定意义。然而,现有语料库对中小学语文教学的辅助功能有限。文章重点介绍了部编版小学语文教材语料库的建设工作,同时针对小学语文教学需求,提出了建设小学语文教学专用型语料库的标注体系和标注原则。标注原则包括课文基本信息标注、分词和词性标注及满足小学语文教学需求的子项目标注和韵律标注。 展开更多
关键词 语料库标注 小学语文教学 部编版小学语文教材
下载PDF
基于向量的方块壮字字形相似度计算
5
作者 柏晓鹏 郑伟 《中国文字研究》 2021年第1期210-218,共9页
由于缺乏统一的书写标准和造字规范,表示同个语素的方块壮字在不同地区,往往会出现不同的文字字形,也可能代表不同的壮语方言读音。目前对壮字字形的研究仍以单点的描写为主,而少有跨区域、大范围的比较研究。本文结合实例,提出以向量... 由于缺乏统一的书写标准和造字规范,表示同个语素的方块壮字在不同地区,往往会出现不同的文字字形,也可能代表不同的壮语方言读音。目前对壮字字形的研究仍以单点的描写为主,而少有跨区域、大范围的比较研究。本文结合实例,提出以向量的方式描述壮字的字形特征,并计算壮字字形的相似程度,发现同个语素在不同地区所用壮字字形之间的可能联系和造字规律。在此基础上,进一步提出建设包括壮字在内的汉字系民族古文字字料库的构建设想。 展开更多
关键词 方块壮字 汉字系文字 相似度计算 向量
下载PDF
多义词词典义项可区分度的度量
6
作者 柏晓鹏 《辞书研究》 2020年第4期9-15,47,I0001,共9页
多义词词典义项的可区分度是指,人们根据词典提供的信息在语料中对多义词义项进行辨析的难度。文章探讨如何度量多义词可区分度。以往对这个问题的研究主要使用两种方法:基于义类体系的方法和基于机器学习的词义消歧方法。文章提出利用... 多义词词典义项的可区分度是指,人们根据词典提供的信息在语料中对多义词义项进行辨析的难度。文章探讨如何度量多义词可区分度。以往对这个问题的研究主要使用两种方法:基于义类体系的方法和基于机器学习的词义消歧方法。文章提出利用人工标注词典义项,然后对标注结果计算标注者一致性(inter-annotators agreement)的方法,从而计算多义词义项可区分度。基于对几种方法的讨论和对比,文章发现,通过计算人工标注结果一致性的方法较为有效、直观和省力。文章认为,“多义词词典义项可分区度”是利用人对多义词辨析的结果,对词典义项的评价,并不必然反映词典释义的好坏,它应该被视为一类参考数据,为词典编纂提供指示。 展开更多
关键词 多义词 义项可区分度 标注一致性 词义消歧
下载PDF
集气站用火作业危害识别与风险控制
7
作者 柏晓鹏 《石化技术》 CAS 2016年第3期198-198,共1页
集气站是石油天然气运营当中将分散的气体集中起来并进行处置的站点,集气站具有计量、净化加压等功能,在集气站的运行过程中,对火的风险管控是集气站重要关注的问题。因此,加强集气站用火作业危害识别能力及对潜在风险的管控是本文重要... 集气站是石油天然气运营当中将分散的气体集中起来并进行处置的站点,集气站具有计量、净化加压等功能,在集气站的运行过程中,对火的风险管控是集气站重要关注的问题。因此,加强集气站用火作业危害识别能力及对潜在风险的管控是本文重要阐述要点。 展开更多
关键词 集气站 用火作业 风险管控 安全规范
下载PDF
多语言视角下汉语“V+事件NP宾语”的论元结构研究 被引量:3
8
作者 柏晓鹏 薛念文 《外国语》 CSSCI 北大核心 2015年第5期2-13,共12页
我们发现,在汉语的某些"V+事件NP宾语"结构中,谓语动词(V)的词义内容较"轻",不是句子的事件中心,导致对该句谓语动词的论元结构标注发生困难。类似的结构在其他语言(如英语)中被称为轻动词结构。本文在多语言视角下... 我们发现,在汉语的某些"V+事件NP宾语"结构中,谓语动词(V)的词义内容较"轻",不是句子的事件中心,导致对该句谓语动词的论元结构标注发生困难。类似的结构在其他语言(如英语)中被称为轻动词结构。本文在多语言视角下,从轻动词句法语义特征、论元结构指派的角度,试图回答这样几个问题:汉语的这个结构是否完全等于其他语言中的轻动词结构?该结构中的动词V的词义弱化程度是否一样?该如何对其标注论元结构?通过对轻动词结构研究的回顾总结,尤其是对轻动词结构论元指派的研究,我们认为,不能认为汉语的这种谓语动词和事件中心不重合结构完全等同于轻动词结构。在我们考察的几个汉语结构的例子中,这些动词呈现出较清晰的词义"轻重"排序和不同的句法特点,因此我们提出了具体的论元结构描写策略。 展开更多
关键词 轻动词结构 论元结构 语义角色 多语言研究
原文传递
利用标注者一致性数据估计多义词义项区分度 被引量:2
9
作者 柏晓鹏 《世界汉语教学》 CSSCI 北大核心 2020年第3期392-401,共10页
多义词义项区分度指的是在实际语料中,人们为多义词选择合适义项的难易程度。本文探讨了一种测量多义词义项区分度的方法,试图量化表示义项区分度。我们认为,这个问题的难点在于多义词词典定义的不确定性:词典在定义多义词时缺乏强一致... 多义词义项区分度指的是在实际语料中,人们为多义词选择合适义项的难易程度。本文探讨了一种测量多义词义项区分度的方法,试图量化表示义项区分度。我们认为,这个问题的难点在于多义词词典定义的不确定性:词典在定义多义词时缺乏强一致性的标准,以及不同人对词典定义的理解是不同的。这使得一方面基于词典的研究结果总是受到来自词典定义的挑战,另一方面研究者本身的主观性也多少削弱了研究结果的可靠程度。本文利用标注者一致性作为衡量多义词义项区分度的指标。结果显示,标注者一致性可以有效地表示多义词义项区分度,并且对进一步分析多义词义项的区别特征有指示作用。而且,多义词义项区分度大小与词典定义的清晰程度以及词频高低无关,而与区别特征与义项之间的映射关系有关,这也能够解释词典编纂者与使用者之间的差异。 展开更多
关键词 多义词义项区分度 标注者一致性 Cohen’s Kappa 词义标注 多义词教学
原文传递
汉语带受事主语的不及物动词等于非宾格动词吗?——数据驱动的诊断句式研究
10
作者 柏晓鹏 《语言研究集刊》 CSSCI 2018年第1期114-126,375,共14页
根据非宾格假设,不及物动词分为两类:带受事主语的非宾格动词,带施事主语的非作格动词。由于汉语格标记系统不发达,不及物动词是否可以做这样的分类并不清楚。文章对前人提出的可用于测试汉语非宾格动词的句式手段进行数据驱动式的研究... 根据非宾格假设,不及物动词分为两类:带受事主语的非宾格动词,带施事主语的非作格动词。由于汉语格标记系统不发达,不及物动词是否可以做这样的分类并不清楚。文章对前人提出的可用于测试汉语非宾格动词的句式手段进行数据驱动式的研究,通过考察诊断句式的实现分布情况,观察带受事主语与带施事主语的不及物动词是否可以从形式上加以区分。根据对3 214个汉语不及物动词的考察发现:1)文章测试的诊断句式对发现带受事主语的不及物动词是有效的;2)诊断句式在不及物动词上的实现分布稀疏,无法对不及物动词进行分类。据此文章认为:1)汉语中存在“带受事主语动词”和“带施事主语动词”的划分,这种划分止步于语义层面;2)汉语中可能不存在支持不及物动词“非作格/非宾格”对立的句法形式手段;3)汉语中一些带受事主语的不及物动词可以通过诊断句式识别,但由于缺乏必要的形式手段对汉语不及物动词进行全面分类,这些动词并不足以支持汉语不及物动词的“非宾格/非作格”对立。基于文章研究,我们认为汉语带受事主语的不及物动词不等于非宾格动词。 展开更多
关键词 不及物动词分类 受事主语 非宾格动词 诊断句式
原文传递
义类标注:必要性和可行性
11
作者 柏晓鹏 《语言学论丛》 2020年第1期116-134,共19页
本文从语料库词义标注的角度,结合词义自动消歧实验,说明词义义类标注的必要性和可行性.与词语义项相比,义类不仅仅是义项的抽象表示,它是具体词不相关的全局性词义信息,在语料库中保持意义不变,标注了义类的语料库为基于词义信息的统... 本文从语料库词义标注的角度,结合词义自动消歧实验,说明词义义类标注的必要性和可行性.与词语义项相比,义类不仅仅是义项的抽象表示,它是具体词不相关的全局性词义信息,在语料库中保持意义不变,标注了义类的语料库为基于词义信息的统计提供了物质基础.我们使用基于词汇组合特征的词义分类方法,建立了"现代汉语词义分类体系",并对一个百万词规模的语料库进行了义类标注.我们使用有监督的自动分类方法,在这个义类语料库上进行了词义消歧实验并取得很好的结果.说明了我们使用的词义分类体系是一个适用于语料库标注的义类标记集. 展开更多
关键词 词义义类 语料库标注 词义消歧 自动分类
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部