期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
大学英语语料库标注之探析 被引量:2
1
作者 薛学彦 《海南大学学报(人文社会科学版)》 CSSCI 2006年第2期281-284,共4页
从网络技术的角度,阐述了与大学英语语料库标注相关的文本预处理、标注工具、标注格式、标注格式转换、标注准确率、标注校对等问题。
关键词 语料库标注 大学英语语料库 文本预处理
下载PDF
利用人类计算技术的语音语料库标注方法及其实现 被引量:2
2
作者 沈映泉 刘勇进 +1 位作者 蔡骏 史晓东 《智能系统学报》 2009年第3期270-277,共8页
提出一种基于人类计算的语音语料库标注方法.该标注方法的主要思路是通过一个基于Web的语言学习系统来收集由大量学习者(用户)输入的词汇标注和音标标注,并从中选择出现概率最大的用户输入作为语料的正确标注.为了保证通过这种人类计算... 提出一种基于人类计算的语音语料库标注方法.该标注方法的主要思路是通过一个基于Web的语言学习系统来收集由大量学习者(用户)输入的词汇标注和音标标注,并从中选择出现概率最大的用户输入作为语料的正确标注.为了保证通过这种人类计算方法获得的标注文本的质量,使用了一些计算机辅助机制来校验收集到的标注的可靠性.采用这种方法实现语音语料库标注的主要优点在于将语料库标注和语言学习相结合,无需专门投入大量的人力来进行枯燥乏味的语料库标注工作,从而节省了语料库标注的成本.对这种基于人类计算的语音语料库标注技术进行了探讨,说明了用于收集用户输入的语言学习系统的设计以及标注生成系统的设计.系统的应用表明,该标注方法能够有效、低成本地生成语音语料库的词汇标注和音标标注. 展开更多
关键词 语音语料库标注 人类计算 分布式知识获取 基于Web的语言学习
下载PDF
基于词典的语料库词义标注研究 被引量:4
3
作者 肖航 杨丽姣 《语言文字应用》 CSSCI 北大核心 2010年第2期135-141,共7页
本文从主要难点、可实现性等方面对基于词典的语料库词义标注进行了分析。词义标注的主要难点可归纳为两个,一是词典词义区分不清晰带来的标注不一致性,二是词典提供的词义不能覆盖语料库中词语的所有语言使用情况。这些困难导致语料库... 本文从主要难点、可实现性等方面对基于词典的语料库词义标注进行了分析。词义标注的主要难点可归纳为两个,一是词典词义区分不清晰带来的标注不一致性,二是词典提供的词义不能覆盖语料库中词语的所有语言使用情况。这些困难导致语料库词义标注存在可实现与否的争论。本文通过华语文教材语料库词义标注实践指出,仅从词典词义划分来看,词义的准确区分具有操作上的明显困难;但若考虑词义在语料库中具体使用与分布,高准确率的词义标注是可以实现的。 展开更多
关键词 词义标注 词义消歧 词义区分 语料库标注
下载PDF
语料库中语料的标注 被引量:2
4
作者 董爱华 《北京印刷学院学报》 2016年第5期67-70,共4页
在语料库应用过程中,ESP文本分析、学习者语言分析及双语翻译研究等都要用到标注。语料库语料标注的准确性是基于语料库的学术研究结果可靠性的前提。文章介绍了语料库标注的原则、方法模式,并分析了控制标注质量的相关因素,目的是为标... 在语料库应用过程中,ESP文本分析、学习者语言分析及双语翻译研究等都要用到标注。语料库语料标注的准确性是基于语料库的学术研究结果可靠性的前提。文章介绍了语料库标注的原则、方法模式,并分析了控制标注质量的相关因素,目的是为标注语料库的使用者检验标注质量提供帮助。 展开更多
关键词 语料库标注 原则 方法 模式 质量
下载PDF
从关系从句标注看CEM翻译语料库语料标注问题
5
作者 王晓农 《大学英语教学与研究》 2014年第3期28-34,共7页
语料库的语料标注准确性是基于语料库的学术研究结果可靠性的前提。本文以国内出版的英语专业学习者语料库(CEM)翻译部分的关系从句错误的标注为研究对象,结合实例分析,考察了该语料库语料标注的准确性问题。研究发现,CEM关系从句错误... 语料库的语料标注准确性是基于语料库的学术研究结果可靠性的前提。本文以国内出版的英语专业学习者语料库(CEM)翻译部分的关系从句错误的标注为研究对象,结合实例分析,考察了该语料库语料标注的准确性问题。研究发现,CEM关系从句错误标注存在类型标注不准确和标注遗漏等问题,超过了可允许的误差,使其作为研究工具的可靠性大打折扣。基于本研究的结果,语料库研制者应该重视语料的标注准确性问题,不但要设计合理的标注规则,更要确保让规则在误差允许的范围内准确、一致地落实到语料中去,以保证语料库质量。 展开更多
关键词 语料库标注 准确性 CEM 关系从句错误标注 汉译英语料
下载PDF
中文电子病历命名实体标注语料库构建 被引量:19
6
作者 曲春燕 关毅 +2 位作者 杨锦锋 赵永杰 刘雅欣 《高技术通讯》 CAS CSCD 北大核心 2015年第2期143-150,共8页
针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文... 针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文电子病历标注规范;通过对大量中文电子病历的分析,提出了一套完整的中文电子病历命名实体标注方案,而且采用预标注和正式标注的方法,建立了一定规模的中文电子病历命名实体标注语料库,其标注语料的一致性达到了92%以上。该工作对中文电子病历的命名实体识别及信息抽取研究提供了可靠的数据支持,对医疗知识挖掘也有重要意义。 展开更多
关键词 中文电子病历(CEMR) 命名实体 标注语料库 标注规范 标注一致性(IAA)
下载PDF
大规模现代汉语标注语料库的加工规范 被引量:29
7
作者 俞士汶 朱学锋 段慧明 《中文信息学报》 CSCD 北大核心 2000年第6期58-64,共7页
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上 ,又在实施另一项大型语言工程 ,即对大规模的现代汉语原始语料进行多级加工 ,目前的加工项目包括词语切分、词性标注 (包括动词和形容词的特殊用法 ) ,并... 北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上 ,又在实施另一项大型语言工程 ,即对大规模的现代汉语原始语料进行多级加工 ,目前的加工项目包括词语切分、词性标注 (包括动词和形容词的特殊用法 ) ,并标出专有名词以及短语型的地名、机构名称等等。规划中的语料库规模约为 2 70 0万字。现在已经完成了 1 40 0万字的任务 ,而且质量很高。要建成高质量的标注语料库 ,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。 展开更多
关键词 现代汉语标注语料库 词语切分 词性标注 加工
下载PDF
《说文解字》语料库的XML标注设计 被引量:4
8
作者 胡佳佳 《社会科学论坛》 2011年第7期214-223,共10页
《说文解字》含有关于先秦文献语言和文字的多方面的资料。深入的研究它,是研究汉民族语言文字学史的重要内容。现有电子版《说文》大多只是《说文》原文文本的电子化,应用价值有限。要想更好地应用计算机研究《说文》,就必须对其文本... 《说文解字》含有关于先秦文献语言和文字的多方面的资料。深入的研究它,是研究汉民族语言文字学史的重要内容。现有电子版《说文》大多只是《说文》原文文本的电子化,应用价值有限。要想更好地应用计算机研究《说文》,就必须对其文本进行详细标注,而标注规范的合理性和可用性,决定了标注的价值。本文选择XML作为标记语言,在详细分析《说文》内容结构的基础上,设计了符合其特点的XML标注规范(Schema);并在对《说文》全文进行XML标注基础上开发了更加符合用户需求的全文检索工具。 展开更多
关键词 《说文解字》 语料库标注 XML 标注规范
下载PDF
词义标注语料库建设综述 被引量:17
9
作者 金澎 吴云芳 俞士汶 《中文信息学报》 CSCD 北大核心 2008年第3期16-23,共8页
词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping策略... 词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping策略在语料库建设方面的应用以及利用双语对齐语料库开展的相关研究。最后,针对词义标注语料库建设存在的问题提出自己的分析和思考。 展开更多
关键词 计算机应用 中文信息处理 词义消歧 词义标注语料库 平行语料库 BOOTSTRAPPING
下载PDF
甲骨刻辞词性标注语料库系统设计与实现 被引量:2
10
作者 开金宇 刘永革 李欣 《殷都学刊》 2011年第2期32-34,共3页
使用计算机辅助甲骨学研究,建设甲骨刻辞词性标注语料库是必不可少的一项基础性工程。现在还没有现成的甲骨刻辞词性标注语料库,因此,有必要设计和实现甲骨刻辞词性标注语料库系统。这个标注系统结合人工标注、机器标注和人工审核,循环... 使用计算机辅助甲骨学研究,建设甲骨刻辞词性标注语料库是必不可少的一项基础性工程。现在还没有现成的甲骨刻辞词性标注语料库,因此,有必要设计和实现甲骨刻辞词性标注语料库系统。这个标注系统结合人工标注、机器标注和人工审核,循环作业,快速、高效地建设甲骨刻辞语料库。 展开更多
关键词 甲骨刻辞词性标注语料库 机械分词 特征扫描 最大概率标注
下载PDF
维吾尔语词义标注语料库管理系统的设计与实现
11
作者 杨勇 任鸽 《电脑知识与技术》 2016年第1Z期13-14,共2页
随着信息技术的飞速发展,网络已成为世界上最大的信息库,也是信息获取和传播的重要途径。而一个理想的维吾尔语词义标注语料库至少应该具有数据量大、覆盖范围广、准确度高等特点。为了能够管理大规模的数据,并为用户分析和研究语言系... 随着信息技术的飞速发展,网络已成为世界上最大的信息库,也是信息获取和传播的重要途径。而一个理想的维吾尔语词义标注语料库至少应该具有数据量大、覆盖范围广、准确度高等特点。为了能够管理大规模的数据,并为用户分析和研究语言系统的规律提供了一个更方便、快捷的方式,本系统借助网络平台开发了一个管理维吾尔语词义标注语料库的管理系统,实现了维吾尔语词义标注语料库的智能化管理。为了使该系统的科学的分析与设计,采用UML进行建模分析与设计。 展开更多
关键词 建模分析 维吾尔语词义标注语料库管理系统 UML
下载PDF
一个面向信息抽取的中文跨文本指代语料库 被引量:3
12
作者 赵知纬 钱龙华 周国栋 《中文信息学报》 CSCD 北大核心 2015年第1期57-66,共10页
跨文本指代(Cross Document Coreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库,因此该文在ACE 2005... 跨文本指代(Cross Document Coreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库,因此该文在ACE 2005语料库的基础上,采用自动生成和人工标注相结合的方法,构建了一个面向信息抽取的涵盖所有ACE实体类型的中文CDC语料库,并将该语料库公开发布,旨在促进中文跨文本指代消解研究的发展。同时,该文以该语料库为基础,分析了中文环境下跨文本指代现象的类型和特点,提出了用"多名困惑度"和"重名困惑度"两个指标来衡量跨文本指代消解任务的难度,为今后的跨文本指代消解研究提供一些启示。 展开更多
关键词 跨文本指代 信息抽取 语料库标注 困惑度
下载PDF
关于“人民日报标注语料库”公开的新闻资料 被引量:1
13
《语言文字应用》 CSSCI 北大核心 2001年第4期42-42,共1页
关键词 “人民日报标注语料库 新闻资料 语言工程 中文信息处理
下载PDF
部编版小学语文教材语料库建设:目的和原则 被引量:3
14
作者 柏晓鹏 吉伶俐 《新疆教育学院学报》 2020年第1期11-17,共7页
语料库建设为语言教学带来了教学理念、教学方法和教学模式的变革。建立部编版小学语文教材语料库,对提高小学语文教学质量有一定意义。然而,现有语料库对中小学语文教学的辅助功能有限。文章重点介绍了部编版小学语文教材语料库的建设... 语料库建设为语言教学带来了教学理念、教学方法和教学模式的变革。建立部编版小学语文教材语料库,对提高小学语文教学质量有一定意义。然而,现有语料库对中小学语文教学的辅助功能有限。文章重点介绍了部编版小学语文教材语料库的建设工作,同时针对小学语文教学需求,提出了建设小学语文教学专用型语料库的标注体系和标注原则。标注原则包括课文基本信息标注、分词和词性标注及满足小学语文教学需求的子项目标注和韵律标注。 展开更多
关键词 语料库标注 小学语文教学 部编版小学语文教材
下载PDF
布朗语料库族系对比及应用现状研究
15
作者 高亢 《英语广场(学术研究)》 2019年第5期33-34,共2页
布朗(BROWN)语料库作为族系的基础,其构成方式、应用价值值得人们重视和研究,初涉语料库研究的人可以将布朗语料库族系作为语料库研究的起步。本文对布朗语料库族系的8个语料库进行了简单介绍,叙述了BROWN和LOB的标注区别,并进一步阐述... 布朗(BROWN)语料库作为族系的基础,其构成方式、应用价值值得人们重视和研究,初涉语料库研究的人可以将布朗语料库族系作为语料库研究的起步。本文对布朗语料库族系的8个语料库进行了简单介绍,叙述了BROWN和LOB的标注区别,并进一步阐述了其应用领域以及对自建语料库的启发。 展开更多
关键词 布朗(BROWN)语料库 语料库标注 应用
下载PDF
汉语篇章级小句关系的标注体系 被引量:3
16
作者 吴云芳 徐艺峰 王恺然 《中文信息学报》 CSCD 北大核心 2015年第3期71-81,共11页
句际关系自动分析属于篇章语义学研究的范畴,虽然英语句际关系的研究已有大量工作,但汉语句际关系的自动分析还只是刚刚起步。该文在RST理论框架下,结合汉语特点,提出了完整的汉语篇章级小句关系标注体系。将汉语话题和逻辑关系置于同... 句际关系自动分析属于篇章语义学研究的范畴,虽然英语句际关系的研究已有大量工作,但汉语句际关系的自动分析还只是刚刚起步。该文在RST理论框架下,结合汉语特点,提出了完整的汉语篇章级小句关系标注体系。将汉语话题和逻辑关系置于同一个框架下进行描述,将小句关系划分为事件附属关系和事件逻辑关系两大类。逻辑关系又包括6个中类、15个小类。目前已在人民日报语料上完成了8 000个句子的小句关系标注。抽取出其中1 000个句子检测了双盲标注的一致性,揭示了汉语意合性语言小句关系标注的困难;并基于标注数据对关系类型进行了定量分析,指示了汉语句际关系自动分析将面临的重点和难点。 展开更多
关键词 句际关系 小句关系 语料库标注
下载PDF
中文文本的事件时空信息标注 被引量:12
17
作者 张春菊 张雪英 +2 位作者 王曙 廖建平 陈晓丹 《中文信息学报》 CSCD 北大核心 2016年第3期213-222,共10页
基于文本数据源的地理空间信息解析研究侧重于地名实体、空间关系等空间语义角色的标注和抽取,忽略了丰富的时间信息、主题事件信息及其时空一体化信息。该文通过分析中文文本中事件信息描述的语言特点和事件的时空语义特征,基于地名实... 基于文本数据源的地理空间信息解析研究侧重于地名实体、空间关系等空间语义角色的标注和抽取,忽略了丰富的时间信息、主题事件信息及其时空一体化信息。该文通过分析中文文本中事件信息描述的语言特点和事件的时空语义特征,基于地名实体和空间关系标注研究成果,制定了中文文本的事件时空信息标注体系和标注模式,并以GATE(General Architecture for Text Engineering)为标注平台,以网页文本为数据源,构建了事件时空信息标注语料库。研究成果为中文文本中地理信息的语义解析提供标准化的训练和测试数据。 展开更多
关键词 中文文本 时空信息 事件 标注体系 标注语料库
下载PDF
中文文本的地理命名实体标注 被引量:26
18
作者 张雪英 朱少楠 张春菊 《测绘学报》 EI CSCD 北大核心 2012年第1期115-120,共6页
地理信息的语义解析有效地解决自然语言与地理信息系统之间的语义障碍问题。在分析中文文本和地理信息系统中地理实体描述和表达机制差异的基础上,结合地理命名实体描述的语言特点,制定中文文本的地理命名实体标注体系和标注规范,并以GA... 地理信息的语义解析有效地解决自然语言与地理信息系统之间的语义障碍问题。在分析中文文本和地理信息系统中地理实体描述和表达机制差异的基础上,结合地理命名实体描述的语言特点,制定中文文本的地理命名实体标注体系和标注规范,并以GATE(General Architecture for Text Engineering)作为标注平台,构建基于《中国大百科全书中国地理》的大规模标注语料库,以解决当前相关标准和规模化标准数据匮乏的问题。 展开更多
关键词 中文文本 地理命名实体 标注体系 标注语料库 自然语言
下载PDF
中文文本的地理空间关系标注 被引量:22
19
作者 张雪英 张春菊 朱少楠 《测绘学报》 EI CSCD 北大核心 2012年第3期468-474,共7页
为有效地解决当前相关标准和标准数据匮乏的问题,通过分析中文文本中地理空间关系描述的语言特点,提出中文文本的地理空间关系标注体系,并以GATE(General Architecture for Text Engineering)为标注工具,以《中国大百科全书中国地理》... 为有效地解决当前相关标准和标准数据匮乏的问题,通过分析中文文本中地理空间关系描述的语言特点,提出中文文本的地理空间关系标注体系,并以GATE(General Architecture for Text Engineering)为标注工具,以《中国大百科全书中国地理》为文本数据源,采用交叉校验方式建立了地理空间关系标注语料库。实现了中文文本中地理空间关系描述的结构化表达,提供了地理空间关系信息抽取的标准化测试数据。 展开更多
关键词 自然语言 中文文本 地理空间关系 标注体系 标注语料库
下载PDF
功能及语篇结构的标注和可视化:基于协作性云计算平台的实现 被引量:3
20
作者 严恒斌 Jonathan Webster 《北京科技大学学报(社会科学版)》 2011年第4期32-36,共5页
本文针对目前标注工具在标注功能和语法篇章方面的不足,提出一个基于云计算平台的协作性标注框架。该框架充分发挥协作性平台的特性,建构于强大的数据库结构基础上,在标注过程中对功能和语篇信息提供即时可视化呈现,有望解决当前功能语... 本文针对目前标注工具在标注功能和语法篇章方面的不足,提出一个基于云计算平台的协作性标注框架。该框架充分发挥协作性平台的特性,建构于强大的数据库结构基础上,在标注过程中对功能和语篇信息提供即时可视化呈现,有望解决当前功能语料库标注的一部分难题,并为计算机辅助语言学习和教学作出一定贡献。 展开更多
关键词 系统功能语法 协作性语料库标注 语言信息可视化
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部