期刊文献+
共找到67篇文章
< 1 2 4 >
每页显示 20 50 100
中文健康问句分类与语料构建 被引量:9
1
作者 郭海红 李姣 代涛 《情报工程》 2016年第6期39-49,共11页
本文旨在构建一个中文健康问句分类方法,并通过对高血压相关的健康问句进行人工分类标注,分析公众的高血压相关健康信息需求,同时为研发高血压相关的智能中文问答系统提供语料基础。本研究基于临床问句分类及公众健康信息查询场景层次模... 本文旨在构建一个中文健康问句分类方法,并通过对高血压相关的健康问句进行人工分类标注,分析公众的高血压相关健康信息需求,同时为研发高血压相关的智能中文问答系统提供语料基础。本研究基于临床问句分类及公众健康信息查询场景层次模型,构建一个四级中文健康问句主题分类方法,并由5位标注员独立地对从某中文健康网站上收集的将近10万条高血压相关提问数据中随机抽取的2000条样本数据进行人工分类标注,以优化和测试该问句分类方法的可靠性,构建标注语料库,并分析公众的高血压相关健康信息需求。5位标注员使用该分类方法进行独立标注的四级类目评判者间信度kappa值为0.63,意味着分类结果可靠,一级大类获得高度一致性(kappa=0.82),略优于国际上的同类研究。分布在治疗、诊断、健康生活方式、临床发现/病情管理、流行病学、择医六个一级类别中的问句分别占样本总量的48.1%、23.8%、11.9%、5.2%、9.0%和1.9%。所构建的健康问句分类方法可用于组织大型健康问题集,以提高检索效率;分类标注的样本问句可作为高血压相关健康问句自动分类研究的语料;得出的高血压相关健康问句主题分布有助于指导健康网站的知识资源建设。此外,所设计和采用的问句分类方法构建方式、语料标注流程、评判者间信度测量方法等,也可为开放领域及其他受限领域开展用户问句分类与语料构建提供借鉴。 展开更多
关键词 健康问句 问句分类 语料构建 公众健康 信息需求
下载PDF
英语节律及语料构建训练与航海英语听说能力的相关性
2
作者 顾力豪 《航海教育研究》 2010年第1期99-101,共3页
为提高航海专业学生英语听说能力,以"输入假设"和"输出假说"为理论基础,通过探讨"英语节律及语料构建训练与航海英语听说能力的相关性研究"的可行性及实效性,运用实证研究方法证实英语节律及语料构建训... 为提高航海专业学生英语听说能力,以"输入假设"和"输出假说"为理论基础,通过探讨"英语节律及语料构建训练与航海英语听说能力的相关性研究"的可行性及实效性,运用实证研究方法证实英语节律及语料构建训练与航海英语听说能力的密切关系,认为学习并运用英语节律及语料构建训练,是航海英语听说课实现可理解输入和输出的有力保证。 展开更多
关键词 英语节律 语料构建 航海英语听说能力 相关性
下载PDF
复述平行语料构建及其应用方法研究 被引量:2
3
作者 王雅松 刘明童 +2 位作者 张玉洁 徐金安 陈钰枫 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第1期68-74,共7页
以汉语为研究对象,提出构建大规模高质量汉语复述平行语料的方法。基于翻译引擎进行复述数据增强,将英语复述平行语料迁移到汉语中,同时人工构建汉语复述评测数据集。基于构建的汉语复述数据,在复述识别和自然语言推理任务中验证复述数... 以汉语为研究对象,提出构建大规模高质量汉语复述平行语料的方法。基于翻译引擎进行复述数据增强,将英语复述平行语料迁移到汉语中,同时人工构建汉语复述评测数据集。基于构建的汉语复述数据,在复述识别和自然语言推理任务中验证复述数据构建及其应用方法的有效性。首先基于复述语料生成复述识别数据集,预训练基于注意力机制的神经网络句子匹配模型,训练模型捕获复述信息,然后将预训练的模型用于自然语言推理任务,改进其性能。在自然语言推理公开数据集上的评测结果表明,所构建的复述语料可有效地应用在复述识别任务中,模型可以学习复述知识。应用在自然语言推理任务中时,复述知识能有效地提升自然语言推理模型的精度,从而验证了复述知识对下游语义理解任务的有效性。所提出的复述语料构建方法不依赖语种,可为其他语言和领域提供更多的训练数据,生成高质量的复述数据,改进其他任务的性能。 展开更多
关键词 复述语料构建 数据增强 迁移学习 复述识别 自然语言推理
下载PDF
基于多翻译引擎的汉语复述平行语料构建方法 被引量:3
4
作者 王雅松 刘明童 +3 位作者 马彬彬 张玉洁 徐金安 陈钰枫 《情报工程》 2020年第5期27-40,共14页
复述指同一语言内相同意思的不同表达,复述生成指同一种语言内意思相同的不同表达之间的转换,是改进信息检索、机器翻译、自动问答等自然语言处理任务不可或缺的基础技术。目前,复述生成模型性能都依赖于大量平行的复述语料,而很多语言... 复述指同一语言内相同意思的不同表达,复述生成指同一种语言内意思相同的不同表达之间的转换,是改进信息检索、机器翻译、自动问答等自然语言处理任务不可或缺的基础技术。目前,复述生成模型性能都依赖于大量平行的复述语料,而很多语言并没有可用的复述资源,使得复述生成任务的研究无法开展。针对复述语料十分匮乏的问题,我们以汉语为研究对象,提出基于多翻译引擎的复述平行语料构建方法,将英语复述平行语料迁移到汉语,构建大规模高质量汉语复述平行语料,同时构建有多个参考复述的汉语复述评测数据集,为汉语复述生成的研究提供一定的基础数据。基于构建的汉语复述语料,我们进一步对汉语复述现象进行总结和归纳,并进行复述生成研究。我们构建基于神经网络编码-解码框架的汉语复述生成模型,采用注意力机制、复制机制和覆盖机制解决汉语复述生成中的未登录词和重复生成问题。为了缓解复述语料不足导致的神经网络复述生成模型性能不高的问题,我们引入多任务学习框架,设计联合自编码任务的汉语复述生成模型,通过联合学习自编码任务来增强复述生成编码器语义表示学习能力,提高复述生成质量。我们利用联合自编码任务的复述生成模型进行汉语复述生成实验,在评测指标ROUGE-1、ROUGE-2、BLEU、METEOR上以及生成汉语复述实例分析上均取得了较好性能。实验结果表明所构建的汉语复述平行语料可以有效训练复述生成模型,生成高质量的汉语复述句。同时,联合自编码的汉语复述生成模型,可以进一步改进汉语复述生成的质量。 展开更多
关键词 复述语料构建 汉语复述现象分类 复述生成 多任务学习 自编码任务
下载PDF
多语言专利机器翻译平行语料构建方法研究 被引量:1
5
作者 曹竟成 邬小倩 +2 位作者 王倩 孙小宇 邓汇娟 《中国发明与专利》 2022年第6期70-75,80,共7页
神经网络机器翻译技术本质上是数据驱动型技术,大规模、高质量的语料资源是构建高性能多语种神经网络机器翻译系统的基础条件,语料资源建设至关重要。本文基于现有专利机器翻译引擎训练语料扩充及特定语言方向专利语料资源建设的需求,... 神经网络机器翻译技术本质上是数据驱动型技术,大规模、高质量的语料资源是构建高性能多语种神经网络机器翻译系统的基础条件,语料资源建设至关重要。本文基于现有专利机器翻译引擎训练语料扩充及特定语言方向专利语料资源建设的需求,对基于标准BLEU4算法、基于伪数据构建及基于同族专利数据进行多语言专利平行语料构建的方法分别进行研究,并分析总结不同的专利平行语料构建方法的优劣及各自的适用场景,以期探索多语言专利平行语料构建的可靠方案,有效扩充现有专利语料资源。 展开更多
关键词 多语言平行语料构建 中间语言匹配 标准BLEU4算法 伪数据构建 同族专利
下载PDF
基于多模态话语分析的旅游翻译语料库构建研究
6
作者 李中英 《中北大学学报(社会科学版)》 2024年第1期116-122,共7页
旅游翻译应当在国际文旅高速融合发展时期发挥出强支撑的纽带作用。针对旅游翻译参差、纷杂的现状,研究基于多模态话语分析和语料库的理论基础,提出了旅游翻译语料库的构建不仅仅需要借助计算机智能系统,应更多关注与语言研究相关学科... 旅游翻译应当在国际文旅高速融合发展时期发挥出强支撑的纽带作用。针对旅游翻译参差、纷杂的现状,研究基于多模态话语分析和语料库的理论基础,提出了旅游翻译语料库的构建不仅仅需要借助计算机智能系统,应更多关注与语言研究相关学科之间的内涵逻辑,呼吁各级政府、企事业、专业人士共同参与,从多学科、多主体、多层次的角度分析旅游翻译语料库构建策略,促使旅游翻译走向制度化、体系化。 展开更多
关键词 旅游翻译 多模态话语分析 语料构建 制度化
下载PDF
中文电子病历命名实体和实体关系语料库构建 被引量:106
7
作者 杨锦锋 关毅 +4 位作者 何彬 曲春燕 于秋滨 刘雅欣 赵永杰 《软件学报》 EI CSCD 北大核心 2016年第11期2725-2746,共22页
电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命... 电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础. 展开更多
关键词 中文电子病历 命名实体 实体关系 标注规范 标注语料构建
下载PDF
面向微博文本的情绪标注语料库构建 被引量:17
8
作者 姚源林 王树伟 +4 位作者 徐睿峰 刘滨 桂林 陆勤 王晓龙 《中文信息学报》 CSCD 北大核心 2014年第5期83-91,共9页
文本情绪分析研究近年来发展迅速,但相关的中文情绪语料库,特别是面向微博文本的语料库构建尚不完善。为了对微博文本情绪表达特点进行分析以及对情绪分析算法性能进行评估,该文在对微博文本情绪表达特点进行深入观察和分析的基础上,设... 文本情绪分析研究近年来发展迅速,但相关的中文情绪语料库,特别是面向微博文本的语料库构建尚不完善。为了对微博文本情绪表达特点进行分析以及对情绪分析算法性能进行评估,该文在对微博文本情绪表达特点进行深入观察和分析的基础上,设计了一套完整的情绪标注规范。遵循这一规范,首先对微博文本进行了微博级情绪标注,对微博是否包含情绪及有情绪微博所包含的情绪类别进行多标签标注。而后,对微博中的句子进行有无情绪及情绪类别进行标注,并标注了各情绪类别对应的强度。目前,已完成14 000条微博,45 431句子的情绪标注语料库构建。应用该语料库组织了NLP&CC2013中文微博情绪分析评测,有力地促进了微博情绪分析相关研究。 展开更多
关键词 情绪语料 语料构建 情绪标注 微博文本
下载PDF
汉语篇章微观话题结构建模与语料库构建 被引量:9
9
作者 奚雪峰 褚晓敏 +1 位作者 孙庆英 周国栋 《计算机研究与发展》 EI CSCD 北大核心 2017年第8期1833-1852,共20页
篇章话题结构分析是自然语言理解的前沿基础,而大规模高质量的适用于汉语篇章分析的语料资源缺乏,严重制约了相关篇章话题计算模型的研究.针对上述问题,首先研究了汉语篇章话题结构的理论表示体系.分析了主述位理论、英语修辞结构理论... 篇章话题结构分析是自然语言理解的前沿基础,而大规模高质量的适用于汉语篇章分析的语料资源缺乏,严重制约了相关篇章话题计算模型的研究.针对上述问题,首先研究了汉语篇章话题结构的理论表示体系.分析了主述位理论、英语修辞结构理论和宾州篇章树库体系的优势,结合汉语复句句群理论以及汉语自身特点,提出了一种基于主述位理论的汉语篇章微观话题结构表示方式,并借助微观话题链构建了汉语篇章话题结构表示体系.随后,在此基础上,采用自顶向下、后向搜索的标注策略和人机结合的语料库标注方式,构建了基于篇章微观话题表示体系的汉语篇章话题结构语料库(Chinese discourse topic corpus,CDTC).CDTC共包含500个文档,对其进行了详细统计分析并展示了语料库的标注情况.与宾州篇章树库体系、广义话题结构理论的对比表明,所提篇章微观话题结构表示体系在理论上具有一定的优越性,并且符合汉语特点;一致性检验表明CDTC能够充分体现汉语篇章话题分析问题本身的难度,并能够为相关研究提供语料资源支持. 展开更多
关键词 篇章话题结构 主位-述位理论 主位推进 话题链 语料构建
下载PDF
科技大数据背景下的中英双语语料库的构建及其特点研究 被引量:5
10
作者 苏晓娟 张英杰 +1 位作者 白晨 吴思 《中国科技资源导刊》 2019年第6期87-92,共6页
首先通过对双语语料库全过程构建的描述,提出基于专业领域词库快速构建双语语料库的方式,并用于快速发现科技大数据基础语料的多属性,完成语料的标注,这对于科技大数据知识检索、知识图谱方面的应用具有基础性支撑作用。然后通过分析新... 首先通过对双语语料库全过程构建的描述,提出基于专业领域词库快速构建双语语料库的方式,并用于快速发现科技大数据基础语料的多属性,完成语料的标注,这对于科技大数据知识检索、知识图谱方面的应用具有基础性支撑作用。然后通过分析新时期科技大数据对语料库构建的要求,从期刊、专利中选择“分布式能源”主题数据集,结合“神经网络机器翻译+统计机器翻译”的机器翻译技术,构建形成20834个双语词对初试语料集,利用中国科学技术信息研究所专利数据库、德温特专利数据库形成6428条专利数据对双语词对初试语料集进行测试应用。最后从忠实度、流畅度、可理解度3个方面进行人工评测。 展开更多
关键词 科技大数据 双语语料 机器学习 语料构建 机器翻译引擎
下载PDF
中文医学细粒度知识表示体系与标注语料库构建 被引量:1
11
作者 杨洋 关毅 +3 位作者 李雪 姜京池 史怀璋 柳曦光 《中文信息学报》 CSCD 北大核心 2023年第6期52-66,共15页
面向医学知识的细粒度、可共享性与高精准性的需求,该文提出了中文医学文本知识表示体系,融合了电子病历、医学书籍与专业医学网站文本三个数据来源的医疗知识。该体系包括9类医学实体、60类实体关系。基于此,开发了可操作性高的标注工... 面向医学知识的细粒度、可共享性与高精准性的需求,该文提出了中文医学文本知识表示体系,融合了电子病历、医学书籍与专业医学网站文本三个数据来源的医疗知识。该体系包括9类医学实体、60类实体关系。基于此,开发了可操作性高的标注工具,并为每种来源提供了规范标注的医学文本数据,构建了涵盖范围广、一致性高的细粒度标注语料库。4名临床医生对《诊断学》书籍标注了6526个医学实体,4229条关系,标注一致性可达0.974。三个数据源融合后实体数量344475个,关系数量3196787条。该文综述了数据源融合的映射过程、标注细则,分析了各数据源的文本特点并总结标注模式,通过应用场景与文本特点表明医学书籍标注必要性。该文为中文医学语料库构建提供标注规范,并为中文医学实体识别与关系抽取提供语料支持。 展开更多
关键词 细粒度标注规范 多源医疗文本 语义标注 语料构建
下载PDF
用于细颗粒度挖掘的产品评论语料库构建技术 被引量:1
12
作者 刘远超 宋明凯 +1 位作者 刘铭 张想 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2012年第3期64-68,共5页
为了辅助进行产品评论中特征-观点对识别的挖掘工作,对细颗粒度产品评论语料库的构建技术进行了研究.介绍了用于产品评论细颗粒度挖掘的语料库构建方法,以及目前初步进行的语料标注工作.标注数据可以数据库形式存储,从而实现了无结构化... 为了辅助进行产品评论中特征-观点对识别的挖掘工作,对细颗粒度产品评论语料库的构建技术进行了研究.介绍了用于产品评论细颗粒度挖掘的语料库构建方法,以及目前初步进行的语料标注工作.标注数据可以数据库形式存储,从而实现了无结构化到结构化的转变,为自动查询等处理提供了极大方便.实验结果表明:虽然文中的标注方法以手机产品为例,但具有良好的移植性,可以应用到其他产品评论的细颗粒度语料库构建.相应的语料库构建对于高性能机器学习方法的应用、特征-观点对识别算法的性能提高以及自动评价等具有重要意义. 展开更多
关键词 产品意见挖掘 细颗粒度语料构建 语料标注
下载PDF
科技文献英汉翻译平行语料库的构建 被引量:2
13
作者 陈潇潇 葛诗利 《广东外语外贸大学学报》 2012年第3期25-28,共4页
为了促进英语科技文献的汉译研究和科技英语翻译教学研究,我们构建了较大规模的"科技文献英汉翻译平行语料库"。通过选择9本科技英语相关的电子书作为原始材料,由60名英语专业大四学生译为汉语,并经多层次校对和修改。通过制... 为了促进英语科技文献的汉译研究和科技英语翻译教学研究,我们构建了较大规模的"科技文献英汉翻译平行语料库"。通过选择9本科技英语相关的电子书作为原始材料,由60名英语专业大四学生译为汉语,并经多层次校对和修改。通过制定严格的语料库建设计划,编制相应的计算机程序,对英汉语语料自动识别和分类,句子对齐,并添加XML标注。经仔细的人工校对后,构建了基于网络的检索平台。该语料库目前包含7255个句对,超过300,000字词,已可初步用于科技英语翻译研究和高年级英语专业学生的翻译教学。 展开更多
关键词 英汉平行语料 语料构建 科技英语 翻译教学
下载PDF
基于对外经济需求的商务英语语料库构建——以茶贸易英语语料库为例 被引量:5
14
作者 张迎 井媛 《福建茶叶》 2018年第1期233-234,共2页
京津冀地区是我国北方经济发展的一块腹地。加大对该地区的经济开发,推进多样化的经济形式向外延展是河北省现阶段的重大战略。当前,河北省外贸企业顺势发展,外贸企业对外的经济需求也增大,因而对商务英语语料库的构建提出了更高的要求... 京津冀地区是我国北方经济发展的一块腹地。加大对该地区的经济开发,推进多样化的经济形式向外延展是河北省现阶段的重大战略。当前,河北省外贸企业顺势发展,外贸企业对外的经济需求也增大,因而对商务英语语料库的构建提出了更高的要求。基于此,以茶贸易英语语料库为例,分析商务英语语料库的构建要素,探讨对外茶贸易对语言和茶文化的要求,研究商务英语语料库的构建在茶贸易中的应用。另外,全面增强商务英语应用化的作用力,推进商务英语语料库的经济应用价值,为茶贸易经济结构系统化构建稳固奠基,彰显出河北省对外经济发展的新动态、新方向。 展开更多
关键词 对外经济 商务英语 语料构建 茶贸易
下载PDF
基于主动学习与众包的农业知识标注体系及语料库构建
15
作者 姜京池 关昌赫 +2 位作者 刘劼 关毅 柯善风 《中文信息学报》 CSCD 北大核心 2023年第1期33-45,共13页
农业书籍与网络知识库作为领域专家撰写的蕴含了大量农学常识与农事经验的数据源,具有高可信、知识丰富、结构规范等特点。为了挖掘此类文本源中的农学知识,该文讨论了农业命名实体和实体关系的相关问题,首次提出了主动学习与众包相结... 农业书籍与网络知识库作为领域专家撰写的蕴含了大量农学常识与农事经验的数据源,具有高可信、知识丰富、结构规范等特点。为了挖掘此类文本源中的农学知识,该文讨论了农业命名实体和实体关系的相关问题,首次提出了主动学习与众包相结合的农业知识标注体系。在农学专家的指导和参与下,构建了包含9类实体以及15大类、37小类语义关系的多源农业知识标注语料库,其中农业书籍源共3.7万个实体、3.5万个实体关系,百度百科源含1.1万个实体以及1.5万个实体关系。在实验部分,我们利用标注一致性评价标准对比了两类数据源的标注质量,并从实体识别、关系抽取两个方面证明了主动学习能够节约标注成本、提升标注效率和模型训练效果,为后续研究打下了坚实基础。 展开更多
关键词 语料构建 农业知识图谱 标注体系
下载PDF
构建大规模的汉英双语平行语料库 被引量:5
16
作者 刘荣 《太原科技》 2006年第10期84-85,共2页
鉴于互联网上存在着大量的双语互译文本,如何通过这些双语互译文本来建立大规模的双语语料库,是对双语互译文本深加工和不同目的应用的关键问题。主要提出了一个大规模汉英双语平行语料库的构建工作,包括其总体规划、实施模型和流程细节。
关键词 机器翻译 双语平行语料 语料构建
下载PDF
陕北民歌语料库构建及WEB管理系统设计 被引量:1
17
作者 张统宣 《计算机与数字工程》 2010年第12期128-129,153,共3页
运用语料库语言学的基本观点,探讨了陕北民歌语料库构建原则及WEB管理系统的设计实现,研制了陕北民歌ACCESS语料数据库,其中包含全文语料数据表、句子语料数据表、陕北民歌词表数据表共三个数据表,介绍了语料库的在线检索和管理功能,提... 运用语料库语言学的基本观点,探讨了陕北民歌语料库构建原则及WEB管理系统的设计实现,研制了陕北民歌ACCESS语料数据库,其中包含全文语料数据表、句子语料数据表、陕北民歌词表数据表共三个数据表,介绍了语料库的在线检索和管理功能,提出了字词频统计功能和WEB在线检索功能实现的方法,开发了基于ASP的陕北民歌开放性语料库WEB管理系统,用户可以方便的通过IE浏览器进行语料检索、词频统计、语料提取等操作。 展开更多
关键词 陕北民歌 语料构建 WEB管理系统 设计实现 Management System Design 数据表 在线检索 词频统计 语料库语言学 语料提取 语料检索 统计功能 管理功能 构建原则 功能实现 数据库 浏览器 开放性 ACCESS
下载PDF
基于教学型国学翻译汉英语料库构建的几点思考
18
作者 廖志勤 姬岳江 《上海翻译》 CSSCI 北大核心 2011年第4期44-47,共4页
本文就构建教学型国学翻译汉英语料库过程中遇到的语料库大小、语料采集和语料库构建细节问题进行了讨论,旨在推动构建教学型国学翻译汉英语料库的进程。
关键词 教学型国学语料 语料库大小 语料采集 语料构建
下载PDF
构建汉英平行语料库 探索听说课课堂改革
19
作者 张健 《高教学刊》 2017年第5期95-96,共2页
英语听说课是一门实践性课程,中国英语学习者听说能力欠佳已经是不争的事实。语料库教学法应用于听说课课堂,从"输入为先"的角度培养英语思维,对听说课课堂改革有一定的借鉴意义。
关键词 平行语料构建 英语听说课 课堂改革
下载PDF
篇章视角的汉语零指代语料库构建 被引量:3
20
作者 孔芳 葛海柱 周国栋 《软件学报》 EI CSCD 北大核心 2021年第12期3782-3801,共20页
零指代是汉语中普遍存在的一个现象,在汉英机器翻译、文本摘要以及阅读理解等众多自然语言处理任务中都起着重要作用,目前已成为自然语言处理领域的一个研究热点.提出了篇章视角的汉语零指代表示体系,从服务于篇章分析的角度出发,首先... 零指代是汉语中普遍存在的一个现象,在汉英机器翻译、文本摘要以及阅读理解等众多自然语言处理任务中都起着重要作用,目前已成为自然语言处理领域的一个研究热点.提出了篇章视角的汉语零指代表示体系,从服务于篇章分析的角度出发,首先以基本篇章单元为考察对象,判别其是否包含零元素;再根据零元素在基本篇章单元中承担的角色将零元素划分成主干类和修饰类两类;接着以段落对应的篇章修辞结构树为考察指代关系的基本单元,依据先行词与零元素间的位置关系将指代关系分成基本篇章单元内和基本篇章单元间两种,并针对基本篇章单元间的指代关系,根据零元素对应的先行词的状况将指代关系分成实体类、事件类、组合类和其他等4类;最后,基于篇章视角的汉语零指代表示体系,选取汉语树库CTB、连接词驱动的汉语篇章树库CDTB和Onto Notes语料中重叠的325篇文本进行了汉语零指代的标注,构建了服务于篇章分析的汉语零指代语料库.一方面,借助系统检测来说明所提出的表示体系合理有效,构造的语料库质量上乘;另一方面构建了完整的汉语零指代消解基准平台,从可计算的角度验证了所构建的汉语零指代语料库能够为篇章视角的汉语零指代研究提供必要的支撑. 展开更多
关键词 零指代 语料构建 篇章分析 基本篇章单元 零元素
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部