期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
语料库词性标注一致性检查方法研究 被引量:9
1
作者 张虎 郑家恒 刘江 《中文信息学报》 CSCD 北大核心 2004年第5期11-16,共6页
在对大规模语料库进行深加工时 ,保证词性标注的一致性已成为建设高质量语料库的首要问题。本文提出了基于聚类和分类的语料库词性标注一致性检查的新方法 ,该方法避开了以前一贯采用的规则或统计的方法 ,利用聚类和分类的思想 ,对范例... 在对大规模语料库进行深加工时 ,保证词性标注的一致性已成为建设高质量语料库的首要问题。本文提出了基于聚类和分类的语料库词性标注一致性检查的新方法 ,该方法避开了以前一贯采用的规则或统计的方法 ,利用聚类和分类的思想 ,对范例进行聚类并求出阈值 ,对测试数据分类来确定其标注的正误 ,进而得出每篇文章的词性标注一致性情况 。 展开更多
关键词 计算机应用 中文信息处理 词性标注一致性 兼类词 聚类
下载PDF
基于分类的汉语语料库词性标注一致性检查 被引量:3
2
作者 张虎 郑家恒 《计算机工程》 CAS CSCD 北大核心 2008年第8期90-92,共3页
制约语料库加工质量的一个重要方面是多标记词语的词性标注一致性问题。该文通过对大规模语料库兼类词的词性标注结果的分析,提出一种语料库词性标注一致性检查的方法,分析词性标记序列的特征并建立兼类词语境向量模型,运用k最近邻法,... 制约语料库加工质量的一个重要方面是多标记词语的词性标注一致性问题。该文通过对大规模语料库兼类词的词性标注结果的分析,提出一种语料库词性标注一致性检查的方法,分析词性标记序列的特征并建立兼类词语境向量模型,运用k最近邻法,对兼类词语境进行向量分类,判定兼类词词性标注是否一致,得出每篇文章的词性标注的一致性情况,并测试了北京大学的150万语料。 展开更多
关键词 分类 词性标注 兼类词 词性标注一致性
下载PDF
中文电子病历命名实体标注语料库构建 被引量:19
3
作者 曲春燕 关毅 +2 位作者 杨锦锋 赵永杰 刘雅欣 《高技术通讯》 CAS CSCD 北大核心 2015年第2期143-150,共8页
针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文... 针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文电子病历标注规范;通过对大量中文电子病历的分析,提出了一套完整的中文电子病历命名实体标注方案,而且采用预标注和正式标注的方法,建立了一定规模的中文电子病历命名实体标注语料库,其标注语料的一致性达到了92%以上。该工作对中文电子病历的命名实体识别及信息抽取研究提供了可靠的数据支持,对医疗知识挖掘也有重要意义。 展开更多
关键词 中文电子病历(CEMR) 命名实体 标注语料库 标注规范 标注一致性(IAA)
下载PDF
面向中文电子病历的词法语料标注研究 被引量:9
4
作者 蒋志鹏 赵芳芳 +1 位作者 关毅 杨锦锋 《高技术通讯》 CAS CSCD 北大核心 2014年第6期609-615,共7页
针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的... 针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导。通过实验量化中文电子病历与开放领域语料、英文电子病历语料的词法统计差异,系统地分析了通用标注模型在中文电子病历中的错误分布,为进行适用于中文电子病历分析的自然语言处理(NLP)技术研究奠定了基础。 展开更多
关键词 中文电子病历(CEMR) 词性标注 标注一致性 语料差异 错误分析
下载PDF
利用标注者一致性数据估计多义词义项区分度 被引量:2
5
作者 柏晓鹏 《世界汉语教学》 CSSCI 北大核心 2020年第3期392-401,共10页
多义词义项区分度指的是在实际语料中,人们为多义词选择合适义项的难易程度。本文探讨了一种测量多义词义项区分度的方法,试图量化表示义项区分度。我们认为,这个问题的难点在于多义词词典定义的不确定性:词典在定义多义词时缺乏强一致... 多义词义项区分度指的是在实际语料中,人们为多义词选择合适义项的难易程度。本文探讨了一种测量多义词义项区分度的方法,试图量化表示义项区分度。我们认为,这个问题的难点在于多义词词典定义的不确定性:词典在定义多义词时缺乏强一致性的标准,以及不同人对词典定义的理解是不同的。这使得一方面基于词典的研究结果总是受到来自词典定义的挑战,另一方面研究者本身的主观性也多少削弱了研究结果的可靠程度。本文利用标注者一致性作为衡量多义词义项区分度的指标。结果显示,标注者一致性可以有效地表示多义词义项区分度,并且对进一步分析多义词义项的区别特征有指示作用。而且,多义词义项区分度大小与词典定义的清晰程度以及词频高低无关,而与区别特征与义项之间的映射关系有关,这也能够解释词典编纂者与使用者之间的差异。 展开更多
关键词 多义词义项区分度 标注一致性 Cohen’s Kappa 词义标注 多义词教学
原文传递
汉英词语对齐规范 被引量:1
6
作者 赵红梅 刘群 +3 位作者 张瑞强 吕雅娟 隅田英一郎 吴翠玲 《中文信息学报》 CSCD 北大核心 2009年第3期65-87,共23页
该文介绍了一个新的汉英词语对齐规范。该规范以现有的LDC汉英词语对齐规范为基础,对其进行了较大的改进和扩展,特别是提出了一种全新的对齐标注方法——将词语对齐区分为真对齐和伪对齐,真对齐又分为强对齐和弱对齐。这种细化的标注方... 该文介绍了一个新的汉英词语对齐规范。该规范以现有的LDC汉英词语对齐规范为基础,对其进行了较大的改进和扩展,特别是提出了一种全新的对齐标注方法——将词语对齐区分为真对齐和伪对齐,真对齐又分为强对齐和弱对齐。这种细化的标注方法能够更好地刻画词语对齐的特点。该规范已经实际应用于大规模的人工词语对齐标注中。我们对对齐标注的一致性进行了评价。结果表明,在该规范的指导下,标注者内部和标注者间的对齐都取得了比较理想的一致性,两组强、弱、伪三种对齐的Kappa值分别为0.99、0.98、0.93和0.96、0.83、0.68。最后,一个简单的实验初步证实了该规范在统计机器翻译中的有效性。 展开更多
关键词 人工智能 机器翻译 汉英词语对齐规范 手工词语对齐 真对齐 伪对齐 强对齐 弱对齐 对齐和标注一致性
下载PDF
多义词词典义项可区分度的度量
7
作者 柏晓鹏 《辞书研究》 2020年第4期9-15,47,I0001,共9页
多义词词典义项的可区分度是指,人们根据词典提供的信息在语料中对多义词义项进行辨析的难度。文章探讨如何度量多义词可区分度。以往对这个问题的研究主要使用两种方法:基于义类体系的方法和基于机器学习的词义消歧方法。文章提出利用... 多义词词典义项的可区分度是指,人们根据词典提供的信息在语料中对多义词义项进行辨析的难度。文章探讨如何度量多义词可区分度。以往对这个问题的研究主要使用两种方法:基于义类体系的方法和基于机器学习的词义消歧方法。文章提出利用人工标注词典义项,然后对标注结果计算标注者一致性(inter-annotators agreement)的方法,从而计算多义词义项可区分度。基于对几种方法的讨论和对比,文章发现,通过计算人工标注结果一致性的方法较为有效、直观和省力。文章认为,“多义词词典义项可分区度”是利用人对多义词辨析的结果,对词典义项的评价,并不必然反映词典释义的好坏,它应该被视为一类参考数据,为词典编纂提供指示。 展开更多
关键词 多义词 义项可区分度 标注一致性 词义消歧
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部