-
题名语料库词性标注一致性检查方法研究
被引量:9
- 1
-
-
作者
张虎
郑家恒
刘江
-
机构
山西大学计算机科学系
-
出处
《中文信息学报》
CSCD
北大核心
2004年第5期11-16,共6页
-
基金
国家"8 6 3"高技术研究发展计划资助项目 (2 0 0 1AA4 0 31)
-
文摘
在对大规模语料库进行深加工时 ,保证词性标注的一致性已成为建设高质量语料库的首要问题。本文提出了基于聚类和分类的语料库词性标注一致性检查的新方法 ,该方法避开了以前一贯采用的规则或统计的方法 ,利用聚类和分类的思想 ,对范例进行聚类并求出阈值 ,对测试数据分类来确定其标注的正误 ,进而得出每篇文章的词性标注一致性情况 。
-
关键词
计算机应用
中文信息处理
词性标注一致性
兼类词
聚类
-
Keywords
computer application
Chinese information processing
the consistence of part of speech tagging
conversion of parts of speech
clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于分类的汉语语料库词性标注一致性检查
被引量:3
- 2
-
-
作者
张虎
郑家恒
-
机构
山西大学计算机与信息技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第8期90-92,共3页
-
基金
国家自然科学基金资助项目(60473139)
山西省自然科学基金资助项目(20051034)
山西大学青年基金资助项目(2006011)
-
文摘
制约语料库加工质量的一个重要方面是多标记词语的词性标注一致性问题。该文通过对大规模语料库兼类词的词性标注结果的分析,提出一种语料库词性标注一致性检查的方法,分析词性标记序列的特征并建立兼类词语境向量模型,运用k最近邻法,对兼类词语境进行向量分类,判定兼类词词性标注是否一致,得出每篇文章的词性标注的一致性情况,并测试了北京大学的150万语料。
-
关键词
分类
词性标注
兼类词
词性标注一致性
-
Keywords
classification
POS tagging
multi-category words
consistency of speech tagging
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名中文电子病历命名实体标注语料库构建
被引量:19
- 3
-
-
作者
曲春燕
关毅
杨锦锋
赵永杰
刘雅欣
-
机构
哈尔滨工业大学计算机科学与技术学院
哈尔滨医科大学附属第四医院
哈尔滨医科大学附属第二医院
-
出处
《高技术通讯》
CAS
CSCD
北大核心
2015年第2期143-150,共8页
-
基金
国家自然科学基金(60975077)资助项目
-
文摘
针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文电子病历标注规范;通过对大量中文电子病历的分析,提出了一套完整的中文电子病历命名实体标注方案,而且采用预标注和正式标注的方法,建立了一定规模的中文电子病历命名实体标注语料库,其标注语料的一致性达到了92%以上。该工作对中文电子病历的命名实体识别及信息抽取研究提供了可靠的数据支持,对医疗知识挖掘也有重要意义。
-
关键词
中文电子病历(CEMR)
命名实体
标注语料库
标注规范
标注一致性(IAA)
-
Keywords
Chinese electronic medical record( CEMR), named entity, annotated corpus, annotation specifi-cation, inter-annotator agreement (IAA)
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名面向中文电子病历的词法语料标注研究
被引量:9
- 4
-
-
作者
蒋志鹏
赵芳芳
关毅
杨锦锋
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《高技术通讯》
CAS
CSCD
北大核心
2014年第6期609-615,共7页
-
基金
国家自然科学基金(60975077)资助项目
-
文摘
针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导。通过实验量化中文电子病历与开放领域语料、英文电子病历语料的词法统计差异,系统地分析了通用标注模型在中文电子病历中的错误分布,为进行适用于中文电子病历分析的自然语言处理(NLP)技术研究奠定了基础。
-
关键词
中文电子病历(CEMR)
词性标注
标注一致性
语料差异
错误分析
-
Keywords
Chinese electronic medical record (CEMR), part-of-speech tagging, annotation consistency, statistical lexical differences, error analysis
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名利用标注者一致性数据估计多义词义项区分度
被引量:2
- 5
-
-
作者
柏晓鹏
-
机构
华东师范大学中文系/语文教育研究中心
-
出处
《世界汉语教学》
CSSCI
北大核心
2020年第3期392-401,共10页
-
基金
华东师范大学2018年度人文社会科学青年跨学科创新研究团队项目“语言演化及其认知心理机制研究”(2018ECNU-QKT007)成果之一。
-
文摘
多义词义项区分度指的是在实际语料中,人们为多义词选择合适义项的难易程度。本文探讨了一种测量多义词义项区分度的方法,试图量化表示义项区分度。我们认为,这个问题的难点在于多义词词典定义的不确定性:词典在定义多义词时缺乏强一致性的标准,以及不同人对词典定义的理解是不同的。这使得一方面基于词典的研究结果总是受到来自词典定义的挑战,另一方面研究者本身的主观性也多少削弱了研究结果的可靠程度。本文利用标注者一致性作为衡量多义词义项区分度的指标。结果显示,标注者一致性可以有效地表示多义词义项区分度,并且对进一步分析多义词义项的区别特征有指示作用。而且,多义词义项区分度大小与词典定义的清晰程度以及词频高低无关,而与区别特征与义项之间的映射关系有关,这也能够解释词典编纂者与使用者之间的差异。
-
关键词
多义词义项区分度
标注者一致性
Cohen’s
Kappa
词义标注
多义词教学
-
Keywords
sense distinction of polysemy
inter-annotator agreement
Cohen’s Kappa
lexicalannotation
teaching polysemous words
-
分类号
H136
[语言文字—汉语]
-
-
题名汉英词语对齐规范
被引量:1
- 6
-
-
作者
赵红梅
刘群
张瑞强
吕雅娟
隅田英一郎
吴翠玲
-
机构
中国科学院计算技术研究所智能信息处理重点实验室
日本情报通信研究机构-国际电气通信基础技术研究所
-
出处
《中文信息学报》
CSCD
北大核心
2009年第3期65-87,共23页
-
文摘
该文介绍了一个新的汉英词语对齐规范。该规范以现有的LDC汉英词语对齐规范为基础,对其进行了较大的改进和扩展,特别是提出了一种全新的对齐标注方法——将词语对齐区分为真对齐和伪对齐,真对齐又分为强对齐和弱对齐。这种细化的标注方法能够更好地刻画词语对齐的特点。该规范已经实际应用于大规模的人工词语对齐标注中。我们对对齐标注的一致性进行了评价。结果表明,在该规范的指导下,标注者内部和标注者间的对齐都取得了比较理想的一致性,两组强、弱、伪三种对齐的Kappa值分别为0.99、0.98、0.93和0.96、0.83、0.68。最后,一个简单的实验初步证实了该规范在统计机器翻译中的有效性。
-
关键词
人工智能
机器翻译
汉英词语对齐规范
手工词语对齐
真对齐
伪对齐
强对齐
弱对齐
对齐和标注一致性
-
Keywords
artificial intelligence
machine translation
annotation guidelines for Chinese-English word alignment
manual word alignment
genuine link
pseudo link
strong link
weak link
alignment and annotation agreement
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名多义词词典义项可区分度的度量
- 7
-
-
作者
柏晓鹏
-
机构
华东师范大学中文系
华东师范大学语文教育研究中心
-
出处
《辞书研究》
2020年第4期9-15,47,I0001,共9页
-
基金
华东师范大学语文教育研究基地2020年度研究项目“部编本小学教材韵律词的切分及其分布研究”(项目编号12901-412224-19095/006)资助。
-
文摘
多义词词典义项的可区分度是指,人们根据词典提供的信息在语料中对多义词义项进行辨析的难度。文章探讨如何度量多义词可区分度。以往对这个问题的研究主要使用两种方法:基于义类体系的方法和基于机器学习的词义消歧方法。文章提出利用人工标注词典义项,然后对标注结果计算标注者一致性(inter-annotators agreement)的方法,从而计算多义词义项可区分度。基于对几种方法的讨论和对比,文章发现,通过计算人工标注结果一致性的方法较为有效、直观和省力。文章认为,“多义词词典义项可分区度”是利用人对多义词辨析的结果,对词典义项的评价,并不必然反映词典释义的好坏,它应该被视为一类参考数据,为词典编纂提供指示。
-
关键词
多义词
义项可区分度
标注一致性
词义消歧
-
Keywords
polysemy
sense distinguishability
inter-annotator agreement
word sense disambiguation
-
分类号
H31
[语言文字—英语]
-