-
题名异源语料融合研究
- 1
-
-
作者
吕学强
仵永栩
周强
刘殷
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
清华信息科学与技术国家实验室(筹)
-
出处
《中文信息学报》
CSCD
北大核心
2016年第5期160-168,共9页
-
基金
国家自然科学基金(61271304,61671070)
北京成像技术高精尖创新中心项目(BAICIT-2016003)
国家社会科学基金(14@ZH036)
-
文摘
语料资源与自然语言处理领域的各项研究息息相关,具有很大的应用价值。由于不同的研究机构对于语料标注的规则和标记的类型不尽相同,使得不同的语料库很难组合为一个更大的语料库来进行使用。针对该问题,该文从不同标注库及词类映射层面考虑,对其产生的词性歧义问题进行了研究,提出了一种将异源语料融合到一种体系下的方法,对词类信息进行映射和消歧,并进行了实验验证,融合后的词性信息准确率可达87%,实验结果表明该方法具有一定的有效性和可扩展性。
-
关键词
语料建设
语料融合
词类映射
词性消歧
-
Keywords
corpus .construction
data fusion
word mapping
POS disambiguation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-