-
题名异源语料融合研究
- 1
-
-
作者
吕学强
仵永栩
周强
刘殷
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
清华信息科学与技术国家实验室(筹)
-
出处
《中文信息学报》
CSCD
北大核心
2016年第5期160-168,共9页
-
基金
国家自然科学基金(61271304,61671070)
北京成像技术高精尖创新中心项目(BAICIT-2016003)
国家社会科学基金(14@ZH036)
-
文摘
语料资源与自然语言处理领域的各项研究息息相关,具有很大的应用价值。由于不同的研究机构对于语料标注的规则和标记的类型不尽相同,使得不同的语料库很难组合为一个更大的语料库来进行使用。针对该问题,该文从不同标注库及词类映射层面考虑,对其产生的词性歧义问题进行了研究,提出了一种将异源语料融合到一种体系下的方法,对词类信息进行映射和消歧,并进行了实验验证,融合后的词性信息准确率可达87%,实验结果表明该方法具有一定的有效性和可扩展性。
-
关键词
语料建设
语料融合
词类映射
词性消歧
-
Keywords
corpus .construction
data fusion
word mapping
POS disambiguation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名英汉平行语料中双语兼类词消歧研究
- 2
-
-
作者
冯敏萱
曲维光
-
机构
南京师范大学文学院
南京师范大学计算机科学与技术学院
江苏省信息安全保密技术研究中心
-
出处
《山东大学学报(工学版)》
CAS
北大核心
2011年第6期18-23,30,共7页
-
基金
国家自然科学基金资助项目(60773173
61073119)
+1 种基金
江苏省自然科学基金资助项目(BK2010547)
江苏省社会科学基金资助项目(10YYB007)
-
文摘
对于一部分目前统计处理消歧效果较差、但出现频率又很高的兼类词,手工编写针对性极强的消歧规则。在未经词汇对齐的平行语料中,实现了基于个性规则的词性消歧方法。本研究为5个典型兼类词(过去、计划、与、back、so)设计的平行消歧算法,在大规模平行语料中得到了验证,平均F值达到了98.45%。研究结果表明该规则具有不受上下文长度和模板数量限制、特别适合于双语平行处理、消歧效果好等优点。
-
关键词
平行语料
词性消歧
兼类词
自动识别
中文信息处理
-
Keywords
parallel corpus
part of speech disambiguation
words of POS ambiguity
automatic recognition
Chinese information processing
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-