-
题名中文CCG树库的构建
被引量:12
- 1
-
-
作者
宋彦
黄昌宁
揭春雨
-
机构
香港城市大学中文、翻译及语言学系
微软亚洲研究院
-
出处
《中文信息学报》
CSCD
北大核心
2012年第3期3-8,21,共7页
-
基金
本文所述工作主要在微软亚洲研究院完成,其中一、三作者受香港特别行政区大学教育资助委员会(UGC)研究资助局(RGC)GRF项目9041597(CityU144410)部分资助
-
文摘
组合范畴语法(CCG)是一种类型驱动的语法,可以高度词例化(lexicalized)并兼顾句法和一定程度上语义的表达,可为深层次的文本分析提供有效支持。将CCG应用于真实文本分析需要编制大规模的词库,为了避免为此付出的昂贵人力和资源,一个经济有效的解决方案是利用现有短语句法树库来自动生成CCG树库。该文提出在清华中文树库的基础上自动生成CCG树库的方法,在预定义的中文句型和基于清华树库的动词子范畴框架的支持下,通过标准转换算法,得到一个包含32 737句、超过35万词次的中文CCG树库。该树库通过手工和自动评价验证,又与已有文献所报告的多语种CCG树库构建工作比较,均证明该文所述方法的有效性。
-
关键词
组合范畴语法
树库
中文句型
动词子范畴框架
-
Keywords
combinatory categorical grammar
treebank
Chinese sentence pattern
verb sub-categorization frame
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-