摘要
本文研究对象为汉语中较为复杂的兼语结构,通过对大规模语料中兼语结构的分布观察,进行其内部语言特征及外部语言特征分析;一是从定量角度对其结构研究提供数据支持,二是为计算机自动识别提供语言学支持。基于这些特征建立模板,从而构建条件随机场模型,对兼语结构进行自动识别。在开放训练中,F值最高可达85.71%,这个结果表明条件随机场在兼语结构识别中已经接近应用水平,可以作为兼语结构识别的有效方法。
In this investigation the paper uses Condi-tional Random Field(CRF) for automatic identification of Concurrent Structure in Chinese Infor-mation Processing.We explores the distribution of Concurrent Structure in Tsinghua University 973 Treebank and analyze the internal and external linguistic features of the structure.A condi-tional random field model is built using these features.In open test,the best F value reaches 85.71% and this result shows that CRF is an effective method for automatic identification of Concurrent structure.
出处
《情报科学》
CSSCI
北大核心
2012年第3期439-443,共5页
Information Science
基金
2010年国家社科基金(10BTQ005)
国家863项目(2009AA01A339)
南京大学研究生科研创新基金资助项目(2010CW02)
关键词
兼语结构
条件随机场
自动识别
中文信息处理
特征模板
concurrent structure
conditional random field
automatic identification
Chinese information processing
feature template