期刊文献+

基于条件随机场的汉语动宾搭配自动识别 被引量:9

CRFs Based Recognition of Chinese Verb-Object Collocation
下载PDF
导出
摘要 该文提出一种基于机器自动学习的统计模型条件随机场的方法用于汉语动宾搭配的自动识别。实验比较了两种分词与词性标记集下的识别效果,并增加了词性筛选准则作为优化处理。在特征选择上,考察了动词次范畴特征、上下文特征以及它们之间的组合特征的不同实验结果。综合实验结果,基于树库分词和词性标记的最好结果F值是87.40%,基于北京大学标准的分词和词性标记的最好结果F值是74.70%。实验表明,条件随机场模型在词语搭配实例自动识别方面有效可行。 A new method to recognize the Chinese verb-object collocation is proposed on the basis of the conditional random fields (CRFs) model. The CRFs based model is examined with verb subcategorization features, context features, and features of their combination. The experiments are carried on two different Chinese word segmentation and part-of-speech tagging settings, with part-of-speech filtering rules to optimize the experiment. The results show that the best performance is 87.40% in F-score over Tsinghua Chinese Treebank, and 74.70% in F-score over the segmentation and part-of-speech tagging scheme of Peking University. Experimental results show that CRF model is effective in recognizing Chinese verb-object collocation automatically.
作者 程月 陈小荷
出处 《中文信息学报》 CSCD 北大核心 2009年第1期9-15,共7页 Journal of Chinese Information Processing
基金 国家社会科学基金资助项目(07BYY050)
关键词 计算机应用 中文信息处理 动宾搭配 自动识别 条件随机场 特征模板 computer application Chinese information processing verb-object collocation automatic recognition CRFs feature templates
  • 相关文献

参考文献6

  • 1孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997(1):29-38. 被引量:55
  • 2王素格,杨军玲,张武.自动获取汉语词语搭配[J].中文信息学报,2006,20(6):31-37. 被引量:14
  • 3陈小荷 见:黄昌宁 董振东主编.动宾组合的自动获取与标注[C].见:黄昌宁,董振东主编.计算语言学文集[C].清华大学出版社,1999.215-221.
  • 4孙宏林.从标注语料库中归纳语法规则:“V+N”序列实验分析[M]//语言工程.北京:清华大学出版社,1997:157-163.
  • 5Taku Kudo. CRF ++; Yet Anothter CRF toolkit [EB/OL]. http://crfpp. sourceforge. net.
  • 6周强.汉语树库构建-使用手册[EB/OL].http://www.chineseldc.org/EN/doc/CLDC-LAC-2003-005/label.htm.

二级参考文献23

共引文献66

同被引文献76

引证文献9

二级引证文献22

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部