基于条件随机场的汉语动宾搭配自动识别被引量：9

CRFs Based Recognition of Chinese Verb-Object Collocation

下载PDF

导出

摘要该文提出一种基于机器自动学习的统计模型条件随机场的方法用于汉语动宾搭配的自动识别。实验比较了两种分词与词性标记集下的识别效果,并增加了词性筛选准则作为优化处理。在特征选择上,考察了动词次范畴特征、上下文特征以及它们之间的组合特征的不同实验结果。综合实验结果,基于树库分词和词性标记的最好结果F值是87.40%,基于北京大学标准的分词和词性标记的最好结果F值是74.70%。实验表明,条件随机场模型在词语搭配实例自动识别方面有效可行。 A new method to recognize the Chinese verb-object collocation is proposed on the basis of the conditional random fields （CRFs） model. The CRFs based model is examined with verb subcategorization features, context features, and features of their combination. The experiments are carried on two different Chinese word segmentation and part-of-speech tagging settings, with part-of-speech filtering rules to optimize the experiment. The results show that the best performance is 87.40% in F-score over Tsinghua Chinese Treebank, and 74.70% in F-score over the segmentation and part-of-speech tagging scheme of Peking University. Experimental results show that CRF model is effective in recognizing Chinese verb-object collocation automatically.

作者程月陈小荷

机构地区南京师范大学文学院南京师范大学中北学院

出处《中文信息学报》 CSCD 北大核心 2009年第1期9-15,共7页 Journal of Chinese Information Processing

基金国家社会科学基金资助项目(07BYY050)

关键词计算机应用中文信息处理动宾搭配自动识别条件随机场特征模板 computer application Chinese information processing verb-object collocation automatic recognition CRFs feature templates

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997(1):29-38. 被引量：55
2王素格,杨军玲,张武.自动获取汉语词语搭配[J].中文信息学报,2006,20(6):31-37. 被引量：14
3陈小荷见:黄昌宁董振东主编.动宾组合的自动获取与标注[C].见:黄昌宁,董振东主编.计算语言学文集[C].清华大学出版社,1999.215-221.
4孙宏林.从标注语料库中归纳语法规则:“V+N”序列实验分析[M]//语言工程.北京:清华大学出版社,1997:157-163.
5Taku Kudo. CRF ++; Yet Anothter CRF toolkit [EB/OL]. http://crfpp. sourceforge. net.
6周强.汉语树库构建-使用手册[EB/OL].http://www.chineseldc.org/EN/doc/CLDC-LAC-2003-005/label.htm.

二级参考文献23

1孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997(1):29-38. 被引量：55
2曲维光,陈小荷,吉根林.基于框架的词语搭配自动抽取方法[J].计算机工程,2004,30(23):22-24. 被引量：18
3全昌勤,何婷婷,姬东鸿,刘辉.从搭配知识获取最优种子的词义消歧方法[J].中文信息学报,2005,19(1):30-35. 被引量：13
4由丽萍,王素格.汉语动词-动词搭配规则与分布特征[J].计算机工程与应用,2005,41(23):179-181. 被引量：6
5全昌勤,刘辉,何婷婷.基于统计模型的词语搭配自动获取方法的分析与比较[J].计算机应用研究,2005,22(9):55-57. 被引量：8
6Benson Morton.The Structure of the Collocational Dictionary[J].International Journal of Lexicography,1989,2:1-14.
7Kenneth Ward Church Patrick Hanks.Word Association Norms,Mutual Information,and Lexicography[J].Computational Linguistics,1990,16(1):22-29.
8Christopher,D.manning,Hinrich Schutze.Foundations of Statistical Natural Language Processing[M].Massachusetts London,England:The MIT Press Cambridge,1999,1-189.
9Smadja,F.,Retrieving Collocations from Text:Xtract.Computational Linguistics[J].1993,19(1):143-177.
10Young Mee Chung and Jae Yun Lee.A Corpus-Based Approach to Comparative Evaluation of Statistic Term Association Measures[J].Journal of the American Society for Information Science and Technology,2001,52(4):283-296.

共引文献66

1祁峰.基于真实文本的[A_单+N(NP)]的句法受限机制和句法组合机制[J].语言文字应用,2008(4):133-138.
2徐东英,张彤.基于混合策略的双语搭配成分抽取系统的设计与实现[J].计算机工程与应用,2004,40(25):173-175. 被引量：1
3张仰森,曹元大.基于语料库的自然语言建模方法研究[J].计算机科学,2004,31(5):176-179. 被引量：1
4白妙青,郑家恒.动词与动词搭配方法的研究[J].计算机工程与应用,2004,40(27):70-72. 被引量：3
5詹卫东.80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J].当代语言学,2000,2(2):63-73. 被引量：13
6陆俭明.跨入新世纪后我国汉语应用研究的三个主要方面[J].中国语文,2000(6):516-524. 被引量：27
7王霞.汉语动宾搭配自动识别研究[J].语言文字应用,2005(1):137-143. 被引量：5
8由丽萍,王素格.汉语动词-动词搭配规则与分布特征[J].计算机工程与应用,2005,41(23):179-181. 被引量：6
9白妙青,郑家恒.利用支持向量机实现动词-动词搭配的自动标注[J].计算机工程与应用,2005,41(35):164-166. 被引量：4
10彭其伟,王素格.动词与动词搭配评价体系阈值定量分析[J].电脑开发与应用,2006,19(1):12-14.

同被引文献76

1亢世勇.现代汉语谓宾动词分类统计研究[J].辽宁师范大学学报（社会科学版）,1998,21(1):36-39. 被引量：3
2侯敏,孙建军.汉语自动分词中的歧义问题[J].语言文字应用,1996(1):68-72. 被引量：8
3宋玉柱.关于体宾动词和谓宾动词[J].世界汉语教学,1991,5(2):90-91. 被引量：5
4孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997(1):29-38. 被引量：55
5李临定.动词的宾语和结构的宾语[J].语言教学与研究,1984(3):103-114. 被引量：23
6李临定.宾语使用情况考察[J].语文研究,1983(2):31-38. 被引量：62
7董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：57
8曲维光,陈小荷,吉根林.基于框架的词语搭配自动抽取方法[J].计算机工程,2004,30(23):22-24. 被引量：18
9王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
10郑逢斌,付征叶,乔保军,毋琳.HENU汉语自动分词系统中歧义字段消除算法[J].河南大学学报（自然科学版）,2004,34(4):49-52. 被引量：5

引证文献9

1李鹏,桂婕,乔晓东,张兆锋.条件随机场与规则集成的专利摘要信息抽取[J].数字图书馆论坛,2010(9):2-6. 被引量：3
2昝红英,张军珲,朱学锋,俞士汶.副词“就”的用法及其自动识别研究[J].中文信息学报,2010,24(5):10-16. 被引量：6
3康旭珍,李茹,李双红.框架元素语义核心词自动识别研究[J].中文信息学报,2011,25(4):115-121. 被引量：1
4徐润华,陈小荷.极大规模词语搭配库的建造和构成分析[J].南京师范大学文学院学报,2011(3):56-61. 被引量：2
5徐润华,冯敏萱,陈小荷.树库中双词搭配的自动获取和识别研究[J].计算机工程与应用,2011,47(28):17-20.
6孙婷婷.基于五元组的词语搭配自动抽取[J].电子设计工程,2015,23(19):75-78. 被引量：3
7郭丙华,俞亚堃,李中华.基于词语搭配关系的一种中文分词歧义性消除方法[J].计算机应用与软件,2016,33(10):94-97. 被引量：3
8王贵荣,饶高琦,荀恩东.基于大规模语料库的现代汉语动宾搭配知识库构建[J].中文信息学报,2021,35(1):34-42. 被引量：4
9旦增塔杰,仁增多杰.藏文句子相似度算法研究[J].信息与电脑,2021,33(7):103-105.

二级引证文献22

1刘开瑛.汉语框架语义网构建及其应用技术研究[J].中文信息学报,2011,25(6):46-52. 被引量：23
2张坤丽,赵丹,昝红英,柴玉梅.常用现代汉语副词用法自动识别研究[J].中文信息学报,2012,26(6):65-71. 被引量：3
3昝红英,张腾飞,张坤丽.规则与统计相结合的介词用法自动识别研究[J].计算机工程与设计,2013,34(6):2152-2157. 被引量：5
4张坤丽,昝红英,林爱英,张静杰.规则与统计相结合的副词“也”用法自动识别研究[J].河南大学学报（自然科学版）,2013,43(4):439-445.
5周青.专利技术分类构建方法研究[J].科技情报开发与经济,2014,24(10):143-144. 被引量：2
6张坤丽,昝红英,柴玉梅,韩英杰,赵丹.现代汉语虚词用法知识库建设综述[J].中文信息学报,2015,29(3):1-8. 被引量：10
7屈鹏,王惠临.专利信息服务中的术语抽取[J].情报科学,2015,33(9):66-71. 被引量：6
8袁晶.基于粗糙集调度的金属产业链云资源共享系统研究[J].中国金属通报,2016(1):46-47.
9温莉,王小芳.外国留学生关于副词“就”的习得过程中的问题[J].当代教育实践与教学研究（电子版）,2015,0(10):41-41.
10秦永俊.有色金属交易信息特定属性挖掘算法研究[J].世界有色金属,2016,41(3):112-113.

1郭丙华,俞亚堃,李中华.基于词语搭配关系的一种中文分词歧义性消除方法[J].计算机应用与软件,2016,33(10):94-97. 被引量：3
2龚永恩,袁春风,武港山.基于语义的词义消歧算法初探[J].计算机应用研究,2006,23(3):41-43. 被引量：8
3于丽丽,丁德鑫,曲维光,陈小荷,李惠.基于条件随机场的古汉语词义消歧研究[J].微电子学与计算机,2009,26(10):45-48. 被引量：13
4张伟,张素贞.基于统计概率的实时专家系统知识库动态维护[J].华东理工大学学报（自然科学版）,1999,25(2):179-181.
5朱聪慧,赵铁军,韩习武,郑德权.动词次范畴英汉论元对应关系获取[J].中文信息学报,2010,24(2):91-95. 被引量：1
6肖志涛,伊靓,李月龙,张芳,耿磊,吴骏.基于筛选评估准则的非正面人脸合成方法[J].天津工业大学学报,2015,34(2):69-74. 被引量：2
7欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
8李德志,陶青川,黄凤英.远距离视觉测量中的快速靶标提取与解码方法[J].现代计算机,2016,0(2):63-67.
9金秋春,童小利,薄树奎.面向虹膜识别的Gabor特征筛选研究[J].计算机工程与应用,2012,48(19):201-204.
10肖茜,鲁宏伟.基于高斯平滑的自适应角点检测[J].计算机辅助设计与图形学学报,2003,15(11):1358-1361. 被引量：24

中文信息学报

2009年第1期

浏览历史

内容加载中请稍等...

基于条件随机场的汉语动宾搭配自动识别被引量：9

参考文献6

二级参考文献23

共引文献66

同被引文献76

引证文献9

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于条件随机场的汉语动宾搭配自动识别 被引量：9

参考文献6

二级参考文献23

共引文献66

同被引文献76

引证文献9

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于条件随机场的汉语动宾搭配自动识别被引量：9