自动获取汉语词语搭配被引量：14

Automatic Acquisition of Chinese Collocation

下载PDF

导出

摘要作为一种词汇现象,词语搭配在自然语言处理的许多领域具有重要的应用。本文对4种词语相关性度量和3种词语结构分布度量分别进行了比较分析,并提出了一种基于互信息与熵融合的获取词语搭配的方法。实验结果表明:在同现频率较高情况下,互信息、Cosine系数、x2测试和似然比测试4种相关性度量对搭配判定有大致相同的效果;在度量词语的结构分布方面,熵要优于方差和离散度。本文所提方法依赖度量指标少,阈值容易选取,且与其他已有的方法具有同等效果。 As a kind of word phenomenon, collocation plays a very important role in nature language processing. In this paper, 4 kinds of word association measurements and 3 kinds of word structure distribution measurements are compared and analyzed respectively, and a hybrid method based on mutual information and entropy for collocation is proposed. The experiment results indicate that 4 kinds of word association measurements, mutual information, Cosine coefficient, χ^2test and likelihood ratio have the same impact under high co-occurrence frequency for collocation acquiring and entropy is superior to variance and spread for measuring the word structure distribution. The proposed method relies on fewer measurements and can easily selects coefficient thresholds and achieves the same impact of the existing methods.

作者王素格杨军玲张武

机构地区上海大学计算机工程与科学学院山西大学数学科学学院

出处《中文信息学报》 CSCD 北大核心 2006年第6期31-37,共7页 Journal of Chinese Information Processing

基金国家自然科学基金项目(60573074) 山西省青年科技基金项目(20031027) 山西省自然科学基金(20041040) 山西省科技攻关项目(051129)

关键词计算机应用中文信息处理词语搭配互信息熵 computer application Chinese information processing collocation mutual information entropy

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1全昌勤,何婷婷,姬东鸿,刘辉.从搭配知识获取最优种子的词义消歧方法[J].中文信息学报,2005,19(1):30-35. 被引量：13
2Smadja,F.,Retrieving Collocations from Text:Xtract.Computational Linguistics[J].1993,19(1):143-177.
3Young Mee Chung and Jae Yun Lee.A Corpus-Based Approach to Comparative Evaluation of Statistic Term Association Measures[J].Journal of the American Society for Information Science and Technology,2001,52(4):283-296.
4Darren Pearce.A Comparative Evaluation of Collocation Extraction Techniques[A].In:Third International Conference on Language Resources and Evaluation[C].Las Palmas,Canary Islands,Spain,2002.
5Shouxun Yang.Machine Learning for Collocation Identification[A].In:2003 IEEE International Conference on Natural Language Processing and Knowledge Engineering (NLP-KE'03)[C].Beijing,2003,315-320.
6Pavel Pecina.An Eextensive Empirical Study of Collocation Extraction Methods[A].In:Proceeding of the ACL Student Research Workshop[C].Ann Arbor,Michigan,June 2005,13-18.
7孙健,王伟,钟义信.基于统计的常用词搭配(Collocation)的发现方法[J].情报学报,2002,21(1):12-16. 被引量：15
8孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997(1):29-38. 被引量：55
9曲维光,陈小荷,吉根林.基于框架的词语搭配自动抽取方法[J].计算机工程,2004,30(23):22-24. 被引量：18
10全昌勤,刘辉,何婷婷.基于统计模型的词语搭配自动获取方法的分析与比较[J].计算机应用研究,2005,22(9):55-57. 被引量：8

二级参考文献38

1孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997(1):29-38. 被引量：55
2Nancy I de, Jean Veronis. Introduction to the Special Issue on Word Sense Disambiguation:The State of the Art[J].Computational Linguistics. 1998, 1-42.
3Yarowsky D. Umupervised Word Sense Disambiguation Rivaling Supervised Methods[A]. In: Proceedings of 33rd Annual Meeting of ACL[C], Cambridge, Massachusetts, USA, 1995, 181 - 188.
4HAO Trang Dang, Ching - yi Chia. Simple Features for Chinese Word Sense Disambiguation[A]. In: Proceedings of COLING-2002 [ C ].Philadelphia, USA, 2002, 88- 94.
5Lesk, Michael, Automatic Sense Disambiguation: How to tell a Pine Cone from and Ice Cream Cone, Proceeding of the 1986 SIGDOC Conference, Association for Computing Machinery, New York, 1986.
6M Benson,E Benson,R llson.The BBI Combinatory Dictionary of Eng lish:A Guide to Word Combinations[M].John Benjamins Publishing Compony , 1986.
7车万翔.面向依存文法分析的搭配抽取方法研究:自然语言理解与机器翻译[M].清华大学出版社,2001..
8孙宏林.词语搭配在文本中的分布特征[C].见:黄吕宁主编.1998中文信息处理N际会议论文集[C].清华大学出版社,..
9高惠璇.统计计算[M].北京大学出版社,1997..
10Smadja F. Retrieving Collocations from Text: Xtract[J]. Computional Linguistics, 1993,19(1): 143-177

共引文献88

1刘莉,谈文蓉.统计学习方法在语义消歧中的应用研究[J].西南民族大学学报（自然科学版）,2007,33(1):193-196.
2孟维娟.自然语言处理中的歧义[J].上海电机学院学报,2006,9(S1):16-19. 被引量：1
3祁峰.基于真实文本的[A_单+N(NP)]的句法受限机制和句法组合机制[J].语言文字应用,2008(4):133-138.
4肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
5徐东英,张彤.基于混合策略的双语搭配成分抽取系统的设计与实现[J].计算机工程与应用,2004,40(25):173-175. 被引量：1
6张仰森,曹元大.基于语料库的自然语言建模方法研究[J].计算机科学,2004,31(5):176-179. 被引量：1
7白妙青,郑家恒.动词与动词搭配方法的研究[J].计算机工程与应用,2004,40(27):70-72. 被引量：3
8詹卫东.80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J].当代语言学,2000,2(2):63-73. 被引量：13
9陆俭明.跨入新世纪后我国汉语应用研究的三个主要方面[J].中国语文,2000(6):516-524. 被引量：27
10王霞.汉语动宾搭配自动识别研究[J].语言文字应用,2005(1):137-143. 被引量：5

同被引文献119

1陈佳,罗振声.一种基于语义搭配的汉语词义消歧方法[J].微计算机信息,2008,24(3):187-188. 被引量：1
2方卫东,袁华,刘卫红.基于Web挖掘的领域本体自动学习[J].清华大学学报（自然科学版）,2005,45(S1):1729-1733. 被引量：31
3孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997(1):29-38. 被引量：55
4邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
5郭锋,李绍滋,周昌乐,林颖,李胜睿.基于词汇吸引与排斥模型的共现词提取[J].中文信息学报,2004,18(6):16-22. 被引量：8
6郝秀兰,杨尔弘.基于小规模语料库和机器可读词典的二元分布语义获取[J].中文信息学报,2004,18(6):23-29. 被引量：2
7曲维光,陈小荷,吉根林.基于框架的词语搭配自动抽取方法[J].计算机工程,2004,30(23):22-24. 被引量：18
8裴炳镇,陈晓明,胡熠,陆汝占.一种建立中文概念分类关系的新算法[J].计算机工程与应用,2004,40(36):18-21. 被引量：8
9全昌勤,刘辉,何婷婷.基于统计模型的词语搭配自动获取方法的分析与比较[J].计算机应用研究,2005,22(9):55-57. 被引量：8
10曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48

引证文献14

1姜文志,蒋伟俊,范洪达.汉语分词技术在信息工程中的应用[J].信息与电子工程,2007,5(5):385-387. 被引量：5
2程月,陈小荷.基于条件随机场的汉语动宾搭配自动识别[J].中文信息学报,2009,23(1):9-15. 被引量：9
3温春,石昭祥,张亮.中文领域本体概念层次获取方法对比研究[J].计算机应用研究,2009,26(8):2847-2850. 被引量：8
4林建方,牛成,李生,郑德权.Web数据反馈的搭配抽取方法[J].哈尔滨工业大学学报,2010,42(2):281-285.
5王素格,杨安娜.基于混合语言信息的词语搭配倾向判别方法[J].中文信息学报,2010,24(3):69-74. 被引量：8
6苏宁,惠子敬,刘娟.基于单字特征和搜索引擎的新词识别[J].武汉大学学报（理学版）,2010,56(6):704-710. 被引量：2
7徐润华,陈小荷.极大规模词语搭配库的建造和构成分析[J].南京师范大学文学院学报,2011(3):56-61. 被引量：2
8徐润华,冯敏萱,陈小荷.树库中双词搭配的自动获取和识别研究[J].计算机工程与应用,2011,47(28):17-20.
9潘正高,张磊.一种模式匹配和统计学习相结合的文本情感分类方法[J].宿州学院学报,2013,28(1):66-68. 被引量：1
10管君,谢玮,张仰森.基于多知识源的语义搭配知识库的构建及应用[J].计算机工程与设计,2013,34(6):2136-2140. 被引量：3

二级引证文献53

1吴楠,王庆林,刘禹.基于百科词条的领域本体关系抽取方法[J].中南大学学报（自然科学版）,2013,44(S2):347-350.
2姜文志,蒋伟俊,张金乙,王迪.军用词典库的设计[J].兵工自动化,2007,26(8):50-51. 被引量：2
3姜文志,王迪,范洪达,蒋伟俊.作战指令自动生成的关键模块设计[J].指挥控制与仿真,2007,29(6):28-30. 被引量：2
4姜文志,聂心东,范洪达,蒋伟俊.作战命令的语法信息计算模型[J].信息与电子工程,2008,6(1):51-53.
5李鹏,桂婕,乔晓东,张兆锋.条件随机场与规则集成的专利摘要信息抽取[J].数字图书馆论坛,2010(9):2-6. 被引量：3
6昝红英,张军珲,朱学锋,俞士汶.副词“就”的用法及其自动识别研究[J].中文信息学报,2010,24(5):10-16. 被引量：6
7季培培,鄢小燕,岑咏华,王凌燕.面向领域中文文本信息处理的术语语义层次获取研究[J].现代图书情报技术,2010(9):37-41. 被引量：7
8童波.Research on Extraction Method for Taxonomic Relation among Conceptions of Tea-science Field Ontology[J].Agricultural Science & Technology,2010,11(11):180-182.
9康旭珍,李茹,李双红.框架元素语义核心词自动识别研究[J].中文信息学报,2011,25(4):115-121. 被引量：1
10彭成,季培培.基于确定性退火的中文术语语义层次关联研究[J].计算机应用研究,2011,28(9):3235-3238. 被引量：5

1余刚,陈华月,朱征宇,高原.基于词同现频率的文本特征描述[J].计算机工程与设计,2005,26(8):2180-2182. 被引量：8
2欧有远,张海粟,孟晖,李德毅.基于复杂网络社团划分的Web services聚类[J].计算机应用研究,2009,26(6):2299-2302. 被引量：1
3马颖华,王永成,苏贵洋,张宇萌.一种基于字同现频率的汉语文本主题抽取方法[J].计算机研究与发展,2003,40(6):874-878. 被引量：48
4钱强,陈松灿.基于矩阵正态分布似然比测试的矩阵度量学习算法[J].山东大学学报（工学版）,2012,42(6):37-42. 被引量：1
5刘志坚,石春磊,秦尔楠,宋啸天.面向多出口的互联网访问方法及系统管理[J].江苏通信,2014,30(5):40-41.
6吴鹏飞,刘俊晓,马凤娟.如何巧用VC实现中文快速分词[J].电脑编程技巧与维护,2006(10):89-91.
7何友,胡丽芳,关欣,邓勇,韩德强.一种度量广义基本概率赋值冲突的方法[J].中国科学：信息科学,2011,41(8):989-997. 被引量：12
8沈亚田,沈夏炯,马庆华.无尺度图k-中心点聚类算法在文本挖掘中的应用[J].计算机工程与科学,2009,31(12):65-66. 被引量：3
9李峰,黄金柱,李舟军,杨伟铭.一种领域语料驱动的句子相关性计算方法研究[J].计算机科学,2016,43(5):188-192.
10李国臣.文本分类中基于对数似然比测试的特征词选择方法[J].中文信息学报,1999,13(4):16-21. 被引量：18

中文信息学报

2006年第6期

浏览历史

内容加载中请稍等...

自动获取汉语词语搭配被引量：14

参考文献15

二级参考文献38

共引文献88

同被引文献119

引证文献14

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

自动获取汉语词语搭配 被引量：14

参考文献15

二级参考文献38

共引文献88

同被引文献119

引证文献14

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

自动获取汉语词语搭配被引量：14