统计和规则相结合的并列结构自动识别被引量：10

Automatic identification of coordinate structure based on statistics and rules

下载PDF

导出

摘要并列结构的自动识别是语言信息处理中的难点,采用统计和规则相结合的方法对并列结构的边界进行了识别。首先,根据连接词的位置,使用最大熵模型分别从左和从右识别出并列结构的左边界和右边界;接着,根据并列结构的特性对自动识别的左右边界使用预定义的规则进行后处理,得到最终左右边界。实验的训练集和测试分别包含12 396和1 219个并列结构。实验表明,该方法性能达到了78.1%,其中后处理加入规则的使用提高了3.4%。 Automatic identification of coordinate structure is a challenging task for sentence analysis in natural language processing. The paper combined a statistical model and several novel rules to automatically identify boundaries of coordinate structures. Firstly, applied maximum entropy model to identify the left and right boundaries respectively. Then, according to specialties of coordinate structures, generated and used several novel rules to optimize the identifying results. The experiments were trained and tested on 12 396 and 1 219 coordinate structures. The results show that the combination of maximum entropy model and rules achieve performance 78.1% in F1, and that the rules bring 3.4% improvement in F1.

作者苗艳军李军辉周国栋

机构地区苏州大学计算机科学与技术学院

出处《计算机应用研究》 CSCD 北大核心 2009年第9期3403-3406,共4页 Application Research of Computers

基金国家"863"计划资助项目(2006AA01Z147) 国家自然科学基金资助项目(60673041)

关键词并列结构并列成分最大熵模型 coordinate structure conjunct maximum entropy model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1吴云芳.并列结构的外部句法特征:A集[c]//机器翻译研究进展—2002年全国机器翻译研讨会论文集.北京:电子工业出版社.2002.
2HOGAN D. Coordinate noun phrase disambiguation in a generative parsing model[ C ]//Proc of the 45th Annual Meeting of the Association of Computational Linguistics. 2007:680-687.
3周强.汉语语料库的短语自动划分和标注研究[D].北京:北京大学,2002.
4吴云芳.并列成分中心语语义相似性考察[J].当代语言学,2005,7(4):305-315. 被引量：15
5吴云芳.动词性并列结构的结构平行[J].语言科学,2004,3(6):57-66. 被引量：5
6周强,孙茂松,黄昌宁.汉语最长名词短语的自动识别[J].软件学报,2000,11(2):195-201. 被引量：37
7吴云芳.“和”“与”“并”“而”连接谓词性成分时的区别[J].语文研究,2005(1):13-16. 被引量：8
8吴云芳.V+V形成的并列结构[J].语言研究,2004,24(3):45-51. 被引量：4

二级参考文献20

1陆俭明,郭锐.汉语语法研究所面临的挑战[J].世界汉语教学,1998,12(4):3-21. 被引量：95
2陈小荷.一个面向工程的语义分析体系[J].语言文字应用,1998(2):73-78. 被引量：11
3李英哲,卢卓群.汉语连词发展过程中的若干特点[J].湖北大学学报（哲学社会科学版）,1997,24(4):52-58. 被引量：20
4马庆株.能愿动词的连用[J].语言研究,1988,8(1):18-28. 被引量：65
5侯敏黄昌宁张普.汉语自动分析中的若干问题与对策[A].黄昌宁,张普.自然语言理解与机器翻译[C].北京:清华大学出版社,2001..
6Chao Yuen Ren(赵元任) 吕叔湘译.A Grammar of Spoken Chinese[M]汉语口语语法[M].北京:商务印书馆,1979..
7詹卫东译.框架语义学[A]..《语言学论从》第27辑[C].北京:商务印书馆,2003.382-412页.
8Agarwal, R. and L. Boggess. 1992. A simple but useful approach to conjunct identification. Proceedings of 30th Annual Meeting of Association for Computational Linguistics. Newark, Delaware. Pp. 15-21.
9Fellbaum, C., ed. 1999. Wordnet: An Electronic Lexical Database. Cambridge, MA: MIT Press.
10Kurohashi, S. and M. Nagao. 1994. A syntactic analysis method of long Japanese sentences based on the detection of conjunctive structures. Computational Linguistics 20,4:507 - 34.

共引文献67

1王强.再论汉语并列结构的中心语[J].励耘语言学刊,2020(1):205-225.
2王东波.基于规则的单层单标记联合结构自动识别[J].文教资料,2008(9):29-31. 被引量：6
3付开平.关于古汉语词类活用说的再认识[J].郧阳师范高等专科学校学报,2006,26(1):31-33. 被引量：1
4冯冲,陈肇雄,黄河燕,张亮,王江伟.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6):1134-1139. 被引量：16
5姜韶华,党延忠.无词典中英文混合术语抽取及算法研究[J].情报学报,2006,25(3):301-305. 被引量：2
6钱小飞.“地”字结构识别[J].现代语文（下旬．语言研究）,2006(5):61-63. 被引量：2
7姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
8李荣,郑家恒.基于语料库的名词短语识别方法[J].济南大学学报（自然科学版）,2007,21(3):243-245. 被引量：2
9奚建清,罗强.基于HMM的汉语介词短语自动识别研究[J].计算机工程,2007,33(3):172-173. 被引量：9
10徐朝红.中古汉语并列连词“并”的发展演变[J].语言研究,2007,27(4):7-10. 被引量：6

同被引文献57

1王东波.基于规则的单层单标记联合结构自动识别[J].文教资料,2008(9):29-31. 被引量：6
2周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
3陈小荷.从自动句法分析角度看汉语词类问题[J].语言教学与研究,1999(3):63-72. 被引量：23
4吴云芳.V+V形成的并列结构[J].语言研究,2004,24(3):45-51. 被引量：4
5吴云芳.动词性并列结构的结构平行[J].语言科学,2004,3(6):57-66. 被引量：5
6李宗江.并列成分的层次标记[J].汉语学习,2002(5):25-28. 被引量：5
7邱艳春,陈明新.并列结构的并列体、中心语和结构形成[J].株洲师范高等专科学校学报,2005,10(6):104-107. 被引量：3
8吴云芳.并列成分中心语语义相似性考察[J].当代语言学,2005,7(4):305-315. 被引量：15
9周强.汉语语料库的短语自动划分和标注研究[D].北京:北京大学,2002.
10Church K. Astochastic Parts Program and Noun Phrase Parser for Unrestricted Text [ C ]. In : Proceedings of the 2nd Conference on Applied Natural Language Processing. Austin:Association for Computational Linguistics, 1988 : 136 - 143.

引证文献10

1王东波,谢靖.基于清华汉语树库的有标记联合结构统计分析[J].现代图书情报技术,2010(4):12-17. 被引量：5
2石翠.面向中文专利文献的单层并列结构识别[J].软件,2014,35(3):68-71. 被引量：2
3王杨.并列结构识别研究综述[J].电脑与信息技术,2014,22(3):38-40.
4石翠,王杨,杨彬,姚晔.面向中文专利文献的单层并列结构识别[J].现代图书情报技术,2014(10):76-83. 被引量：3
5刘小蝶,朱筠,晋耀红.中文专利中有标记并列结构的自动识别研究[J].计算机工程,2018,44(6):162-168. 被引量：5
6王晓媛.中文并列结构自动识别研究综述[J].现代计算机,2019,25(3):37-40.
7裴晶晶,乐小虬.篇章级并列关系文本块识别方法研究[J].数据分析与知识发现,2019,3(5):51-56. 被引量：1
8杨丹,邵玉斌,张海玲,龙华,杜庆治.融合多特征的半监督并列结构识别[J].小型微型计算机系统,2021,42(9):1818-1825. 被引量：2
9杨小莉,赵丽新,谷松.科技论文中并列结构的正确使用研究[J].科技期刊发展与导向,2018,0(1):182-187.
10刘小蝶.汉语有标记并列结构自动识别方法综述[J].语文学刊（基础教育版）,2014,0(8):50-51.

二级引证文献17

1石翠,周俏丽,张桂平.面向中文专利文献的有标记并列结构的统计分析[J].中文信息学报,2013,27(5):43-50. 被引量：4
2石翠.面向中文专利文献的单层并列结构识别[J].软件,2014,35(3):68-71. 被引量：2
3王杨.并列结构识别研究综述[J].电脑与信息技术,2014,22(3):38-40.
4石翠,王杨,杨彬,姚晔.面向中文专利文献的单层并列结构识别[J].现代图书情报技术,2014(10):76-83. 被引量：3
5宋洁,王志远,王玉秀,汤利容,李小矛.《专利审查指南》修改后计算机程序的专利保护研究[J].软件,2017,38(5):67-70. 被引量：7
6刘小蝶,朱筠,晋耀红.中文专利中有标记并列结构的自动识别研究[J].计算机工程,2018,44(6):162-168. 被引量：5
7张引兵,宋继华,彭炜明,赵亚伟,宋天宝.短语结构树库向句式结构树库的自动转换研究[J].中文信息学报,2018,32(5):31-41. 被引量：3
8王晓媛.中文并列结构自动识别研究综述[J].现代计算机,2019,25(3):37-40.
9裴晶晶,乐小虬.篇章级并列关系文本块识别方法研究[J].数据分析与知识发现,2019,3(5):51-56. 被引量：1
10Xiaoqiu Le,Jingdan Chu,Siyi Deng,Qihang Jiao,Jingjing Pei,Liya Zhu,Junliang Yao.CiteOpinion: Evidence-based Evaluation Tool for Academic Contributions of Research Papers Based on Citing Sentences[J].Journal of Data and Information Science,2019,4(4):26-41. 被引量：8

1rather than用法小结[J].英语画刊（高级）,2015,0(3):9-10.
2逗号用法补充规则[J].青岛大学学报（工程技术版）,2016,31(3):10-10.
3蒋柳青.并列连词and和or的三类句型的用法[J].初中生学习（高）,2016,0(12):7-7.
4简幼良,高健,王秀坤,唱红涛.基于语境类似度的并列成分的判定方法[J].大连理工大学学报,1996,36(4):504-510.
5简幼良,高健,王秀坤.基于语境类似度的并列成分的判定方法[J].中文信息学报,1997,11(1):51-58. 被引量：2
6标有引号（或书名号）的并列成分之间是否用顿号？[J].成都电子机械高等专科学校学报,2012,15(3):60-60.
7何少娴.英语并列结构中的对等关系研究[J].科技视界,2012(18):163-165.
8标有引号(或书名号)的并列成分之间用不用顿号?[J].成都工业学院学报,2017,20(1):49-49.
9莫怡文,姬东鸿,黄江平.基于条件随机场的顿号边界识别[J].计算机应用,2015,35(10):2838-2842. 被引量：2

计算机应用研究

2009年第9期

浏览历史

内容加载中请稍等...

统计和规则相结合的并列结构自动识别被引量：10

参考文献8

二级参考文献20

共引文献67

同被引文献57

引证文献10

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

统计和规则相结合的并列结构自动识别 被引量：10

参考文献8

二级参考文献20

共引文献67

同被引文献57

引证文献10

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

统计和规则相结合的并列结构自动识别被引量：10