基于双语协同训练的最大名词短语识别研究被引量：5

Title Recognition of Maximal-Length Noun Phrase Based on Bilingual Co-Training

下载PDF

导出

摘要针对传统方法对双语最大名词短语识别一致性差以及跨领域识别能力弱的缺点,提出一种基于半监督学习的双语最大名词短语识别算法.利用汉英最大名词短语的互译性和识别的互补性,把平行的汉语句子和英语句子这两个数据集看作一个数据集的两个不同的视图进行双语协同训练.在协同训练中,把双语对齐标注一致率作为标记置信度估计依据,进行增量标记数据的选择.实验结果表明:该算法显著提高了双语最大名词短语的识别能力,在跨领域测试和同领域测试中,F值分别比目前最好的最大名词短语识别模型提高了4.52%和3.08%. This article focuses on the problem of weak cross-domain ability on bilingual maximal-length noun phrase recognition. A bilingual noun phrase recognition algorithm based on semi-supervised learning is proposed. The approach can make full use of both the English features and the Chinese features in a unified framework, and it regards the two language corpus as different view of one dataset. Instances with the highest confidence score are selected and merged, and then added to the labeled data set to train the classifier. Experimental results on test sets show the effectiveness of the proposed approach which outperforms 4.52% over the baseline in cross-domain, and 3.08% over the baseline in similar domain.

作者李业刚黄河燕史树敏鉴萍苏超

机构地区北京理工大学北京市海量语言信息处理与云计算应用工程技术研究中心北京理工大学计算机学院山东理工大学计算机科学与技术学院

出处《软件学报》 EI CSCD 北大核心 2015年第7期1615-1625,共11页 Journal of Software

基金国家重点基础研究发展计划(973)(2013CB329300) 国家自然科学基金(61132009 61201352 61202244)

关键词最大名词短语半监督学习标注投射双语协同训练短语识别 maximal-length noun phrase semi-supervised learning label projection bilingual co-training phrase identifieation

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1鉴萍,宗成庆.基于双向标注融合的汉语最长短语识别方法[J].智能系统学报,2009,4(5):406-413. 被引量：9

二级参考文献22

1王立霞,孙宏林.现代汉语介词短语边界识别研究[J].中文信息学报,2005,19(3):80-86. 被引量：11
2干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
3冯冲,陈肇雄,黄河燕,张亮,王江伟.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6):1134-1139. 被引量：16
4ZHOU Guodong, SU Jian, TEY Tongguan. Hybrid text chunking [ C ]//Proceedings of the 2nd Workshop on Learning Language in Logic and the 4th Conference on Computational Natural Language Learning. Lisbon, Portugal, 2000: 163-165.
5KUDO T, MATSUMOTO Y. Chunking with support vector machines[ C]//Proceedings of the North American Chapter of the Association for Computational Linguistics. Pittsburgh, USA, 2001: 192-199.
6SHA Fei, PEREIRA F. Shallow parsing with conditional random fields [ C ]//Proceedings of the North American Chapter of the Association for Computational Linguistics. Edmonton, Canada, 2003: 213-220.
7BAI Xuemei, LI Jinji, KIM Dongil, et al. Identification of maximal-length noun phrases based on expanded chunks and classified punctuations in Chinese [ C ]//Proceedings of International Conference on Computer Processing of Oriental Languages. Singapore, 2006: 268-276.
8TJONG KIM SANG E F. Noun phrase recognition by system combination [ C ]//Proceedings of the North American Chapter of the Association for Computational Linguistics. Seattle. USA. 2000: 50-55.
9CHEN Wenliang, ZHANG Yujie, ISAHARA H. An em pirical study of Chinese chunking[ C]//Proceedings of the Joint Conference of the International Committee on Computational Linguistics and the Association for Computational Linguistics. Sydney, Australia, 2006 : 97-104.
10LEE Linshan, LIN Longji, CHEN Kehjiann. An efficient natural language processing system specially designed for the Chinese language [ J ]. Computational Linguistics, 1991, 17(4): 347-374.

共引文献8

1钱小飞,侯敏.基于混合策略的汉语最长名词短语识别[J].中文信息学报,2013,27(6):16-22. 被引量：7
2钱小飞,侯敏.基于归约的汉语最长名词短语识别方法[J].中文信息学报,2015,29(2):40-48. 被引量：4
3李业刚,黄河燕,鉴萍.引入混合特征的最大名词短语双向标注融合算法[J].自动化学报,2015,41(7):1274-1282. 被引量：4
4蔡东风,赵奇猛,饶齐,王裴岩.基于马尔科夫逻辑网的中文专利最大名词短语识别[J].中文信息学报,2016,30(4):21-28. 被引量：2
5李洪政,晋耀红.汉语介词短语自动识别研究综述[J].中文信息学报,2017,31(2):1-10. 被引量：1
6钱小飞.组块分析研究综述[J].现代语文,2018(6):166-170. 被引量：2
7钱小飞.汉语内层最长名词短语的识别研究[J].浙江外国语学院学报,2019(6):59-67.
8邢丹,饶高琦,荀恩东,王诚文.基于大规模语料库的介词结构搭配库构建[J].中文信息学报,2020,34(11):1-8. 被引量：8

同被引文献21

1王光,李鸿宇,邱云飞,郁博文,柳厅文.基于图卷积记忆网络的方面级情感分类[J].中文信息学报,2021,35(8):98-106. 被引量：17
2干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
3胡金柱,俞小娟,李琼,周毕吉.基于规则库和聚类分析的复句短语字段的自动识别研究[J].华中师范大学学报（自然科学版）,2008,42(2):190-194. 被引量：9
4钱小飞.最长名词短语识别研究[J].现代语文（下旬．语言研究）,2009(7):124-126. 被引量：2
5胡金柱,吴锋文,李琼,舒江波.汉语复句关系词库的建设及其利用[J].语言科学,2010,9(2):133-142. 被引量：31
6卢朝华,黄广君,郭志兵.基于最大熵的汉语介词短语识别研究[J].通信技术,2010,43(5):181-183. 被引量：7
7吴锋文.新时期以来汉语复句基础研究综观[J].信阳师范学院学报（哲学社会科学版）,2013,33(1):78-84. 被引量：4
8郑丽,吕学强.搜索引擎日志中“N+V+N”、“V+N+N”型短语识别[J].计算机工程与应用,2013,49(6):143-147. 被引量：1
9刘钰峰,李仁发.异构信息网络上基于图正则化的半监督学习[J].计算机研究与发展,2015,52(3):606-613. 被引量：9
10卜质琼,郑波尽.基于LDA模型的Ad hoc信息检索方法研究[J].计算机应用研究,2015,32(5):1369-1372. 被引量：8

引证文献5

1吴锋文.面向信息处理的非分句语段的类型及其特征[J].渭南师范学院学报,2017,32(3):64-69.
2李业刚,梁丽君,孙福振,王绍卿,于潇.融入双语最大名词短语的机器翻译模型[J].计算机应用研究,2017,34(5):1316-1320. 被引量：9
3王栋,李业刚,张晓,蒲相忠.基于准循环神经网络的中文命名实体识别[J].计算机工程与设计,2020,41(7):2038-2043. 被引量：11
4李琳,王国伟,张杰,周栋.基于耦合模拟退火S3VM的信用预测[J].计算机工程与设计,2021,42(1):196-205.
5鲍小异,姜晓彤,王中卿,周国栋.基于跨语言图神经网络模型的属性级情感分类[J].软件学报,2023,34(2):676-689. 被引量：2

二级引证文献22

1孙瑞.基于英语翻译应用视角下的计算机智能校对系统开发研究[J].微型电脑应用,2020,36(2):145-148. 被引量：6
2崔丹.英语翻译计算机智能校对系统设计[J].现代电子技术,2019,42(4):179-182. 被引量：11
3饶岩岩.基于语义特征的复杂长句切分式翻译算法研究[J].周口师范学院学报,2020,37(1):95-99. 被引量：2
4田力.基于汉英短语翻译组合机器自动翻译系统设计与测试研究[J].微型电脑应用,2020,36(5):43-46. 被引量：10
5郑萌.基于变分模型的英汉翻译系统设计[J].电子科技,2020,33(12):75-78. 被引量：1
6廉龙颖.Bi-LSTM+CRF的网络空间安全领域命名实体的识别[J].黑龙江科技大学学报,2020,30(6):717-722. 被引量：4
7岳佩,张浩.用户反馈和模式识别相融合的机器翻译优化研究[J].信息技术,2021,45(1):126-130. 被引量：7
8廖涛,勾艳杰,张顺香.融合注意力机制的BERT-BiLSTM-CRF中文命名实体识别[J].阜阳师范大学学报（自然科学版）,2021,38(3):86-91. 被引量：7
9张月.基于改进短语翻译模型的计算机智能化校对系统研究[J].自动化技术与应用,2021,40(12):58-61. 被引量：2
10何儒汉,唐娇,史爱武,陈佳,李相朋,胡新荣.基于实体消岐和多粒度注意力的知识库问答[J].计算机工程与设计,2022,43(2):560-566. 被引量：2

1冯冲,陈肇雄,黄河燕,张亮,王江伟.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6):1134-1139. 被引量：16
2林晓帆,丁晓青,吴佑寿.最近邻分类器置信度估计的理论分析[J].科学通报,1998,43(3):322-325. 被引量：10
3李荣.基于隐马尔可夫模型的汉语非嵌套名词短语识别[J].忻州师范学院学报,2004,20(5):122-124. 被引量：1
4张惠春.基于最大熵模型的中文名词短语识别[J].电脑知识与技术（过刊）,2009,15(3X):1928-1930.
5钱小飞,侯敏.基于混合策略的汉语最长名词短语识别[J].中文信息学报,2013,27(6):16-22. 被引量：7
6李荣,郑家恒,郭梅英.基于遗传算法的隐马尔可夫模型在名词短语识别中的应用研究[J].计算机科学,2009,36(10):244-246. 被引量：4
7蔡东风,赵奇猛,饶齐,王裴岩.基于马尔科夫逻辑网的中文专利最大名词短语识别[J].中文信息学报,2016,30(4):21-28. 被引量：2
8王建华,徐伟,路为,阎杰.多维系统仿真模型的置信度估计[J].弹箭与制导学报,2005,25(SB):626-627.
9姜玉玲.基于EXCEL对KAPPA的研究与应用[J].才智,2012,0(11):231-231. 被引量：1
10姜亚辉,姬东鸿.结合半监督与主动学习的复杂名词短语识别[J].计算机工程与设计,2015,36(2):498-501. 被引量：1

软件学报

2015年第7期

浏览历史

内容加载中请稍等...

基于双语协同训练的最大名词短语识别研究被引量：5

参考文献1

二级参考文献22

共引文献8

同被引文献21

引证文献5

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于双语协同训练的最大名词短语识别研究 被引量：5

参考文献1

二级参考文献22

共引文献8

同被引文献21

引证文献5

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于双语协同训练的最大名词短语识别研究被引量：5