基于跨语言语料的汉泰词分布表示被引量：2

Distributed representation of Chinese and Thai words based on cross-lingual corpus

下载PDF

导出

摘要词汇的表示问题是自然语言处理的基础研究内容。目前单语词汇分布表示已经在一些自然语言处理问题上取得很好的应用效果,然而在跨语言词汇的分布表示上国内外研究很少,针对这个问题,利用两种语言名词、动词分布的相似性,通过弱监督学习扩展等方式在中文语料中嵌入泰语的互译词、同类词、上义词等,学习出泰语词在汉泰跨语言环境下的分布。实验基于学习到的跨语言词汇分布表示应用于双语文本相似度计算和汉泰混合语料集文本分类,均取得较好效果。 Word representation is the basic research content of natural language processing. At present, distributed representation of monolingual words has shown satisfactory application effect in some Neural Probabilistic Language （NPL） research, while as for distributed representation of cross-lingual words, there is little research both at home and abroad. Aiming at this problem, given distribution simi larity of nouns and verbs in these two languages, we embed mutual translated words, synonyms, superordinates into Chinese corpus by the weakly supervised learning extension approach and other methods, thus Thai word distribution in cross-lingual environment of Chinese and Thai is learned. We applied the distributed representation of the cross-lingual words learned before to compute similarities of bilingual texts and classify the mixed text corpus of Chinese and Thai. Experimental results show that the proposal has a satisfactory effect on the two tasks.

作者张金鹏周兰江线岩团余正涛何思兰

机构地区昆明理工大学信息工程与自动化学院昆明理工大学智能信息处理重点实验室昆明理工大学理学院

出处《计算机工程与科学》 CSCD 北大核心 2015年第12期2358-2365,共8页 Computer Engineering & Science

基金国家自然科学基金资助项目(61363044)

关键词弱监督学习扩展跨语言语料跨语言词汇分布表示神经概率语言模型 weakly supervised learning extension cross-lingual corpus cross-lingual word distribution representations neural probabilistic language model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1Bengio S,Bengio Y. Taking on the curse of dimensionality in joint distributions using neural networks[J]. IEEE Transac- tions on Neural Networks, 2000,11 (3) : 550-557.
2Bengio Y,Ducharme R, Vincent P, et al. A neural probabilis- tic language model [J]. Journal of Machine Learning Re- search,2003,4(3) : 1137-1155.
3Collobert R, Weston J, Bottou L, et al. Natural language pro- cessing (almost) from scrateh[J]. Journal of Machine Learn- ing Research, 2011,12(1) : 2493-2537.
4Zeman D, Resnik P. Cross language parser adaptation be tween related languages[C]//IJCNLP,2008:35-42.
5Sogaard A. Data point selection for cross-language adaptation of dependency parsers[C]//Proe of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Teehnologiesz Short Papers-Volume 2,2011: 682- 686.
6Ando R K, Zhang T. A framework for learning predietive structures from multiple tasks and unlabeled data[J]. Jour- nal of Maehine Learning Research,2005,6(6):1817-1853.
7Prettenhofer P, Stein B. Cross-language text classification u- sing structural correspondence learning[C]//Proc of the 48th Annual Meeting of the Association for Computational Lin- guistics, 2010 : 1118-1127.
8Steinberger R, Pouliquen B, Hagman J. Cross lingual docu- ment similarity calculation using the mu[tilingual thesaurus eurovoc[C]//Proe of CICLing 02,2002:415 424.
9Wu L,Huang X,Guo Y,et al. FDU at TREC-9:CLIR, filte- ring and QA tasks[C]//Proc of the 9th Text Retrieval Con ference, 2000 : 1.
10Gao J, Nie J, Xun E, et al. Improving query translation for cross-language information retrieval using statistical models [C]//ACM SIGIR,2001:96-104.

同被引文献12

1史晶蕊,郑玉明,韩希.人工神经网络在文本分类中的应用[J].计算机应用研究,2005,22(10):213-216. 被引量：10
2董国君,哈力木拉提.买买提,余辉.基于RBF核的SVM核参数优化算法[J].新疆大学学报（自然科学版）,2009,26(3):355-358. 被引量：15
3陈钰枫,宗成庆,苏克毅.汉英双语命名实体识别与对齐的交互式方法[J].计算机学报,2011,34(9):1688-1696. 被引量：17
4罗远胜,王明文,勒中坚,陆旭.双语潜在语义对应分析及在跨语言文本分类中的应用研究[J].情报学报,2013,32(1):86-96. 被引量：2
5熊文新.Web、语料库与双语平行语料库的建设[J].图书情报工作,2013,57(10):128-135. 被引量：8
6赖娟,金澎,洪艳伟.文本分类中的主动多域学习[J].西南师范大学学报（自然科学版）,2014,39(7):108-114. 被引量：3
7司莉,庄晓喆,贾欢.近10年来国外多语言信息组织与检索研究进展与启示[J].中国图书馆学报,2015,41(4):112-126. 被引量：11
8张玲玲,冀俊忠,贝飞,吴晨生.基于句法分析和属性概率权重的跨语言情感分类算法[J].模式识别与人工智能,2015,28(11):1002-1012. 被引量：3
9赵世瑜,线岩团,郭剑毅,余正涛,洪玄贵,王红斌.基于条件随机场的泰语音节切分方法[J].计算机科学,2016,43(3):54-56. 被引量：2
10刘颖,曹项.基于熵模型的英汉人名对齐[J].中文信息学报,2016,30(3):52-59. 被引量：1

引证文献2

1龚静,李英杰,黄欣阳.基于统计词典和特征加强的多语言文本分类[J].西南师范大学学报（自然科学版）,2018,43(9):45-50. 被引量：3
2张金鹏,苏姣,杨蓓,张占.融合人名知识分布特征的汉泰双语人名对齐[J].计算机工程与应用,2019,55(23):163-169.

二级引证文献3

1李潇雯,朱齐亮.分布式语义框架在自然语言理解中的应用[J].西南师范大学学报（自然科学版）,2021,46(1):19-24.
2卫萍萍.汉日双语中自然类惯用谚语的类型及异同研究[J].湖北第二师范学院学报,2021,38(7):39-45.
3柳致远,范永胜,张万里,冯骥,李勇,黄靖.常见中文社交平台中网络欺凌语言的检测分析[J].西南师范大学学报（自然科学版）,2021,46(8):86-94. 被引量：1

1马甜甜.汉泰词汇中的文化意义探究——以中国的龙和泰国的象为例[J].科教导刊（电子版）,2016,0(12):98-98.
2杨璨,刘清欢.基于MFC的液晶电光测试系统搭建[J].山东工业技术,2015(4):173-173.
3鬼王.“甜似蜜”蜂房小技巧[软件提高篇][J].电脑应用文萃,2005(1):65-65.
4耿航.手机泰语输入法研究[J].计算机光盘软件与应用,2014,17(11):314-315.
5罗燕龙,刘伟盛,戴平阳,李翠华.基于局部稀疏表示模型的海上红外目标跟踪方法[J].厦门大学学报（自然科学版）,2013,52(3):343-348. 被引量：3
6彭籍冲,王红斌,线岩团.泰语新闻事件触发词抽取研究[J].价值工程,2017,36(11):226-228.
7刘建炜,燕路峰.知识表示方法比较[J].计算机系统应用,2011,20(3):242-246. 被引量：38
8杨震,范科峰,雷建军,郭军.基于语义的文本流形研究[J].电子学报,2009,37(3):557-561. 被引量：10
9杨柳,张文生.基于查询词邻近度的专家搜索算法[J].计算机工程,2011,37(6):7-8. 被引量：1
10杨柳,张文生.专家搜索中关系证据的重要性研究[J].计算机应用研究,2010,27(11):4040-4043. 被引量：1

计算机工程与科学

2015年第12期

浏览历史

内容加载中请稍等...

基于跨语言语料的汉泰词分布表示被引量：2

参考文献15

同被引文献12

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于跨语言语料的汉泰词分布表示 被引量：2

参考文献15

同被引文献12

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于跨语言语料的汉泰词分布表示被引量：2