中英新闻可比语料库在线构建系统的设计

Design and Implementation of Online Building System for Chinese-English News Comparable Corpora

下载PDF

导出

摘要可比语料库是重要的基础资源,在线挖掘可比语料是构建大规模可比语料库的有效途径,合适的语料来源网站和有效的可比度计算方法能够简化在线挖掘过程。选择环球时报英文版和凤凰网作为语料来源,设计了一个中英新闻可比语料库在线构建系统。测试结果表明,系统能够连续稳定地生成可比语料。 Comparable corpora are useful lingual resources.Mining comparable texts online from the web is an effective way to building comparable corpora of large scale.Suitable source websites and effective comparability measurement will facilitate the mining process.An online mining system for Chinese-English bilingual news comparable corpus is designed with globaltimes.cn and ifeng.com as the English and Chinese news source websites respectively.The system test results indicate that it can output comparable news pair steadily.

作者赵永标张其林谷琼 ZHAO Yongbiao;ZHANG Qilin;GU Qiong(School of Computer Engineering,Hubei University of Science and Arts,Xiangyang 441053,Hubei,China)

机构地区湖北文理学院计算机工程学院

出处《安顺学院学报》 2019年第3期121-124,共4页 Journal of Anshun University

基金国家语委十三五科研规划项目“基于主题模型的Web可比语料在线挖掘研究”(项目编号:YB135-22)

关键词双语语料库可比语料库可比度新闻 bilingual corpora comparable corpora comparability news

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1柳路芳,李波,陈鹏,周凌寒,王兵.基于词向量与可比语料库的双语词典提取研究[J].计算机工程与科学,2018,40(2):368-373. 被引量：4
2庞伟.双语语料库构建研究综述[J].信息技术与信息化,2015(3):105-108. 被引量：7
3房璐,葛运东,洪宇,姚建民.可比较语料库构建及在跨语言信息检索中的应用[J].广西师范大学学报（自然科学版）,2010,28(3):126-130. 被引量：5

二级参考文献11

1刘超朋.平行语料库概述[J].燕山大学学报（哲学社会科学版）,2007,8(S1):120-121. 被引量：10
2TAO Tao,ZHAI Cheng-xiang. Mining comparable bilingual text corpora for cross-language information integration [C]//Proceedings of the 8th ACM SIGKDD International Conference on Knowledge and Data Mining. New York: ACM Press ,2005 : 691-696.
3VU T,AW A T,ZHANG Min. Feature-based method for document alignment in comparable news corpora[C]//Proceeding s of the 12th Conference of the European Chapter of the ACL. Morristown,NJ:ACL,2009:843-851.
4TUOMAS T,ARI P,KALERVO J ,et al. Focused web crawling in the acquisition of comparable corpora[J]. Information Retrieval, 2008,11 (5) : 427-445.
5RAPP R. Identifying word translations in non-parallel texts[C]//Proeeedings of the 33rd Annual Meeting on Association for Computational Linguistics. Morristown ,NJ :ACL, 1995 : 320-322.
6FUNG P. A statistical view on bilingual lexicon extraction:from parallel corpora to non-parallel corpora[C]//Machine Translation and the Information Soup ;LNCS Vol 1529. Berlin:Springer-Verlag, 1998 : 1-17.
7TALVENSAARI T. Effects of aligned corpus quality and size in corpus-based CLIR[C]//Proeeedings of the IR Research, 30th European Conference on Advances in Information Retrieval. Berlin : Springer-Verlag, 2008 : 114-125.
8CHENG Pu-jen,TENG Jei-wen,CHEN Ruei-eheng,et al. Translating unknown queries with web corpora for crosslanguage information retrieval[C]//Proceeding of 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM,2004:146-153.
9徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：233
10才让加.面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究[J].中文信息学报,2011,25(6):157-161. 被引量：18

共引文献13

1满静.翻译项目管理模式下的财经类新闻翻译记忆库的建立[J].现代英语,2023(20):79-82.
2司莉,何依.2000年以来我国多语言语料库研究进展[J].现代情报,2016,36(6):165-170. 被引量：2
3黄金柱,樊信展,李峰,张克亮.基于军事平行语料库的人机结合翻译策略[J].洛阳师范学院学报,2016,35(8):56-61. 被引量：3
4司莉,史雅莉.基于跨语言信息检索的可比语料库构建方法研究[J].国家图书馆学刊,2016,25(6):64-70. 被引量：1
5彭飞,吐尔根.依布拉音,艾山.吾买尔,米尔夏提.力提甫.用于双语科技术语对齐的汉维文可比语料库构建[J].新疆大学学报（自然科学版）,2017,34(3):316-321. 被引量：2
6张嘉伟,刘越莲.基于可比语料库的“悲伤”情绪隐/转喻对比研究——以歌德和李白诗歌为例[J].外语教学,2018,39(4):46-51. 被引量：10
7刘清民,姚长青,何彦青,石崇德.基于枢轴语言的多语言神经机器翻译研究[J].科学技术创新,2019(5):86-88. 被引量：1
8原伟.可比语料库构建与可比度计算研究综述[J].电脑知识与技术,2019,15(8Z):224-227. 被引量：2
9王君泽,马洪晶,张毅,杨兰蓉.裁判文书类案推送中的案情相似度计算模型研究[J].计算机工程与科学,2019,41(12):2193-2201. 被引量：16
10周晓航,周晓宇.基于汉英双语语料的语义精准抽取系统设计[J].现代电子技术,2020,43(10):156-159.

1无,任正非.华为品牌的商业核心价值观(下)[J].商业文化,2019,0(17):56-65.
2张玲玲.深度链接服务提供者侵犯著作权的司法实践与思考[J].苏州大学学报（法学版）,2018,5(3):72-81. 被引量：6
3刘辛丹,吕坤.当代国际体育经济学的研究热点和趋势[J].财经科学,2019,0(6):120-132. 被引量：1
4赵晖.哈尔滨市农村人力资源开发现状[J].农民致富之友,2019,0(19):205-205.
5王晓春,王小燕,朱艳霞.中青年冠心病患者的健康信息素养及其对网络健康知识搜索行为的影响[J].临床与病理杂志,2018,38(2):355-362. 被引量：16
6陶倩文,沈兴蓉,冯瑞,王德斌.国内互联网可得吸烟相关信息调查分析[J].泰山医学院学报,2018,39(11):1201-1205. 被引量：1
7洪桂彬.不跑步就罚款?管理制度不能太任性[J].人力资源,2019(11):56-57.
8高宇,闫娟娟,孙健.电子商务管理与Web数据挖掘技术的契合探索[J].产业与科技论坛,2019,18(11):57-58. 被引量：2
9龙邦媛,李康,吕发金,吕宗伟.基于改进导向滤波算法的低剂量CT图像处理[J].电子学报,2019,47(7):1490-1496. 被引量：3
10顾代权.轧机窗口间隙对轧制精度影响[J].冶金设备,2019(3):33-37. 被引量：5

安顺学院学报

2019年第3期

浏览历史

内容加载中请稍等...

中英新闻可比语料库在线构建系统的设计

参考文献3

二级参考文献11

共引文献13

相关作者

相关机构

相关主题

浏览历史