基于N-gram和向量空间模型的语句相似度研究被引量：14

A measure of sentence similarity based on N-grams and Vector Space Model

下载PDF

导出

摘要语句相似度研究广泛应用于信息检索、语言测试自动评分和机器翻译评价等领域。以往的研究有的注重语言形式,有的偏重语言意义,把形式和意义结合起来对语句相似度进行综合考察的研究则比较少见。本文运用自然语言处理中的N-gram方法,结合向量空间模型,从语言形式和语言意义两个方面出发对语句相似度进行了深入研究。研究结果表明,该算法计算出的语句相似度与中外评分员评判的相似度之间具有较高的一致性,总体相关系数分别达到了.928和.925,显示本研究所提出的相似度算法效果显著。 Measures of sentence similarity have wide applications in Information Retrieval, language assessment and machine translation evaluation. In approaching sentence similarity, most previous studies have concentrated either on form or on meaning, and studies investigating both aspects are rarely found in the literature. This study adopts the N-gram method and the Vector Space Model to measure the semantic and formal similarities between sentences. Results of the study show that the algorithm employed in this research achieves measures which correlate highly with human judgment of semantic and formal similarities. The overall correlation coefficients with human raters reach .928 and .925 respectively, indicating that the algorithm provides a reliable measure of sentence similarity.

作者王金铨梁茂成俞洪亮

机构地区北京外国语大学扬州大学外国语学院

出处《现代外语》 CSSCI 北大核心 2007年第4期405-413,共9页 Modern Foreign Languages

基金国家社科基金项目"基于大型双语对应语料库的翻译研究与翻译教学平台"(项目编号05BYY013)的部分成果北京外国语大学中国外语教育中心"中国外语教育基金"课题资助。

关键词形式语义相似度潜在语义分析

分类号 H313 [语言文字—英语]

引文网络
相关文献

参考文献13

1Akiba Y., K. Imamura & E. Sumita. 2001. Using multiple edit distances to automatically rank machine translation output[P]. In Proceedings of MT Summit Ⅷ: 15-20.
2Dumais S. T, T. K. Landauer & M. L. Littman. 1996. Automatic cross-linguistic information retrieval using latent semantic indexing [P]. SIGIR96 Workshop on Cross-Linguistic Information Retrieval.
3Laham, D. 1997. Latent semantic analysis approaches to categorization. [A] In M. G. Shafto & P. Langley (eds.). Proceedings of the 19^th Annual Conference of the Cognitive Science Scociety [C]. Hillsdale, NJ. Lawrence Erlbaum Associates, Inc, 979.
4Landauer, T. K. , P. W. Foltz & D. Laham. 1998. Introduction to latent semantic analysis [J]. Discourse Processes 25: 259-84.
5Landauer T. K., D. Laham & P. W. Foltz. 2003.Automated essay scoring and annotation of essays with the Intelligent Essay Assessor[A]. In M. Shermis, D. Burstein & C. Jill (eds.). Automated Essay Scoring: A Cross Disciplinary Perspective [C]. Mahwah, NJ: Lawrence Erlbaum Associates.
6Leusch, G., N. Ueffing & H. Ney. 2003. A novel string-to-string distance measure with applications ,to machine translation evaluation [P].Proceedings of MT Summit Ⅸ, New Orleans, U.S.A.
7MANNING C D，SCHOTZE H．统计自然语言处理基础[M]．苑春法，等译．北京：电子工业出版社，2005．
8Papineni, K. & S. Roukos. 2002. Bleu: A method for automatic evaluation of machine translation [P]. Proceedings of the 40^th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002, 311-18.
9Rosario, B. 2000. Latent semantic indexing : An overview [A]. INFOSYS 240 Spring 2000 [C].
10Turney, P. D. 2005. Measuring semantic similarity by latent relational analysis[P]. Proceedings of the Nineteenth International Joint Conference on Artificial Intelligence (IJCAI-05), Edinburgh, Scotland, 1136-41.

二级参考文献32

1张德禄.语篇连贯研究纵横谈[J].外国语,1999,22(6):24-31. 被引量：135
2苗兴伟.论衔接与连贯的关系[J].外国语,1998,21(4):45-50. 被引量：132
3朱永生.韩礼德的语篇连贯标准外界的误解与自身的不足[J].外语教学与研究,1997,29(1):23-27. 被引量：106
4马广惠.中美大学生英语作文语言特征的对比分析[J].外语教学与研究,2002,34(5):45-49. 被引量：141
5Kintsch, W., D. Steinhart, G. Stahl & LSA Research Group. 2000. Developing summarization skills through the use of LSA-Based Feedback [J].Interactive learning environments 8 (2): 87-109.
6Berry, M., S. Dumais, & G. O' Brien [M]. 1994. Using linear algebra for Intelligent Information Retrieval [M]. Boston: Houghton Mifflin Company.
7Carrroll, J., et al. 1971. Word Frequency Book. Houghton Mifflin Company & American Heritage Publishing Co., Inc.
8Chomsky, N. 1965. Aspects of the Theory of Syntax [M]. Cambridge, MA: MIT Press.
9Chomsky, N. 1986. Knowledge oflanguage: Its nature, origin, and use [M]. Westport: Greenwood Publishing Group.
10Chomsky, N. 2000. New horizons in the study of language and mind [M]. Cambridge: Cambridge University Press.

共引文献134

1解月,任伟.不同英语水平学生的段落连贯元语用能力研究[J].语言学研究,2021(1):18-30. 被引量：1
2徐璐燕.说明文写作中衔接与写作质量的相关研究[J].校园英语,2020(52):25-26.
3王艳伟.专业英语教材与测试阅读文本易读度比较研究[J].外语研究,2021,38(2):70-75. 被引量：4
4刘丽达,齐秀坤.科技英语摘要语篇连贯性之新探[J].哈尔滨工业大学学报（社会科学版）,2008,10(2):140-144.
5罗书全.论生成语法与系统功能语法的互补[J].广东教育学院学报,2006,26(6):94-98. 被引量：5
6唐世民,岳建辉.隐喻的二语习得:潜伏语义分析的预测与实验证据(英文)[J].中国英语教学：英文版,2009(1):109-116.
7郑亚非.潜在语义分析与篇章理解[J].浙江工业大学学报（社会科学版）,2006,5(1):70-75. 被引量：1
8桂诗春.我国外语教学的新思考[J].外国语,2004,27(4):2-9. 被引量：147
9李清华.基于文件夹的写作形成性评估对中国学生EFL写作能力发展的影响(英文)[J].Chinese Journal of Applied Linguistics,2010,33(2):103-116. 被引量：3
10侯杰.评价理论与大学英语写作[J].佳木斯教育学院学报,2013(4):178-178. 被引量：1

同被引文献272

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997(1):29-38. 被引量：54
3车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：63
4高思丹,袁春风.语句相似度计算在主观题自动批改技术中的初步应用[J].计算机工程与应用,2004,40(14):132-135. 被引量：47
5陈伟,丁秋林.一种XML相似重复数据的清理方法研究[J].北京航空航天大学学报,2004,30(9):835-838. 被引量：7
6曲维光,陈小荷,吉根林.基于框架的词语搭配自动抽取方法[J].计算机工程,2004,30(23):22-24. 被引量：17
7曹忠升,万劲伟.基于语义的数据清理技术[J].华中科技大学学报（自然科学版）,2005,33(2):76-78. 被引量：2
8党政法,周强.短语树到依存树的自动转换研究[J].中文信息学报,2005,19(3):21-27. 被引量：12
9刘世岳,李珩,张俐,姚天顺.Co-training机器学习方法在中文组块识别中的应用[J].中文信息学报,2005,19(3):73-79. 被引量：8
10冯志伟.自然语言处理中的概率语法[J].当代语言学,2005,7(2):166-178. 被引量：10

引证文献14

1王金铨,文秋芳.中国学生大规模汉译英测试机助评分模型的研究与构建[J].现代外语,2009,32(4):415-420. 被引量：19
2陈峰.基于Winnow算法的垃圾邮件过滤器研究[J].计算机应用,2009,29(B12):21-23. 被引量：1
3王金铨,文秋芳.国内外机器自动评分系统评述——兼论对中国学生翻译自动评分系统的启示[J].外语界,2010(1):75-81. 被引量：28
4叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
5王金铨.汉译英自动评分系统中的语义相似度比较研究[J].外语测试与教学,2011(4):8-17. 被引量：2
6郑炜冬.试卷相似度自动评估技术的研究[J].智能计算机与应用,2011,1(4):16-19.
7刘剑,胡玉辉.自动批改软件在大学英语写作教学中的应用[J].河南工程学院学报（社会科学版）,2013,28(4):82-84. 被引量：5
8王恒静,曹存根,高尚.基于词类和搭配的微博舆情文本聚类方法研究[J].南京师大学报（自然科学版）,2015,38(1):57-65. 被引量：2
9王金铨,陈烨.计算机辅助语言测试与评价——应用与发展[J].中国外语,2015,12(6):76-81. 被引量：6
10段建勇,关晓龙.基于统计和特征相结合的查询纠错方法研究[J].现代图书情报技术,2016(2):34-42. 被引量：3

二级引证文献82

1庞雅心,王晓燕.大语言模型背景下ChatGPT翻译质量研究——以陕西本土文学作品《人生》(节选)为例[J].现代英语,2023(22):67-70.
2李春秀.国内英语测试研究现状与发展趋势——对12种外语类核心期刊5年(2005年-2009年)的统计分析[J].科技信息,2010(19):264-265.
3王茜.基于BLEU的英语翻译自动评分研究[J].安徽电子信息职业技术学院学报,2010,9(4):65-66. 被引量：7
4张新玲,刘君玲.中国大学EFL学习者英汉/汉英笔译测试研究综述[J].上海翻译,2011(2):30-33. 被引量：6
5叶焕倬,吴迪.基于改进编辑距离的相似重复记录清理算法[J].现代图书情报技术,2011(7):82-90. 被引量：7
6寇继虹,楼雯.基于知识图谱的E-learning研究的可视化分析[J].电化教育研究,2011,32(9):20-25. 被引量：6
7王金铨.汉译英自动评分系统中的语义相似度比较研究[J].外语测试与教学,2011(4):8-17. 被引量：2
8吴华佳,刘绍龙.预制语块在翻译过程中的效应优势及实践[J].扬州大学学报（人文社会科学版）,2011,15(5):115-120. 被引量：18
9樊军,陈静.自动作文评价系统的发展与研究综述——从PEG到Style Writer[J].宜宾学院学报,2011,11(4):83-86. 被引量：3
10田霖,赵晓茫.计算机自动评分在自学考试外语测验中的应用研究[J].中国考试,2011(12):30-35.

1王慧莉,隋丹妮.基于潜在语义分析的文本研究[J].重庆大学学报（社会科学版）,2005,11(5):94-96.
2吴娜炯.格语法在主观题自动阅卷中的应用[J].办公自动化（综合月刊）,2010(4):27-28. 被引量：1
3刘泽权,刘鼎甲.学习者英译文自动评估系统的设计与实现[J].解放军外国语学院学报,2015,38(2):109-115. 被引量：3
4汤世平,樊孝忠,朱建勇.基于潜在语义分析的文本连贯性分析[J].计算机应用与软件,2008,25(2):95-96. 被引量：3
5王金铨.汉译英自动评分系统中的语义相似度比较研究[J].外语测试与教学,2011(4):8-17. 被引量：2
6王慧莉,刘文宇.潜在语义分析:原理与应用[J].华中科技大学学报（社会科学版）,2004,18(4):91-94. 被引量：2
7Jianxiang Geng Zufu Wu.On the Non-grammatical Aspect in the English-Chinese Comparative Study[J].US-China Foreign Language,2006,4(7):10-14. 被引量：1
8郑亚非.潜在语义分析与篇章理解[J].浙江工业大学学报（社会科学版）,2006,5(1):70-75. 被引量：1
9王茜.基于BLEU的英语翻译自动评分研究[J].安徽电子信息职业技术学院学报,2010,9(4):65-66. 被引量：7
10郑丽芳,唐朝辉.潜在语义分析的英汉口译语料库挖掘[J].厦门理工学院学报,2015,23(1):86-90. 被引量：1

现代外语

2007年第4期

浏览历史

内容加载中请稍等...

基于N-gram和向量空间模型的语句相似度研究被引量：14

参考文献13

二级参考文献32

共引文献134

同被引文献272

引证文献14

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

基于N-gram和向量空间模型的语句相似度研究 被引量：14

参考文献13

二级参考文献32

共引文献134

同被引文献272

引证文献14

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

基于N-gram和向量空间模型的语句相似度研究被引量：14