统计语言模型能做什么? 被引量：31

What Can We Do with Statistical Language Mode?

下载PDF

导出

摘要 20年来中文信息处理取得了巨大成绩 ,这是有目共睹的。当前摆在学界面前的一个重要任务是确立全局的战略目标 ,并尽快在一些社会急需的发展方向上取得实质性的突破。为此 ,首先要澄清某些认识 ,比如中文信息处理是不是一定要在汉语理解的基础上推进 ?对于解决中文信息处理的一些急需课题来说 ,究竟什么方法是最适用的 ?本文首先对国内外自然语言处理的历史作了一个简短的回顾 ,说明从小规模受限语言处理走向大规模真实文本处理 ,是一个不可抗拒的历史潮流。并通过一些具体的实例来说明 :统计语言模型能解决什么问题 ?它为什么在一些有可比评测的课题上连连胜出 ?借此阐明 ,具有统一测试数据和统一计分方法的可比评测是推动科学技术进步的有力杠杆。我们应当拿起这个武器。 Obviously Chinese information processing (CIP) has attained outstanding achievements in the past two decades. The most important task facing the research community today is to establish the strategic objective of CIP, and make essential breakthroughs as soon as possible on certain development directions urgently needed by the society. For this purpose, some ideas need to be clarified first. For example, is it necessary to push forward CIP research based on Chinese language understanding? For those urgently needed CIP projects, what is the most appropriate approach? The paper first makes a brief survey on the international history of natural language processing (NLP), and points out that the moving from small scale restricted NLP to large scale running text processing is an uncontrollable trend. And then through some concrete examples the paper describes what kind of tasks can be solved by statistical language models (SLM), and why they always outperform their competitors under comparable evaluations. The comparable evaluation with uniform testing data and scoring method is a powerful lever for achieving progress of science and technology. Let's arm ourselves with such a weapon.

作者黄昌宁

机构地区微软亚洲研究院

出处《语言文字应用》 CSSCI 北大核心 2002年第1期77-84,共8页 Applied Linguistics

关键词中文信息处理统计语言模型 Chinese information processing statistical language mode

分类号 H059 [语言文字—语言学]

引文网络
相关文献

参考文献8

1黄昌宁.关于处理大规模真实文本的谈话[J].语言文字应用,1993(2):1-10. 被引量：25
2Schank, R., and Abelson, R. Scripts, Plans, Goals and Understanding: An Inquiry into Human Knowledge Structures. Hillsdale: Lawrence Erlbaum Associates, Publishers, 1977.
3Rich, Elaine. Artificial Intelligence. London: McGraw-Hill Book Company, 1983,295--344.
4In: Artificial Intelligence at MIT: Expending Frontiers, Vol.1. Winston, P. H., and Shellard, S.A. (eds.). Cambridge, Mass: MIT Press, 1990.
5Garside, R., Leech, G. and Sampson, G. (eds.). The Computational Analysis of English: A Corpus-Based Approach. London: Longman, 1989.
6夸克等.英语语法大全[M].华东师范大学出版社,1988.
7白拴虎.汉语词性自动标注系统研究[D].清华大学计算机科学与技术系硕士学位论文,1992.
8Collins, M. and Brooks, J. Preposition phrase attachment through a backed-off model. In: Proceedings of the 3rd WVLC, Cambridge, MA, 1995.

共引文献24

1陆俭明,郭锐.汉语语法研究所面临的挑战[J].世界汉语教学,1998,12(4):3-21. 被引量：95
2张普.关于网络时代语言规划的思考[J].语文研究,1999(3):1-10. 被引量：20
3黄昌宁,童翔.汉语真实文本的语义自动标注[J].语言文字应用,1993(4):18-25. 被引量：7
4王苏仪.汉语代词所指研究的新设想[J].浙江大学学报（社会科学版）,1995,25(3):112-118. 被引量：2
5陈小荷.中文信息处理概述[J].南京师范大学文学院学报,2002(1):171-176. 被引量：8
6邢红兵.基于第三代语料库的信息领域术语动态更新[J].语言文字应用,2000(2):58-62. 被引量：4
7詹卫东.80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J].当代语言学,2000,2(2):63-73. 被引量：13
8龙学柱.关于数字化人-机对话语言的探索[J].计算机与数字工程,2005,33(4):53-55.
9郭慧志.汉语自动分析问题[J].中国科技翻译,2005,18(4):18-21.
10王丁,齐浩亮,吴丽君.语料库的质量评估模型[J].哈尔滨理工大学学报,2007,12(3):62-64. 被引量：1

同被引文献234

1周榕,黄希庭.中英文时间表征的对比探析[J].西南师范大学学报（哲学社会科学版）,1999,31(1):70-75. 被引量：11
2陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
3孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
4黄昌宁.关于处理大规模真实文本的谈话[J].语言文字应用,1993(2):1-10. 被引量：25
5冯志伟.计算语言学对理论语言学的挑战[J].语言文字应用,1992(1):84-97. 被引量：13
6曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
7文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
8刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
9孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
10冯志伟.汉字和汉语的计算机处理[J].当代语言学,2001,3(1):1-21. 被引量：23

引证文献31

1雒自清,张雪荣,苗传江.计算语言学——一门新兴的交叉学科[J].科学学研究,2003,21(z1):46-50. 被引量：5
2曾华琳,李堂秋.基于上下文信息提取的概率分词算法[J].学术问题研究,2006,0(1):127-131.
3陈小荷.中文信息处理概述[J].南京师范大学文学院学报,2002(1):171-176. 被引量：8
4许汉成.俄语功能语体定量分析中的几个核心问题[J].外语学刊,2004(6):30-36. 被引量：1
5王源媛,何中市.基于词性探测的中文姓名识别算法[J].计算机科学,2005,32(4):84-86. 被引量：2
6曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
7代建英,何中市.基于词性信息的汉语时间语词消歧算法[J].重庆大学学报（自然科学版）,2005,28(9):53-56.
8刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：67
9钱跃良,林守勋,刘群,刘宏.2005年度863计划中文信息处理与智能人机接口技术评测回顾[J].中文信息学报,2006,20(B03):1-6. 被引量：4
10赵正文,康耀红.统计语言模型在信息检索中的应用[J].计算机工程与应用,2006,42(36):158-161. 被引量：1

二级引证文献188

1马钰淇.论警务工作的当代内核——基于《人民警察法》(修订草案稿)词频统计与分析[J].河南警察学院学报,2021(1):119-128.
2黄培红.面向知觉形式化特征的自然语言理解十年研究进展[J].智能安全,2022,1(2):90-100.
3张珺倩,宋明武,谢良,张亚坤,印二威,闫野.眼动—语言跨模态共指消解方法[J].智能安全,2022,1(1):89-95.
4刘坤尧,杨渝沙.基于自然语言处理的临床决策支持系统[J].医学信息（医学与计算机应用）,2014,0(7):3-4. 被引量：1
5刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
6徐艳华.新词语结构分析在自动分词中的作用[J].烟台职业学院学报,2007,13(4):57-63.
7李良炎,何中市,易勇.基于词联接的语义分析原理及其算法[J].重庆大学学报（自然科学版）,2004,27(8):69-74. 被引量：2
8何淑琴.谈英语文体的定量分析[J].外语研究,2005,22(1):31-35. 被引量：4
9李良炎,何中市,易勇.基于词联接的诗词风格评价技术[J].中文信息学报,2005,19(6):98-104. 被引量：6
10张克亮.机器翻译热的冷思考[J].计算机工程与应用,2006,42(21):1-5. 被引量：4

1邢富坤,程东元.基于统计语言模型的英语易读性研究[J].解放军外国语学院学报,2010,33(6):19-24. 被引量：12
2李小军.建国以来汉语语气词研究述评[J].唐山师范学院学报,2007,29(6):35-38. 被引量：4
3温伟清.古汉语教学要多从现实语境中寻找理据[J].赤子,2016(15).
4韩亚南.浅谈语素和词素[J].安徽文学（下半月）,2014(10):123-123. 被引量：1
5朱晓燕.快乐杠杆[J].中文自修,2001(5):28-28.
6海伦娜,孙旭,李博.让丈夫们不可抗拒的9句妙语[J].演讲与口才,2004(2):10-10.
7王崴.浅析英语外来词在汉语中的发展趋势与影响[J].现代交际,2012(5):40-40.
8王念.高校商务英语人才培养模式探讨[J].中国人才,2012,0(04X):184-185. 被引量：1
9崔立宪.TOEFL的计分方法及机考笔考分数换算[J].大学英语,2004(8):49-49.
10孙海强.浅谈经典英文原声电影在“大学英语视听说”课程中的运用[J].大学教育,2016(10):98-99. 被引量：2

语言文字应用

2002年第1期

浏览历史

内容加载中请稍等...