自然语言处理技术的三个里程碑被引量：20

Milestones of natural language processing technology

导出

摘要半世纪以来自然语言处理 (NLP)研究取得两点重要认识和三大重要成果 ,即认识到 :(1 )对于句法分析 ,基于单一标记的短语结构规则是不充分的 ;(2 )短语结构规则在真实文本中的分布呈现严重扭曲。换言之 ,有限数目的短语结构规则不能覆盖大规模语料中的语法现象。这与原先的预期大相径庭。NLP技术的发展在很大程度上受到这两个事实的影响。从这个意义上说 ,本领域中称得上里程碑式的成果是 :(1 )复杂特征集和合一语法 ;(2 )语言学研究中的词汇主义 ;(3 )语料库方法和统计语言模型。大规模语言知识的开发和自动获取是NLP技术的瓶颈问题。因此。 This paper is a brief discussion of the major findings and developments in the field of Natural Language Processing (NLP) in the past 50 years. First, the corpus investigation has shown the following two facts:(1) Single labeled PSG rules are not sufficient for natural language description, and (2) PSG rules have skew distribution in text corpora, i.e. the total number of PSG rules does not seem to be able to cover the language phenomena found in a large corpus, which is out of most linguists' expectation. The development of NLP technology has been under the influence of the two facts mentioned above. And there have been three major breakthroughs and milestones in this field: (1)multiple features and unification based grammars, (2)lexicalism in linguistics research, (3)Statistical Language Modeling (SLM) and corpus based approaches. The latest investigations reveal that the bottleneck problem in the NLP technology is the problem of obtaining and developing large scale linguistic knowledge; therefore, the corpus construction and statistical learning theory become key issues in NLP research and application.

作者黄昌宁张小凤

机构地区微软亚洲研究院

出处《外语教学与研究》 CSSCI 北大核心 2002年第3期180-187,共8页 Foreign Language Teaching and Research

关键词自然语言处理复杂特征集词汇主义语料库方法统计语言模型

分类号 H087 [语言文字—语言学]

引文网络
相关文献

参考文献1

1董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11

共引文献10

1王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
2洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
4吴静,蔡砥,王铮.地理信息系统中自然语言查询的分词处理与应用[J].地球信息科学,2005,7(3):67-71. 被引量：6
5陈凡凡.试析句子阅读中的分词加工——含“交集歧义”语段的非歧义句二语习得实验研究[J].云南师范大学学报（对外汉语教学与研究版）,2008,6(3):19-25. 被引量：2
6傅爱平.汉英机器翻译源语分析中词的识别[J].中文信息学报,1999,13(5):7-13. 被引量：4
7杨万兵,杨峥琳.不同水平留学生汉语交集型与组合型切分歧义识别实验研究[J].语言科学,2016,15(3):280-290.
8吴华,罗顺,孙伟晋.一种基于信息熵的关键词提取算法[J].计算机与数字工程,2019,47(3):535-538. 被引量：1
9邹佳伦,文汉云,王同喜.基于统计的中文分词算法研究[J].电脑知识与技术,2019,15(2):149-150. 被引量：6
10马颖华,王永成,苏贵洋,张宇萌.一种基于字同现频率的汉语文本主题抽取方法[J].计算机研究与发展,2003,40(6):874-878. 被引量：48

同被引文献232

1许余龙.也谈语言学理论与语言事实[J].外国语,2000,23(3):2-9. 被引量：9
2方琰.语篇语类研究[J].清华大学学报（哲学社会科学版）,2002,17(S1):15-21. 被引量：33
3黄国营.二十世纪理论语言学的起始和终结[J].清华大学学报（哲学社会科学版）,1999,14(1):85-87. 被引量：2
4陆俭明,郭锐.汉语语法研究所面临的挑战[J].世界汉语教学,1998,12(4):3-21. 被引量：95
5徐烈炯.语言学理论与语言事实[J].现代外语,1997,20(3). 被引量：22
6杨成凯.Fillmore的格语法理论(上)[J].当代语言学,1986(1):37-41. 被引量：31
7刘涌泉.机器翻译归根到底是个语言学问题[J].语言文字应用,1997(3):81-84. 被引量：15
8胡明扬.动名兼类的计量考察[J].语言研究,1995,15(2):91-99. 被引量：26
9程琪龙.试论Fillmore格语法1971模式[J].解放军外国语学院学报,1995,18(6):16-20. 被引量：12
10王玲玲.格语法及其在汉语研究中的应用─—“信息处理用语言理论讲话”第三讲[J].语言文字应用,1994(4):97-101. 被引量：12

引证文献20

1孔晓风,李莹,李昊旻,吕旭东.基于自然语言处理技术的消化科内窥镜检查报告的结构化[J].中国医疗器械杂志,2008,32(5):348-351. 被引量：6
2李良炎,何中市,易勇.基于词联接的语义分析原理及其算法[J].重庆大学学报（自然科学版）,2004,27(8):69-74. 被引量：2
3曹雁锋,万建成,卢雷.基于二元运算关系的汉语计算语法模型[J].山东大学学报（工学版）,2005,35(1):88-93. 被引量：2
4郭慧志.汉语自动分析问题[J].中国科技翻译,2005,18(4):18-21.
5张克亮.机器翻译热的冷思考[J].计算机工程与应用,2006,42(21):1-5. 被引量：4
6王丹,姚鸿勋,万玉奇,洪晓鹏.唇读中的HLM模型及其文字流解析[J].计算机科学,2008,35(12):171-174. 被引量：1
7张东,王惠临.关于建立中国国家科学技术语料库的思考[J].图书情报工作,2010,54(6):102-106. 被引量：3
8梁茂成.理性主义、经验主义与语料库语言学[J].中国外语,2010,7(4):90-97. 被引量：32
9邢富坤,程东元.基于统计语言模型的英语易读性研究[J].解放军外国语学院学报,2010,33(6):19-24. 被引量：12
10胡惮,高精錬,赵玲.语义基因与词义结构的形式化表达初论[J].长江学术,2011(4):138-143. 被引量：1

二级引证文献151

1杨丽姣,肖航,刘智颖.《信息处理用现代汉语词类标记规范》修订研究[J].语言文字应用,2021(3):111-120. 被引量：1
2闫鹏飞,谢文龙.MatDEAP材料科学学术英语语料库的创建[J].语料库语言学,2020,7(1):97-106. 被引量：6
3金玲楠,张栋.逮捕社会危险性量化评估模型的设计问题及优化路径[J].四川警察学院学报,2024,36(3):120-131.
4张豪爽.司法裁判人工智能化的可能性[J].贸大法律评论,2021(1):222-232.
5李海峰.“AI虚拟法官”的价值判断——基于预设肯定结论的使用场景探讨[J].法律方法,2023(1):251-266.
6刘鲁吉.案例指导制度中的人工智能运用[J].法律方法,2020,26(2):255-269. 被引量：4
7刘鲁吉.类比推理在法律人工智能中的应用——以指导性案例智能推送系统的构建为例[J].法律方法,2019,0(2):118-134. 被引量：4
8张新璐.人工智能与司法裁判结合的困境及破解之道[J].边缘法学论坛,2023(2):10-14.
9张书勤.论人工智能在审判中的应用[J].边缘法学论坛,2019,0(2):1-7.
10刘强.商标相似性人工智能判断机制研究——以图形商标相似性判断为例[J].西部法学评论,2020,0(1):57-69. 被引量：3

1宋孟洪,李学宁.乔姆斯基与韩礼德的词库观对比分析[J].江南大学学报（人文社会科学版）,2012,11(3):129-130. 被引量：1
2邢富坤,程东元.基于统计语言模型的英语易读性研究[J].解放军外国语学院学报,2010,33(6):19-24. 被引量：12
3郑志恒.美英报刊英语标注语料库建设研究[J].外语研究,2007,24(2):32-38. 被引量：23
4冯志伟.我国机器翻译研究工作的回顾[J].语文建设,1990,0(5):21-28. 被引量：1
5李向东,张宇.机器翻译研究和机器翻译系统浅谈[J].俄语学习,2005(1):49-51.
6黄昌宁,陆镜光.现代语言学给我们的启迪[J].世界汉语教学,1998,12(4):43-46. 被引量：1
7杨德峰.也说“几乎”——基于语料库的研究[J].国际汉语学报,2015,6(2):183-190. 被引量：1
8李向东.机器翻译的发展及当前存在的主要问题[J].中国俄语教学,1995,14(3):11-15. 被引量：3
9黄昌宁.统计语言模型能做什么?[J].语言文字应用,2002(1):77-84. 被引量：31
10黄昌宁.1992－1993年我国计算语言学研究述评[J].语文建设,1994(7):16-19.

外语教学与研究

2002年第3期

浏览历史

内容加载中请稍等...

自然语言处理技术的三个里程碑被引量：20

参考文献1

共引文献10

同被引文献232

引证文献20

二级引证文献151

相关作者

相关机构

相关主题

浏览历史

自然语言处理技术的三个里程碑 被引量：20

参考文献1

共引文献10

同被引文献232

引证文献20

二级引证文献151

相关作者

相关机构

相关主题

浏览历史

自然语言处理技术的三个里程碑被引量：20