自然语言处理评测中的问题与对策被引量：10

Problems and Countermeasures in Natural Language Processing Evaluation

下载PDF

导出

摘要自然语言处理中的评测任务引导和推动着技术、模型和方法上的研究。近年来,新的评测数据集和评测任务不断被提出,与此同时,现有评测暴露的一系列问题也限制了自然语言处理技术的进步。该文从自然语言处理评测的概念、构成、发展和意义出发,分类综述了主流自然语言处理评测的任务和特点,进而总结归纳了自然语言处理评测中的问题及其成因。最后,该文参照人类语言能力评测规范,提出类人机器语言能力评测的概念,并从信度、难度、效度三个方面提出了一系列类人机器语言能力评测的基本原则和实施设想,并对评测技术的未来发展进行了展望。 Evaluation in natural language processing drives and promotes research on models and methods.In recent years,new evaluation data sets and evaluation tasks have been continuously proposed.At the same time,a series of problems exposed by such evaluations seems to restrict the progress of natural language processing technology.Starting from the concept,composition,development and significance of natural language Processing evaluation,this article classifies and summarizes the tasks and characteristics of mainstream natural language Processing evaluation,and then reveals the problems and their possible causes.In parallel to the human language ability evaluation standard,this paper puts forward the concept of human-like machine language ability evaluation,and proposes a series of basic principles and implementation ideas for human-like machine language ability evaluation from three aspects:reliability,difficulty and validity.

作者董青秀穗志方詹卫东常宝宝 DONG Qingxiu;SUI Zhifang;ZHAN Weidong;CHANG Baobao(MOE Key Laboratory of Computational Linguistics,Peking University,Beijing 100871,China;School of Electronics Engineering and Computer Science,Peking University,Beijing 100871,China;Department of Chinese Language and Literature,Peking University,Beijing 100871,China)

机构地区北京大学计算语言学教育部重点实验室北京大学信息科学技术学院北京大学中文系

出处《中文信息学报》 CSCD 北大核心 2021年第6期1-15,共15页 Journal of Chinese Information Processing

基金国家科技创新2030“新一代人工智能”重大项目(2020AAA0067067000) 国家自然科学基金(U19A2065)。

关键词自然语言处理评测数据集偏差评测指标 natural language processing evaluation data set bias evaluation metric

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献68

1李宇明.试论个人语言能力和国家语言能力[J].语言文字应用,2021(3):2-16. 被引量：50
2冯洋,邵晨泽.神经机器翻译前沿综述[J].中文信息学报,2020(7):1-18. 被引量：36
3邱质朴.试论语言资源的开发——兼论汉语面向世界问题[J].语言教学与研究,1981(3):111-123. 被引量：54
4徐大明.语言资源管理规划及语言资源议题[J].郑州大学学报（哲学社会科学版）,2008,41(1):12-15. 被引量：56
5陈章太.论语言资源[J].语言文字应用,2008(1):9-14. 被引量：154
6林枋.开源软件的许可证浅析[J].科技广场,2009(5):242-243. 被引量：4
7张铁明,颜帅,佟建国,郑进宝.关于提高我国科技期刊学术影响力的思考[J].编辑学报,2010,22(2):99-102. 被引量：76
8靳娟娟.基于案例的情报评估分析之研究[J].情报理论与实践,2012,35(1):45-47. 被引量：6
9李宇明.当代中国语言生活中的问题[J].中国社会科学,2012(9):150-156. 被引量：59
10俞士汶,朱学锋,段慧明.大规模现代汉语标注语料库的加工规范[J].中文信息学报,2000,14(6):58-64. 被引量：30

引证文献10

1饶高琦,王诚文.面向语言智能的语言资源标准化[J].语言规划学研究,2023(1):20-27.
2詹卫东,孙春晖,岳朋雪,唐乾桐,秦梓巍.空间语义理解能力评测任务设计的新思路—SpaCE2021数据集的研制[J].语言文字应用,2022(2):99-110. 被引量：3
3林晓兰,梁铭标,王浩,张志辉,江之晗,麻硕,钱鹏,谷祥拓,陈秀娟,黄帅,梁会营.面向中文医学文本的知识图谱通用评测系统设计[J].医疗卫生装备,2023,44(1):13-18. 被引量：1
4陈果,姚游倩.情报学研究的可靠性评估:内涵、进展与对策[J].情报理论与实践,2023,46(4):74-81. 被引量：2
5金独亮,范永胜,张琪.文本摘要评测方法的语义损失度[J].计算机与现代化,2023(3):84-89.
6王诚文,董青秀,穗志方,詹卫东,常宝宝,王海涛.自然语言处理评测数据集质量评估研究[J].中文信息学报,2023,37(2):26-40. 被引量：4
7岳朋雪,王诚文,孙春晖,詹卫东,穗志方.中文空间语义理解评测数据集质量评估研究[J].语言文字应用,2023(1):101-113.
8饶高琦,胡星雨,易子琳.语言资源视角下的大规模语言模型治理[J].语言战略研究,2023,8(4):19-29. 被引量：13
9罗文,王厚峰.大语言模型评测综述[J].中文信息学报,2024,38(1):1-23. 被引量：3
10詹卫东,孙春晖,肖力铭.语言学知识驱动的空间语义理解能力评测数据集研究[J].语言战略研究,2024,9(5):7-21.

二级引证文献26

1周立炜,饶高琦.大语言模型中文语体能力评测研究[J].语言文字应用,2024(1):69-82. 被引量：1
2岳朋雪,王诚文,孙春晖,詹卫东,穗志方.中文空间语义理解评测数据集质量评估研究[J].语言文字应用,2023(1):101-113.
3李宇明.人机共生时代的语言数据问题[J].华中师范大学学报（人文社会科学版）,2023,62(5):135-143. 被引量：14
4徐琳宏,王凯达,张立杰.国内自然语言处理领域数据集引用行为分析[J].数字图书馆论坛,2023,19(11):29-37.
5冯志伟,张灯柯.语言模型与人工智能[J].外语研究,2024,41(1):1-19. 被引量：7
6吾超,林亚玮,袁维运,杜艳玲,贺世喆,郎红娟.基于CiteSpace的临床医疗设备报警管理文献可视化分析[J].医疗卫生装备,2023,44(12):63-68. 被引量：1
7秦兰珺.智能机器的政治经济学审视——在AI时代,读“机器论片段”[J].首都师范大学学报（社会科学版）,2024(1):72-83. 被引量：1
8李宇明,梁京涛.语言数据的生产要素功能与产权制度构建[J].语言教学与研究,2024(2):1-11. 被引量：6
9向子南.基于图神经网络的路基智能决策算法[J].铁道勘测与设计,2024(2):77-82.
10王海蓓,潘辉.我国ChatGPT研究领域热点主题识别与演化路径分析[J].图书馆学研究,2024(3):2-12. 被引量：2

1张鑫,刘华,束传政,王延平.青少年计算思维能力评测体系设计及实践[J].计算机教育,2021(7):98-102. 被引量：2
2郭亚军,徐芮.Baidu翻译日译汉中存在的问题与对策--以《综合日语》为例[J].吉林广播电视大学学报,2020(9):95-97. 被引量：1
3毛亚运,邹小华,莫怀忠.机器学习在麻醉学科中的应用进展[J].实用医院临床杂志,2021,18(4):236-239. 被引量：1
4王晶.汉语谚语中概念隐喻的认知语言学分析[J].湖北开放职业学院学报,2021,34(2):128-129.
5郭辉辉.学科融合带动高校创新学业规划提升人生格局[J].中国商人,2021(6):110-111.
6张力.零形轻动词在唐诗宋词中的运用及其相关句法理论问题[J].新疆大学学报（哲学社会科学版）,2021,49(4):134-140. 被引量：2

中文信息学报

2021年第6期

浏览历史

内容加载中请稍等...

自然语言处理评测中的问题与对策被引量：10

同被引文献68

引证文献10

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

自然语言处理评测中的问题与对策 被引量：10

同被引文献68

引证文献10

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

自然语言处理评测中的问题与对策被引量：10