语言学知识驱动的空间语义理解能力评测数据集研究

SpaCE:A Linguistic Knowledge-Driven Benchmark for Spatial Cognition Evaluation

下载PDF

导出

摘要近20年来,深度学习技术显著提升了机器的自然语言处理能力,使之在诸多任务上接近甚至超过人类水平。机器学习的对象不再是直接来自人类语言学研究成果(知识),而是人类语言材料(数据)。在靠数据和算力驱动的大语言模型几近建成巴别塔的当下,语言学家通过深挖语言现象总结的语言学知识价值何在?本文提出从知识到数据的研究思路,设计了空间语义理解的6项任务:空间信息正误判别、异常空间信息识别、缺失参照成分补回、空间语义角色标注、空间表达异形同义判别、空间方位关系推理,以构建中文空间语义理解能力评测数据集为例,介绍从SpaCE2021到SpaCE2024数据集的设计思想、数据集制作概况以及机器在空间语义理解任务上的表现。总的来看,参加SpaCE赛事的大语言模型,在依赖表面分布特征(形式线索)的任务上容易获得好成绩,在依赖深层语义理解(认知能力)的任务上容易表现不好。因此,在人工智能高速发展使得语言学知识在计算机信息处理领域被动边缘化的当下,语言学知识的价值需要拓展,即用于指导小而精的高品质语言数据,以提升机器学习的效果和效率。为了计算应用的目的,语法研究应该在观察充分、描写充分、解释充分之上,追求更具挑战性的目标——生成充分。 Over the past two decades,deep learning technology has propelled machine natural language processing capabilities to rival or even surpass human levels in many tasks.Machine learning does not directly utilize the outcomes of human linguistic research(knowledge),but rather from human language materials(data).This situation should garner signifi cant attention from linguists.As large language models,driven purely by data and computational power,have nearly constructed a modern Tower of Babel,the question of how to realize the value of linguistic knowledge through in-depth exploration of specifi c and subtle language phenomena looms large over every linguistic researcher.This paper proposes a research approach that generates text data from linguistic knowledge for evaluating machine understanding of spatial semantics.Over the past four years,we have organized four consecutive competitions on Chinese Spatial Cognition Evaluation(SpaCE):from SpaCE2021 to SpaCE2024,including 6 sub-tasks:Determination of Spatial Information Validity,Detection of Spatial Anomalies,Recovery of Spatial References,Identification of Spatial Semantic Roles,Recognition of Spatial Equivalences,and Spatial Position Reasoning.This paper introduces the design philosophy,dataset creation process,dataset overview,and the performance characteristics of machines in SpaCE tasks.Overall,large language models participating in the SpaCE competitions perform relatively well on tasks that rely on surface distribution features,that is,tasks with formal cues,but poorly on tasks that depend on deep semantic understanding,that is,tasks requiring cognitive abilities.In the current era of rapid AI development,where linguistic knowledge is passively marginalized in the fi eld of natural language processing,the value of linguistic knowledge needs to be redefi ned.It should be used to guide the production of small,high-quality language data to enhance the eff ectiveness and effi ciency of machine learning.For computational applications,grammatical research should pursue more challenging goals-adequate generation-beyond the objectives of adequate observation,description,and explanation.

作者詹卫东孙春晖肖力铭 Zhan Weidong;Sun Chunhui;Xiao Liming

机构地区北京大学中文系

出处《语言战略研究》北大核心 2024年第5期7-21,共15页 Chinese Journal of Language Policy and Planning

基金教育部人文社会科学重点研究基地重大项目“面向机器语言能力评测的综合型语言知识库研究”(22JJD740004)。

关键词人工智能大语言模型语言学知识空间语义理解数据合成 artificial intelligence large language models linguistic knowledge spatial semantic understanding data synthesis

分类号 H002 [语言文字—语言学]

引文网络
相关文献

参考文献3

1董青秀,穗志方,詹卫东,常宝宝.自然语言处理评测中的问题与对策[J].中文信息学报,2021,35(6):1-15. 被引量：10
2詹卫东,孙春晖,岳朋雪,唐乾桐,秦梓巍.空间语义理解能力评测任务设计的新思路—SpaCE2021数据集的研制[J].语言文字应用,2022(2):99-110. 被引量：2
3陈国华(译),杰弗里·埃佛勒斯·辛顿.杰弗里·辛顿接受尤利西斯奖章时发表的获奖感言[J].当代语言学,2024,26(4):489-495. 被引量：1

二级参考文献1

1董青秀,穗志方,詹卫东,常宝宝.自然语言处理评测中的问题与对策[J].中文信息学报,2021,35(6):1-15. 被引量：10

共引文献9

1饶高琦,王诚文.面向语言智能的语言资源标准化[J].语言规划学研究,2023(1):20-27.
2詹卫东,孙春晖,岳朋雪,唐乾桐,秦梓巍.空间语义理解能力评测任务设计的新思路—SpaCE2021数据集的研制[J].语言文字应用,2022(2):99-110. 被引量：2
3林晓兰,梁铭标,王浩,张志辉,江之晗,麻硕,钱鹏,谷祥拓,陈秀娟,黄帅,梁会营.面向中文医学文本的知识图谱通用评测系统设计[J].医疗卫生装备,2023,44(1):13-18. 被引量：1
4陈果,姚游倩.情报学研究的可靠性评估:内涵、进展与对策[J].情报理论与实践,2023,46(4):74-81. 被引量：1
5金独亮,范永胜,张琪.文本摘要评测方法的语义损失度[J].计算机与现代化,2023(3):84-89.
6王诚文,董青秀,穗志方,詹卫东,常宝宝,王海涛.自然语言处理评测数据集质量评估研究[J].中文信息学报,2023,37(2):26-40. 被引量：3
7岳朋雪,王诚文,孙春晖,詹卫东,穗志方.中文空间语义理解评测数据集质量评估研究[J].语言文字应用,2023(1):101-113.
8饶高琦,胡星雨,易子琳.语言资源视角下的大规模语言模型治理[J].语言战略研究,2023,8(4):19-29. 被引量：10
9罗文,王厚峰.大语言模型评测综述[J].中文信息学报,2024,38(1):1-23. 被引量：2

1李志刚,闫登辉,栾晓帆.中部地区特大城市撤县(市)设区的治理效应研究--以武汉市蔡甸区为例[J].中国名城,2021,35(8):22-27. 被引量：4
2向琴.媒介下沉与纯文学的发展[J].雨露风,2022(8):73-75.
3张铭,李赛楠,张持,马林昊,彭铠,杨威.硼化氮化碳/二氧化锡异质结的制备及光催化性能[J].北京工业大学学报,2024,50(5):534-542.
4毕研坤,李正义,房磊,陈雯雯,高磊,商莹华.OKR理念在油气田开发设计项目的应用探索[J].石油科技论坛,2023,42(5):49-53.
5许环环.合法的边缘性参与:小学新教师集体教研参与的个案研究[J].基础教育,2023,20(1):50-59. 被引量：1
6孙刚,罗昊.乡村振兴背景下文化治理现代化的价值意蕴与政策路径[J].新华文摘,2021(23):121-125.
7刘奕岑.胸有凌云志,无高不可攀[J].初中生学习指导,2024(2):63-63.
8吴静芳.“双减”背景下以生为本的小学数学课堂教学探究[J].求知导刊,2024(18):47-49.
9刘艳丽.“N+上”的多义性与汉英空间结构编码差异研究[J].齐齐哈尔大学学报（哲学社会科学版）,2024(6):130-134.
10刘燕.汉韩异形同义汉字词对比研究[J].汉字文化,2023(22):35-37.

语言战略研究

2024年第5期

浏览历史

内容加载中请稍等...

语言学知识驱动的空间语义理解能力评测数据集研究

参考文献3

二级参考文献1

共引文献9

相关作者

相关机构

相关主题

浏览历史