-
题名自然语言处理评测数据集质量评估研究
被引量:3
- 1
-
-
作者
王诚文
董青秀
穗志方
詹卫东
常宝宝
王海涛
-
机构
北京大学计算语言学教育部重点实验室
北京大学计算机学院
北京大学中文系
中国标准化研究院
-
出处
《中文信息学报》
CSCD
北大核心
2023年第2期26-40,共15页
-
基金
国家科技创新2030“新一代人工智能”重大项目(2020AAA0106700)
国家自然科学基金(U19A2065)
中国博士后科学基金(2022M710246)。
-
文摘
评测数据集是评测任务的载体,评测数据集的质量对评测任务的开展和评测指标的应用有着根本性的影响,因此对评测数据集的质量进行评估有着必要性和迫切性。该文在调研公开使用的自然语言处理主流数据集基础上,分析和总结了数据集中存在的8类问题,并在参考人类考试及试卷质量评估的基础上,从信度、效度和难度出发,提出了数据集评估的相关指标和将计算性与操作性相结合的评估方法,旨在为自然语言处理评测数据集构造、选择和使用提供参考依据。
-
关键词
自然语言处理
评测
数据集
质量评估
-
Keywords
natural language processing
Benchmark
dataset
quality evaluation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名自然语言处理评测中的问题与对策
被引量:9
- 2
-
-
作者
董青秀
穗志方
詹卫东
常宝宝
-
机构
北京大学计算语言学教育部重点实验室
北京大学信息科学技术学院
北京大学中文系
-
出处
《中文信息学报》
CSCD
北大核心
2021年第6期1-15,共15页
-
基金
国家科技创新2030“新一代人工智能”重大项目(2020AAA0067067000)
国家自然科学基金(U19A2065)。
-
文摘
自然语言处理中的评测任务引导和推动着技术、模型和方法上的研究。近年来,新的评测数据集和评测任务不断被提出,与此同时,现有评测暴露的一系列问题也限制了自然语言处理技术的进步。该文从自然语言处理评测的概念、构成、发展和意义出发,分类综述了主流自然语言处理评测的任务和特点,进而总结归纳了自然语言处理评测中的问题及其成因。最后,该文参照人类语言能力评测规范,提出类人机器语言能力评测的概念,并从信度、难度、效度三个方面提出了一系列类人机器语言能力评测的基本原则和实施设想,并对评测技术的未来发展进行了展望。
-
关键词
自然语言处理评测
数据集偏差
评测指标
-
Keywords
natural language processing evaluation
data set bias
evaluation metric
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名如何提高中学生体育课堂的质量
- 3
-
-
作者
董青秀
-
机构
青海省果洛州民族高级中学
-
出处
《学园》
2011年第6期152-153,共2页
-
文摘
体育课堂教学是体育教师职业道德、教学能力和教育科研能力(学习能力和研究能力)的综合表现。体育知识技能是通过课堂的传授来完成的,是通过学生的耳(听)、眼(看)、想(思考)、练(模仿)来完成教学目标的。本人认为,营造一个良好的课堂环境,能激发学生更好地完成教学目标,提高体育课堂教学质量。
-
关键词
课堂环境
教学目标
教学质量
-
分类号
G807.04
[文化科学—体育训练]
-