期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
中文句子级性别无偏数据集构建及预训练语言模型的性别偏度评估
被引量:
1
1
作者
赵继舜
杜冰洁
+1 位作者
刘鹏远
朱述承
《中文信息学报》
CSCD
北大核心
2023年第9期15-22,共8页
在自然语言处理领域各项任务中,模型广泛存在性别偏见。然而,当前尚无中文性别偏见评估和消偏的相关数据集,因此无法对中文自然语言处理模型中的性别偏见进行评估。首先,该文根据16对性别称谓词,从一个平面媒体语料库中筛选出性别无偏...
在自然语言处理领域各项任务中,模型广泛存在性别偏见。然而,当前尚无中文性别偏见评估和消偏的相关数据集,因此无法对中文自然语言处理模型中的性别偏见进行评估。首先,该文根据16对性别称谓词,从一个平面媒体语料库中筛选出性别无偏的句子,构建了一个含有20000条语句的中文句子级性别无偏数据集SlguSet(Sentence-Level Gender Unbiased Dataset)。随后,该文提出了一个可衡量预训练语言模型性别偏见程度的指标,并对5种流行的预训练语言模型中的性别偏见进行评估。结果表明,中文预训练语言模型中存在不同程度的性别偏见,该文所构建数据集能够很好地对中文预训练语言模型中的性别偏见进行评估。
展开更多
关键词
性别偏见
数据集
预训练语言模型
下载PDF
职称材料
基于语料库的我国职业性别无意识偏见共时历时研究
被引量:
4
2
作者
朱述承
苏祺
刘鹏远
《中文信息学报》
CSCD
北大核心
2021年第5期130-140,共11页
性别偏见是社会学研究的热点。近年来,机器学习算法从数据中学到偏见,使之得到更广泛的关注,但目前尚无基于语料库的方法对文本数据中职业性别偏见的研究。该文基于标记理论,利用BCC和DCC语料库,从共时和历时两个层面考察了63个职业的...
性别偏见是社会学研究的热点。近年来,机器学习算法从数据中学到偏见,使之得到更广泛的关注,但目前尚无基于语料库的方法对文本数据中职业性别偏见的研究。该文基于标记理论,利用BCC和DCC语料库,从共时和历时两个层面考察了63个职业的性别无意识偏见现象。首先,以调查问卷的形式调研了不同性别和不同年龄段的人群对63个职业的性别倾向,发现和BCC语料库中多领域的职业性别偏见度呈显著的正相关关系。然后从共时的角度,利用BCC语料库中不同领域的语料,以及DCC语料库中2018年全国31个省级行政单位(不含港澳台地区)的报纸语料,发现从口语至书面语语体,大部分职业表现出对女性的性别偏见逐渐升高,且不同地区对职业的性别偏见存在差异。最后,从历时的角度,利用DCC语料库2005至2018年的报纸语料进行统计分析,发现职业性别无意识偏见现象随着时间的推移,呈现总体弱化趋势。
展开更多
关键词
语料库
职业
性别
无意识偏见
标记理论
下载PDF
职称材料
题名
中文句子级性别无偏数据集构建及预训练语言模型的性别偏度评估
被引量:
1
1
作者
赵继舜
杜冰洁
刘鹏远
朱述承
机构
北京语言大学信息科学学院
北京语言大学国家语言资源监测与研究平面媒体中心
清华大学人文学院
出处
《中文信息学报》
CSCD
北大核心
2023年第9期15-22,共8页
基金
北京市自然科学基金(4192057)。
文摘
在自然语言处理领域各项任务中,模型广泛存在性别偏见。然而,当前尚无中文性别偏见评估和消偏的相关数据集,因此无法对中文自然语言处理模型中的性别偏见进行评估。首先,该文根据16对性别称谓词,从一个平面媒体语料库中筛选出性别无偏的句子,构建了一个含有20000条语句的中文句子级性别无偏数据集SlguSet(Sentence-Level Gender Unbiased Dataset)。随后,该文提出了一个可衡量预训练语言模型性别偏见程度的指标,并对5种流行的预训练语言模型中的性别偏见进行评估。结果表明,中文预训练语言模型中存在不同程度的性别偏见,该文所构建数据集能够很好地对中文预训练语言模型中的性别偏见进行评估。
关键词
性别偏见
数据集
预训练语言模型
Keywords
gender bias
dataset
pre-training language model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于语料库的我国职业性别无意识偏见共时历时研究
被引量:
4
2
作者
朱述承
苏祺
刘鹏远
机构
北京语言大学信息科学学院
北京大学外国语学院
北京大学教育部计算语言学重点实验室
北京语言大学国家语言资源监测与研究平面媒体中心
出处
《中文信息学报》
CSCD
北大核心
2021年第5期130-140,共11页
基金
教育部人文社会科学研究规划基金(18YJA740030)
北京语言大学院级项目(中央高校基本科研业务费专项资金)(19YJ040003)。
文摘
性别偏见是社会学研究的热点。近年来,机器学习算法从数据中学到偏见,使之得到更广泛的关注,但目前尚无基于语料库的方法对文本数据中职业性别偏见的研究。该文基于标记理论,利用BCC和DCC语料库,从共时和历时两个层面考察了63个职业的性别无意识偏见现象。首先,以调查问卷的形式调研了不同性别和不同年龄段的人群对63个职业的性别倾向,发现和BCC语料库中多领域的职业性别偏见度呈显著的正相关关系。然后从共时的角度,利用BCC语料库中不同领域的语料,以及DCC语料库中2018年全国31个省级行政单位(不含港澳台地区)的报纸语料,发现从口语至书面语语体,大部分职业表现出对女性的性别偏见逐渐升高,且不同地区对职业的性别偏见存在差异。最后,从历时的角度,利用DCC语料库2005至2018年的报纸语料进行统计分析,发现职业性别无意识偏见现象随着时间的推移,呈现总体弱化趋势。
关键词
语料库
职业
性别
无意识偏见
标记理论
Keywords
corpus
occupation
gender
unconscious bias
markedness theory
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
中文句子级性别无偏数据集构建及预训练语言模型的性别偏度评估
赵继舜
杜冰洁
刘鹏远
朱述承
《中文信息学报》
CSCD
北大核心
2023
1
下载PDF
职称材料
2
基于语料库的我国职业性别无意识偏见共时历时研究
朱述承
苏祺
刘鹏远
《中文信息学报》
CSCD
北大核心
2021
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部