中文句子级性别无偏数据集构建及预训练语言模型的性别偏度评估被引量：1

Construction of Chinese Sentence-Level Gender-Unbiased Data Set and Evaluation of Gender Bias in Pre-Training Language Model

下载PDF

导出

摘要在自然语言处理领域各项任务中,模型广泛存在性别偏见。然而,当前尚无中文性别偏见评估和消偏的相关数据集,因此无法对中文自然语言处理模型中的性别偏见进行评估。首先,该文根据16对性别称谓词,从一个平面媒体语料库中筛选出性别无偏的句子,构建了一个含有20000条语句的中文句子级性别无偏数据集SlguSet(Sentence-Level Gender Unbiased Dataset)。随后,该文提出了一个可衡量预训练语言模型性别偏见程度的指标,并对5种流行的预训练语言模型中的性别偏见进行评估。结果表明,中文预训练语言模型中存在不同程度的性别偏见,该文所构建数据集能够很好地对中文预训练语言模型中的性别偏见进行评估。 In various tasks in the field of natural language processing,models are widely gender biased.However,there is no relevant dataset for Chinese gender bias assessment and debiasing.According to 16 pairs of gender appellations,this paper screened out gender-unbiased sentences from a print media corpus,and constructed a Chinese sentence-level gender-unbiased data set SlguSet(sentence-level gender unbiased dataset)containing 20,000 sentences.This paper further proposes an index that can measure the degree of gender bias in pre-trained language models,and evaluates the gender bias in five popular pre-trained language models.The results show that there are different degrees of gender bias in the Chinese pre-training language model,and the dataset constructed in this article can effectively evaluate the gender bias in the Chinese pre-training language model.

作者赵继舜杜冰洁刘鹏远朱述承 ZHAO Jishun;DU Bingjie;LIU Pengyuan;ZHU Shucheng(College of Information Science,Beijing Language and Culture University,Beijing 100083,China;Language Resources Monitoring and Reserch Center Print Media Language Branch,Beijing Language and CultureUniversity,Beijing 100083,China;Shool of Humanities,Tsinghua University,Beijing 100084,China)

机构地区北京语言大学信息科学学院北京语言大学国家语言资源监测与研究平面媒体中心清华大学人文学院

出处《中文信息学报》 CSCD 北大核心 2023年第9期15-22,共8页 Journal of Chinese Information Processing

基金北京市自然科学基金(4192057)。

关键词性别偏见数据集预训练语言模型 gender bias dataset pre-training language model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1朱述承,苏祺,刘鹏远.基于语料库的我国职业性别无意识偏见共时历时研究[J].中文信息学报,2021,35(5):130-140. 被引量：4

二级参考文献11

1苗兴伟.从标记理论看英语中的性别歧视[J].外国语文,1995,20(3):51-55. 被引量：28
2陆震.妇女就业领域诸问题之我见[J].妇女研究论丛,1994(3):16-20. 被引量：3
3戴炜栋.言语性别差异分析综述[J].外国语,1983,6(6):3-7. 被引量：97
4苏晓玉.谈谈英语词汇中的女性后缀[J].解放军外国语学院学报,2000,23(3):24-25. 被引量：8
5李经伟.西方语言与性别研究述评[J].解放军外国语学院学报,2001,24(1):11-15. 被引量：77
6史耕山,张尚莲.国内语言性别差异研究概述[J].外语教学,2006,27(3):24-27. 被引量：41
7许家金,李潇辰.基于BNC语料库的男性女性家庭角色话语建构研究[J].解放军外国语学院学报,2014,37(1):10-17. 被引量：24
8张成刚,杨伟国.中国劳动力市场转型阶段职业性别隔离的新测度——基于K-M分解方法[J].人口与经济,2018(6):53-63. 被引量：3
9韦晓曙,陈佳敏.英语职业称谓性别歧视语及应对策略[J].科教导刊,2017(7):146-148. 被引量：1
10陈永伟,周羿.职业选择、性别歧视和工资差异——对我国城市劳动力市场的分析[J].劳动经济研究,2014,2(1):49-75. 被引量：14

共引文献3

1叶青,刘宗圣.人工智能场景下算法性别偏见的成因及治理对策[J].贵州师范大学学报（社会科学版）,2023(5):54-63. 被引量：8
2崔希亮.语言中的刻板印象及其认知基础[J].语言教学与研究,2024(4):57-67.
3徐磊,胡亚豪,潘志松.针对大语言模型的偏见性研究综述[J].计算机应用研究,2024,41(10):2881-2892.

同被引文献3

1朱述承,苏祺,刘鹏远.基于语料库的我国职业性别无意识偏见共时历时研究[J].中文信息学报,2021,35(5):130-140. 被引量：4
2李昂,韩萌,穆栋梁,高智慧,刘淑娟.多类不平衡数据分类方法综述[J].计算机应用研究,2022,39(12):3534-3545. 被引量：12
3王培冰,张宁,张春.基于Prompt的两阶段澄清问题生成方法[J].计算机应用研究,2024,41(2):421-425. 被引量：4

引证文献1

1徐磊,胡亚豪,潘志松.针对大语言模型的偏见性研究综述[J].计算机应用研究,2024,41(10):2881-2892.

1杨晨.《醒世姻缘传》中“母亲”义称谓词研究[J].今古文创,2023(42):117-119.
2赵霄蒙.隐喻视角下新兴称谓词“鼠鼠”的认知分析——从硕鼠到“鼠鼠”的转变[J].牡丹江大学学报,2023,32(12):72-78.
3牛利,周蕾.从《歧路灯》看18世纪以来豫中方言亲属称谓语的演变[J].中国民族博览,2023(12):226-228.
4李学强.在相互无偏基下基于Hellinger距离的相干性[J].应用数学进展,2023,12(11):4782-4788.
5吴薇薇,熊奥萍,唐红武.基于UKDE和XGBoost的航班过站时间动态预测[J].南京航空航天大学学报,2023,55(6):1016-1024.
6汪正康,刘阳,杨锦锋,梁先桂,郭熙铜.糖尿病健康管理对话数据集构建[J].中文信息学报,2023,37(9):23-37.
7Caiyun Liu,Wei Guo,Yang Wang,Bisheng Fu,Jaroslav Dolezel,Ying Liu,Wenling Zhai,Mahmoud Said,István Molnár,Katerina Holušová,Ruiqi Zhang,Jizhong Wu.Corrigendum to“Introgression of sharp eyespot resistance from Dasypyrum villosum chromosome 2VL into bread wheat”[Crop J.11(2023)1512–1520][J].The Crop Journal,2023,11(6):1949-1949.
8郭世泰,徐真真,耿延雷,芮琦,杜殿臣,李建福,王晓丽.Chair-like N_(6)^(6-) in AlN_(3) with high-energy density[J].Chinese Physics B,2023,32(12):150-157.

中文信息学报

2023年第9期

浏览历史

内容加载中请稍等...

中文句子级性别无偏数据集构建及预训练语言模型的性别偏度评估被引量：1

参考文献1

二级参考文献11

共引文献3

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

中文句子级性别无偏数据集构建及预训练语言模型的性别偏度评估 被引量：1

参考文献1

二级参考文献11

共引文献3

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

中文句子级性别无偏数据集构建及预训练语言模型的性别偏度评估被引量：1