期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
藏汉跨语言文本剽窃检测数据集
1
作者
鲍薇
董建
+2 位作者
徐洋
申影利
戚肖克
《中国科学数据(中英文网络版)》
CSCD
2022年第2期46-54,共9页
本研究从少数民族语言信息处理的实际需要出发,针对藏汉跨语言文本剽窃检测缺少语料问题,基于SemEval 2014年英语评测语料,使用数据增强方法,建立了包含15万句对的藏汉跨语言文本剽窃检测语料库。本数据集为藏汉跨语言文本剽窃检测研究...
本研究从少数民族语言信息处理的实际需要出发,针对藏汉跨语言文本剽窃检测缺少语料问题,基于SemEval 2014年英语评测语料,使用数据增强方法,建立了包含15万句对的藏汉跨语言文本剽窃检测语料库。本数据集为藏汉跨语言文本剽窃检测研究提供数据基础,也可用于藏汉语义计算等其他自然语言处理任务中。此外,数据集建立过程中的数据增强方法,为其他低资源语言自然语言处理任务语料缺少问题提供了解决思路。
展开更多
关键词
文本剽窃检测
藏汉跨语言
跨语言语料库
低资源
下载PDF
职称材料
题名
藏汉跨语言文本剽窃检测数据集
1
作者
鲍薇
董建
徐洋
申影利
戚肖克
机构
中国电子技术标准化研究院
北京航空航天大学
中央民族大学
中国政法大学
出处
《中国科学数据(中英文网络版)》
CSCD
2022年第2期46-54,共9页
基金
国家语委重点项目(ZDI135-118)
文摘
本研究从少数民族语言信息处理的实际需要出发,针对藏汉跨语言文本剽窃检测缺少语料问题,基于SemEval 2014年英语评测语料,使用数据增强方法,建立了包含15万句对的藏汉跨语言文本剽窃检测语料库。本数据集为藏汉跨语言文本剽窃检测研究提供数据基础,也可用于藏汉语义计算等其他自然语言处理任务中。此外,数据集建立过程中的数据增强方法,为其他低资源语言自然语言处理任务语料缺少问题提供了解决思路。
关键词
文本剽窃检测
藏汉跨语言
跨语言语料库
低资源
Keywords
text plagiarism detection
Tibetan-Chinese cross-language
cross-language corpus
low resource
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
H214 [语言文字—少数民族语言]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
藏汉跨语言文本剽窃检测数据集
鲍薇
董建
徐洋
申影利
戚肖克
《中国科学数据(中英文网络版)》
CSCD
2022
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部