期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
藏汉跨语言文本剽窃检测数据集
1
作者 鲍薇 董建 +2 位作者 徐洋 申影利 戚肖克 《中国科学数据(中英文网络版)》 CSCD 2022年第2期46-54,共9页
本研究从少数民族语言信息处理的实际需要出发,针对藏汉跨语言文本剽窃检测缺少语料问题,基于SemEval 2014年英语评测语料,使用数据增强方法,建立了包含15万句对的藏汉跨语言文本剽窃检测语料库。本数据集为藏汉跨语言文本剽窃检测研究... 本研究从少数民族语言信息处理的实际需要出发,针对藏汉跨语言文本剽窃检测缺少语料问题,基于SemEval 2014年英语评测语料,使用数据增强方法,建立了包含15万句对的藏汉跨语言文本剽窃检测语料库。本数据集为藏汉跨语言文本剽窃检测研究提供数据基础,也可用于藏汉语义计算等其他自然语言处理任务中。此外,数据集建立过程中的数据增强方法,为其他低资源语言自然语言处理任务语料缺少问题提供了解决思路。 展开更多
关键词 文本剽窃检测 藏汉跨语言 跨语言语料库 低资源
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部