随着自然语言处理(NLP,natural language processing)技术的快速发展,语言模型在文本分类和情感分析中的应用不断增加。然而,语言模型容易遭到盗版再分发,对模型所有者的知识产权造成严重威胁。因此,研究者着手设计保护机制来识别语言...随着自然语言处理(NLP,natural language processing)技术的快速发展,语言模型在文本分类和情感分析中的应用不断增加。然而,语言模型容易遭到盗版再分发,对模型所有者的知识产权造成严重威胁。因此,研究者着手设计保护机制来识别语言模型的版权信息。现有的适用于文本分类任务的语言模型水印无法与所有者身份相关联,且鲁棒性不足以及无法再生成触发集。为了解决这些问题,提出一种新的适用于文本分类任务模型的黑盒水印方案,可以远程快速验证模型所有权。将模型所有者的版权消息和密钥通过密钥相关的哈希运算消息认证码(HMAC,hash-based message authentication code)得到版权消息摘要,由HMAC得到的消息摘要可以防止被伪造,具有很强的安全性。从原始训练集各个类别中随机挑选一定的文本数据,将摘要与文本数据结合构建触发集,并在训练过程中对语言模型嵌入水印。为了评估水印的性能,在IMDB电影评论、CNEWS中文新闻文本分类数据集上对3种常见的语言模型嵌入水印。实验结果表明,在不影响原始模型测试精度的情况下,所提出的水印验证方案的准确率可以达到100%。即使在模型微调和剪枝等常见攻击下,也能表现出较强的鲁棒性,并且具有抗伪造攻击的能力。同时,水印的嵌入不会影响模型的收敛时间,具有较高的嵌入效率。展开更多
自然语言文本水印算法通过对文本句子的语法结构或语义结构进行转换来嵌入水印信息。对句子的语法和TMR(Text Meaning Representation)语义结构进行分析,利用句子语法结构的转换不会改变句子TMR语义结构这一性质将语法水印技术和语义水...自然语言文本水印算法通过对文本句子的语法结构或语义结构进行转换来嵌入水印信息。对句子的语法和TMR(Text Meaning Representation)语义结构进行分析,利用句子语法结构的转换不会改变句子TMR语义结构这一性质将语法水印技术和语义水印技术有效结合起来,提出了一种提高自然语言文本水印嵌入容量的算法。该算法的优点是将控制信息和水印信息分离,并根据每个句子本身的特性动态嵌入相应数量的水印信息。实验表明该算法和原有的语法或语义水印算法相比,水印嵌入容量有一定程度的提高。展开更多
文摘自然语言文本水印算法通过对文本句子的语法结构或语义结构进行转换来嵌入水印信息。对句子的语法和TMR(Text Meaning Representation)语义结构进行分析,利用句子语法结构的转换不会改变句子TMR语义结构这一性质将语法水印技术和语义水印技术有效结合起来,提出了一种提高自然语言文本水印嵌入容量的算法。该算法的优点是将控制信息和水印信息分离,并根据每个句子本身的特性动态嵌入相应数量的水印信息。实验表明该算法和原有的语法或语义水印算法相比,水印嵌入容量有一定程度的提高。