-
题名基于词频调整掩膜的互联网应用大语言模型研究
- 1
-
-
作者
李溪
闫文
-
机构
南京理工大学
航天恒星科技有限公司
-
出处
《中国宽带》
2023年第2期166-168,共3页
-
文摘
在互联网应用中,需要处理大量的文本信息,现在广泛使用基于人工智能的机器阅读理解模型,当前最前沿的应用领域是大语言模型,其预处理用的是BERT模型,BERT采用随机单词Masked掩膜,SpanBERT采用随机跨度按词Masked掩膜,本文提出了一种按照词频词性评价权重的方式进行掩膜的方法,与之前的词袋模型仅考虑词频不同,加入了对词性的考虑,在MSRA数据集和爬取的数据集上取得了较好的效果。本文提出了词频词性对整句的影响权重不同的理念,将这些因素考虑进Masked算法中,不同权重,被掩概率不同,同时使用多层双向注意力机制推敲细节预测出正确结果。改进的模型和其他模型进行多组实验,结果表明改进的模型的性能更好,相较经典模型EM值提高了0.4%。
-
关键词
互联网应用
NLP
机器阅读理解
mark掩膜
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-