-
题名动态查询窗口引导的回复关系发现方法
被引量:1
- 1
-
-
作者
张竞文
崔诗尧
张兴华
苏涛宇
柳厅文
-
机构
中国科学院信息工程研究所
中国科学院大学网络空间安全学院
-
出处
《集成技术》
2024年第5期53-63,共11页
-
基金
国家重点研发计划项目(2021YFB3100600)。
-
文摘
在多方会话中,判断消息之间的回复关系是对话领域的一项重要任务。现有的相关工作还未关注、解决以下两个数据分布方面的问题:长度较短的消息往往出现的频率更高,而短文本包含的语义信息较少,限制了模型的学习能力;存在回复关系的正样本数量往往远少于负样本数量,导致模型在训练过程中容易出现数据偏斜问题,降低了模型处理正样本的性能。针对上述两个问题,作者提出一个基于预训练语言模型的改进模型,首先通过动态查询窗口建模缓解短文本相关问题;然后通过位置驱动的正样本权重优化缓解正样本相关问题。与前人研究工作进行比对,实验结果表明,与基于预训练语言模型的基线模型相比,改进模型将召回率平均提升了15.7%。此外,还构建了一个采集自Telegram平台的新数据集,可为后续相关研究提供数据支持。
-
关键词
多方对话
回复关系发现
查询窗口
数据分布
预训练语言模型
-
Keywords
multi-party conversation
reply-to relation identification
inquiry window
data distribution
pretrained language model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-