在文旅领域智能问答中,用户问句文本表征稀疏、口语化表达、一词多义及特定领域词汇的识别困难使得常见的匹配模型难以将用户问句与标准问句进行精准匹配。针对此问题,本文构建了文旅客服问句匹配数据集和相应的领域词典,在此基础上提...在文旅领域智能问答中,用户问句文本表征稀疏、口语化表达、一词多义及特定领域词汇的识别困难使得常见的匹配模型难以将用户问句与标准问句进行精准匹配。针对此问题,本文构建了文旅客服问句匹配数据集和相应的领域词典,在此基础上提出一种融合领域词典的文旅问句匹配模型SBIDD(Improved SBERT Model for Integrating Domain Dictionaries)。模型利用Sentence-BERT对问句进行向量化表示,在孪生网络模型中融入领域词典,增强问句的领域词权重,使得模型对领域词汇的识别能力大幅提升。在自建数据集和公开数据集ATEC 2018 NLP上分别进行实验。结果表明,构建的模型与5种经典文本匹配模型DSSM、BiMPM、ESIM、IMAF、TSFR-RM及基线模型SBERT相比效果更优,F1值达到95.65%,比基线模型提升了2.75%,且模型在检索任务上表现出更高的适配性和鲁棒性。展开更多
文摘在文旅领域智能问答中,用户问句文本表征稀疏、口语化表达、一词多义及特定领域词汇的识别困难使得常见的匹配模型难以将用户问句与标准问句进行精准匹配。针对此问题,本文构建了文旅客服问句匹配数据集和相应的领域词典,在此基础上提出一种融合领域词典的文旅问句匹配模型SBIDD(Improved SBERT Model for Integrating Domain Dictionaries)。模型利用Sentence-BERT对问句进行向量化表示,在孪生网络模型中融入领域词典,增强问句的领域词权重,使得模型对领域词汇的识别能力大幅提升。在自建数据集和公开数据集ATEC 2018 NLP上分别进行实验。结果表明,构建的模型与5种经典文本匹配模型DSSM、BiMPM、ESIM、IMAF、TSFR-RM及基线模型SBERT相比效果更优,F1值达到95.65%,比基线模型提升了2.75%,且模型在检索任务上表现出更高的适配性和鲁棒性。