-
题名专有名词增强的复述生成方法研究
- 1
-
-
作者
张雪
陈钰枫
徐金安
田凤占
-
机构
北京交通大学计算机与信息技术学院
北京天润融通科技股份有限公司
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第3期98-105,共8页
-
基金
国家自然科学基金面上项目(61976016,61976015,61876198)
国家重点研发计划(2020AAA0108001)。
-
文摘
现有的中文复述生成模型在对包含专有名词的原句生成复述句时经常丢失原句中的专有名词,造成复述句的语义偏移,降低复述句的可用性,进而影响其在下游任务中的应用效果。为了解决这类问题,提出专有名词增强的复述生成方法。针对包含单个专有名词的原句构建基于占位符的复述生成模型,通过将训练句对中的专有名词用占位符替换,训练模型对占位符的保留能力;针对包含多个专有名词的原句构建词汇约束的复述生成模型,通过将专有名词列表与原句拼接并进行区分,训练模型对多个专有名词的识别和复制能力,提高复述句对专有名词的保留率。此外,综合考虑语义一致性和表达多样性,提出参考句无关的复述句质量评价指标用来评估生成复述句的质量。以真实对话系统业务中的意图识别冷启动任务为下游任务,对比不同模型生成复述句的质量以及在意图识别任务上的准确率。实验结果表明,词汇约束的复述生成模型能够生成与原句语义一致且表达具有多样性的高质量复述语料,对应语料训练得到的意图识别模型准确率最高,相较于未考虑专有名词的复述模型,意图识别模型的准确率提高了5.38%。
-
关键词
复述生成
语义偏移
占位符
词汇约束
意图识别
-
Keywords
paraphrase generation
semantic deviation
placeholder
lexical-constraint
intention recognition
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-