[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary, 00V ),同时避免摘要重复,提高文本摘要的质量,本文以解决00V问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究。[方法/过程]在序列到序列(sequence t...[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary, 00V ),同时避免摘要重复,提高文本摘要的质量,本文以解决00V问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究。[方法/过程]在序列到序列(sequence to sequence, seq2seq)模型的基础上增加指向生成机制和覆盖处理机制,通过指向生成将未登录词拷贝到摘要中以解决未登录词问题,通过覆盖处理避免注意力机制(attentionmechanism)反复关注同一位置,以解决重复问题。将本文方法应用到LCSTS中文摘要数据集上进行实验,检验模型效果。[结果/结论]实验结果显示,该模型生成摘要的ROUGE ( recall -oriented understudy for gisting evaluation)分数高于传统的seq2seq模型以及抽取式文本摘要模型,表明指向生成和覆盖机制能够有效解决未登录词问题和摘要重复问题,从而显著提升文本摘要质量。展开更多
生成技术旨在解决海量中文文本所带来的信息过载和冗余问题,以提高信息传播效率和方便读者获取信息。在序列到序列深度模型基础上,提出了一种引入对比学习的中文摘要生成模型SimCLCTS (Simple Model for Contrastive Learning of Chines...生成技术旨在解决海量中文文本所带来的信息过载和冗余问题,以提高信息传播效率和方便读者获取信息。在序列到序列深度模型基础上,提出了一种引入对比学习的中文摘要生成模型SimCLCTS (Simple Model for Contrastive Learning of Chinese Text Summarization)。SimCLCTS通过在模型中增加以对比损失函数为特征的无监督评估模块,弥补了序列到序列模型中学习目标和评价指标不一致导致的暴露偏差问题。对比实验表明,该模型减少了暴露偏差量,在面向新闻类的中文文本摘要生成中取得了良好效果。展开更多
文摘[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary, 00V ),同时避免摘要重复,提高文本摘要的质量,本文以解决00V问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究。[方法/过程]在序列到序列(sequence to sequence, seq2seq)模型的基础上增加指向生成机制和覆盖处理机制,通过指向生成将未登录词拷贝到摘要中以解决未登录词问题,通过覆盖处理避免注意力机制(attentionmechanism)反复关注同一位置,以解决重复问题。将本文方法应用到LCSTS中文摘要数据集上进行实验,检验模型效果。[结果/结论]实验结果显示,该模型生成摘要的ROUGE ( recall -oriented understudy for gisting evaluation)分数高于传统的seq2seq模型以及抽取式文本摘要模型,表明指向生成和覆盖机制能够有效解决未登录词问题和摘要重复问题,从而显著提升文本摘要质量。
文摘生成技术旨在解决海量中文文本所带来的信息过载和冗余问题,以提高信息传播效率和方便读者获取信息。在序列到序列深度模型基础上,提出了一种引入对比学习的中文摘要生成模型SimCLCTS (Simple Model for Contrastive Learning of Chinese Text Summarization)。SimCLCTS通过在模型中增加以对比损失函数为特征的无监督评估模块,弥补了序列到序列模型中学习目标和评价指标不一致导致的暴露偏差问题。对比实验表明,该模型减少了暴露偏差量,在面向新闻类的中文文本摘要生成中取得了良好效果。
文摘针对现有基于深度神经网络的代码缺陷检测方法无法分析缺陷特征并输出相关评审建议的问题,提出一种基于大感知域LSTM-Seq2Seq模型的代码缺陷检测方法。首先,使用长短期记忆网络(LSTM,long short-term memory)学习缺陷代码的编码特征,建立缺陷判别模型。其次,针对模型与数据集不匹配的问题,向序列到序列模型(Seq2Seq,sequence to sequence)引入代码段长度系数,提升模型对代码评审任务的适用度;通过建立代码缺陷特征与评审建议特征间的映射关系建立了代码分析模型,实现评审输出功能。最后,利用公开数据集SARD对该方法进行了验证,该方法在准确率、召回率、F1值方面的测试结果分别为92.50%、87.20%、87.60%,典型代码缺陷输出的评审文本与专家评审的文本相似度为85.99%,可有效减少评审过程对专家经验的依赖。