期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于ALBERT-UniLM模型的文本自动摘要技术研究 被引量:4
1
作者 孙宝山 谭浩 《计算机工程与应用》 CSCD 北大核心 2022年第15期184-190,共7页
任务中的生成式摘要模型对原文理解不充分且容易生成重复文本等问题,提出将词向量模型ALBERT与统一预训练模型UniLM相结合的算法,构造出一种ALBERT-UniLM摘要生成模型。该模型采用预训练动态词向量ALBERT替代传统的BERT基准模型进行特... 任务中的生成式摘要模型对原文理解不充分且容易生成重复文本等问题,提出将词向量模型ALBERT与统一预训练模型UniLM相结合的算法,构造出一种ALBERT-UniLM摘要生成模型。该模型采用预训练动态词向量ALBERT替代传统的BERT基准模型进行特征提取获得词向量。利用融合指针网络的UniLM语言模型对下游生成任务微调,结合覆盖机制来降低重复词的生成并获取摘要文本。实验以ROUGE评测值作为评价指标,在2018年CCF国际自然语言处理与中文计算会议(NLPC-C2018)单文档中文新闻摘要评价数据集上进行验证。与BERT基准模型相比,ALBERT-UniLM模型的Rouge-1、Rouge-2和Rouge-L指标分别提升了1.57%、1.37%和1.60%。实验结果表明,提出的ALBERT-UniLM模型在文本摘要任务上效果明显优于其他基准模型,能够有效提高文本摘要的生成质量。 展开更多
关键词 自然语言处理 预训练语言模型 ALBERT模型 unilm模型 生成式摘要
下载PDF
基于NEZHA-UniLM模型的农业领域问题生成技术研究 被引量:2
2
作者 黎芬 费凡 彭琳 《湖北农业科学》 2022年第16期186-192,共7页
为解决农业领域问答数据集缺乏以及目前大多采用端到端模型用于问题生成任务等不足,通过系列数据爬取、清洗、过滤和标注等工作,构建农业领域问题生成数据集,同时研究了基于NEZHA-UniLM预训练模型的农业领域问题生成。与其他基准模型相... 为解决农业领域问答数据集缺乏以及目前大多采用端到端模型用于问题生成任务等不足,通过系列数据爬取、清洗、过滤和标注等工作,构建农业领域问题生成数据集,同时研究了基于NEZHA-UniLM预训练模型的农业领域问题生成。与其他基准模型相比,NEZHA-UniLM模型的BLEU-4和Rouge-L达到0.3830和0.5839。相较于未加对抗训练的预训练模型,其BLEU-4和Rouge-L分别提升了0.0689和0.1138。与基准模型NQG进行对比,BLEU-4和Rouge-L分别提升了0.1953和0.1517。结果表明,该模型不仅有效缓解生成问题与答案匹配度低、生成问题漏词或者多词和曝光误差等问题,还能有效提高生成问题的质量。 展开更多
关键词 自然语言处理 NEZHA-unilm预训练模型 对抗训练 问题生成
下载PDF
基于UniLM模型的古文到现代文机器翻译词汇共享研究
3
作者 许乾坤 王东波 +2 位作者 刘禹彤 吴梦成 黄水清 《情报资料工作》 北大核心 2024年第1期89-100,共12页
[目的/意义]从古文到现代文的机器翻译过程中,由于古文与现代文之间在词汇构成、句法以及词类活用等方面的显著差异,并且缺少公开的古文分词数据,使得机器翻译系统对古文的理解和处理能力存在偏差,一定程度上影响了翻译的质量。[方法/过... [目的/意义]从古文到现代文的机器翻译过程中,由于古文与现代文之间在词汇构成、句法以及词类活用等方面的显著差异,并且缺少公开的古文分词数据,使得机器翻译系统对古文的理解和处理能力存在偏差,一定程度上影响了翻译的质量。[方法/过程]文章提出无监督词库构建的方法,在UniLM模型的基础上,分别与BERT、RoBERTa、RoFormer和RoFormerV2预训练模型相结合并对模型进行微调,借助UniLM模型融合古文领域知识特征将源语言和目标语言之间的语言关系生成中间的语言表示,利用预训练模型学习上下文相关的语言表示,增加语义之间的关联性,从而提升古现机器翻译的性能。[结果/结论]实验结果表明,融合古文领域知识特征的古文机器翻译在BERT、RoBERTa、RoFormer和RoFormerV2预训练模型上的BLEU值分别提高了0.27到1.12,证明了提出方法的有效性。 展开更多
关键词 unilm模型 古文分词 词汇共享 古文翻译 机器翻译
原文传递
基于UniLM模型的学术文摘观点自动生成研究
4
作者 曾江峰 刘园园 +1 位作者 程征 段尧清 《图书情报工作》 北大核心 2023年第2期131-139,共9页
[目的/意义]将海量学术文本观点提取工作由人工转向机器,提高效率的同时又能够保证观点提取的准确性、客观性。[方法/过程]使用UniLM统一语言预训练模型,训练过程中对模型进行精调,以人工标注数据集进行机器学习。将学术文摘作为长度为... [目的/意义]将海量学术文本观点提取工作由人工转向机器,提高效率的同时又能够保证观点提取的准确性、客观性。[方法/过程]使用UniLM统一语言预训练模型,训练过程中对模型进行精调,以人工标注数据集进行机器学习。将学术文摘作为长度为a的文本序列,经过机器学习,生成长度为b的句子序列(a≥b),并且作为学术论文观点句输出。[结果/结论]研究结果表明:UniLM模型对于规范型文摘、半规范型文摘、非规范型文摘观点生成精准度分别为94.36%、77.27%、57.43%,规范型文摘生成效果最好。将机器学习模型应用于长文本观点生成,为学术论文观点生成提供一种新方法。不足之处在于本文模型依赖文摘的结构性,对非规范型文摘观点生成效果有所欠缺。 展开更多
关键词 学术文摘 观点自动生成 unilm模型 机器学习
原文传递
面向课堂教学内容的知识点标题生成
5
作者 肖思羽 赵晖 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第5期770-779,共10页
互联网时代信息量庞大,简洁的标题可以提高信息阅读效率。在课堂场景下,知识点标题生成便于用户整理和记忆课堂内容,提高课堂学习效率。该文将标题生成应用于课堂教学领域,制作了课堂知识点文本—标题数据集;提出了一种改进的TextRank... 互联网时代信息量庞大,简洁的标题可以提高信息阅读效率。在课堂场景下,知识点标题生成便于用户整理和记忆课堂内容,提高课堂学习效率。该文将标题生成应用于课堂教学领域,制作了课堂知识点文本—标题数据集;提出了一种改进的TextRank算法——考虑关键字和句子位置的文本排序(textranking considering keywords and sentence positions, TKSP)算法,该算法综合考虑了关键词和句子位置等因素对句子权重的影响,能够更准确地提取文本重点信息。使用以召回率为导向的摘要评价(recall-oriented understudy for gisting evaluation, ROUGE)方法,TKSP算法在ROUGE-1、 ROUGE-2和ROUGE-L指标上的得分率分别为51.20%、 33.42%和50.48%,将TKSP抽取式算法与统一语言模型(unified language model, UniLM)结合,并融合文本主题信息,提出统一语言模型结合考虑关键字和句子位置的文本排序算法的模型(unified language modeling combined textranking considering keywords and sentence positions, UniLM-TK), UniLM-TK在各指标上的得分率分别为73.29%、 58.12%和72.87%,与UniLM模型相比,UniLM-TK在各指标上分别提高了0.74%、 2.26%和0.87%,证明UniLM-TK模型生成的标题更准确、更有效。 展开更多
关键词 课堂教学 标题生成 主题信息 TextRank unilm
原文传递
中文科技论文标题自动生成系统的设计与实现 被引量:1
6
作者 王宇飞 张智雄 +2 位作者 赵旸 张梦婷 李雪思 《数据分析与知识发现》 CSCD 北大核心 2023年第2期61-71,共11页
【目的】设计中文科技论文标题自动生成系统,根据科技论文摘要自动生成论文标题,辅助研究人员进行科技论文标题的写作。【方法】重点解决系统构建过程中涉及的三个关键问题:基于中国科学引文数据库构建大规模训练数据集,为系统提供数据... 【目的】设计中文科技论文标题自动生成系统,根据科技论文摘要自动生成论文标题,辅助研究人员进行科技论文标题的写作。【方法】重点解决系统构建过程中涉及的三个关键问题:基于中国科学引文数据库构建大规模训练数据集,为系统提供数据支撑;基于BERT-UniLM构建标题生成模型,以取得较好的生成效果;基于HTTP设计应用程序接口,以实现系统的开放调用。【结果】初步实现了中文科技论文标题自动生成系统,能够生成较为恰当地反映论文内容的标题。【局限】BERT模型具有最大输入长度限制,对于输入超过长度限制的摘要会自动截断,因此较长摘要的标题生成效果可能会受到影响。【结论】重点从数据、模型、开放调用三个方面设计和实现了中文科技论文标题自动生成系统,为科研人员及文献服务机构提供便捷易用工具,并为其他科技文本进行标题自动生成提供了一种实践路径。 展开更多
关键词 标题自动生成系统 中文科技论文摘要 文本生成任务 BERT-unilm
原文传递
基于科技论文中未来工作句集的学术创新构想话题自动生成方法研究 被引量:6
7
作者 宋若璇 钱力 杜宇 《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第5期10-20,共11页
【目的】以科技论文中未来工作句集为入手点,研究学术创新构想话题自动生成方法,加速创新问题求解。【方法】首先采用规则匹配与BERT相结合的方法从论文全文中抽取未来工作句集;然后通过相关领域论文集进行关联知识扩展计算,发现与未来... 【目的】以科技论文中未来工作句集为入手点,研究学术创新构想话题自动生成方法,加速创新问题求解。【方法】首先采用规则匹配与BERT相结合的方法从论文全文中抽取未来工作句集;然后通过相关领域论文集进行关联知识扩展计算,发现与未来研究方向相关的关键词、论文等,共同形成创新提要;再利用基于UniLM的文本生成模型自动生成创新构想话题。【结果】经实证验证和专家评估,生成结果的整体创新性平均分为6.04分,整体兴趣度平均分为6.01分,呈正向评价。【局限】基于UniLM的创新构想话题生成模型未嵌入先验语义知识以及没有使用大规模数据实验,生成创新构想话题通顺性及创新性还存在不足。【结论】所提方法探索了学术创新构想话题自动生成的目标,为拓宽科技创新路径提供了新思路。 展开更多
关键词 创新构想话题 未来工作 人工智能 文本生成 BERT unilm
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部