期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
大语言模型的中文文本简化能力研究
1
作者 杨尔弘 朱君辉 +2 位作者 朱浩楠 宗绪泉 杨麟儿 《语言战略研究》 CSSCI 北大核心 2024年第5期34-47,共14页
大语言模型为自动文本简化提供了新思路。为了探究大语言模型的中文文本简化能力,本研究构建了中文篇章级文本简化数据集,对其中的平行文本对进行了特征分析;在此基础上,设计大语言模型自动文本简化实验,采用零样本、少样本、少样本+词... 大语言模型为自动文本简化提供了新思路。为了探究大语言模型的中文文本简化能力,本研究构建了中文篇章级文本简化数据集,对其中的平行文本对进行了特征分析;在此基础上,设计大语言模型自动文本简化实验,采用零样本、少样本、少样本+词表和少样本+规则这4种提示策略,综合已有的和本研究特有的语言特征评估指标,测评了6种国内外常用大语言模型在不同提示策略下的中文文本简化能力。研究发现,少样本提示策略在文本特征上表现最佳,显著提高了信息保存度;在提示中加入外部词表,有助于大语言模型使用相对简单的词语;在提示中融入简化规则,能使大语言模型使用更简洁的句法结构。不同的大语言模型在难度控制和语义保留程度上各有优势与局限,但在语篇衔接与连贯和段落划分上与人类专家存在明显差距,且均出现了不同程度的幻觉现象。未来仍需构建较大规模的高质量中文简化数据集,多角度诱导语言大模型的文本简化能力。 展开更多
关键词 中文文本简化 大语言模型 语言特征分析
下载PDF
基于序列到序列模型的无监督文本简化方法 被引量:1
2
作者 李天宇 李云 钱镇宇 《计算机应用研究》 CSCD 北大核心 2021年第1期93-96,100,共5页
训练基于序列到序列(seq2seq)的文本简化模型需要大规模平行语料库,但是规模较大且标注质量较好的语料却难以获得。为此,提出一种无监督文本简化方法,使模型的学习仅需要无标注的复杂句和简单句语料。首先,利用去噪自编码器(denoising a... 训练基于序列到序列(seq2seq)的文本简化模型需要大规模平行语料库,但是规模较大且标注质量较好的语料却难以获得。为此,提出一种无监督文本简化方法,使模型的学习仅需要无标注的复杂句和简单句语料。首先,利用去噪自编码器(denoising autoencoder)分别从简单句语料和复杂句语料中学习,获取简单句的自编码器和复杂句的自编码器;然后,组合两个自编码器形成初始的文本简化模型和文本复杂化模型;最后,利用回译策略(back-translation)将无监督文本简化问题转换为监督问题,不断迭代优化文本简化模型。通过在标准数据集上的实验验证,该方法在通用指标BLEU和SARI上均优于现有无监督模型,同时在词汇级别和句法级别均有简化效果。 展开更多
关键词 文本简化 无监督 序列到序列模型 去噪自编码器
下载PDF
基于提示微调的汉语词汇简化研究
3
作者 肖子豪 程苗苗 +3 位作者 巩捷甫 韩旭 王士进 宋巍 《中文信息学报》 CSCD 北大核心 2024年第8期34-43,共10页
词汇简化是在不改变原句结构和语义的情况下,用更简单的词替换句子中的难词,提高文本面向特定群体读者的可读性。该文提出基于提示微调的汉语词汇简化方法PTCLS(Prompt-tuning Based Chinese Lexical Simplification)。PTCLS采用基于BAR... 词汇简化是在不改变原句结构和语义的情况下,用更简单的词替换句子中的难词,提高文本面向特定群体读者的可读性。该文提出基于提示微调的汉语词汇简化方法PTCLS(Prompt-tuning Based Chinese Lexical Simplification)。PTCLS采用基于BART的底层架构,能够自然地生成不同字数的替代词,模型训练只需微调少量参数。在公开的汉语词汇简化数据集上的实验表明,该文提出的方法可以大幅超越目前最好的基线系统BERT-LS。深入分析揭示,微调方法只利用少量标注数据即可取得比全参数微调、手工提示和无监督方法更好的表现,尤其针对汉语同义词词典外的难词取得了更显著的性能提升。 展开更多
关键词 词汇简化 提示学习 提示微调 文本简化 小样本学习
下载PDF
基于时间递归序列模型的短文本语义简化
4
作者 蔺伟斌 杨世瀚 《物联网技术》 2019年第5期57-62,共6页
针对传统循环神经网络训练算法无法处理梯度消失和梯度爆炸等问题,基于循环神经网络建立LSTM模型和seq2seq模型,提出时间递归序列模型TRSM,处理序列中间隔和延迟相对较长的输入,使用BPTT反向传播算法对中文微博语料库进行训练。建立三... 针对传统循环神经网络训练算法无法处理梯度消失和梯度爆炸等问题,基于循环神经网络建立LSTM模型和seq2seq模型,提出时间递归序列模型TRSM,处理序列中间隔和延迟相对较长的输入,使用BPTT反向传播算法对中文微博语料库进行训练。建立三组不同的实验作为对比,实验结果表明,TRSM模型处理后的微博文本更加简洁精炼,更适合文本语义的提取,大大减少了计算量,文字缩减率达到60%以上,语义保持率达到1.8,简化了用户要处理的大量信息,处理后的结果能够更好地用于几个关键中文语义的处理任务。 展开更多
关键词 文本信息 文本简化 LSTM模型 TRSM模型 BPTT反向传播算法 循环神经网络
下载PDF
浅议如何有效实现真实文本的真实性
5
作者 杨茜希 《湖北函授大学学报》 2010年第6期121-122,共2页
真实文本广泛应用于交际法语言教学课堂,本文从与真实文本相对应的简化文本,教材的版面设计,相关教具在课堂环境下的使用,真实语境再现几个方面,进一步讨论真实文本真实性的实现问题。
关键词 真实文本 简化文本 版面设计 教具 真实语境
下载PDF
基于文本的英语阅读教学设计
6
作者 张桃 楼艳 《文理导航》 2017年第28期30-30,共1页
本文分析了当前阅读设计中存在的一些问题。通过结合教学案例,从文本解读、构建文本结构和简化文本信息转换等方面探讨了优化英语阅读教学设计的有效途径。
关键词 阅读教学 解读文本 构建结构 简化文本
下载PDF
自动词语简化方法综述 被引量:2
7
作者 强继朋 李云 吴信东 《中文信息学报》 CSCD 北大核心 2021年第12期1-16,共16页
自动词语简化是用简单、同等意义的词语替代句子中复杂词的过程,是文本简化中的一个重要研究方向。随着自然语言处理技术的快速发展,词语简化方法也在不断更新与变化。该文对词语简化方法的相关研究进行了梳理,先对词语简化的整体框架... 自动词语简化是用简单、同等意义的词语替代句子中复杂词的过程,是文本简化中的一个重要研究方向。随着自然语言处理技术的快速发展,词语简化方法也在不断更新与变化。该文对词语简化方法的相关研究进行了梳理,先对词语简化的整体框架进行解释,然后将词语简化方法总结为语言数据库、自动规则、词嵌入模型、混合模型和预处理语言模型。接着对汉语词语简化研究所面临的难点进行论述。最后,对词语简化方法的发展方向进行了展望和总结。 展开更多
关键词 词语简化 复杂词识别 文本简化 预处理语言模型(BERT)
下载PDF
文学翻译中平行语料库“第二级翻译”规则设计
8
作者 蒋帅 付景川 《黑龙江社会科学》 CSSCI 2014年第3期130-133,共4页
随着知识全球化和创新整合发展趋势的到来,语言研究方式正面临着研究转型,一种新的基于真实文本语料库的研究方式,逐渐代替以往单纯依靠直觉和内省判断的研究方式。语料库语言学的研究方法能除去内省法过于主观性的诟病,这种建立在... 随着知识全球化和创新整合发展趋势的到来,语言研究方式正面临着研究转型,一种新的基于真实文本语料库的研究方式,逐渐代替以往单纯依靠直觉和内省判断的研究方式。语料库语言学的研究方法能除去内省法过于主观性的诟病,这种建立在客观语言事实基础上的语言研究,有助于推动语言研究的科学化。学者们发现,语料库不仅是语言学本体研究的资源,同时也是应用语言学研究的宝贵财富。在对外语言教学、文学作品翻译等方面,语料库都突显出较强的资源优势。为进一步推介语料库的应用研究成果,本刊特开设“当代语言研究的科学化路径”一组专题,以飨读者。 展开更多
关键词 语言学 语料库 语料库语言学 文本简化
下载PDF
面向来华留学生的汉语旅游文本词汇简化研究 被引量:4
9
作者 徐悦 张易扬 王治敏 《天津师范大学学报(社会科学版)》 北大核心 2021年第6期38-43,共6页
提高汉语旅游文本可读性是提升来华留学生旅游文本阅读能力的重要前提。经过来华留学生的汉语旅游文本词汇简化研究,结果发现,汉语旅游文本中非大纲词汇占据多数比例,且所用大纲词汇多为高级词汇,导致文本可读性偏低;调查发现,简化后文... 提高汉语旅游文本可读性是提升来华留学生旅游文本阅读能力的重要前提。经过来华留学生的汉语旅游文本词汇简化研究,结果发现,汉语旅游文本中非大纲词汇占据多数比例,且所用大纲词汇多为高级词汇,导致文本可读性偏低;调查发现,简化后文本的可读性有了明显的提高,有助于来华留学生阅读相关汉语旅游文本。 展开更多
关键词 文本简化 文本可读性 来华留学生 汉语旅游文本
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部