题名 大语言模型的中文文本简化能力研究
1
作者
杨尔弘
朱君辉
朱浩楠
宗绪泉
杨麟儿
机构
北京语言大学国家语言资源监测与研究平面媒体中心/信息科学学院
出处
《语言战略研究》
CSSCI
北大核心
2024年第5期34-47,共14页
基金
国家语委重大科研项目“大语言模型的评测技术和方法研究”(ZDA145-17)。
文摘
大语言模型为自动文本简化提供了新思路。为了探究大语言模型的中文文本简化能力,本研究构建了中文篇章级文本简化数据集,对其中的平行文本对进行了特征分析;在此基础上,设计大语言模型自动文本简化实验,采用零样本、少样本、少样本+词表和少样本+规则这4种提示策略,综合已有的和本研究特有的语言特征评估指标,测评了6种国内外常用大语言模型在不同提示策略下的中文文本简化能力。研究发现,少样本提示策略在文本特征上表现最佳,显著提高了信息保存度;在提示中加入外部词表,有助于大语言模型使用相对简单的词语;在提示中融入简化规则,能使大语言模型使用更简洁的句法结构。不同的大语言模型在难度控制和语义保留程度上各有优势与局限,但在语篇衔接与连贯和段落划分上与人类专家存在明显差距,且均出现了不同程度的幻觉现象。未来仍需构建较大规模的高质量中文简化数据集,多角度诱导语言大模型的文本简化能力。
关键词
中文文本 简化
大语言模型
语言特征分析
Keywords
automatic text simplifi cation
large language models(LLMs)
linguistic profi ling
分类号
H002
[语言文字—语言学]
题名 基于序列到序列模型的无监督文本简化方法
被引量:1
2
作者
李天宇
李云
钱镇宇
机构
扬州大学信息工程学院
出处
《计算机应用研究》
CSCD
北大核心
2021年第1期93-96,100,共5页
基金
国家自然科学基金资助项目(61703362)
江苏省研究生科研与实践创新计划项目(SJCX19_0888)。
文摘
训练基于序列到序列(seq2seq)的文本简化模型需要大规模平行语料库,但是规模较大且标注质量较好的语料却难以获得。为此,提出一种无监督文本简化方法,使模型的学习仅需要无标注的复杂句和简单句语料。首先,利用去噪自编码器(denoising autoencoder)分别从简单句语料和复杂句语料中学习,获取简单句的自编码器和复杂句的自编码器;然后,组合两个自编码器形成初始的文本简化模型和文本复杂化模型;最后,利用回译策略(back-translation)将无监督文本简化问题转换为监督问题,不断迭代优化文本简化模型。通过在标准数据集上的实验验证,该方法在通用指标BLEU和SARI上均优于现有无监督模型,同时在词汇级别和句法级别均有简化效果。
关键词
文本 简化
无监督
序列到序列模型
去噪自编码器
Keywords
text simplification
unsupervised
sequence-to-sequence(seq2seq)model
denoising autoencoder
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于提示微调的汉语词汇简化研究
3
作者
肖子豪
程苗苗
巩捷甫
韩旭
王士进
宋巍
机构
首都师范大学信息工程学院和交叉学科研究院
科大讯飞股份有限公司AI研究院
认知智能国家重点实验室
出处
《中文信息学报》
CSCD
北大核心
2024年第8期34-43,共10页
基金
国家自然科学基金(62376166,62306188)
国家重点研究与发展计划(2022YFC3303504)
北京市教育委员会科技计划项目(KM202010028004)。
文摘
词汇简化是在不改变原句结构和语义的情况下,用更简单的词替换句子中的难词,提高文本面向特定群体读者的可读性。该文提出基于提示微调的汉语词汇简化方法PTCLS(Prompt-tuning Based Chinese Lexical Simplification)。PTCLS采用基于BART的底层架构,能够自然地生成不同字数的替代词,模型训练只需微调少量参数。在公开的汉语词汇简化数据集上的实验表明,该文提出的方法可以大幅超越目前最好的基线系统BERT-LS。深入分析揭示,微调方法只利用少量标注数据即可取得比全参数微调、手工提示和无监督方法更好的表现,尤其针对汉语同义词词典外的难词取得了更显著的性能提升。
关键词
词汇简化
提示学习
提示微调
文本 简化
小样本学习
Keywords
lexical simplification
prompt learning
prompt tuning
text simplification
few-shot learning
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于时间递归序列模型的短文本语义简化
4
作者
蔺伟斌
杨世瀚
机构
广西民族大学软件与信息安全学院
昆明理工大学管理与经济学院
出处
《物联网技术》
2019年第5期57-62,共6页
基金
广西"八桂学者"专项资助
广西民族大学研究生教育创新计划项(gxun-chxzs2017116)
文摘
针对传统循环神经网络训练算法无法处理梯度消失和梯度爆炸等问题,基于循环神经网络建立LSTM模型和seq2seq模型,提出时间递归序列模型TRSM,处理序列中间隔和延迟相对较长的输入,使用BPTT反向传播算法对中文微博语料库进行训练。建立三组不同的实验作为对比,实验结果表明,TRSM模型处理后的微博文本更加简洁精炼,更适合文本语义的提取,大大减少了计算量,文字缩减率达到60%以上,语义保持率达到1.8,简化了用户要处理的大量信息,处理后的结果能够更好地用于几个关键中文语义的处理任务。
关键词
短文本 信息
文本 简化
LSTM模型
TRSM模型
BPTT反向传播算法
循环神经网络
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 浅议如何有效实现真实文本的真实性
5
作者
杨茜希
机构
江西农业大学外国语学院
出处
《湖北函授大学学报》
2010年第6期121-122,共2页
文摘
真实文本广泛应用于交际法语言教学课堂,本文从与真实文本相对应的简化文本,教材的版面设计,相关教具在课堂环境下的使用,真实语境再现几个方面,进一步讨论真实文本真实性的实现问题。
关键词
真实文本
简化文本
版面设计
教具
真实语境
分类号
G642.0
[文化科学—高等教育学]
题名 基于文本的英语阅读教学设计
6
作者
张桃
楼艳
机构
浙江师范大学
出处
《文理导航》
2017年第28期30-30,共1页
文摘
本文分析了当前阅读设计中存在的一些问题。通过结合教学案例,从文本解读、构建文本结构和简化文本信息转换等方面探讨了优化英语阅读教学设计的有效途径。
关键词
阅读教学
解读文本
构建结构
简化文本
分类号
G633.33
[文化科学—教育学]
题名 自动词语简化方法综述
被引量:2
7
作者
强继朋
李云
吴信东
机构
扬州大学计算机科学与技术系
大数据知识工程教育部重点实验室(合肥工业大学)
合肥工业大学大知识科学研究院
出处
《中文信息学报》
CSCD
北大核心
2021年第12期1-16,共16页
基金
国家自然科学基金(62076217,61703362)
江苏省自然科学基金(BK20170513)
江苏省高校自然科学基金(18KJB120011)
文摘
自动词语简化是用简单、同等意义的词语替代句子中复杂词的过程,是文本简化中的一个重要研究方向。随着自然语言处理技术的快速发展,词语简化方法也在不断更新与变化。该文对词语简化方法的相关研究进行了梳理,先对词语简化的整体框架进行解释,然后将词语简化方法总结为语言数据库、自动规则、词嵌入模型、混合模型和预处理语言模型。接着对汉语词语简化研究所面临的难点进行论述。最后,对词语简化方法的发展方向进行了展望和总结。
关键词
词语简化
复杂词识别
文本 简化
预处理语言模型(BERT)
Keywords
lexical simplification
complex word identification
text simplification
BERT
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 文学翻译中平行语料库“第二级翻译”规则设计
8
作者
蒋帅
付景川
机构
吉林大学文学院
出处
《黑龙江社会科学》
CSSCI
2014年第3期130-133,共4页
文摘
随着知识全球化和创新整合发展趋势的到来,语言研究方式正面临着研究转型,一种新的基于真实文本语料库的研究方式,逐渐代替以往单纯依靠直觉和内省判断的研究方式。语料库语言学的研究方法能除去内省法过于主观性的诟病,这种建立在客观语言事实基础上的语言研究,有助于推动语言研究的科学化。学者们发现,语料库不仅是语言学本体研究的资源,同时也是应用语言学研究的宝贵财富。在对外语言教学、文学作品翻译等方面,语料库都突显出较强的资源优势。为进一步推介语料库的应用研究成果,本刊特开设“当代语言研究的科学化路径”一组专题,以飨读者。
关键词
语言学
语料库
语料库语言学
文本 简化
分类号
H0
[语言文字—语言学]
题名 面向来华留学生的汉语旅游文本词汇简化研究
被引量:4
9
作者
徐悦
张易扬
王治敏
机构
北京语言大学汉语国际教育研究院
出处
《天津师范大学学报(社会科学版)》
北大核心
2021年第6期38-43,共6页
基金
国家社科基金重大项目(18ZDA295)
国家语委科研项目(ZDI135-139)
+1 种基金
中央高校基本科研业务费(19PT03,JC201902)
北京语言大学研究生创新基金(中央高校基本科研业务费专项资金)项目(20Y CX106)。
文摘
提高汉语旅游文本可读性是提升来华留学生旅游文本阅读能力的重要前提。经过来华留学生的汉语旅游文本词汇简化研究,结果发现,汉语旅游文本中非大纲词汇占据多数比例,且所用大纲词汇多为高级词汇,导致文本可读性偏低;调查发现,简化后文本的可读性有了明显的提高,有助于来华留学生阅读相关汉语旅游文本。
关键词
文本 简化
文本 可读性
来华留学生
汉语旅游文本
Keywords
text simplification
text readability
international students
Chinese tourism text
分类号
F592
[经济管理—旅游管理]
H195.3
[语言文字—汉语]