近年来,以ChatGPT为代表的能够适应复杂场景、并能满足人类的各种应用需求为目标的文本生成算法模型成为学术界与产业界共同关注的焦点.然而,ChatGPT等大规模语言模型(Large Language Model,LLM)高度忠实于用户意图的优势隐含了部分的...近年来,以ChatGPT为代表的能够适应复杂场景、并能满足人类的各种应用需求为目标的文本生成算法模型成为学术界与产业界共同关注的焦点.然而,ChatGPT等大规模语言模型(Large Language Model,LLM)高度忠实于用户意图的优势隐含了部分的事实性错误,而且也需要依靠提示内容来控制细致的生成质量和领域适应性,因此,研究以内在质量约束为核心的文本生成方法仍具有重要意义.本文在近年来关键的内容生成模型和技术对比研究的基础上,定义了基于内在质量约束的文本生成的基本形式,以及基于“信、达、雅”的6种质量特征;针对这6种质量特征,分析并总结了生成器模型的设计和相关算法;同时,围绕不同的内在质量特征总结了多种自动评价和人工评价指标与方法.最后,本文对文本内在质量约束技术的未来研究方向进行了展望.展开更多
目的针对中医个性化处方推荐问题,研究自动化处方推荐任务,为中医临床辅助决策提供参考。方法基于大语言预训练文本生成模型设计一种中医个性化处方推荐算法。将中医处方推荐任务转化为端到端(seq2seq)的文本生成任务,即将临床症状描述...目的针对中医个性化处方推荐问题,研究自动化处方推荐任务,为中医临床辅助决策提供参考。方法基于大语言预训练文本生成模型设计一种中医个性化处方推荐算法。将中医处方推荐任务转化为端到端(seq2seq)的文本生成任务,即将临床症状描述文本通过模型转化为处方文本,以实现处方推荐任务的需求,并利用基于大语言预训练的BART(Bidirectional and Auto-Regressive Transformers)模型的预训练参数来提升模型对通用语义信息的理解,通过对训练集处方内中药排序提升模型的处方推荐性能。结果实验证明通过大语言预训练模型以及端到端的文本生成架构可有效提升模型的生成性能,同时对处方内中药依次排序可以获取更高准确率,并且通过中药的排列获取更多值得参考的有价值信息。中医个性化处方推荐模型在处方排序后分别在前5、10、15味生成的处方分别取得了58.60、53.79和49.67的准确率。结论中医个性化处方推荐模型取得了更优的处方推荐效果,表明其可为中医临床治疗疾病进行参考,达到辅助临床决策支持的效果。展开更多
近年来,大型语言模型(large language model,LLM)技术兴起,类似ChatGPT这样的AI机器人,虽然其内部设置了大量的安全对抗机制,攻击者依然可以精心设计问答,绕过这些AI机器人的安全机制,在其帮助下自动化生产钓鱼邮件,进行网络攻击.这种...近年来,大型语言模型(large language model,LLM)技术兴起,类似ChatGPT这样的AI机器人,虽然其内部设置了大量的安全对抗机制,攻击者依然可以精心设计问答,绕过这些AI机器人的安全机制,在其帮助下自动化生产钓鱼邮件,进行网络攻击.这种情形下,如何鉴别AI生成的文本也成为一个热门的问题.为了开展LLM生成内容检测实验,从互联网某社交平台和ChatGPT收集了一定数量的问答数据样本,依据AI文本可获得条件的不同,研究提出了一系列检测策略,包含基于在线可获取AI对照样本的文本相似度分析、基于离线条件下使用统计差异性的文本数据挖掘分析、基于无法获得AI样本条件下的LLM生成方式对抗分析以及基于通过微调目标LLM模型本身构建分类器的AI模型分析,计算并比较了每种情况下分析引擎的检测能力.另一方面,从网络攻防的角度,针对检测策略的特点,给出了一些对抗AI文本检测引擎的免杀技巧.展开更多
文摘近年来,以ChatGPT为代表的能够适应复杂场景、并能满足人类的各种应用需求为目标的文本生成算法模型成为学术界与产业界共同关注的焦点.然而,ChatGPT等大规模语言模型(Large Language Model,LLM)高度忠实于用户意图的优势隐含了部分的事实性错误,而且也需要依靠提示内容来控制细致的生成质量和领域适应性,因此,研究以内在质量约束为核心的文本生成方法仍具有重要意义.本文在近年来关键的内容生成模型和技术对比研究的基础上,定义了基于内在质量约束的文本生成的基本形式,以及基于“信、达、雅”的6种质量特征;针对这6种质量特征,分析并总结了生成器模型的设计和相关算法;同时,围绕不同的内在质量特征总结了多种自动评价和人工评价指标与方法.最后,本文对文本内在质量约束技术的未来研究方向进行了展望.
文摘目的针对中医个性化处方推荐问题,研究自动化处方推荐任务,为中医临床辅助决策提供参考。方法基于大语言预训练文本生成模型设计一种中医个性化处方推荐算法。将中医处方推荐任务转化为端到端(seq2seq)的文本生成任务,即将临床症状描述文本通过模型转化为处方文本,以实现处方推荐任务的需求,并利用基于大语言预训练的BART(Bidirectional and Auto-Regressive Transformers)模型的预训练参数来提升模型对通用语义信息的理解,通过对训练集处方内中药排序提升模型的处方推荐性能。结果实验证明通过大语言预训练模型以及端到端的文本生成架构可有效提升模型的生成性能,同时对处方内中药依次排序可以获取更高准确率,并且通过中药的排列获取更多值得参考的有价值信息。中医个性化处方推荐模型在处方排序后分别在前5、10、15味生成的处方分别取得了58.60、53.79和49.67的准确率。结论中医个性化处方推荐模型取得了更优的处方推荐效果,表明其可为中医临床治疗疾病进行参考,达到辅助临床决策支持的效果。
文摘近年来,大型语言模型(large language model,LLM)技术兴起,类似ChatGPT这样的AI机器人,虽然其内部设置了大量的安全对抗机制,攻击者依然可以精心设计问答,绕过这些AI机器人的安全机制,在其帮助下自动化生产钓鱼邮件,进行网络攻击.这种情形下,如何鉴别AI生成的文本也成为一个热门的问题.为了开展LLM生成内容检测实验,从互联网某社交平台和ChatGPT收集了一定数量的问答数据样本,依据AI文本可获得条件的不同,研究提出了一系列检测策略,包含基于在线可获取AI对照样本的文本相似度分析、基于离线条件下使用统计差异性的文本数据挖掘分析、基于无法获得AI样本条件下的LLM生成方式对抗分析以及基于通过微调目标LLM模型本身构建分类器的AI模型分析,计算并比较了每种情况下分析引擎的检测能力.另一方面,从网络攻防的角度,针对检测策略的特点,给出了一些对抗AI文本检测引擎的免杀技巧.