基于序列到序列预训练语言模型的楹联自动生成算法被引量：1

Automatic Chinese Couplets Generation via Sequence-to-Sequence Pre-trained Neural Language Model

下载PDF

导出

摘要为了降低楹联文化的学习门槛,激发年轻人对楹联文化的兴趣,提出了一种基于序列到序列预训练神经网络语言模型的楹联自动生成算法。该算法将楹联应对任务建模为一个序列到序列的生成问题,将楹联的上联作为输入,并自递归地(auto-regressively)生成出符合楹联标准要求的下联。与现有神经网络方法不同,该算法模型在楹联生成任务上的训练前,在大规模无监督语料上进行预训练(pre-train),在楹联监督数据上进行微调(fine-tune)。在公开数据集上的实验证明,该算法在测试集上的BLEU值与人工评估指标相对基线模型均有明显提升,证明了该算法的有效性。 In order to reduce the obstacles of writing Chinese couplets, and stimulate young people’s interest in couplet culture, this paper proposes an automatic couplet generation algorithm based on sequence-to-sequence pre-trained neural network language model. The algorithm models the task as a sequence-to-sequence generation problem, takes the first line of the couplet as input, and auto-regressively generates the second line that meets the requirements of the Chinese couplet standard. The pre-training model used by the algorithm is composed of Transformers. During training, it is pre-trained on large-scale unsupervised corpus, and fine-tuned on the supervised data of Chinese couplets. Experiments on the public dataset show that the BLEU score and human evaluation score on test dataset are improved obviously from the baseline model, which demonstrate the effectiveness of the algorithm.

作者乔露 QIAO Lu(College of Arts,Modern College of Northwest University,Xi’an 710130,China)

机构地区西北大学现代学院

出处《微型电脑应用》 2022年第12期42-44,共3页 Microcomputer Applications

基金陕西省教育厅2020年一般专项科研项目(20JK0392)。

关键词楹联生成预训练语言模型文本生成自然语言处理 Chinese couplets generation pre-trained language model text generation natural language processing

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1张开旭,孙茂松.统计与规则相结合的古文对联应对模型[J].中文信息学报,2009,23(1):100-105. 被引量：4
2卫万成,黄文明,王晶,邓珍荣.基于多任务学习的古诗和对联自动生成[J].中文信息学报,2019,33(11):115-124. 被引量：5

二级参考文献9

1易勇,何中市,李良炎,周剑勇,瞿义玻,张红兵.基于语言模型的联语应对研究[J].计算机科学,2006,33(4):162-163. 被引量：2
2Ming Zhou, Heung-yeung Shum. Generating Chinese language couplets[P]. US 2007/0005345 A1,2007.
3Long Jian, Ming Zhou. Generating Chinese Couplets u sing a Statistical MT Approach [C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008), 2008: 377-384.
4J Lafferty,A McCallum,F Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proc. 18th International Conf. on Machine Learning, 2001.
5A McCallum,D Freitag,F Pereira. Maximum entropy Markov models for information extraction and segmentation[C]//Proc. 17th International Conf. on Machine Learning, 2000.
6JA Bilmes. A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models[R]. International Computer Science Institute TR-97-021,1998.
7张开旭,孙茂松.统计与规则相结合的古文对联应对模型[J].中文信息学报,2009,23(1):100-105. 被引量：4
8周昌乐,游维,丁晓君.一种宋词自动生成的遗传算法及其机器实现[J].软件学报,2010,21(3):427-437. 被引量：33
9蒋锐滢,崔磊,何晶,周明,潘志庚.基于主题模型和统计机器翻译方法的中文格律诗自动生成[J].计算机学报,2015,38(12):2426-2436. 被引量：15

共引文献7

1赵阳,顾磊.基于中文信息处理的古籍整理研究评述[J].图书情报工作,2010,54(3):116-119. 被引量：8
2卫万成,黄文明,王晶,邓珍荣.基于多任务学习的古诗和对联自动生成[J].中文信息学报,2019,33(11):115-124. 被引量：5
3李惠,陈涛,侯君明,刘丁,朱庆华,刘炜.钩玄提要——古籍目录智能分析工具构建[J].中国图书馆学报,2021,47(4):97-112. 被引量：10
4王倩影,邓亚男.基于深度模型的商品描述文案生成[J].信息技术与信息化,2021(11):28-31.
5吕敬,褚丽莉,龚瑞雪.基于改进的深度学习古诗自动生成系统研究[J].现代信息科技,2021,5(19):97-100. 被引量：1
6吕敬,褚丽莉,龚瑞雪.基于改进LSTM模型的古诗自动生成系统研究[J].信息与电脑,2022,34(1):50-54. 被引量：1
7刘江峰,刘雏菲,齐月,刘浏,李斌,刘畅,王东波.AIGC助力数字人文研究的实践探索:SikuGPT驱动的古诗词生成研究[J].情报理论与实践,2023,46(5):23-31. 被引量：8

同被引文献4

1吴宗友,白昆龙,杨林蕊,王仪琦,田英杰.电子病历文本挖掘研究综述[J].计算机研究与发展,2021,58(3):513-527. 被引量：36
2王江鹏.基于深度学习的自然语言处理技术发展分析[J].中国安防,2022(12):40-43. 被引量：4
3梁静,文奕.知识图谱在医学辅助诊断中的应用研究[J].医学信息学杂志,2022,43(11):34-40. 被引量：3
4黄贺瑄,王晓燕,顾正位,刘静,臧亚男,孙歆.医学知识图谱构建技术及发展现状研究[J].计算机工程与应用,2023,59(13):33-48. 被引量：4

引证文献1

1朱彦华.基于自然语言处理和知识图谱的医疗文本挖掘与知识提取[J].信息与电脑,2023,35(14):1-3. 被引量：1

二级引证文献1

1刘俊辰.照片档案的标准化与信息化管理研究[J].大众标准化,2024(8):169-171.

1周克祥.在教育教学中注入楹联文化“活水”[J].人民教育,2022(15):125-125.
2邹萌.地理课堂动态问题生成学习情境的创设[J].前卫,2020(19):0121-0123.
3王进,简丽娜,孙涛,李磊,邱昌龙,王柳.基于Coarse-to-fine注意力机制的指针式仪表读数识别[J].工业控制计算机,2022,35(12):1-3.
4曹炜.满足用户需求的运动类APP界面设计[J].丝网印刷,2022(19):70-73. 被引量：1
5杨植凯,王腾,卜乐平,欧阳继能,刘超.基于生成对抗网络的火焰图像生成研究[J].海军工程大学学报,2022,34(5):7-12.
6黄立星,咸儆醒.基于序列生成的多标签文本分类算法研究[J].现代计算机,2022,28(20):42-46. 被引量：1
7孔明.闽王宗祠装饰艺术文化探析——以福州城门镇石步村闽王宗祠为例[J].黑河学院学报,2022,13(9):166-169.
8Zhaohong Li,Dongwei Li,Ye Li Xiaoping Guo,Ruolin Yang.Deciphering the regulatory code of histone modifications in plants[J].Journal of Genetics and Genomics,2022,49(11):1064-1067.
9刘晨阳,刘勇,惠丽.基于分子图压缩的分子生成模型[J].黑龙江大学工程学报,2022,13(4):77-83.
10王芸,顾培华,汪杰华,龚金兰,陈利,牟妍舒,张肖肖,关畅,王璐.个体化定制材料的临床可应用性实验分析[J].中国辐射卫生,2022,31(5):601-605.

微型电脑应用

2022年第12期

浏览历史

内容加载中请稍等...

基于序列到序列预训练语言模型的楹联自动生成算法被引量：1

参考文献2

二级参考文献9

共引文献7

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于序列到序列预训练语言模型的楹联自动生成算法 被引量：1

参考文献2

二级参考文献9

共引文献7

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于序列到序列预训练语言模型的楹联自动生成算法被引量：1